请推荐data science 在线学习的program

谢谢你的经验推荐啊,flareon!
能不能介绍一下:
1, machine learning和数统知识你是不是已经有了很强的背景了?
2, data structure你是通过上什么课,或者做什么project来提高的?
3, 在kaggle上有什么project推荐一下多看看?



1. 我不强,但我智商够用也在努力。把你用在生物的1/10的精力放在cs上效果就很不同
我就只是自学了bishop的PRML,强迫自己学习抽象的数学;
你说的statistical learning更好,更亲民,PRML有时候就像在装B,不过实在高端
我觉得数学和CS不同在于CS skill某些可以短期获得,但数学统计需要长期理解,我因
为过去搞过生物信息,所以
对于很多ML的东西我能从生物角度具体化帮助我理解,比如bayesian,EM,比如:
http://www.nature.com/nbt/journal/v26/n8/full/nbt1406.html

这些东西放在code里都是现成的package,两行代码,顶多调参。但你要成为优秀DS,
或者励志吃这一碗饭,就必须学好。
ML过程中你会被迫补上multivariat calculus和linear algebra

数学,是一种素质

2. Data structure,推荐一个不错的python interactive:
http://interactivepython.org/runestone/static/pythonds/Introduction/GettingStartedwithData.html
你多做点project,就会遇到pandas,numpy,自然要和string, list, dictionary,
tuple, df, series, stack, queue 这些打交道;自然就会了。

当然我现在从找工作的角度看,去coursera混点certificate放到简历上有必要,如果
你没有cs degree
同时,course可以全面学习概念常识

最好的是Princeton algorithm但那个不给certificate,还是用java

3. kaggle最入门的就是titanic
推荐一个我喜欢的:
https://www.kaggle.com/sinakhorami/titanic/titanic-best-working-classifier
干净简洁
主流用python,作图用R;python作图我不敢恭维

SDE就是马工,码农,写代码

data scientist/DS,是SDE的一种




http://www.mitbbs.com/article_t/DataSciences/23369.html

Comments

Popular posts from this blog

gspread error:gspread.exceptions.SpreadsheetNotFound

Miniconda installation problem: concurrent.futures.process.BrokenProcessPool: A process in the process pool was terminated abruptly while the future was running or pending.

转载:彻底搞清楚promoter, exon, intron, and UTR