浅谈生物信息的职业发展规划

这里生物信息泛指生物信息学+计算生物学,本文仅是职业技能上的浅谈,希望能够抛砖引玉~~

我觉得职业发展应该是广、深必备。
广:熟练各种编程语言,能够处理各种数据,同时学习相关生物知识;
深:在某一生物研究方向深入,熟悉从实验到数据及结论的各项环节。

广而不深的后果是没有确定的研究方向,总是给别人作工具;
深而不广的后果是在当今数据爆炸的时代发展机会少。

难点有以下几点,难度依次增加:
1. 各种类型编程语言的熟练使用:并不是指掌握所有语言,而是根据数据对象选择那
么几种有代表性的语言。理论上C/C++可做任何事情,但会用R/Matlab/Perl等会在一些
场合更高效一些。
2. 学习各种生物知识:一方面是书本知识,其主要功夫是在业余时间的利用上;另一
方面是实践知识,来自于生物实验室,交流为主。
3. 同时还得学习相关数学知识:这绝对是个难点,会编程不等于懂数学。
4. 某一个方面深入。这里说的方向必须是生物研究的方向,而不是生物信息的方向。

我觉得以上几点都达到的话,从读博士起大概需要5-10年时间。
生物信息全才=生物+统计+建模+数据库+软件。
(建模指动力学上的,不是指统计建模)


you need be able to first test your models in small scale,
access database, and mine on internet or manipulate text, 
and finally if everything looks good, turn your small model 
into industrial level program.

so you need at least one in each of the 4 following section:

1. large scale programming, building industrial level models:
C++ or Java, etc

2. quick testing of small models:
Matlab or Mathematica, or R, etc

3. database accessing:
SQL etc

4. Text mining/manipulation language:
Perl or Python, etc


浅谈几点我个人的经验。

1. 编程,文本处理
这个是入门的基础,我认为这个最倒是好办。
在有人带的情况下,如果自己对电脑比较感兴趣,那么linux+Perl有2~3个月就入门了。
之后再学其他语言要看课题需求、编程习惯和对学科的理解。比如JAVA,C++等。
这样做各种比对、文本处理应该没问题。
再熟悉了各大生物学主流数据库,那么就可以先摸爬滚打了。
只是进阶比较难。一方面靠积累,另一方面看悟性了。

2. 统计学、数学方面,
我还是主张先学统计,再结合这学语言。
我当年是先学了5年的统计,之后再学的R,这样之后做起来的时候完全是在解决统计学
语言的技术问题,而不需要再去想统计学本身的问题。
这样半年下来,R学了个皮毛,凑合发点文章够用了。
但还是那句话,进阶太难,太漫长。

3. 数据库,网页
这个相对来说还是性价比比较高的。学起来快,出东西也快,不太费脑子,运气等其他
不可预知因素小。
缺点就是做生物的不能只靠这个吃饭,这不是做生物信息的核心竞争力。(当然如果你
们实验室有能力能搞出并维持那些大型综合性数据库,算我没说)
这方面可以搞点东西凑合毕业,但也别做得过多。不然就成了码工,失去自己的核心竞
争力了。

4. Omics
包括基因组学、转录组学等等分支。
需要做各类芯片分析,序列分析,功能注释,按各种条件分类等等。
另外要时刻关注当今一些新技术,让课题的瓶颈在技术方面,而不是在你的分析和速度
方面。

5. 生物学着力点
对于做bioinformatics的,我认为最难最难的,就是从几个G的data里面,整理出来个各方面面都说得过去的、又容易验证的story来。
完全考验人的思维和科研背景,靠积累。

以上几点,在有人带的情况下,2~3年就能入门,再来1~2年凑合着做点东西运气不差
应该够毕业了。
头脑灵活又运气好的,可能4年之内就能弄出点东西出来。
进阶比较难,看个人了。

这个行业虽然杂,但也不是那么难入门,不需要耗那么长时间。
我个人建议先从某些简单的分析入手,之后再学别的。
少林72绝技,你只要会那么一两手大家都欢迎的主流技术,够你闯江湖的就够了。
关键是需要一个比较成型的实验室,或者有熟手带你。如果自己摸索就会很迷茫。
至于经验、视野、科研思维这类真正重要,却靠积累的事情,毕业之后慢慢来吧。




这个也没瞧不起码工吧,我本人也做过几个月的纯码工,对码工这个职位颇有感触。

现在没人在否认开发工具的重要性,大家讨论的是进一步的发展问题。
论薪水和论发展,有几点还是比较受认同的:
1. 做技术的(包括码工)比不过做管理的。
2. 下层职位比不过上层职位。
尽管就论“编程语言的熟练使用”这一点来说,做管理的可能远不如做技术的。

我本人master学统计学,Ph.D改bioinformatics,再后来做computional bio。在这个
块前后摸爬滚打了10年左右,突然发现自己虽然在技术方面也算是略有积累了,但在文
章这方面做得再努力,也就是个NAR、bioinformatics、Genome bio这类期刊上下。

这个时候技术做得再多,也就是个量的问题,职业发展方面很难有质的突破。
对于一个30多岁以搞科研为本职的人来说,还有什么比思绪枯竭,没有生长点,发展潜
力达到瓶颈更为可怕呢?
现在转到一个纯生物学的实验室,文章方面虽然还不好说,但至少思维开阔了不少。

我承认有人能靠几项独门的、计算方面的技术吃饭,但大多数人做不到那样。
因为行业里的人越来越多,你会的大家都会。
而且高通量技术在不断发展,技术更新太快。
5年前,也就是04~05年那个时候。做bioinformatics的会分析几种microarray data那
就算是高手了,而现在如果还只是做这个,那找个technican都不一定够格。

现在发展的关键,我个人认为是怎么样把计算方面技术找生物学切入点,融合进去,最
终在这个点上占上一角。

当然我也不否认有一些大牛,完全靠计算也能做得很棒。
现在真正做bioinformatics做得好的人中,十个有九个是在考虑计算和生物学的共同点。
他们整天在思考如何把两个领域融合起来,而不是在争论它们的分歧。
在这行里也混了几年了,这点发展的大趋势还是能看出来的。



楼上有几位说得很好。

说到生物信息与生物,我觉得理想的生物信息职业规划是:
本科:数学/物理/计算机 -- 打好理论基础的准备阶段
博士:在生物信息组工作 --从理论到应用的过渡阶段
之后:在生物实验室做生物信息--具体应用的实践阶段

博士期间选择一个好的组很关键。
其一,最好有做各种生物信息分支的人。这样视野宽广,能了解到什么方法工具处理什
么数据,对自己的知识结构是个很大的完善。
其二,在某些方面有优势。
其三,与实验组合作密切。

博士之后,应该逐渐自己独立出去,做发展长久的计划。这时生物信息的基本功差不多
了,就算没亲手做过也大概知道怎么回事,所以要具体实践。选定一类生物方向(宏观
上的“一类”,而不是“一个”),找对口的牛生物实验室或研究所/大学的系,不断
接触到各种数据,应用已有方法,开发新方法,加强生物认识,就这样做下去。

如果两者之间顺序相反,我觉得不是太妙。从生物实验室起步,一是转换太突然,二是
技能上得到的训练不够,三是对生物信息的视野窄。

以上所说的是“理想”情况,但实际中“不理想”的更多。我列举一下部分我曾经的同
事,他们的背景、技能和发文章情况,以让刚入门的人有所了解。

A: 本科硕士是Math/CS,博士前期有牛人带,搞了一篇建模的Mole.Sys.Bio.(IF:12)加几篇后
续小文章,牛人走后搞得越来越抽象,只有一篇J.Theor.Bio。主要用Matlab,偶尔用R
和C++。
B:本科硕士是Biotech,老板是大牛,博士前期做实验,后期到博后做统计,每年都有
IF6左右的生物文章两三篇,发过Nature子刊和PNAS。主要用R,会一点VB,不会其他编
程。
C:本科硕士是Bioengineering,博士阶段和之后一直做统计,方法型第一作者文章少
,但有一大堆和实验组合作的第n作者的文章。主要用R和C。
D:本科硕士是CS,硕士论文做数据库,博士阶段做生物网络,目前有理论型小文章一
篇及数据库文章一篇。主要用C++和Java。
E:本科硕士是CS,博士阶段做统计和算法,有Mole.Sys.Bio.(IF:12)和方法型小文章
各一篇。主要用R。
F:本科是Bioinfo。博士之前作过软件工程师,博士阶段做ChIP data的统计,有NAR和
BMC Bioinformatics。主要用C/C++和R,会C#,Java,Perl,Python,SQL。
G:本科硕士是化工。博士期间做统计、计算,也做网络,还建数据库,有NAR和BMC 
Bioinfo若干篇。主要用Java。
H:本科硕士是CS。博士阶段主要做数据库和统计,有好几篇数据库文章和一些数据分
析文章,主要用C#和SQL。
I:本科是bio,硕士是bioinfo,博士做计算生物,博后做数据库和数据整合,博士时
有2篇5分左右的文章,博后两年半搞了十几篇文章。主要用C++。
J:本科到博士都学CS,博后做生物网络,发了一些抽象的图论文章。主要用C++和R。
K:本科硕士学bio,博士前期做实验,有6分的一作,之后建数据库和做统计,博士期
间11篇文章,大多是一作。
L:本科到博士都是bio,之后转bioinfo,目前做进化,每年也有两三篇4分左右的小文
章。
M:生物信息组的老板。本科硕士是biophysics,博士和博后做计算生物和统计,之后进公司作bioinfo的头,然后又回学术界。用C/C++/Java/SQL/Perl等。目前很成功,每年都有十几篇文章(以上的博士生并非都归该老板指导)。
N:一个实验组的老板。本科到博士做生物,博后做数据库和软件,发了一系列引用次数很高的工具,还在发实验文章,精通C。


由以上所见,发文章关键还是在于生物基础是否雄厚。生物出身的,加强自己的数学和编程修养,会很成功。数学/物理/CS出身的,补上生物知识的欠缺,也可以比较成功。


Comments

Popular posts from this blog

gspread error:gspread.exceptions.SpreadsheetNotFound

Miniconda installation problem: concurrent.futures.process.BrokenProcessPool: A process in the process pool was terminated abruptly while the future was running or pending.

P and q values in RNA Seq