TCGA 相关

只有raw sequence BAM和FASTQ在CGHub, 其他所有的都在TCGA DCC.
DCC有两个入口,controlled里面是所有有序列的data, 包括genotyping, 
variant,和一些pcr sequencing。如果是mutation (tumor - normal), CNA
这些,全部都是open access. 

CNA主要是AFFY SNP6的,也有一些其他的平台,包括low coverage WGS,
这些都是open access。问题是TCGA号称 no platform left behind, 所以方法
虽然多,但是并不是所有的disease都有所有的data type.

TCGA的data我一般在三个地方找,DCC是一处,或者用TCGA Assembler
拉,另外常见的open data可以去firebrowse.org下载。firebrowse的好处是
QC有问题的data都扔掉了,然后都combine成matrix form。你要自己找DCC
的data,必须去TCGA annotation database去找哪些data 必须QC扔掉(
这个非常重要!!!我和许多做过TCGA data analysis的人聊过,大多数
不知道这个annotation是啥)。

ICGC是另外一回事。他们主要看sequencing data,而且只用一部分他们
认为好分析的或者质量好的BAM来分析,你要看非TCGA的data很有用,
但是对TCGA来说,非常的不全。


借块地方贴广告。前两周贴了一个,加了个link估计被老刑干掉了。

Center for Data Intensive Science at the University of Chicago招
bioinformatician.
自己google,我就不贴link了。

有人问为啥我还在贴,因为组越来越大,一直在招人。我们就是属于楼主说的
专门拿special funding/contract的这种。前几年在做Genomics Data Commons
(GDC),  现在有许多新项目,多数是生物数据方面的,partner包括NIH下面数个
机构,NOAA, NASA等政府机构,Broad, UCSC,OICR等学术机构,7-bridges
等生物IT公司, 各种non-profit foundation, 各大药厂,Amazon, Google,
Microsoft, IBM, INTEL等Cloud Provider, etc, etc, etc。 GDC和这些新项目都要招
人。

1. 要求PhD, 有NGS经验,最好有大数据NGS pipeline development and production经
验。
2. 要求编程比较好,prefer Python.  我们发现很多来申请的bioinformatician的编程
水平大概也就是so so /ok。也许发论文bash script + R就能搞定了,许多研究性的
这样就足够了。不过我们主要做工程项目,对reproduction/automation要求很高,
所以编程的要求会稍微高一点。
3. 如果在做TCGA/PCAWG这种组,使用docker/cwl/wdl的,我们会特别感兴趣。
当然没做过的不要瞎吹,我们招的大多数没这些经验。

另外,有人想改行做project manager的,不想做技术的活的,我们也缺人。
反正大家通过link申请就行。欢迎在本版咨询相关问题。


不知道你raw data的定义,TCGA有无数high level的data,比如表达,突变,
genotype等等。TCGA的病人clinical data都deindentify了,所以用起来
没问题;但是genomic data,包括genotype等,凡是有病人基因序列的,都
属于protected, 比如用era commons账号登陆才行,这玩意儿很繁琐,不过
批准不难。

TCGA的数据主要分三部分,一个是data portal上的open access data,随便
下载;另一个是protected access data, 要账号;最后是原始的NGS data,
在ucsc的cghub上有一份,在uchicago的pdc上有一份。

另外,每次有人要玩TCGA data,我都要提醒一句有个annotation database, 
这个最好研究一下,比较难用,不过不去看得话,garbage in garbage out。
对于open access的data,有一个R package叫做TCGA Assembler非常好用。
它可以帮你自动找到需要的数据,并且做简单的处理,否则自己找累死。

类似TCGA的,还有一个TARGET,都是小孩的癌症。现在只有一个ALL的数据,
不过其他数据基本都好了,估计整理一下几个月内能出来。不过TARGET的WGS
基本是complete genomics data,也在cghub,估计大家下载了也没用

Comments

Popular posts from this blog

gspread error:gspread.exceptions.SpreadsheetNotFound

Miniconda installation problem: concurrent.futures.process.BrokenProcessPool: A process in the process pool was terminated abruptly while the future was running or pending.

转载:彻底搞清楚promoter, exon, intron, and UTR