TCGA 相关
只有raw sequence BAM和FASTQ在CGHub, 其他所有的都在TCGA DCC.
DCC有两个入口,controlled里面是所有有序列的data, 包括genotyping,
variant,和一些pcr sequencing。如果是mutation (tumor - normal), CNA
这些,全部都是open access.
CNA主要是AFFY SNP6的,也有一些其他的平台,包括low coverage WGS,
这些都是open access。问题是TCGA号称 no platform left behind, 所以方法
虽然多,但是并不是所有的disease都有所有的data type.
TCGA的data我一般在三个地方找,DCC是一处,或者用TCGA Assembler
拉,另外常见的open data可以去firebrowse.org下载。firebrowse的好处是
QC有问题的data都扔掉了,然后都combine成matrix form。你要自己找DCC
的data,必须去TCGA annotation database去找哪些data 必须QC扔掉(
这个非常重要!!!我和许多做过TCGA data analysis的人聊过,大多数
不知道这个annotation是啥)。
ICGC是另外一回事。他们主要看sequencing data,而且只用一部分他们
认为好分析的或者质量好的BAM来分析,你要看非TCGA的data很有用,
但是对TCGA来说,非常的不全。
DCC有两个入口,controlled里面是所有有序列的data, 包括genotyping,
variant,和一些pcr sequencing。如果是mutation (tumor - normal), CNA
这些,全部都是open access.
CNA主要是AFFY SNP6的,也有一些其他的平台,包括low coverage WGS,
这些都是open access。问题是TCGA号称 no platform left behind, 所以方法
虽然多,但是并不是所有的disease都有所有的data type.
TCGA的data我一般在三个地方找,DCC是一处,或者用TCGA Assembler
拉,另外常见的open data可以去firebrowse.org下载。firebrowse的好处是
QC有问题的data都扔掉了,然后都combine成matrix form。你要自己找DCC
的data,必须去TCGA annotation database去找哪些data 必须QC扔掉(
这个非常重要!!!我和许多做过TCGA data analysis的人聊过,大多数
不知道这个annotation是啥)。
ICGC是另外一回事。他们主要看sequencing data,而且只用一部分他们
认为好分析的或者质量好的BAM来分析,你要看非TCGA的data很有用,
但是对TCGA来说,非常的不全。
|
Comments
Post a Comment