Biobank genetic data探析(一)——Genotype results
1. 前言
我从零开始学习GWAS,对大多数文件以及其意义不是很明确,而UKBiobank数据量庞大,除开whole exome sequencing 数据外的genotype results以及imputation数据大小足足有12TB,一昧将所有的数据下载所花费的时间以及存储空间是我们希望避免的。
希望以Biobank genetic data探析系列系统记录下自己的学习结果和收获。
2. Genotype results
2.1 genotype call
文件大小共0.1TB。
Genotype calls内包含三类数据:.bed,.bim,.fam,这也是PLINK常见的文件输入格式。关于这些文件的描述在网上我们可以找到许多:初探PLINK文件格式(bed,bim,fam)以及PLINK官方文档:PLINK文档。
- bed:存储了每个样本的所有的variants的信息(是否显/隐性纯合、杂合、缺失)。
- bim:没有header,每一行依次包含如下信息:
- 染色体编号:整数或者‘X/Y/XY/MT’,‘0’代表未知。
- variant标志,比如rs****之类的。
- 以厘摩/摩根为单位的遗传距离。
- 碱基对坐标。
- 等位基因1(通常是次要)。
- 等位基因1(通常是主要)。
- fam:没有header,每一行依次包含如下信息:
- Family ID(FID)
- Within-family ID(IID,不能是0)
- 父亲Within-family ID(为0则父亲不在数据集中)
- 母亲Within-family ID(为0则母亲不在数据集中)
- 性别(1男2女0未知)
- Phenotype value:也就是我们在做关联分析所用到的特征,对其进行修改。
总而言之,genotype call包含了每个样本的所有variant(SNP)信息,是我们在GWAS分析中主要使用的数据,后续会探讨imputaion后的数据格式。
2.2 Genotype confidence & intensity
文件大小都是2.9TB,UKBB官方的数据描述:
The Confidence files contain the Affymetrix ‘confidence’ that a genotype belongs to the call cluster. This is a plaintext file with space separated columns. Values are in the range 0-1 with 0 being most confident. Missing values are represented by -1. The order of markers and Samples are given by the BIM and FAM files.
The Intensity files contains the A,B intensity data measured by Affymetrix. The files are in a simple custom binary format. There are two intensity values A,B for each genotype, each represented as a 4-byte float. The set of A,B values for each marker are ordered consecutively by sample (analagous to a matrix with rows=SNPs and columns=Samples) e.g. SNP_1_SAMPLE_1_A SNP_1_SAMPLE_1_B SNP_1_SAMPLE_2_A SNP_1_SAMPLE_2_B … SNP_1_SAMPLE_N_A SNP_1_SAMPLE_N_B SNP_2_SAMPLE_1_A SNP_2_SAMPLE_1_B … Missing pairs of intensities are represented by -1 -1.
这两个data field涉及检测SNPs芯片(即Affymetrix Axiom芯片)的原理,陈巍学基因:SNP芯片原理的视频深入浅出的讲了包括Affymetrix Axiom在内的芯片的SNP检测原理。
简单来说,Affymetrix Axiom芯片底部连接许多30base的捕获探针序列,它可以捕获到相匹配的目标DNA片段,然后加入显色探针在连接酶的作用下进行第二轮杂交,再对显色探针进行染色,而显色探针末端碱基若为(A/T)则末端显色基团染色后发红光,为(C/G)则为绿光。这样,经二轮杂交后处理过的芯片在荧光显微镜下拍摄即可获得信号矩阵,只有红光或只有绿光则为纯合(两种),红绿光强度一致则为杂合子。
那么我们回头观察这两个data field:Intensity即为荧光成像后的信号强度矩阵,用来call genotype,而confidence 则相当于这个信号被认为是真实的genotype call的置信度,0代表最确定,1代表最不确定。
confidence的计算原理可参考:Quantifying uncertainty in genotype calls Bioinformatics,再此不再赘述。
所以在做GWAS分析时,我们通常不需要下载这两类如此庞大的数据。
2.3 CNV B-allele frequencies & CNV log2ratios
文件大小分别为1.5TB和2.3TB。
CNV即copy number variation拷贝数变异,B-allele frequencies简称BAF,其中B-allele指的是非参考的等位基因,而它的基因频率改变意味着CNV。log2ratios即对改变的比例做了Log2。
这两类数据都是纯txt文件,没有Header,只用空格将数据隔开。
UKBB官方描述:
The CNV files contain the B-Allele-Frequency (baf) and Log2Ratio (log2r) transformed intensity values for performing CNV calling. There is a separate file for baf and log2r per chromosome. These are plaintext files with space separated columns. The rows correspond to markers (ordered as the calls BIM file) and the columns correspond to samples (ordered as the calls FAM file) Missing values are represented by -1.
暂时不知道对我们做常规的GWAS有什么意义,后续若有发现会及时补充。
后续
- Imputation
- Genotype QC information
- Whole exome sequcing data