基因志父系树有哪些特色功能
基因志父系树与其他树的差异
基因志 | 其他 | |
---|---|---|
突变分析精度 | 平均每35年一个突变,更容易理清快速扩张簇和家谱范围内的家族关系。 | 平均每80~144年一个突变。 |
置信区间 | 提供具体的概率分布和置信区间。 | 部分父系树提供95%置信区间,其余则没有。 |
真实置信度 | 是,根据实际覆盖率计算得出。 | 固定按8.4M数据长度估龄,不随样本变化,而现在商业测序普遍可到14M以上。 |
估龄精度 | 最高可按平均50年一个突变进行估龄,具有更高的准确度和稳定性。 | 固定按平均144.44年一个突变进行估龄。 |
真实估龄 | 是 | 不考虑上下游分支间关系,可能出现多个突变估龄为零年、连续分支估龄为零年,以及单个突变估龄近千年的问题。这些结果与实际年份差异大,导致估龄不准确。 |
估龄准确度随样本数增加提升 | 是 | 当样本和分支数增加到一定程度后,因上下游间估龄矛盾,无法进一步提升准确度。 |
基因志父系树的特色功能
-
高精度的突变分析:平均每个分支比传统父系树产品多100%的突变。基于已有数据,我们可以为您找到更多私有突变。在簇状分化的分支中,识别出更多可合并的分支,理清分支间关系。您新发现的突变将获得以C开头的命名(chronicle 编年史)。
-
纯T2T树:采用最新的T2Tv2参考序列,结合独特的基因志高精度突变分析算法,能够处理传统分析算法难以处理的几千万碱基,真正实现突变数翻倍,带来革命性的产品。为此,我们将所有测序数据 (BAM/CRAM/FASTQ) 免费重比对到T2T参考序列上。
-
高精度的基因估龄:提供具体的不同估龄年份的概率分布图,估龄精度提高3~5倍。
-
真实估龄:在处理连续分支估龄时,不会出现上下游分支估龄矛盾、连续分支估龄一致的问题,避免分支间年龄差与突变数严重偏离的问题。解决了传统算法分支越多,估龄越容易偏小的系统性偏差。实现样本越多,估龄越准确。
-
提供不同历史版本的ISOGG编号与基因志父系树的匹配,帮助快速理解分支所在的上游支系,并找到旧ISOGG编号与当前分支之间的对应关系,方便从大量文献和网络信息中进行查找。
-
对于测序数据覆盖率不足的样本,能够展示除了当前树的位置外,还有可能与哪些分支合并,甚至属于某个兄弟分支下游的可能性。这即是您的树形可能位置。
-
注册后即可浏览所有公共科研样本的分析结果和原始数据。
-
快速标准化的分析流程。导入数据后2~5个工作日即可完成上树。
-
支持导入父系分析结果,包括txt、csv、vcf等格式。
-
提供突变查询、分支查询、ISOGG编号查询、浏览原始数据、浏览参考序列和个人信息发布等功能。
关于 基因志 DNAChron 网站名由来
以基因记录历史,探索每个人独一无二的故事。
高精度的突变分析
突变分析精度在祖源分析中的作用
突变不仅仅与测序有关。Y染色体因其独特的独立遗传模式,形成了大量低复杂度或高度重复等难以分析的区域。尤其是新的T2T参考序列中,额外增加的区域大多属于此类。通过探索新的分析算法,我们能够从中发现大量新突变。
1. 突变分析精度越高,树的细化程度越高
基因突变是一种典型的泊松过程。发生一次突变所需的年份的概率分布图如下:
横坐标表示年份,纵坐标表示概率。该分布图以平均每100年发生一次突变为基础
大多数突变发生在平均值附近,但也有可能过很久才发生一次。根据测序覆盖率和传统算法的突变分析精度,实际父系突变的平均间隔大约为4到6代。
因此,尽管父系树上可能存在一些一代人发生突变的分支,但大多数分支在几代人中没有任何差异,甚至在极端情况下,可能会出现十几代人没有变化的情况。这导致家族分支簇中,不同辈分的人被平铺在同一个父分支下游的现象。
举个例子:
假设有一个家族,包括4个兄弟和2个后辈进行测序:
实际亲缘关系
假设图中的父亲没有突变,那么在父系树上,结果如下:
父系树上显示的亲缘关系
在同一个父系下游,叔侄辈的人被平铺在一起。如果平均4~6代人才有一个突变,这种现象将更加明显。跨越很多代的成员有可能平行挂在同一个分支下。
树形精度问题对分支留存较多的支系影响显著。例如,对于近现代家族或古代快速扩张的大簇,这种影响尤为明显。
基因志的突变分析算法在利用全基因组数据时,能够实现平均35年发生一次突变,大约相当于1.5代人的时间,这大幅提高了树形的精度。
例如,传统算法中完全平铺的R-P312分支,在基因志树中呈现出清晰的层次结构:
2. 突变分析精度越高,私有突变越多
私有突变是指一个个体独有的基因标记,与他人不同。突变分析的精度越高,能够发现的私有突变就越多、越全面。
DNAChron的突变分析算法技术指标
DNAChron | 其他 | |
---|---|---|
可分析碱基数 | 3900万 | 不详,推测其他产品在800万~1500万之间 |
可分析突变类型 | SNP、INDEL、MNP/complex | 主要为SNP,部分产品可分析INDEL |
目前DNAChron T2T 父系树的突变数平均是其他父系树的2倍。
基因志突变分析算法的独特之处
基因志算法的核心理念是尽可能提升突变分析精度,并充分利用突变信息。
无预设区域,无预设突变类型
Y染色体的一个显著特性是它不会与其他染色体重组,这导致它在进化过程中某些区域积累了大量低复杂度的序列,比如重复序列、多拷贝区、以及回文区等。这些区域的高重复性给遗传分析带来了巨大挑战。为应对这一难题,传统研究通常会将Y染色体划分为不同区域,优先排除那些难以分析的部分,仅保留复杂度较高的区域进行深入研究。同时,在突变筛选时,他们通常只专注于单核苷酸多态性(SNP)突变。这种方式虽然简化了分析,但也牺牲了一部分精度。大多数传统算法能够可靠分析的区域大约覆盖了1500万碱基对,甚至有时只涉及800万到1000万碱基对。然而,Y染色体在T2T参考序列中共有约6000万碱基对,仅分析其中一部分,必然会导致信息损失。
基因志算法的设计宗旨是追求更高精度。我们不预设任何区域或突变类型,而是在Y染色体全部6000万碱基对中寻找可靠的突变。经过深入探索,我们最终将3900万碱基对纳入了分析范围。未被纳入的区域大多是现有二代测序技术难以覆盖的部分。换句话说,我们已尽可能利用所有可分析的区域。
虽然这一过程中遇到的挑战成倍增加,但基因志算法成功克服了这些困难,实现了平均每35年1突变的高精度分析,这在业界堪称革命性突破。
你可以在此下载我们使用的39M bedfile -> dnachron.t2t.chrY.bed.gz Github
独有的可重组突变分析算法
Y染色体的独特之处在于其大部分区域允许内部重组,这对于保护Y染色体基因的稳定性至关重要。然而,内部重组也带来了挑战,因为它可能导致突变状态的不稳定,突变容易通过重组回归到无突变状态,进而干扰父系树的构建。这种不稳定性是内在的,即便采用昂贵的技术,如T2T参考序列的三代测序与二代测序联合分析,也无法彻底解决。面对这一难题,传统算法通常选择避开这些可重组区域,因为它们难以提供稳定的突变数据。
基因志算法创新性地引入了重组概率分析、严格的质量控制和异常处理机制,成功应对了这一挑战。不仅充分利用了这些传统上被回避的区域,还确保了突变数据的可靠性。通过对可重组区域的有效利用,我们显著提升了突变分析的精度,目前这些区域的突变已占我们总突变的三分之一。
基因志新发现突变命名
新发现的突变,将获得C开头的命名(chronicle 编年史)。即基因志。
高精度的基因估龄
基因志高精度基因估龄算法的特点
- 高精度估龄,提供更窄的置信区间。
- 提供不同估龄年份的具体概率,能识别更精准的高概率区间,最终有效提高3~5倍的估龄精度。
- 原生解决因果问题,确保所有下游分支的估龄不会超过上游[10],不存在为因果合理性强制修改估龄的情况。这大大提高了簇或连续分化的分支,以及近现代家族分支的估龄准确性。
- 估龄精度基于实际测序覆盖度,图中估龄右侧的碱基数展示了相应的置信区间。测序覆盖度[11]越高、样本数量越多,置信区间越窄。
- 估龄精度具有传导性。当某个分支达到高精度的估龄时,其上下游分支也能从中受益,进一步提高精度。
基因志如何提升估龄精度
估龄精度的提升主要来自以下三个方面:
1. 高精度的突变分析算法
- 树分化越细致,越接近真实分化关系,准确度越高。
- 可以发现更多突变,参与估龄分析。
2. 使用完整的3900万碱基突变数据,且涵盖SNP、INDEL、MNP/complex突变类型,基础估龄精度提升超过一倍
传统的估龄算法为了减少因突变分析错误带来的干扰,简化计算,不考虑测序覆盖率差异,大多只使用约800万碱基上的SNP突变,这些突变质量较为稳定,且各大测序公司都能检测到。
基因突变是典型的泊松过程[9]。根据泊松分布的置信区间估算方法,平均突变率越高,置信区间越窄,估龄的精度越高。限制突变碱基空间和突变类型相当于降低了突变率。
基因志父系树使用高精度突变分析,平均突变率比其他产品更高,仅排除了可重组突变,没有对其他类型的突变做任何限制,因此有效提高了基础估龄精度。
3. 分析算法的革新
传统的估龄算法大致如下:
树I
以图中一个简单的分支为例。分别计算样本A和样本B到父分支的突变数,依据平均突变率(突变数/年)各自估算一个时间。然后将两个估龄取平均,得到父分支的最终估龄。
树II
当分支数增多时,按照相同的方法,计算所有下游分支的估龄,并取平均值,即可得到父分支的估龄。
树III
当分支结构变得复杂,如图所示,传统算法就会面临一些挑战。
假设F分支在父分支之后不久分化,其下游的G、H分支突变数较多,导致F的估龄偏大。而A、B、D、F分支的估龄平均后,结果接近实际时间。这种情况下,可能会出现父分支的估龄小于F分支的估龄的现象。
这种错误称为因果错误,即后代分支的估龄早于前代分支,违反了因果律。这种情况在快速分化的大簇和近现代家族簇中非常常见,极大影响了估龄的准确性。其他父系树产品通常有两种解决方案:一是强制下游分支的估龄等于上游分支,二是将下游分支的估龄强制设定为上游分支估龄减10到20年,以符合生育年龄。但这两种方法都是通过人为调整估龄来达到目的,而非合理的估龄结果。
另一种挑战在于置信区间的计算。树I和树II的情况,置信区间相对容易计算。但在树III中,D、F两个分支各自有下游,且其置信区间较窄,而A、B两个单一样本的置信区间较宽。其他父系树的算法我们不得而知,但这里需要一个真实的计算方法,将D、F的高置信度传递到父分支的估龄计算中。否则,下游数据再多,也无法提高上游分支的估龄精度。
基因志的估龄算法可以利用更多信息,将置信度在上下游之间传递。
树IV
再看树IV的二叉树结构,计算父分支的估龄时,除了用A、B两个样本的突变数来估算,还可以从上游的F分支减去父分支到F分支的时间,得到另一个独立的估龄信息,极大提高了估龄的准确性。
从F分支得到的估龄,与A、B的估龄必须是独立事件,才能进行合并计算。为保证独立性,在计算F的估龄时,只使用C分支的数据来估算。
基因志的算法通过利用整个父系树上除“父分支”外的其他分支和样本,计算F分支的估龄,再减去父分支到F的时间,得到父分支的第三个估龄信息,尽可能提高估龄的精度。
树III
对于像树III这样的复杂结构,假设F分支在父分支之后不久分化,下游的G、H突变数较多,传统算法容易出现因果错误。
F分支的子结构也是一个二叉树,通过上游分支减中间估龄的方式,可以得到第三个估龄信息。
当时间间隔较短时,估龄误差会更小,置信度也更高。因此,父分支的高精度估龄减去父分支到F的时间后,依然保持很高的精度,通常比G、H两个下游分支的精度更高。
以此计算的F分支估龄,精度显著优于传统算法,并且不可能出现因果错误。
类似地,D分支及其上游分支的估龄精度也可以通过这种方式提升。
推广到整个父系树,通过层层叠加精度,就能得到现在的高精度估龄结果。
参考
[1] The male-specific region of the human Y chromosome is a mosaic of discrete sequence classes
[3] The Y-chromosome point mutation rate in humans
[4] Defining a New Rate Constant for Y-Chromosome SNPs based on Full Sequencing Data
[5] Improved Models of Coalescence Ages of Y-DNA Haplogroups
[6] The study of human Y chromosome variation through ancient DNA
[7] Present-Day DNA Contamination in Ancient DNA Datasets
[8] Computational challenges in the analysis of ancient DNA
[9] 泊松过程 https://en.wikipedia.org/wiki/Poisson_point_process
[10] 癌症样本等非正常样本、古DNA样本、超低覆盖率样本、处于初步分析状态的样本会导致其上游分支脱离整体估龄算法。这种分支有可能出现上下估龄颠倒问题(因果问题)。
[11] 估龄的测序覆盖,指其下游不同分支,至少测序到2次的碱基数。因为只要测序到2次,就可知在分支分化时,该碱基是否有突变。