基因志父系树有哪些特色功能

基因志父系树有哪些特色功能

2024-10-16·
DNAChron

基因志父系树与其他树的差异

基因志 其他
突变分析精度 平均每35年一个突变,更容易理清快速扩张簇和家谱范围内的家族关系。 平均每80~144年一个突变。
置信区间 提供具体的概率分布和置信区间。 部分父系树提供95%置信区间,其余则没有。
真实置信度 是,根据实际覆盖率计算得出。 固定按8.4M数据长度估龄,不随样本变化,而现在商业测序普遍可到14M以上。
估龄精度 最高可按平均50年一个突变进行估龄,具有更高的准确度和稳定性。 固定按平均144.44年一个突变进行估龄。
真实估龄 不考虑上下游分支间关系,可能出现多个突变估龄为零年、连续分支估龄为零年,以及单个突变估龄近千年的问题。这些结果与实际年份差异大,导致估龄不准确。
估龄准确度随样本数增加提升 当样本和分支数增加到一定程度后,因上下游间估龄矛盾,无法进一步提升准确度。

基因志父系树的特色功能

  • 高精度的突变分析:平均每个分支比传统父系树产品多100%的突变。基于已有数据,我们可以为您找到更多私有突变。在簇状分化的分支中,识别出更多可合并的分支,理清分支间关系。您新发现的突变将获得以C开头的命名(chronicle 编年史)。

  • 纯T2T树:采用最新的T2Tv2参考序列,结合独特的基因志高精度突变分析算法,能够处理传统分析算法难以处理的几千万碱基,真正实现突变数翻倍,带来革命性的产品。为此,我们将所有测序数据 (BAM/CRAM/FASTQ) 免费重比对到T2T参考序列上。

  • 高精度的基因估龄:提供具体的不同估龄年份的概率分布图,估龄精度提高3~5倍

  • 真实估龄:在处理连续分支估龄时,不会出现上下游分支估龄矛盾、连续分支估龄一致的问题,避免分支间年龄差与突变数严重偏离的问题。解决了传统算法分支越多,估龄越容易偏小的系统性偏差。实现样本越多,估龄越准确。

  • 提供不同历史版本的ISOGG编号与基因志父系树的匹配,帮助快速理解分支所在的上游支系,并找到旧ISOGG编号与当前分支之间的对应关系,方便从大量文献和网络信息中进行查找。

  • 对于测序数据覆盖率不足的样本,能够展示除了当前树的位置外,还有可能与哪些分支合并,甚至属于某个兄弟分支下游的可能性。这即是您的树形可能位置。

  • 注册后即可浏览所有公共科研样本的分析结果和原始数据。

  • 快速标准化的分析流程。导入数据后2~5个工作日即可完成上树。

  • 支持导入父系分析结果,包括txt、csv、vcf等格式。

  • 提供突变查询、分支查询、ISOGG编号查询、浏览原始数据、浏览参考序列和个人信息发布等功能。

关于 基因志 DNAChron 网站名由来

以基因记录历史,探索每个人独一无二的故事。

高精度的突变分析

突变分析精度在祖源分析中的作用

突变不仅仅与测序有关。Y染色体因其独特的独立遗传模式,形成了大量低复杂度或高度重复等难以分析的区域。尤其是新的T2T参考序列中,额外增加的区域大多属于此类。通过探索新的分析算法,我们能够从中发现大量新突变。

1. 突变分析精度越高,树的细化程度越高

基因突变是一种典型的泊松过程。发生一次突变所需的年份的概率分布图如下:

Possion!

横坐标表示年份,纵坐标表示概率。该分布图以平均每100年发生一次突变为基础

大多数突变发生在平均值附近,但也有可能过很久才发生一次。根据测序覆盖率和传统算法的突变分析精度,实际父系突变的平均间隔大约为4到6代。

因此,尽管父系树上可能存在一些一代人发生突变的分支,但大多数分支在几代人中没有任何差异,甚至在极端情况下,可能会出现十几代人没有变化的情况。这导致家族分支簇中,不同辈分的人被平铺在同一个父分支下游的现象。

举个例子:

假设有一个家族,包括4个兄弟和2个后辈进行测序:

Actual kinship!

实际亲缘关系

假设图中的父亲没有突变,那么在父系树上,结果如下:

Kinship displayed on the YTree!

父系树上显示的亲缘关系

在同一个父系下游,叔侄辈的人被平铺在一起。如果平均4~6代人才有一个突变,这种现象将更加明显。跨越很多代的成员有可能平行挂在同一个分支下。

树形精度问题对分支留存较多的支系影响显著。例如,对于近现代家族古代快速扩张的大簇,这种影响尤为明显。

基因志的突变分析算法在利用全基因组数据时,能够实现平均35年发生一次突变,大约相当于1.5代人的时间,这大幅提高了树形的精度。

例如,传统算法中完全平铺的R-P312分支,在基因志树中呈现出清晰的层次结构:

R-P312!

2. 突变分析精度越高,私有突变越多

私有突变是指一个个体独有的基因标记,与他人不同。突变分析的精度越高,能够发现的私有突变就越多、越全面。

DNAChron的突变分析算法技术指标

DNAChron 其他
可分析碱基数 3900万 不详,推测其他产品在800万~1500万之间
可分析突变类型 SNP、INDEL、MNP/complex 主要为SNP,部分产品可分析INDEL

目前DNAChron T2T 父系树的突变数平均是其他父系树的2倍。

基因志突变分析算法的独特之处

基因志算法的核心理念是尽可能提升突变分析精度,并充分利用突变信息。

无预设区域,无预设突变类型

Y染色体的一个显著特性是它不会与其他染色体重组,这导致它在进化过程中某些区域积累了大量低复杂度的序列,比如重复序列、多拷贝区、以及回文区等。这些区域的高重复性给遗传分析带来了巨大挑战。为应对这一难题,传统研究通常会将Y染色体划分为不同区域,优先排除那些难以分析的部分,仅保留复杂度较高的区域进行深入研究。同时,在突变筛选时,他们通常只专注于单核苷酸多态性(SNP)突变。这种方式虽然简化了分析,但也牺牲了一部分精度。大多数传统算法能够可靠分析的区域大约覆盖了1500万碱基对,甚至有时只涉及800万到1000万碱基对。然而,Y染色体在T2T参考序列中共有约6000万碱基对,仅分析其中一部分,必然会导致信息损失。

基因志算法的设计宗旨是追求更高精度。我们不预设任何区域或突变类型,而是在Y染色体全部6000万碱基对中寻找可靠的突变。经过深入探索,我们最终将3900万碱基对纳入了分析范围。未被纳入的区域大多是现有二代测序技术难以覆盖的部分。换句话说,我们已尽可能利用所有可分析的区域。

虽然这一过程中遇到的挑战成倍增加,但基因志算法成功克服了这些困难,实现了平均每35年1突变的高精度分析,这在业界堪称革命性突破。

你可以在此下载我们使用的39M bedfile -> dnachron.t2t.chrY.bed.gz Github

独有的可重组突变分析算法

Y染色体的独特之处在于其大部分区域允许内部重组,这对于保护Y染色体基因的稳定性至关重要。然而,内部重组也带来了挑战,因为它可能导致突变状态的不稳定,突变容易通过重组回归到无突变状态,进而干扰父系树的构建。这种不稳定性是内在的,即便采用昂贵的技术,如T2T参考序列的三代测序与二代测序联合分析,也无法彻底解决。面对这一难题,传统算法通常选择避开这些可重组区域,因为它们难以提供稳定的突变数据。

基因志算法创新性地引入了重组概率分析、严格的质量控制和异常处理机制,成功应对了这一挑战。不仅充分利用了这些传统上被回避的区域,还确保了突变数据的可靠性。通过对可重组区域的有效利用,我们显著提升了突变分析的精度,目前这些区域的突变已占我们总突变的三分之一。

基因志新发现突变命名

新发现的突变,将获得C开头的命名(chronicle 编年史)。即基因志。

高精度的基因估龄

基因志高精度基因估龄算法的特点

  • 高精度估龄,提供更窄的置信区间。
  • 提供不同估龄年份的具体概率,能识别更精准的高概率区间,最终有效提高3~5倍的估龄精度。

E-BY4877!

  • 原生解决因果问题,确保所有下游分支的估龄不会超过上游[10],不存在为因果合理性强制修改估龄的情况。这大大提高了簇或连续分化的分支,以及近现代家族分支的估龄准确性。
  • 估龄精度基于实际测序覆盖度,图中估龄右侧的碱基数展示了相应的置信区间。测序覆盖度[11]越高、样本数量越多,置信区间越窄。
  • 估龄精度具有传导性。当某个分支达到高精度的估龄时,其上下游分支也能从中受益,进一步提高精度。

基因志如何提升估龄精度

估龄精度的提升主要来自以下三个方面:

1. 高精度的突变分析算法

  • 树分化越细致,越接近真实分化关系,准确度越高。
  • 可以发现更多突变,参与估龄分析。

2. 使用完整的3900万碱基突变数据,且涵盖SNP、INDEL、MNP/complex突变类型,基础估龄精度提升超过一倍

传统的估龄算法为了减少因突变分析错误带来的干扰,简化计算,不考虑测序覆盖率差异,大多只使用约800万碱基上的SNP突变,这些突变质量较为稳定,且各大测序公司都能检测到。

基因突变是典型的泊松过程[9]。根据泊松分布的置信区间估算方法,平均突变率越高,置信区间越窄,估龄的精度越高。限制突变碱基空间和突变类型相当于降低了突变率。

基因志父系树使用高精度突变分析,平均突变率比其他产品更高,仅排除了可重组突变,没有对其他类型的突变做任何限制,因此有效提高了基础估龄精度。

3. 分析算法的革新

传统的估龄算法大致如下:

Tree I! 树I

以图中一个简单的分支为例。分别计算样本A和样本B到父分支的突变数,依据平均突变率(突变数/年)各自估算一个时间。然后将两个估龄取平均,得到父分支的最终估龄。

Tree II! 树II

当分支数增多时,按照相同的方法,计算所有下游分支的估龄,并取平均值,即可得到父分支的估龄。

Tree III! 树III

当分支结构变得复杂,如图所示,传统算法就会面临一些挑战。

假设F分支在父分支之后不久分化,其下游的G、H分支突变数较多,导致F的估龄偏大。而A、B、D、F分支的估龄平均后,结果接近实际时间。这种情况下,可能会出现父分支的估龄小于F分支的估龄的现象。

这种错误称为因果错误,即后代分支的估龄早于前代分支,违反了因果律。这种情况在快速分化的大簇近现代家族簇中非常常见,极大影响了估龄的准确性。其他父系树产品通常有两种解决方案:一是强制下游分支的估龄等于上游分支,二是将下游分支的估龄强制设定为上游分支估龄减10到20年,以符合生育年龄。但这两种方法都是通过人为调整估龄来达到目的,而非合理的估龄结果。

另一种挑战在于置信区间的计算。树I和树II的情况,置信区间相对容易计算。但在树III中,D、F两个分支各自有下游,且其置信区间较窄,而A、B两个单一样本的置信区间较宽。其他父系树的算法我们不得而知,但这里需要一个真实的计算方法,将D、F的高置信度传递到父分支的估龄计算中。否则,下游数据再多,也无法提高上游分支的估龄精度。

基因志的估龄算法可以利用更多信息,将置信度在上下游之间传递。

Tree IV! 树IV

再看树IV的二叉树结构,计算父分支的估龄时,除了用A、B两个样本的突变数来估算,还可以从上游的F分支减去父分支到F分支的时间,得到另一个独立的估龄信息,极大提高了估龄的准确性。

从F分支得到的估龄,与A、B的估龄必须是独立事件,才能进行合并计算。为保证独立性,在计算F的估龄时,只使用C分支的数据来估算。

基因志的算法通过利用整个父系树上除“父分支”外的其他分支和样本,计算F分支的估龄,再减去父分支到F的时间,得到父分支的第三个估龄信息,尽可能提高估龄的精度。

Tree III! 树III

对于像树III这样的复杂结构,假设F分支在父分支之后不久分化,下游的G、H突变数较多,传统算法容易出现因果错误。

F分支的子结构也是一个二叉树,通过上游分支减中间估龄的方式,可以得到第三个估龄信息。

当时间间隔较短时,估龄误差会更小,置信度也更高。因此,父分支的高精度估龄减去父分支到F的时间后,依然保持很高的精度,通常比G、H两个下游分支的精度更高。

以此计算的F分支估龄,精度显著优于传统算法,并且不可能出现因果错误。

类似地,D分支及其上游分支的估龄精度也可以通过这种方式提升。

推广到整个父系树,通过层层叠加精度,就能得到现在的高精度估龄结果。

参考

[1] The male-specific region of the human Y chromosome is a mosaic of discrete sequence classes

[2] Generation of high-resolution a priori Y-chromosome phylogenies using “next-generation” sequencing data

[3] The Y-chromosome point mutation rate in humans

[4] Defining a New Rate Constant for Y-Chromosome SNPs based on Full Sequencing Data

[5] Improved Models of Coalescence Ages of Y-DNA Haplogroups

[6] The study of human Y chromosome variation through ancient DNA

[7] Present-Day DNA Contamination in Ancient DNA Datasets

[8] Computational challenges in the analysis of ancient DNA

[9] 泊松过程 https://en.wikipedia.org/wiki/Poisson_point_process

[10] 癌症样本等非正常样本、古DNA样本、超低覆盖率样本、处于初步分析状态的样本会导致其上游分支脱离整体估龄算法。这种分支有可能出现上下估龄颠倒问题(因果问题)。

[11] 估龄的测序覆盖,指其下游不同分支,至少测序到2次的碱基数。因为只要测序到2次,就可知在分支分化时,该碱基是否有突变。

最后更新于