基因杂谈……

●人的基因组大小大概是 3G 左右（30亿位点）。
青春版，60G碱基数，粗略对应 20× 左右的测序深度；
全基因组，90G碱基数，粗略对应 30× 左右的测序深度。

这里有一个测序深度（sequencing depth，一般用 × 乘数表示）的概念，指的是基因组上的一个碱基平均被测到的次数。
5× 就是一个位点平均被测到 5 次，注意这里是平均数，所以实际情况是，有的地方测到的可能是 3次（小于平均数），有的地方可能测到 8次（大于平均数）。

理论上，测序深度越高越好。但是基因组的覆盖度、变异检测的准确性等，会随着测序深度升高慢慢趋向于稳定。所以不管是科研还是临床场景，出于成本的考虑一般不会无限制的测。

一般认为 20× 左右，个体的基因组覆盖度、变异检测的准确性等就已经足够好了，足以支持大部分变异的检测。
如果自己会使用原始数据自己折腾分析的话的话，30× 会更好，对于一些复杂变异，比如拷贝数变异、结构变异的分析支持会更好。
●青春版：深度20，提供 vpf , cram 和 y bam ，你要 fastq 的话要用 samtools 等工具自己从 cram 转
●美国那个Nebula Genomics(星云全基因组)有个Ultra版，收费999美元，测出来的个人基因的数据最大高达270个G,收费299美元的正常版的全基因组测出来的个人基因的数据大小为100G左右，啥时候微基因也能整一个6000－7000的全基因组测序，数据包超过200个G，数据大小要是超级大，感觉就能对标华大基因了，期待微基因产品线的更新

你提到的100x级别WGS对国内市场来说有点卷，而且星云在用hs38参考，而国内还在用比较老的human g1k v37参考，要涉及坐标转换的问题，50x的应该可以考虑下
●迄今为止最完整的人类基因组T2T-CHM13，其中包括30.55亿个碱基对（bp：base pair），由22条常染色体和X染色体无缝组装而成。此时，基因组的缺口仅剩5个，这项研究也被认为是首个完整的人类基因组测序。（基因来自一个葡萄胎）
人体内的大多数细胞都包含两个基因组——一个来自父亲，一个来自母亲。

●正常人群的染色体共有23对，46条染色体。其中第一对染色体最大，其次是第二对染色体，然后是3号，一直排到22号染色体。1-22对染色体是常染色体，第23对染色体，也就是最后一对染色体为性染色体，正常男性是XY，正常女性是XX。

长相跟常染色体相关

性染色体X具有1098个基因，Y只有78个基因，是X基因的零头。（人体有2.5万个基因）因此，性染色体YY缺乏数百个已经知道的生存必要的基因，以及X染色体中大量的作用不明的部分。宏观表现为：YY染色体会在胚胎早期致死。
●伪基因就是因突变不再起作用的基因，人类整个基因组中发现了大约有11,224个伪基因，这些都是人类退化的证据和痕迹。在伪基因中，我们发现了各种基因遗迹，比如厚毛的皮毛，可以消化很多植物的长肠，消失的尾巴，像成年猿一样粗壮的下颚。还有一个伪基因是曾经可以制造维生素 C 的，几乎所有的哺乳动物，都可以自己体内制造维生素 C 有助于抗坏血酸，但包括我们人类的灵长类动物都做不到了。
●首先，黄金家族和刘邦家族的Y染色体单倍群都没有被最终确认，即使伊朗合赞汗后裔的单倍群是O2a，或者确认是M155的分支，也不能说明什么。首先，即使二者单倍群一样，也不能说谁和谁就是一家，谁就是谁的后裔，都是几千几万前的事情，已经没有任何关系了。人有23对染色体，Y染色体只是其中一只性染色体，由父亲传给儿子。但是，母亲也有只传给女儿叫线粒体，以色列就认母系。民族是文化认同，绝对不是基因认同。比如草原上的乃蛮部，一部分融入蒙古就是蒙古族了，一部分融入哈萨克就是哈萨克族了。即使黄金家族和刘邦家族的单倍群相似，也不具意义，因为人类都是从非洲走出来的，都来自于24万年前非洲的同一位父系。O系也不过是3-5万年前经过东南亚从云南进入东亚地区的，历史都不长，人类本身都是一家人，人不能总是活在历史当中，一切向前看！

与内容相关的链接

2 个回复