[已注销] [已注销] 综合讨论组

通过比较微基因数据和其他格式转微基因数据的共同位点而得出的全新建议:

在进入正题之前,我先公布我最近用DNA Kit Studio软件解读出来的各项数据文件的位点信息,以空位点信息为主要信息。这里用到了微基因2.0版的全空位点文件(本文最后有下载链接,可用于上述软件中的格式转化预设)。每个人的未检出位点不一样,数据会有小幅度变化,故这里的数据仅作参考。如果做过大于等于3家的基因检测或者测过全基因组的话,也可以尝试文件的合并转化或者从全基因组的文件中提取所有的必需位点。
 
【微基因v2】(未转化、对照)
    > Total SNPs: 1194791
    > Flipped SNPs: 66542 (5.57%)
    > Heterozygous SNPs: 264667 (22.15%)
    > Homozygous SNPs: 876983 (73.40%)
    > NoCalls SNPs: 27439 (2.30%)
    
【23魔方】(转微基因v2)
    > Total SNPs: 1194791
    > Flipped SNPs: 0 (0.00%)
    > Heterozygous SNPs: 79703 (6.67%)
    > Homozygous SNPs: 196307 (16.43%)
    > NoCalls SNPs: 910050 (76.17%)
    
【微基因v2+23魔方的混合核心文件】(转微基因v2)
    > Total SNPs: 1194791
    > Flipped SNPs: 48520 (4.06%)
    > Heterozygous SNPs: 269123 (22.52%)
    > Homozygous SNPs: 882156 (73.83%)
    > NoCalls SNPs: 17482 (1.46%)
    
【微基因v2+23魔方的手动混合核心文件+AllRawFormats ByPosition】(转微基因v2)
    > Total SNPs: 1194791
    > Flipped SNPs: 49150 (4.11%)
    > Heterozygous SNPs: 270659 (22.65%)
    > Homozygous SNPs: 886235 (74.17%)
    > NoCalls SNPs: 11868 (0.99%)
    
【AllRawFormats ByPosition】(由“微基因核心数据+微基因扩展数据+23魔方原始数据+23魔方扩展数据集”转微基因v2)
    > Total SNPs: 1194791
    > Flipped SNPs: 42962 (3.60%)
    > Heterozygous SNPs: 206105 (17.25%)
    > Homozygous SNPs: 730756 (61.16%)
    > NoCalls SNPs: 250783 (20.99%)
    
【23andme Merged v3v4v5】(由“微基因核心数据+微基因扩展数据+23魔方原始数据+23魔方扩展数据集”转微基因v2)
    > Total SNPs: 1194791
    > Flipped SNPs: 40028 (3.35%)
    > Heterozygous SNPs: 196843 (16.48%)
    > Homozygous SNPs: 696151 (58.27%)
    > NoCalls SNPs: 295394 (24.72%)
    
【23andme v5】(由“微基因核心数据+微基因扩展数据+23魔方原始数据+23魔方扩展数据集”转微基因v2)
    > Total SNPs: 1194791
    > Flipped SNPs: 0 (0.00%)
    > Heterozygous SNPs: 92686 (7.76%)
    > Homozygous SNPs: 462619 (38.72%)
    > NoCalls SNPs: 634462 (53.10%)
    
【23andme v4】(由“微基因核心数据+微基因扩展数据+23魔方原始数据+23魔方扩展数据集”转微基因v2)
    > Total SNPs: 1194791
    > Flipped SNPs: 0 (0.00%)
    > Heterozygous SNPs: 120447 (10.08%)
    > Homozygous SNPs: 280965 (23.52%)
    > NoCalls SNPs: 789418 (66.07%)
    
【23andme v3】(由“微基因核心数据+微基因扩展数据+23魔方原始数据+23魔方扩展数据集”转微基因v2)
    > Total SNPs: 1194791
    > Flipped SNPs: 33601 (2.81%)
    > Heterozygous SNPs: 158943 (13.30%)
    > Homozygous SNPs: 360385 (30.16%)
    > NoCalls SNPs: 672872 (56.32%)
    
【23andme v2】(由“微基因核心数据+微基因扩展数据+23魔方原始数据+23魔方扩展数据集”转微基因v2)
    > Total SNPs: 1194791
    > Flipped SNPs: 24630 (2.06%)
    > Heterozygous SNPs: 122724 (10.27%)
    > Homozygous SNPs: 270224 (22.62%)
    > NoCalls SNPs: 798783 (66.86%)
    
【AncestryDNA v2】(由“微基因核心数据+微基因扩展数据+23魔方原始数据+23魔方扩展数据集”转微基因v2)
    > Total SNPs: 1194791
    > Flipped SNPs: 17609 (1.47%)
    > Heterozygous SNPs: 111656 (9.35%)
    > Homozygous SNPs: 265800 (22.25%)
    > NoCalls SNPs: 815715 (68.27%)
    
【AncestryDNA v1】(由“微基因核心数据+微基因扩展数据+23魔方原始数据+23魔方扩展数据集”转微基因v2)
    > Total SNPs: 1194791
    > Flipped SNPs: 19017 (1.59%)
    > Heterozygous SNPs: 118054 (9.88%)
    > Homozygous SNPs: 263459 (22.05%)
    > NoCalls SNPs: 812512 (68.00%)
    
【FTDNA v2】(由“微基因核心数据+微基因扩展数据+23魔方原始数据+23魔方扩展数据集”转微基因v2)
    > Total SNPs: 1194791
    > Flipped SNPs: 12485 (1.04%)
    > Heterozygous SNPs: 90479 (7.57%)
    > Homozygous SNPs: 425261 (35.59%)
    > NoCalls SNPs: 679051 (56.83%)
    
【FTDNA v1】(由“微基因核心数据+微基因扩展数据+23魔方原始数据+23魔方扩展数据集”转微基因v2)
    > Total SNPs: 1194791
    > Flipped SNPs: 19544 (1.64%)
    > Heterozygous SNPs: 119676 (10.02%)
    > Homozygous SNPs: 267263 (22.37%)
    > NoCalls SNPs: 807852 (67.61%)
    
【LivingDNA v2】(由“微基因核心数据+微基因扩展数据+23魔方原始数据+23魔方扩展数据集”转微基因v2)
    > Total SNPs: 1194791
    > Flipped SNPs: 16444 (1.38%)
    > Heterozygous SNPs: 110336 (9.23%)
    > Homozygous SNPs: 388391 (32.51%)
    > NoCalls SNPs: 696064 (58.26%)
    
【LivingDNA v1】(由“微基因核心数据+微基因扩展数据+23魔方原始数据+23魔方扩展数据集”转微基因v2)
    > Total SNPs: 1194791
    > Flipped SNPs: 13373 (1.12%)
    > Heterozygous SNPs: 92662 (7.76%)
    > Homozygous SNPs: 455555 (38.13%)
    > NoCalls SNPs: 646574 (54.12%)
   
实际上这是一种反向的转化,即把转化成其他机构的数据文件转化回原先做的文件格式,比如把微基因v2的文件转化成23andme v5格式之后,再转化回微基因v2的格式(实际上整个过程有大量的有效位点损失,由上面的数据结果可以得出)。由于我们习惯了正向转化,即把检测结果转化为其他机构如23andme、Ancestry之类的格式,因此有些问题我们未必能考虑到。
另外即使两个不同机构的文件的有效位点数差别不大,但两个文件仍有很大的差别,因为这只是两个文件分别和微基因文件的比较结果,表现不了两个文件之间的相似性。
 
重点来了!这是一种上传数据文件到微基因的一种参考,这里用到的格式数目也多于微基因本身的上传限制。所以我的建议是希望官方能够放开导入数据的格式限制,而不是局限于23andme和Ancestry的转化到微基因之后很不完整的格式,但仍然保持只能进行祖源分析和微解读的功能。现在23魔方那边已经可以上传更多种类格式的数据到23魔方来进行祖源分析了,包括微基因、甚至是混合了23魔方和微基因的数据格式(已亲自尝试成功),不过仍然合理地存在着对其他功能的限制。本段是改进的建议,希望大家支持。
 
最后,是上述转化回微基因数据的空位点数升序排序(有效位点损失多,上传分析需谨慎):
1——【微基因v2+23魔方的混合核心文件+AllRawFormats ByPosition】
> NoCalls SNPs: 11868 (0.99%)
2——【微基因v2+23魔方的混合核心文件】
> NoCalls SNPs: 17482 (1.46%)
3——【微基因v2】(原先的文件)
> NoCalls SNPs: 27439 (2.30%)
4——【AllRawFormats ByPosition】
> NoCalls SNPs: 250783 (20.99%)
5——【23andme Merged v3v4v5】
> NoCalls SNPs: 295394 (24.72%)
6——【23andme v5】
> NoCalls SNPs: 634462 (53.10%)
7——【LivingDNA v1】
> NoCalls SNPs: 646574 (54.12%)
8——【23andme v3】
> NoCalls SNPs: 672872 (56.32%)
9——【FTDNA v2】
> NoCalls SNPs: 679051 (56.83%)
10——【LivingDNA v2】
> NoCalls SNPs: 696064 (58.26%)
11——【23andme v4】
> NoCalls SNPs: 789418 (66.07%)
12——【23andme v2】
> NoCalls SNPs: 798783 (66.86%)
13——【FTDNA v1】
> NoCalls SNPs: 807852 (67.61%)
14——【AncestryDNA v1】
> NoCalls SNPs: 812512 (68.00%)
15——【AncestryDNA v2】
> NoCalls SNPs: 815715 (68.27%)
16——【23魔方】
> NoCalls SNPs: 910050 (76.17%)
 

QQ截图20200824142659.png

 格式转化和数据集成不易,希望各位能够重视起来,感谢阅读全文~
2020-08-24 • IP属地中国
按热门排序    按默认排序

3 个回复

zhengqiang - 勤奋学习
对数据转化有要求的用户,建议直接上菁英版
费力科思 - WeGene勤杂工
居然还有DNA Kit Studio这种东西
 
WGS是王道
west - 早知道基因,早做健康管理哈
你这真是高端玩家呀

要回复问题请先登录注册