爽朗的RGMA基因 综合讨论组

请问我下载到的数据,为什么很多位点是缺失的,是什么原因导致的,能否解决?

缺失的数据量大概5-10%没详细看
2018-01-14 • IP属地中国
按热门排序    按默认排序

4 个回复

核心数据确实缺失的少,1.47%
我是这样算比例的,我把文件用UltraEdit打开,
显示行数为10073391
以--作为关键词
找到1215874个结果
得到结果0.1207
是不是就意味着我的样本12.7%的位点是无法识别的呢?
zhengqiang - 勤奋学习
目前我们提供的核心数据部分NOCALL的比例应该不会超过2%,绝大部分都是1%左右。超过这个比例样本都会做失败处理。
出现nocall的原因主要是对应位点上的数据质量在临界值附近,很难区分a或c,g或t,所以算法会把这类的信号做nocall处理。随着积累的原始数据增加,其中会有一些nocall的数据因为算法和原始数据的迭代变成有值的部分。
大概百分比的话能有多少呢?

要回复问题请先登录注册