猛料:无名英雄先于疾控系统发现武汉冠状病毒!

记录一下首次发现新型冠状病毒的经历2020-01-30 新民晚报2019年12月26日刚上班 , 还是如往常一样先大概浏览一下这一天的mNGS病原微生物自动解读结果 , 没问题的话就开始一天的研发工作了 。意外的是 , 发现有一个样本报出了敏感病原体——SARS冠状病毒 , 有几十条的序列 , 且这个样本只有这么一个有意义的病原体 , 如果是普通病毒 , 这已经是一个相当可靠的结果了 。 心头一紧 , 赶紧后台查看详细的分析数据 , 发现相似度并不算很高 , 只有大约94.5%(这跟卡相似度的阈值有关 , 相当于只筛选下了相似度比较高的序列) 。 想到有几种可能:1、SARS不同毒株基因组有一定差异;2、RNA病毒容易突变 , 距离SRAS事件17年了 , 变异比较大;3、近缘物种的错误比对等等 。 为了确认结果的可靠性 , 开始了详细分析 。好在之前已经遇到过几次这种类似的敏感的病原体确认分析工作 , 而且领导也曾跟我讨论过几次能不能做一个新发病原自动挖掘的分析流程 , 心里一直记着这个事情 , 在做其他权重更高优先级更高的项目时也随手做了一个初步的版本出来 , 这个样本刚好可以派上用场 。 我给它起了个名字 , 相比于日常生产用的分析流程 , 它多了个后缀:“探索版” , 包含了几乎所有已测序的病毒基因组 。探索版的分析结果提示这个病原体跟Bat SARS like coronavirus最相似 , 整体相似度在87%左右 , 而跟SARS的相似度是约81% 。 比对上的序列数由几十条上升到了500多条 , 此外也组装出了5条contig , 加起来有1200多bp , 此时基本上可以确认是一种冠状病毒 , 可以针对冠状病毒进行详细分析 。 分析期间也开始跟解读负责人和领导小范围内部保密讨论 。猛料:无名英雄先于疾控系统发现武汉冠状病毒!
进一步分析 , 无论是拿原始序列去NCBI nt库blastn , 还是拿组装后的序列去blastn , 结果都是跟Bat SARS like coronavirus最相似 , 但整体的相似度也是只有87%左右 , 进行nr库蛋白blastx对比的相似度也差不多 , 因此对结果保留怀疑 。猛料:无名英雄先于疾控系统发现武汉冠状病毒!
病毒的分类信息一直都很混乱 , 分类规则不统一 , 有些基于分型基因(比如甲流)、有些则没有明确的分型基因 , 通过其他方法去分类 。 此前并没有去调研过Bat SARS like 跟SARS的分类方法 , 在NCBI Taxonomy上 , Bat SARS like 是划分到SARS下面的 。 如此紧急的情况下 , 没有时间去调研文献 , 手上的数据也不多 , 基于基因组的相似度 , 潜意识里认为既然Bat SARS like是SARS的下属分类 , 那么这个检测到的未知病毒至少也是一个跟Bat SARS like平行的物种 , 即一个新型的Bat SARS like(后来看文献SARS和Bat SARS like是通过几个非结构蛋白进行分类) 。猛料:无名英雄先于疾控系统发现武汉冠状病毒!
进一步地毯式地分析了几千个冠状病毒基因组 , 从相似度、覆盖率、基因组分布均匀等几方面进行评估 , 最终找出两株最相似的基因组 , bat-SL-CoVZC45和bat-SL-CoVZXC21(1月9号公布基因组序列后 , 很多文章分析的也是这两个) 。(下午才发到群里的图)猛料:无名英雄先于疾控系统发现武汉冠状病毒!
仅仅这些信息还是不够的 , 至少还要看看进化上的信息 , 于是开始着手做进化树分析 。猛料:无名英雄先于疾控系统发现武汉冠状病毒!
下载了所有冠状病毒的基因组 , 最后经过质量过滤、聚类等分析 , 筛选出了160株的冠状病毒基因(基本包含了所有已知的各种动物的冠状病毒) 。 将组装的序列与160株冠状病毒基因组基于全基因组平均相似度做了进化分析(题外话 , 个人认为在物种进化分析上 , 基于全基因平均相似度构建进化树 , 比基于某个基因构建的进化树要更准确、合理一些 , 毕竟是从全局来考量 , 当然 , 研究结构、功能等另说 , 此时组装的序列也很短 , 没有完整的基因序列) , 结果不出意外 , 还是跟Bat SARS like coronavirus聚得最近 , 而且也是在SARS的大支上 。(跑到了傍晚才出图)猛料:无名英雄先于疾控系统发现武汉冠状病毒!
猛料:无名英雄先于疾控系统发现武汉冠状病毒!
猛料:无名英雄先于疾控系统发现武汉冠状病毒!
图注:左上角一大块红色是SARS , 边缘颜色没那么红的是BatSARSlike , 再往外的大蓝边是另一群Bat SARS like , 未知的病毒跟45、21聚在比较独立的一支上了 , 红框圈起来的 。比较奇怪的是 , 这个未知的病毒跟bat-SL-CoVZC45和bat-SL-CoVZXC21聚到了一个相对独立的分枝上 , 而其它Bat SARS like则很集中地聚在SRAS那一群里面 , 想着也许是这两个的分类有点问题 , 但去看了出处的文献 , 方法上跟其它的也没啥区别 , 尊重文献的分类吧 , 暂且认为是对的 。 (这也是后面某些专家们把这个未知病毒判定为新型冠状病毒的依据之一)


推荐阅读