文章|2020年10分+纯生信文章带你领略Nature子刊之驱动突变文章套路
小伙伴们大家好,今天带给大家一篇高大上的纯生信文章,2020年2月发表在Nature子刊上,影响因子12.121,题目为“Pathway and network analysis of more than 2500 whole cancer genomes”。是一篇基于原发肿瘤的WGS数据整合分析——PCAWG计划的文章,大家也不必上来就对这种高端的整合分析望而生畏,即便是10分+的生信文章同样有套路,而且类似的文章在这个团队的成果种也是一发一大把。掌握其中一点精髓就够我们这些科研界的小朋(菜)友(鸡)填饱肚子了。
文章图片
早在2013年,大家超级熟悉的TCGA的Pan-Cancer数据库就系统性的规划好了。因为TCGA计划涉及到数据类型比较多,仅仅是DNA层面就有WGS,WES,SNP6.0芯片的数据,在收录的一万多样本种有WGS数据的有两千多个,PCAWG计划就。是整合这其中所有的WGS数据结果。下面我们就来分析一下这篇10分+纯生信文章的研究套路吧,带大家发现即便是10分+生信文章也逃不过酸菜校长总结的“挑、圈、联、靠”四字诀!
文章图片
研究背景
有一些观点认为癌症发生的根本原因是基因突变。从表现形式上来讲是肿瘤细胞不可控制的增长,主要是肿瘤驱动基因突变导致,这些基因发生突变后,特别是某些基因发生重大突变,肿瘤的发生可能就成为了一种必然。绝大多数已知的驱动突变影响蛋白质编码区域。
但在许多癌症中,相当比例的患者在蛋白质编码区没有已知的驱动突变,这表明另有一部分驱动突变仍未被发现。因此,探索更多蛋白质编码基因的癌症驱动突变成了当代肿瘤诊疗的硬性需求。目前蛋白质编码基因的癌症驱动突变已经研究的很充分了。然而,对非编码癌症驱动突变的研究尚待开发,只有少数复发性非编码突变,最显著的是TERT启动子突变。
PCAWG,是全基因组泛癌分析(Pan-Cancer Analysis of Whole Genomes)的简称。
与以前主要集中于癌症基因组的蛋白编码区域的研究不同,PCAWG联盟总共针对38个癌种,综合分析了整个基因组,是迄今为止最全面的癌症基因组荟萃分析。这项研究有6篇Nature及十余篇Nature子刊支撑,分别对PCAWG数据集的广度和深度进行了详细的探讨。2019年10月,发表于《Nature》上的文章《Pan-cancer whole-genome analyses of metastatic solid tumours》,描述了目前已知的最大的转移性实体瘤基因组的泛癌种研究。分析了2520对肿瘤和正常组织的全基因组测序数据,平均测序深度分别为106X和38X,共鉴定出7000万个体细胞突变。
据报道所论述,每个癌症基因组均携带4或5个驱动突变,这为肿瘤细胞提供了选择性优势。在所研究的38类肿瘤中,仅5%没有发现驱动突变。相比之下,许多癌种表现出复杂的染色体重排、碎裂等特征,从而导致基因组发生重大的结构变化。
研究成果包括揭示了新的非编码驱动因子,如抑癌基因TP53非编码区中发生的复发突变;端粒酶基因TERT的非编码区中相对频繁发生的突变导致端粒酶的过度表达;完善已知的突变标签并发现新的突变标签等等。有兴趣的小伙伴可以自行学习,文末会提供给大家这项研究相关的所有文章,是所有哦~(●'"/>
文章图片
▲ Fig.1
【 文章|2020年10分+纯生信文章带你领略Nature子刊之驱动突变文章套路】“圈”、“联”——交互作用及相关性分析
1.潜在驱动突变的通路和网络分析
接下来,作者就对潜在的驱动突变进行通路和网络分析。他们同时使用了两种通路算法:ActivePathways和一种超几何分析算法——Vazquez;以及五种网络方法:CanIsoNet、Hierarchical HotNet、诱导子网络分析、NBDI22和SSA-ME23。利用以上途径和网络数据库,作者对GS-C、GS-N和GS-CN基因评分运行每种方法,确定了三个相应的基因列表。每种方法对其结果在每个数据集上的统计显著性进行评估。
作者通过网络互作分析观察到显著突变的编码和/或非编码元素之间存在大量交互,这表明通路和网络方法可能有助于优先处理单一元素分析中不显著的罕见驱动事件。这也是这篇研究文献的意义所在。
在具体的通路和驱动分析,以确定驱动基因在长尾的驱动p值编码和非编码突变中,仅使用编码突变可以识别出87个带有编码变异的通路牵连驱动基因(PID-C基因),其中包括68个以前被COSMIC 癌症基因普查(CGC)数据库编目的癌症基因。并且其中的31个基因在PCAWG分析中无统计学意义。说明以上网络分析可以筛选到具有罕见突变的基因,即那些在“长尾”分布的,可能是驱动基因。作者还发现根据CGC数据库对比,这31个FDR > 0.1的基因中有13个是已知的驱动因素。与非PID-C基因相比,PID-C基因的编码基因得分明显较高。
文章图片
▲ Fig.2a
文章图片
▲ Fig.2c
仅使用非编码突变,作者确定了62个基因,发现编码突变中较强的信号在编码和非编码突变中占主导地位。因为非编码突变检测的敏感性较差,作者团队设计了一种“非编码增值”(NCVA)程序。该程序询问了编码突变是否增强潜在非编码驱动基因的发现率,而非只有非编码突变时才被检测到。于是又识别了另外31个基因,与62个单基因非编码突变合并后得到93个带有非编码突变的通路牵连驱动基因(PID-N)。包括了19个先前根据COSMIC癌症基因普查(CGC)数据库确定的癌症基因,显著高于预期的基因。在排除PCAWG分析中具有个体显著非编码元件的8个基因,19个基因同时为PID-N基因和CGC基因,显著富集于预期的基因。
推荐阅读
- 山东|探索青年学生助力乡村振兴新模式,2020年“清华学子山东行”圆满收官
- |《我的女友是机器人》首曝花絮,辛芷蕾包贝尔搞怪
- 【地评线】安全开学,精细化防控
- 【地评线】京彩好评:改革不停顿开放不止步是最好的纪念
- 【地评线】安全开学,精细化防控|【地评线】安全开学,精细化防控
- 外交部回应安倍晋三宣布辞职:祝愿他早日康复
- 标准地图|2020年标准地图发布, 一点都不能错!
- 2020|青岛银行公布2020年中期业绩: 资产总额超4405亿元 持续稳健增长
- 2020|扩散周知!自然资源部:2020年标准地图发布
- 外交部|外交部回应安倍晋三宣布辞职:祝愿他早日康复
