文章|2020年10分+纯生信文章带你领略Nature子刊之驱动突变文章套路

小伙伴们大家好,今天带给大家一篇高大上的纯生信文章,2020年2月发表在Nature子刊上,影响因子12.121,题目为“Pathway and network analysis of more than 2500 whole cancer genomes”。是一篇基于原发肿瘤的WGS数据整合分析——PCAWG计划的文章,大家也不必上来就对这种高端的整合分析望而生畏,即便是10分+的生信文章同样有套路,而且类似的文章在这个团队的成果种也是一发一大把。掌握其中一点精髓就够我们这些科研界的小朋(菜)友(鸡)填饱肚子了。
 文章|2020年10分+纯生信文章带你领略Nature子刊之驱动突变文章套路
文章图片
早在2013年,大家超级熟悉的TCGA的Pan-Cancer数据库就系统性的规划好了。因为TCGA计划涉及到数据类型比较多,仅仅是DNA层面就有WGS,WES,SNP6.0芯片的数据,在收录的一万多样本种有WGS数据的有两千多个,PCAWG计划就。是整合这其中所有的WGS数据结果。下面我们就来分析一下这篇10分+纯生信文章的研究套路吧,带大家发现即便是10分+生信文章也逃不过酸菜校长总结的“挑、圈、联、靠”四字诀!
 文章|2020年10分+纯生信文章带你领略Nature子刊之驱动突变文章套路
文章图片
研究背景
有一些观点认为癌症发生的根本原因是基因突变。从表现形式上来讲是肿瘤细胞不可控制的增长,主要是肿瘤驱动基因突变导致,这些基因发生突变后,特别是某些基因发生重大突变,肿瘤的发生可能就成为了一种必然。绝大多数已知的驱动突变影响蛋白质编码区域。
但在许多癌症中,相当比例的患者在蛋白质编码区没有已知的驱动突变,这表明另有一部分驱动突变仍未被发现。因此,探索更多蛋白质编码基因的癌症驱动突变成了当代肿瘤诊疗的硬性需求。目前蛋白质编码基因的癌症驱动突变已经研究的很充分了。然而,对非编码癌症驱动突变的研究尚待开发,只有少数复发性非编码突变,最显著的是TERT启动子突变。
PCAWG,是全基因组泛癌分析(Pan-Cancer Analysis of Whole Genomes)的简称。
与以前主要集中于癌症基因组的蛋白编码区域的研究不同,PCAWG联盟总共针对38个癌种,综合分析了整个基因组,是迄今为止最全面的癌症基因组荟萃分析。这项研究有6篇Nature及十余篇Nature子刊支撑,分别对PCAWG数据集的广度和深度进行了详细的探讨。2019年10月,发表于《Nature》上的文章《Pan-cancer whole-genome analyses of metastatic solid tumours》,描述了目前已知的最大的转移性实体瘤基因组的泛癌种研究。分析了2520对肿瘤和正常组织的全基因组测序数据,平均测序深度分别为106X和38X,共鉴定出7000万个体细胞突变。
据报道所论述,每个癌症基因组均携带4或5个驱动突变,这为肿瘤细胞提供了选择性优势。在所研究的38类肿瘤中,仅5%没有发现驱动突变。相比之下,许多癌种表现出复杂的染色体重排、碎裂等特征,从而导致基因组发生重大的结构变化。
研究成果包括揭示了新的非编码驱动因子,如抑癌基因TP53非编码区中发生的复发突变;端粒酶基因TERT的非编码区中相对频繁发生的突变导致端粒酶的过度表达;完善已知的突变标签并发现新的突变标签等等。有兴趣的小伙伴可以自行学习,文末会提供给大家这项研究相关的所有文章,是所有哦~(●'?'●)
研究思路与结果概述
话不多说,我们来看看今天的范文讲述了一个怎样的Story,又得到了什么样的创新结果呢?
先来带大家了解一下整体的思路框架,这样更有助于我们理解数据图表。
本篇范文中,作者通过PCAWG对ICGC / TCGA Pan-Cancer的全基因组测序数据进行多方面的通路及网络分析非蛋白编码基因的突变。作者团队对27种肿瘤类型的2583个肿瘤的编码和非编码体细胞突变进行了通路和网络分析,并在38个癌种中进行多方面的途径和网络分析。从中确定了93个包含非编码突变的基因,这些基因聚集成几个相互作用蛋白模块。其中启动子突变与TP53、TLE4和TCF4 mRNA表达降低有关。
并且作者团队还发现,生物过程中编码和非编码突变的比例是可变的,染色质重塑和增殖途径主要是编码突变引起的。而发育途径,包括Wnt和Notch,则是编码和非编码突变引起的。RNA剪接主要是由非编码突变引起的,含有已知RNA剪接因子非编码突变的样本与含有编码突变的样本具有相似的基因表达特征。这些分析结果提供了一些可能存在的新癌症基因及机制,为肿瘤非编码突变的临床意义提供了新思路,提示了能够进一步研究探索的潜在机制和疗法。
数据解读
接下来,我带大家逐步分析范文中的数据图表,深入领悟癌症编码与非编码基因组驱动突变的内涵。
“挑”——筛选有统计学意义的蛋白编码驱动基因
作者通过PCAWG驱动因素和功能注释工作组分析了单一蛋白编码和非编码元件的泛癌症驱动因素p值,包括外显子、启动子、未翻译区(5 ' UTR和3 ' UTR)和增强子。该分析使用16种驱动研究方法进行预测,根据正向选择、突变的功能影响、区域突变率、突变过程和签名的不同方法,整合得到编码和非编码元素的一致驱动p值。根据这个p值在泛癌队列的蛋白编码驱动因子中筛选了75个基因以及另外7个基因在近显著水平(0.1≤FDR < 0.25)被观察到。驱动基因很少发生高度突变,而很多基因在癌症类型中发生罕见突变。并且观察到显著突变的编码和/或非编码元素之间存在大量的相互作用,这表明通路和网络方法可能有助于优先处理单元素分析中不显著的罕见驱动事件。


推荐阅读