中大唯信-唯信计算|JMC | 基于网络的方法在药物研发中的应用( 二 )


对于药物设计领域可能感兴趣的是 , 例如那些包含有关蛋白质信息的数据库 , 这些数据库既可以是一般序列(例如SMART , UniProt) , 也可以是单个蛋白质家族的序列(例如GPCRdb , Kinomer);蛋白质结构或蛋白质-蛋白质相互作用(例如PDB , STRING);代谢和信号传导途径(例如Reactome);人类基因和疾病(例如DisGeNET) 。 在表2中 , 总结了这些数据库的主要功能 。
中大唯信-唯信计算|JMC | 基于网络的方法在药物研发中的应用
本文插图

图片来源JMC
表型数据
医疗保健的普遍数字化提供了数量非常重要的表型数据来源 , 主要源于电子健康记录(EHR)、可穿戴设备或应用程序 。 仅就HER而言 , 这些文档中的信息包括对个人健康/疾病状态的描述、临床测试结果、药物处方以及最终的不良反应 。 当然 , 隐私问题限制了此类数据的可用性 , 我们无法公开找到可访问的数据库 。 关于此类信息对药物研究的贡献 , 我们观察到表型和基因型数据的整合可能是迈向深入了解疾病发作和进展的生物学过程的必要步骤 。
建立网络
鉴于有关分子、基因、蛋白质、细胞、组织和疾病的数据的广泛可用性 , 并且假定这些数据实体相互连接并代表或多或少的复杂系统 , 因此需要构建和可视化网络 。 可用于网络可视化和分析的计算工具不计其数 , 其复杂程度取决于数据集的大小和要执行的任务 。 Cytoscape是其中最受欢迎的工具之一 , 当然还有Gephi、Pajek和NetworkX等 。 (有关软件主要功能的详细信息 , 请参见表3) 。 这些软件工具可以可视化最大数量级为106个节点和边的大型网络 。 但是 , 当数据量进一步增加时 , 即使对于功能强大的工作站 , 由于加载大型矩阵的内存需求从而也变得无法满足 , 并且需要更高性能的计算来分析网络 。 解决方案可以是通过诸如Hadoop或Apache Spark之类的框架在大量内核上分发数据和流程 。
中大唯信-唯信计算|JMC | 基于网络的方法在药物研发中的应用
本文插图

图片来源JMC
研究特定药物系统的网络
分子数据集分析网络
在有机小分子环境中使用网络分析的一个相关示例是化学空间网络(CSN) , 这是由G. Maggiora和J. Bajorath提出和开发的框架 。 该化学空间被视为一个复杂的系统 , 可以将诸如生物学活性之类的特性与之关联 。 引入并验证了不同的相似性指标 , 以及对网络拓扑参数的分析表明 , 它们是可视化和分析中等大小化合物库的结构-活性关系(SAR)的强大工具 。 通过适当的度量标准和算法对CSN进行分析 , 可以发现共有潜在特征的化合物群落(簇)的存在 , 而这些共同特征不能从通用表格格式中立即看出来 。 为了说明简单的CSN应用 , 在图1中显示了62种ADP-核糖聚合酶(PARP)抑制剂的网络 。 网络解释了化合物之间的关系 , 它们之间的链接是根据基于指纹计算的成对相似性值得出的 。 如果抑制剂的结构相似性超过阈值 , 则由通过边(188)连接的节点(62)表示(请参见图1的图例) 。 节点根据效能着色 。 基于相似性计算的化学空间可视化有助于识别PARP抑制剂(网络的主要连接组件)的不同结构族 , 并且颜色编码使人们可以立即掌握化合物的SAR 。
中大唯信-唯信计算|JMC | 基于网络的方法在药物研发中的应用
本文插图

图片来源JMC
蛋白质结构网络
如果我们认为蛋白质像其他任何分子一样是相互作用元素(即氨基酸)的集合 , 则可以立即得出它作为一个复杂系统的信息 , 其中结构、动力学和最终功能可以被视为源自氨基酸之间关系的显著性质 。 在这种情况下 , 蛋白质结构网络(PSN)得到了广泛研究 , 随着蛋白质结构测定的分析/生物物理技术的快速发展 , 该网络方法非常适合处理结构-功能关系 。 通过将氨基酸(通常为Cα原子)视为通过链接连接的节点(如果它们之间的距离落在临界值之内)来构建PSN 。 对描述PSNs特征的参数进行分析有助于研究该蛋白的3D结构及其对变构调节、折叠和模型验证等问题的影响 。 特别地 , 分子动力学模拟以及最终的结合自由能计算可以协同地应用于药物研究 。


推荐阅读