Tencent|腾讯发布首个AI药物研发平台“云深智药”( 二 )


实验测定蛋白质结构往往难度大、周期长、费用高;通过深度学习模型预测出蛋白质结构以及功能后,计算机便可以更快地从数亿的海量小分子中,快速而有针对性地找到潜在的苗头化合物 。
“云深智药”平台采用的蛋白质结构预测方法在准确度上达到国际领先水平,得益于两项关键技术上取得突破 。
一是基于自监督学习的蛋白质折叠方法,不依赖同源序列,而是直接从序列数据库中通过自监督学习,学得共进化的模式,从而能够从无到有地产生出含有共进化信息的伪同源序列,并最终让这些蛋白能够有效折叠;
二是通过一种基于深度学习的可迭代方法,有效整合模板建模与自由建模,首次提出了动态的、可迭代的氨基酸对特异性的约束条件,显著提高了建模的精度,从而更好的折叠蛋白 。
针对靶点筛选苗头化合物是新药发现的第二步 。与传统的实验筛选相比,计算方法进行的虚拟筛选无需消耗化合物样品,能极大节省人力物力 。
基于配体的药物设计方法(ligand-based drug design,LBDD)是虚拟筛选的常见方法之一,是指从已知的有活性的配体小分子结构出发,学习和建立分子结构与活性之间关系的模型,用来预测新化合物的活性 。
由于很多靶点的已测得的化合物活性数据非常有限,严重制约了预测模型的准确性 。
【Tencent|腾讯发布首个AI药物研发平台“云深智药”】AI方法有望解决这一问题:例如“云深智药”平台的虚拟筛选模块首次将元学习和深度神经网络算法用于LBDD任务,通过AI”迁移“从其他靶点上面学习到的知识(如分子局部结构对靶点结合强度的影响),应用在目标靶点上来提高模型预测精度 。
目前,该算法在数千个实验数据集上预测精度(预测活性与实验测量活性的相关性)的中位数从目前最高记录0.36提升到0.42,且筛选可用模型的百分比从56%提升到60%,突破业界标准 。
进入药物研发后期,预测分子的ADMET性质尤为重要(包括药物的吸收、分配、代谢、排泄和毒性) 。据统计,因ADMET性质问题引起的药物后期失败的比例高达60% 。
因此,及早发现并排除成药性欠佳的分子能够大幅降低后期药物研发失败的风险 。基于AI的ADMET性质预测能够让药物化学家快速地进行分子结构改造,优化分子理化性质,缩短药物研发的周期,降低实验测试成本 。
“云深智药”平台的药物小分子ADMET属性预测模块已在多个数据集上比学术界现有最好模型提高3%~11%;在合作伙伴的反馈中,平台的自研算法精度超过现有商业软件6%~37%不等 。
同时,平台采用了注意力等机制可视化分子中的子结构对结果的影响,提供模型的可解释性 。此外,平台还可提供当地版本等灵活的部署形式,保障用户的数据安全 。


推荐阅读