科研人不担心有机物命名不规范了 有机化合物的命名( 二 )
模型的优缺点 。优点:1 。1:structure 2 upac模型的准确率为98.9% 。
为了验证模型的质量,研究人员从测试集中随机选择了10万个分子 。SMILES-to-IUPAC名称转换器作为验证步骤运行,在测试集中100,000个随机分子的子集上达到98.9%的准确率 。
“我们已经证明Transformer能够准确解决算法问题,为软件开发提出了新的范式 。它推翻了不应在这类问题中使用它们的普遍观点 。在机器翻译中,用资源网的同义词替换一个单词是非常可能的,但是在我们的任务中,一个错误的符号会导致一个错误的分子 。但是,Transformer成功完成了这项任务 。”索斯宁补充道 。
优势二:2:IUPAC 2构建模型的准确率为99.1% 。
研究人员将IUPAC和SMILES Transformer模型(IUPAC2Struct)与测试集中基于规则的工具OPSIN进行了比较(表1) 。IUPAC 2结构转换器的精度为99.1%,OPSIN为99.4% 。
表1:在100,000个不同光束尺寸的分子测试装置上模型的精确度(%) 。

文章插图
缺点:具有大量标记物(寡聚体、肽等)的分子 。)在我们的数据集中没有得到很好的体现,这可能是这类大分子性能下降的原因之一 。
尽管该模型在非常大的分子上的准确率不到50%,但发现了一些有趣而复杂的分子例子,它们正确地生成了IUPAC名称 。

文章插图
插图:Transformer生成了两个名称正确的挑战者示例 。(来源:论文)
此外,极小分子的性能明显下降 。例如甲烷,可能是Transformer使用自我注意机制来分析输入序列中标记之间的相关性 。对于超短序列,很难掌握token之间的关系 。
在线提供 。新的解决方案已经在Syntelly平台上实现,可以在线使用 。研究人员希望他们的方法可以用于化学符号和其他与技术符号相关的任务之间的转换,例如数学公式的生成或软件程序的翻译 。
研究人员说:“令人惊讶的是,我们基于神经的解决方案的性能与基于规则的软件相当 。」
使用提示 。在介绍之前先做个小声明:只代表个人试用的感觉,专业多的同学应该收获更多~
《华尔街日报》提到,“目前还没有结构到名称翻译的开源工具 。」
一、打开在线开源网站:https://app.syntelly.com/molecules/1.左侧菜单栏有很多功能选项 。在此选择“个人”选项,点击搜索框进入画板 。输入待命名有机化合物的结构,以甲苯(C7H8)为例 。

文章插图
点击“计算”获得甲苯:cc1ccccc1和IUPAC名称:甲苯的微笑 。

文章插图
杂志中提到:“分子可以从SMILES转换为IUPAC名称,反之亦然 。」
在这里输入SMILES/IUPAC,点击“计算”得到甲苯结构及其对应的SMILES/IUPAC 。

文章插图

文章插图

文章插图
此外,该工具还附带了一个大型数据集库 。

文章插图
在已发表的期刊和论文中也有有机化学结构的名称 。当然也可以自己上传新的纸质PDF 。

文章插图
化学反应也可以预测:

文章插图
解锁更多功能,获得自己的朋友~
有机化合物命名史 。在有机化学的初始阶段,化合物的命名没有共同的规则 。1919年,国际纯粹与应用化学联合会(IUPAC)成立,IUPAC出版了有机化学的命名法,俗称“蓝皮书” 。提供了化合物的明确名称指南 。
有机结构有几种不同的表现形式 。例如,SMILES(简化分子输入行输入系统)旨在为基于人类和基于计算机的化学信息处理提供便利 。
过去,化学家手动创建IUPAC名称 。这个过程容易出错,因为它需要对术语有深刻的理解,并且涉及复杂的算法 。此外,化学家更喜欢琐碎的名字,这给不同符号之间的正确转换带来了额外的挑战 。计算机缓解了这个问题 。现在化学家广泛使用软件工具来产生名字 。
名字生成器的历史始于加菲尔德的开创性工作 。然而,化学家的第一个日常软件是在20世纪末创建和发布的 。
推荐阅读
- 梁咏琪|46岁梁咏琪跟歌迷在酒店聚会,肤白貌美似少女,身形消瘦令人担心
- 大多数人不能喝西洋参、枸杞 西洋参枸杞
- 就算别人不说,这10条销售经验也要清楚,不花钱的经验你知道几条
- 男人不爱你的三个表现,很真实扎心,女人一定要看
- 钟楚曦|科研界的“苏妲己”,12年经历四段婚姻,被女网友赞人间清醒
- 身上长红痣,是不是疾病的征兆?教你识别普通红痣不用担心
- 高马尾|身体的这些表现,属于正常衰老的范畴,不用担心
- 做青团别只用艾草,它比艾草鲜嫩营养,可惜懂的人不多,真可惜
- 任帅|演员任帅戏红人不红,将“丑妻”当成宝,财政大权交给妻子
- 染发请注意!除了秃头,你还要担心你的染发膏安全吗?
