滑雪路线

Route

联系爱游戏体育

Contact aiyouxitiyu

手机:13988889999
电话:020-66889888
QQ:88889999
邮箱:88889999
地址:广东省广州市
爱游戏滑雪常识

>>你的位置: 首页 > 爱游戏滑雪常识

AI 研习丨化合物爱游戏- 爱游戏体育- AYX体育官方网站逆合成路线设计方法综述

2025-01-14 14:29:43

  爱游戏- 爱游戏体育- AYX爱游戏体育官方网站近年来,计算机辅助化合物分子的合成规划得到了快速发展,特别是逆合成分析受到了广泛关注。逆合成分析是一种逆向规划合成路线的技术,它将目标分子沿着反应路径分解成一系列越来越简单的前体,最终得到商业上可用的起始原料;同时可以有效解决复杂分子的合成问题,促进有机合成科学的发展。但是,它是一个复杂的问题,需要在一个大的空间里搜索可能的途径来转化目标分子,例如化学键的断开、官能团的替换等。传统上,逆合成分析主要基于化学家的知识、经验和直觉,但是,由于没有系统的方法指导,复杂分子的合成对科学家来说仍然是一个挑战。例如,合成维生素B12是化学有机合成领域的一项重大成就,但是其合成花费100多名化学家近12年的共同努力。随 着 结构复杂性的增加,识别可用的起始原料需要在一个随反应步骤数呈指数增长的反应空间中进行搜索。Szymkuc等估计,当反应步骤数从15增加到30时,反应搜索空间的大小将从10 30 增加到10 50 。巨大的搜索空间使得仅依靠化学家的现有知识进行逆合成分析变得不可行,因此,科学家们一直在尝试使用计算方法来辅助逆合成分析。

  20世纪60年代,Corey首次提出了逆合成分析,并利用这一理论合成了大量复杂的天然化合物,包括美坦素、青霉素、三环酸;同时开发了第一个有机化学模拟合成程序,帮助设计有机合成路线,开启了计算机辅助合成规划的新时代。在之后的30年中,化学、生物和计算机科学家对开发计算机辅助逆合成分析表现出极大的热情,但几乎没有取得突破,因为受当时算法、算力和数据的制约,当时更多的科学家认为这是“不可能完成的任务”。然而,在20世纪90年代后,随着新的高效算法和精心设计的数据库的发展,以及更多化学信息学工具的出现,科学家们进行计算机辅助逆合成分析的热情被再次点燃。SMILES表征方式(简化分子线性输入规范)被开发出来。SYNCHEM和LHASA都该领域的开创性成果。随后,计算机辅助逆合成分析发展了基于模板和不基于模板的两类主要方法。基于模板的方法依赖于人工编码规则,为机器找到合成路径提供了一种方法,但其灵活性和可扩展性较差;并且基于规则的方法很难覆盖整个有机反应空间,可能给出错误的结果(例如,算法会产生一种从不存在的化合物,或者忘记保护具有高反应性的基团)。相比之下,不基于模板的方法可以提取隐藏在数据中的知识和规则,并在新数据上自动规划合成路线;但由于前期受到数据和计算资源的限制,不基于模板的方法并没有表现出良好的性能。在过去的10年中,结合深度学习技术的数据驱动模型在各种应用中展示出了专家级别的性能,如语音识别、计算机视觉、自然语言处理和自动驾驶。因此,随着计算能力的大幅提高,机器学习的快速进步,以及诸如Reaxys、Scifinder和USPTO数据集等化学反应数据库的建立,不基于模板的方法性能取得了显著进步。此外,研究证明,基于机器学习的方法可以理解和设计复杂的化学反应。因此,使用机器学习进行逆合成分析是一种非常有前景的方法。结合基于模板和不基于模板两种方法的优势,最近研究人员又提出了一种基于半模板的方法,其通过模仿化学家进行逆合成分析的方式,将目标分子拆分为合成子(不完整的分子),再将合成子补全为反应物,具有良好的解释性、可扩展性和预测性能。

  Lee等将逆合成预测建模为从一组候选的可获得的分子中选择反应物的问题,通过设计一个高效的反应物选择框架,根据图神经网络计算的选择分数来枚举所有候选分子。Seo等提出了一个图截断注意力模型,通过将目标分子的图拓扑信息插入到序列到序列(seq2seq)的模型,利用序列和图的表示来提高逆合成预测的精度。模型利用目标产物分子的邻接矩阵掩盖编码器中的自注意层,并利用原子映射将新的训练损失应用到解码器中的交叉注意层,从而使模型更加关注化学反应中心的信息。

  基于序列的方法通常使用SMILES字符串来表示反应物和生成物。但是由于SMILES语法规则的复杂性,导致基于序列的逆合成预测模型在学习复杂的化学反应映射时还需要学习复杂的SMILES语法规则。为使模型从复杂的SMILES语法 规则中解脱出来, 研究人员尝试了不同的生成物和反应物的表征方式。Vipul等在原有的基于字符级别的SMILES表示方式上,提出了一种基于语法树的SMILES表示方式。信息论分析表明,基于语法树的SMILES表示方式相对于基于字符的SMILES表示方式,具有更高的信息容量,也更适合于机器学习任务。Ucak等通过构建一个具有MACCS键的固定长度词汇表的抽象语言来表示反应物和生成物,通过这种表示方法可以解决由于SMILES复杂的语法规则导致的模型预测结果错误。在此基础上,他们又提出了一种原子环境表征方式来表示反应物和产物。原子环境是基于原子拓扑的,具有化学意义的化学子结构表示方法。通过这种方式可以模仿化学推理,并通过学习与化学反应相关的原子环境的变化来预测反应物。Zhong等认 为,SMILES表示方式忽略了化学反应的特性,即在化学反应中,从反应物到生成物的分子图拓扑在很大程度上没有改变, 如果直接应用SMILES则会忽略这种信息,导致次优的性能。因此,他们提出了根对齐的SMILES (R-SMILES) 表示方法,指定了产物和反应物SMILES之间紧密对齐的一对一映射,以更有效地进行逆合成预测。由于严格的一对一映射,使计算模型在很大程度上从SMILES复杂语法的学习中解脱出来,专注于对化学反应知识的学习。除了一些表征方式上的改进,为了解决解码器生成的反应物分子不符合SMILES语法规则的问题,Zheng等开发了一个自校正逆合成预测器。通过将逆合成模型与基于神经网络的语法校正器耦合,实现了更高的预测准确率。

  由于Transformer的全局注意力机制能够捕获长程依赖信息,以及良好的并行化能力,自提出以来就在一些领域取得了巨大成功,如机器翻译、文本生成、语义分析和药物发现等。在基于序列的逆合成预测模型中,大多数模型也同样基于Transformer架构。Lee等开发了一个基于注意力的机器翻译模型——分子Transformer。通过从同一数据集学习来处理正向反应预测和逆合成预测。Kim等利用循环一致性检验、参数共享和潜变量机制,开发了双向绑定Transformer模型,提高了逆合成预测的准确性和多样性,降低了语法错误。Philippe等开发了一个多头注意力分子Transformer模型, 通过推断数据集中反应物和产物的化学反应中心是否存在相关性来进行预测。该模型既可以进行正向反应预测,即给定反应物预测产物;也可以进行逆合成预测,即给定产物预测反应物。Zhang等将迁移学 习与Transformer模型相结合,对Baeyer-Villiger反应的结果进行预测,该反应是一种代表性的小数据集反应。结果表明,引入迁移学习策略后,Transformer模型对小样本数据集的预测精度显著提高。Philippe等通过Transformer神经网络学习产物和反应物之间的原子映射信息, 使用Transformer注意力权重,构建了一个反应映射器。实验表明,即使对于具有非平凡原子映射的复杂化学反应,该方法也能给出准确映射。Pavel等使用Transformer模型进行逆合成预 测, 并研究了不同训练方法对Transformer模型预测性能的影响。发现使用平均学习率权重的快照集成学习效果最好, 同时温度系数对于解码器也有很大的影 响。Igor等利用SMILES表示方法和Transformer模型架构, 研究了不同数据增强方法对逆合成反应预测的影响。研究表明,数据增强消除了神经网络数据记忆的影响,提高了神经网络的预测性能。SMILES随机增强能够通过添加更多的数据,以及在网络中添加更多的随机性和自由度来稳定模型的学习,能够更好地提高模型性能。不同于现在流行的Transformer模型,Liu等开发了一个由两个循环神经网络组成的编码器 - 解码器架构的逆合成模型,该模型在逆合成领域是少有的不基于Transformer架构的序列方法,其预测性能比基于Transformer架构的模型稍差。

  由于Transformer强大的注意力机制,seq2seq方法的编码器-解码器架构,以及各种基于序列的数据增强方法,使基于序列的方法往往能够比基于图的方法取得更好的预测性能。此外,自注意力机制也能很好地捕捉到化学反应中的原子映射,因此基于序列的方法具有一定可解释性。但是,此方法丢失了分子图的拓扑信息,且复杂的SMILES语法规则增加了模型学习的难度。此外,基于序列的模型往往比基于图的模型,需要更多的参数和更长的训练时间。

  为了对原子表示学习进行更合理的化学约束,以获得更好的性能,Mao等 提出了一种图增强Transformer(GET)模型,它同时采用了分子的序列信息和图信息;此外提出了四种不同的GET设计,将SMILES表示与从图神经网络中学习到的原子嵌入相融合,更好地进行逆合成预测。Wan等基于局部注意力头提出了一种基于Transformer的逆合成预测模型。该模型可以对分子序列和分子图进行联合编码,并在局部反应区域和全局反应上下文之间有效地交换信息,且具有良好的可解释性。Sun等提出了一个框架,将基于序列和图的方法统一为基于不同能量函数的计算模型,建立并揭示了基于序列和基于图的模型之间的联系和差异。

  基于模板的方法通过利用反应模板来获得较高的准确性,然而模板的使用带来了一些缺点。例如,计算成本高,规则覆盖不完整,降低了可扩展性,模板集的建立过程费时费力等。而不基于模板的方法正好弥补了基于模板的方法缺点,扩展性好,不需要手工建立模板集。但是不基于模板的方法的预测准确性不如基于模板的方法。因此,结合这两种方法的优点,使建立的模型既有好的扩展性,又能够提高预测准确率,最近研究人员又提出了一种新的基于半模板的方法来进行逆合成预测。

  基于半模板的不同方法使用不同的策略进行反应中心识别和合成子补全。Shi等通过将目标分子图转换为一组反应物分子图,通过识别反应中心将目标分子图拆分为一组合成子,然后通过变分图转换框架将合成子转换为最终的反应物分子图。Yan等提出的半模板算法RetroXpert,首先通过图神经网络识别目标分子内的潜在反应中心并生成合成子;然后通过反应物生成模型根据得到的合成子预测相关反应物。Vignesh等利用分子的图拓扑在化学反应过程中基本不变的思想,开发了一种基于图的半模板模型。该模型首先预测一组图编辑,将目标分子转化为合成子;然后,该模型学习通过附加相关的离去基团将合成子扩展为完整的分子。Wang等使用两个Transformer模型分别完成将目标分子分解为合成子和合成子补全这两个过程。Gao等将一个完整模板分解为几个半模板,并将它们嵌入到不基于模板的框架中来进行逆合成预测。

  基于半模板的方法通过模型自动地从训练数据集中提取模板,并通过提取到的模板将目标分子转换为合成子,再通过合成子补全得到反应物,既省去了复杂的人工收集编写模板集的过程,又符合化学家进行逆合成的思想,具有一定的可解释性。但是基于半模板的方法不是端到端的方法,反应中心识别和合成子补全是两个独立的过程,如果第一步反应中心识别出现错误,那么整个预测结果就不可能正确,且没办法通过第二步合成子补全来弥补第一步的错误。

  虽然多步逆合成路径规划是一个复杂的过程,任何单步逆合成预测的失败都可能破坏整个合成过程,但是 Barbara 等证明了计算机自动综合规划逆合成路线是可能的。虽然单步逆合成预测方法已经有很大改进,但为了完善整个逆合成路线设计,满足目标分子高复杂性的实际要求,还需要提高多步逆合成路线规划的性能。多步逆合成包括单步逆合成预测模块和通过递归应用单步逆合成预测模块,来搜索最优逆合成路径的规划策略。下面重点介绍逆合成路径的规划策略。

  MCTS是一种通过逐步改进统计树的决策过程,寻找最优决策并引导逆合成路线走向特定搜索方向的方法。搜索树的自动增长需要多次迭代,迭代次数越多,MCTS 就越接近完美的解决方案。此外,多步逆合成中每步可供选择的路径组合空间是天文数字,但MCTS的策略能够有效地减少搜索空间,找到当前树中最重要的节点Marwin等使用MCTS和符号人工智能来设计逆合成路线。通过将MCTS与指导搜索的扩展策略网络,以及预先选择逆合成步骤的过滤网络相结合设计多步逆合成路线,比基于启发式的传统计算机辅助搜索方法快30倍。Lin等使用带有启发式评分函数的MCTS,构建了一个完全数据驱动的端到端逆合成路线规划系统来规划逆合成路径。

  随着深度学习在各领域的蓬勃发展,科学家们也尝试使用深度学习的方法来解决逆合成路径规划问题。Mo等引入了一种数据驱动的方法,利用动态树结构长短期记忆 (tree-LSTM)模型来评估逆合成路径。经过训练的tree-LSTM模型学会将路径级别的信息编码为一个具有代表性的隐向量,促进相似路径的聚类,以帮助解释计算机程序生成多样化的合成路径。Chen等提出了一种基于神经网络的类似A*算法 的逆合成路径搜索算法Retro*,能够有效地寻找高质量的逆合成路径。它将搜索过程维护为一棵与或树,并使用非策略数据学习搜索偏差;然后在神经网络的指导下,在新的规划过程中高效地执行最佳优先搜索。Kim等直接训练深度神经网络生成理想的逆合成反应路径。训练过程是一个自我提升的过程,模型通过不断模仿自己已经成功发现的逆合成路径来提高自己的性能。此外,他们还提出了一种基于正向反应模型的增强方案,实验结果表明该方案显著提高了逆合成问题的求解成功率。Coley等结合人工智能驱动的合成路径规划和机器人控制的实验平台,设计了一个逆合成路线规划系统。合成路线通过归纳数百万个已发表,并在计算机中经过验证的化学反应,提高规划的成功率。

  强化学习又称为评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体在与环境的交互过程中通过学习策略,以达成回报最大化或实现特定目标的问题。如果将逆合成规划问题描述为一个单人游戏,在游戏中化学家 ( 或计算机程序 ) 的获胜目标是通过一系列关于进行哪种反应的选择,从目标分子推断出反应物,那么逆合成路径规划问题就可以使用强化学习的方法进行解决。John等使用强化学习,根据用户定义的成本度量在每个单步逆合成预测步骤中做出 ( 接近 ) 最优反应的选择。Wang等将MCTS与通过强化学习训练的价值网络结合,提高了在固定搜索时间内找到有效合成路径的成功率。

【返回列表】

搜索您想要找的内容!

首页 | 关于爱游戏体育 | 爱游戏体育 | 滑雪门票 | 爱游戏滑雪常识 | 人才招聘 | 在线留言 | 联系爱游戏体育 | 滑雪路线 | 精彩图片 |

地址:广东省广州市 电话:020-66889888 手机:13988889999

Copyright © 2018-2024 爱游戏体育官方网站 版权所有 非商用版本 ICP备案编号: