综述论文:人工智能在药物研发三大环节中的应用

人工智能
后台-插件-广告管理-内容页头部广告(手机)
综述论文:人工智能在药物研发三大环节中的应用

编辑/文龙

一种药物的研发成本十分高昂,但能够成功整合到市场上的药物却少之又少。这之间的过程受到多方面因素的影响,包括临床试验的提前终止、早期药物开发过程中出现的问题或是监管因素。但是,AI或许能为我们解决一些问题,以加速药物研发的整个流程、节省大量成本。

药物开发中的AI旨在有效分析大量数据,并基于这些学习到的数据来规划提出更好的解决方案。使用AI作为替代方法可以解决包括但不限于高通量筛选(HTS)无法产生的结果、无法配置可靠的分析方法、临床前研究中的毒性、脱靶效应以及无法获得良好的药代动力学特征等问题。

综述论文:人工智能在药物研发三大环节中的应用

药物开发流程包括药物发现(靶标识别和药物前导发现)、临床前开发(在体外和体内阶段研究药物的功效并评估药物的毒性)以及临床阶段(研究药物在人体内的安全性)。本文将介绍目前为止AI是如何在上述不同阶段中应用的。

靶标识别

AI很早就被整合到药物发现中,以识别潜在的新治疗靶标或产生新的前导分子。第一个应用是结构分析(SSA),这是一种自动分析生物筛选数据的工具,可以得出每个亚结构片段独立的权重,以评估包含片段的分子的估计活性。

随着可用数据量的增加,药物设计的障碍正在遍及多个目标相关的巨大药化学数据空间。Berg Health就在其AI平台bAIcis中利用贝叶斯方法进行靶标识别。贝叶斯方法涉及评估由任何两个或多个原因引起的事件的可能性,提供关于假设如何随新证据而变化的数学规则。

在目标识别和药物设计中,研究人员对深度学习进行了广泛的探索。与机器学习相比,深度学习有着许多优越性:处理和分析大规模数据的能力,挖掘输入和输出特征之间的关系,神经网络结构的灵活性以及特征的自动提取来自原始数据表示形式,没有任何预定义的结构描述符号。

DeepMind利用深度神经网络从蛋白质的一级序列来预测蛋白质的特性。该系统被命名为AlphaFold,对于预测靶标的3D结构十分有用,让从头设计针对这些靶标的抑制剂成为可能。利用AlphaFold,DeepMind预测了与SARS-CoV-2.50(Covid-19病毒)相关的蛋白质结构,这些结构为鉴定潜在疗法提供了基础,从而加速了药物发现过程。

药物发现

在药物设计领域,Recursion Pharmaceuticals使用实验数据、自动化和机器学习来帮助促进药物化合物设计。该系统可以自动在细胞疾病模型中筛选成千上万种化合物,并用Phenoprints自动生成细胞显微成像的高通量筛选(HTS),再利用机器学习识别最有希望的药物化合物。

Atomwise的平台AtomNet利用深度学习算法,通过整合靶标的结构和配体信息预测分子的结合亲和力。为了最小化偏差并提高现有方法的顽健性,诸如图卷积网络(GCN)之类的替代方法现已被广泛应用。GCN是CNN的扩展,它由来自相邻节点的信息聚合来驱动,邻域信息以图结构表示并被投影到相似或不同的空间上。因此,GCN能够编码分子图的结构信息。一种被称为消息传递神经网络的通用网络框架在GCN的基础上被提出,研究证明了该网络的高预测能力,还强调了将模型有效地扩展到更大分子的重要性。

从头进行分子设计因其巨大的搜索空间而极具挑战性,尤其是对于没有大量先验数据和知识的新型靶标。生成对抗网络(GAN)和变分自编码器(VAE)在帮助从头分子设计中起到重要作用。这些模型根据实际示例进行训练,可以学会在定义的数据集之外生成相似却新颖的合成副本。

在计算机医学中,科研人员充分利用了GAN的功能,并结合强化学习产生了生成张量强化学习(GENTRL)技术。GAN使用生成器和鉴别器训练模型,这些组件在其中竞争。生成器生成人工数据,而鉴别器则将其与实际数据区分开。重复此过程,直到判别器无法从真实数据中识别出虚假的情况为止。整合强化学习可以主动探索和优化超出数据集中定义的样本的空间。

Bayer将GAN与转录组数据相结合,并展示了其在靶基因敲除的基因表达特征基础上提出击打分子的能力。该方法基于敲除的蛋白质将产生类似于相同靶标的药理学抑制作用的基因表达特征这样一种概念。该平台可应用于任何靶标,而不需要与靶标或其活性分子相关的背景信息。

生物标记发现与药物重定位

鉴定出强大的生物标记可有效鉴定潜在的应答者,从而提高临床试验的成功率。无论是篮式研究还是伞式研究均旨在将靶向疗法的应用范围扩大到潜在患者。但是识别合适的生物标记的搜索空间很大,需要大量的数据。GNS平台可以通过利用贝叶斯方法筛选驱动疾病格局的机制识别潜在的生物标记。

药物毒性的预测可以帮助科研团队节省大批临床实验验证。与诸如SVM和随机森林等算法相比,由代表不同毒物基团深度神经网络组成的DeepTox被证明在毒性预测方面更具优势。这项研究强调了具有所有深层神经网络算法参数的单个值集适用于药物发现中的大多数QSAR数据集,并且无需针对单个数据集进行优化。

由于设计新分子所具有的挑战,人们对药物重定位产生了兴趣。当这些药物具有已知的作用机理、药代动力学以及毒性数据时,这个方案显得尤为有用,研发团队可以通过药物再利用提早3-12年的批准时间以及降低50–60%的成本。

Cyclica就通过其Ligand Express平台进行药物重新定位。该平台可以通过识别靶标之间的相互作用提供对小分子配体的多重药理学见解,可以针对结构化的蛋白质组筛选配体,以及可以预测配体蛋白的相互作用。Healx以罕见疾病为研究对象将高质量结构化数据和公共非结构化数据聚集在一起,使用NLP处理并对其进行药物再利用分析,筛选出潜在的生物标记和组合疗法。这些研究都证明了AI的应用和转化能力,可从现有药物库中确定应对未来疾病爆发的最佳疗法。

尽管AI一直是大数据分析的代名词,但利用小数据生成预测模型也十分有用。使用较小规模的、体内外以及离体实验得到的数据集,Exscientia平台通过对现有的可用药物回归分析来确定最佳药物组合。最近,该平台还重新定位了抗病毒药物以抑制SARS-CoV-2。

AI的问题与应对措施

随着AI在药物开发中的广泛使用,需要考虑存在的一些问题。首先是算法的透明性,平台类似于黑匣子使得难以充分解释结果的推导方式。因此在实施之前,对通过AI获得的结果进行补充实验和后续实验来验证非常重要。

此外,高预测有效性的模型是提高药物开发效率的关键。可以将各平台的大型数据集集成在一起,以用于相关算法的训练和验证。这些开源数据集将有助于在药物发现中提高AI预测的准确性。

论文地址:https://www.deepdyve.com/lp/sage/artificial-intelligence-effecting-a-paradigm-shift-in-drug-development-pfYlpklDRo

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。