AI绘画

绘制江湖儿女,绘制世间万物

​进军生物盘算!baidu发布飞桨螺旋桨PaddleHelix

baidu正式发布鉴于飞桨的生物盘算平台 - 螺旋桨 PaddleHelix,进军生物盘算畛域。在本月 20 号召开的 WAVE SUMMIT+2020 深度进修开发者峰会上,baidu正式发布了鉴于飞桨的生物计

baidu正式发布鉴于飞桨的生物盘算平台 – 螺旋桨 PaddleHelix,进军生物盘算畛域。在本月 20 号召开的 WAVE SUMMIT+2020 深度进修开发者峰会上,baidu正式发布了鉴于飞桨的生物盘算平台 – 螺旋桨 PaddleHelix,进军生物盘算畛域。本次发布的螺旋桨 PaddleHelix 生物盘算开源工具集,提供了包括 RNA 二级构造展望、大规模的份子预训练、药物 – 靶点亲和力展望、以及 ADMET 成药性展望等一系列算法和模型,重点满足生物医药,疫苗计划和精确调理方面的 AI 需求。

螺旋桨 PaddleHelix 官网地址:https://www.paddlepaddle.org.cn/paddle/paddlehelix螺旋桨 PaddleHelixGitHub 地址:https://github.com/PaddlePaddle/PaddleHelix生物医药在生物医药畛域,小份子化合物的筛选是非常关键的环节。为了计划出某种疾病的特效药,一方面要找到能够和疾病靶点结合、具有足够活性的小份子药物;另一方面又要保证药物在人体内能够正常发生作用,以及满足一系列额外性质(药物的吸收,分布,代谢,排泄,毒性,统称 ADMET)。

靶卵白(Protein)- 药物配体(Ligand)复合物 (来源:PDBBind-cn.org)传统的药物发现方法包括鉴于靶点构造的药物计划(Structure Based Drug Design, SBDD),鉴于碎片的药物计划(Fragment Based Drug Design, FBDD),老药新用 (Repurposing),以及盘算机虚拟药物计划(Computational-Aided Drug Design, CADD)等等。这些方法均存在依赖体内(in vivo)体外 (in vitro) 实验验证,或者消耗大量盘算资源等问题。因此近年来,鉴于份子的构造和知识来直接展望亲和性的 AI 药物计划(AIDD)逐渐被广泛认可和应用。相比于 CADD,AIDD 展现出了性能上的巨大优势,但其效果同时受到生物盘算畛域数据量的限制。下面的表格(表 1)展示生物盘算一些重要问题的典型数据量,其中绿色的是有标注数据。我们看到,尽管这个畛域有大量的无标注数据(仅有份子构造或者序列,没有性质,或者次级构造),有标注数据却非常少,难以支撑高质量的深度模型。

表 1 在 AI 的其他畛域也存在类似问题。以自然语言处理为例,这个畛域存在 NER,逻辑推断,阅读理解,文本生成等等非常多的子问题。这些问题中的有标注数据量都非常少。但是人类文明中累积了大量的无标注语言文字,这些无标注语料给自然语言处理提供了表示进修(Representation Learning)的机会。在这样的背景下,BERT, ERNIE 等一系列鉴于自监督(Self-Supervised)进修的方法被提出。正是鉴于此,螺旋桨 PaddleHelix 提出鉴于表示进修,多任务进修(Multi-Task Learning, MTL)和元进修(Meta Learning)来降低深度进修在生物盘算中的技术和数据门槛,提拔其效果。包括生物大份子(卵白质,DNA,RNA)或者药物小份子都由原子或者亚基组成,都可以通过序列,图,或者三维构造表示。一种自然的想法,是像在自然语言处理畛域一样,利用无标注数据上的自监督进修来优化份子的表示,再将其应用到下游任务。同时,生物盘算畛域存在大量的零散的任务,以 ADMET 为例,有 30~50 个指标需要考虑。这样的问题中,baidu的生物盘算团队也认为多任务进修和元进修将会发挥重要作用。

螺旋桨 PaddleHelix 复现并内置了业界主流的份子预训练模型(如表 2),以及常用的很多组网工具(CNN, Transformer, LSTM, ResNet,GNN 等等),开发者鉴于预训练模型实现自己的模型只需要短短几行代码。螺旋桨 PaddleHelix 也提供了一些通过了验证的,可以有效应用于下游任务的模型,效果如表 2 所示。

表 2:使用预训练在份子性质展望中带来显著提拔疫苗计划疫苗是通过把病毒或病菌相关的抗原(通常是卵白)预先输入人体,引起人体免疫反应的物质。传统的疫苗需要体外制备抗原卵白,通常效率低,难于快速大规模生产,因此可在人体自身内生产抗原卵白的 mRNA 疫苗受到越来越多的关注。mRNA 疫苗制备速度快、无感染风险,但有一个天然劣势就是 mRNA 非常不稳定,这与 mRNA 的二级构造相关。mRNA 疫苗计划的关键就在于,在不改变翻译出的抗原卵白的前提下,计划 mRNA 序列使其二级构造尽可能更稳定。

mRNA 疫苗示意图(来源:https://translate.bio/)baidu研究院生物盘算团队从 2018 年开始就开展了 RNA 构造展望和序列计划相关研究,并在 2019 年 7 月和 2020 年 7 月分别发表了 LinearFold 和 LinearPartition 算法, 将 RNA 构造展望和分析的速度大大提拔。其中 LinearFold 能够在 27 秒内完成新冠病毒全基因组构造分析,比传统算法速度提拔 120 倍。正是有了之前的积累,baidu研究院在短短两个月就完成了 LinearDesign 的研发, 在 mRNA 疫苗计划上提出了革命性的方法。LinearDesign 能够在 11 分钟内完成新冠 mRNA 疫苗序列的计划,计划序列的稳定性和有效性大大提拔。如图所示,左边是能翻译新冠 S 卵白的野生型 mRNA 二级构造,其中存在大量易断裂的单链环。右边是 LinearDesign 计划序列的构造,断裂点更少,与野生型序列相比稳定性大大提拔。baidu研究院 RNA 构造展望与序列计划相关成果在美国 MIT 科技评论,以及美国消费者新闻与商业频道(CNBC)得到了高度评价,并在 2020 年全球人工智能峰会(AI Summit)上获得了 AI For Good(AI 向善)奖。在螺旋桨 PaddleHelix 中,baidu也完整开源了 LinearRNA 系列算法,目前主要包括 LinearFold 和 LinearPartition,开发者想要调用这些强大的工具仅仅需要一行代码。

新冠 S 卵白的野生型 mRNA 构造和 LinearDesign 构造精确调理精确调理(precision medicine)的概念是指,根据患者特征(patient characteristics)实现准确的疾病诊断和分类,从而进行个性化匹配用药和跟踪治疗。相较于传统的 one-size-fits-all 治疗方案,精确调理致力于通过临床数据、生活环境、特别是份子组学数据精确刻画个体特征,通过挖掘和探究隐含在多模态数据层面的信息进行综合分析和判断,最终提供更好更适配的药物选择和治疗方案从而提拔患者的治疗效果最终提高个体的生存时间和生存质量。

部分图片素材来自网络螺旋桨 PaddleHelix 也将提供鉴于多维数据(临床随访数据、卵白组数据、基因组数据、转录组数据、甲基化组数据、小 RNA 数据、单细胞组数据)的表示进修算法模型、药物响应模型、疾病预后模型等,旨在帮助行业内的调理专家、研究人员和从业者更好的利用组学数据和份子特征更精确的刻画个体表示做组群区分,从而在精确调理的三个维度预防、展望、治疗(Prevention、Prediction、Treatment)构建更好更准确的调理模型,帮助到更多的患者得到最好最适配的治疗。结语在 WAVE SUMMIT+2020 深度进修开发者峰会上,baidu集团副总裁、深度进修技术及应用国家工程实验室副主任,吴甜女士对螺旋桨 PaddleHelix 的发展做了简短的概述,希望未来与合作伙伴共建,逐步形成一套完整的面向行业的生物盘算生态和服务。我们也期待,螺旋桨 PaddleHelix 的发布能带来更多的跨界惊喜,在生物医药、精确调理、疫苗计划等畛域发挥出更大的价值。

Powered by Froala Editor

留下评论

您的电子邮箱地址不会被公开。 必填项已用*标注