当前位置:网站首页>微软 | 通过对比学习预训练的多语言分子表征学习
微软 | 通过对比学习预训练的多语言分子表征学习
2022-04-21 21:14:00 【智源社区】
【论文标题】Multilingual Molecular Representation Learning via Contrastive Pre-training
【作者团队】Zhihui Guo, Pramod Sharma, Andy Martinez, Liang Du, Robin Abraham
【发表时间】2022/04/18
【机 构】微软
【论文链接】https://arxiv.org/pdf/2109.08830v3.pdf
【代码链接】https://github.com/WGLab/bioformer/
分子表征学习在化学信息学中起着至关重要的作用。最近,基于语言模型的方法作为传统的专家设计的分子编码特征的替代方法得到了普及。然而,这些方法只利用单一的分子语言进行表征学习。由于一个给定的分子可以用不同的语言描述,如简化分子行输入系统(SMILES)、国际纯粹与应用化学联合会(IUPAC)和国际纯粹与应用化学联合会国际化学标识符(InChI),本文提出了一种多语言分子嵌入生成方法,称为MM-Deacon(通过对比学习的多语言分子领域嵌入分析)。MM-Deacon使用SMILES和IUPAC作为两种不同的语言对大规模分子进行预训练。本文在MoleculeNet基准的七个分子特性预测任务、零样本跨语言检索和药物相互作用预测任务上评估了本文方法的稳健性。

上图展示了MM-Deacon预训练的示意图。SMILES和IUPAC由独立的Transformer编码。来自编码器的嵌入是全局平均的,并投射到一个联合的化学嵌入空间,其中对比目标被用来最大化来自同一分子的SMILES和IUPAC的相互信息,并区分来自不同分子的SMILES和IUPAC。

上图展示了下游任务。
(a) MM-Deacon的微调。一个特定任务的分类/回归头被附加到预训练的MMDeacon上,并在下游任务数据集上一起优化。(b) MM-Deacon指纹。预训练的MMDeacon被冻结。一个输入分子被嵌入为MM-Deacon指纹,用于零样本探索(如聚类分析和相似性检索),并在一个额外分类器的帮助下完成监督任务。

上图展示了从MoleculeNet基准中包括的每个数据集的平均值和std的结果。表格的第一部分是从MoleculeNet论文中导入的结果。第二部分列出了前沿的分子预训练和微调方法以及MM-Deacon的结果。MLM-CLS是使用与MM-Deacon SMILES分支相同的Transformer设置的模型,在10M分子上用MLM损失进行预训练,并通过[CLS]token进行微调,下游设置与MM-Deacon相同。最佳结果用粗体表示。
创新点
在这项研究中,本文提出了一种新的多语言分子表征学习方法,该方法将来自SMILES-IUPAC联合训练的相互信息与自我监督的对比损失相结合。本文对本文的方法进行了评估,包括分子特性预测、零样本跨语言检索和DDI预测。本文的结果表明,自监督的多语言对比学习框架为化学领域的探索和药物发现提供了巨大的可能性。在未来的工作中,本文计划将MM-Deacon预训练扩展到更大的数据集规模,并研究MM-Deacon对其他类型分子语言的适用性。
版权声明
本文为[智源社区]所创,转载请带上原文链接,感谢
https://hub.baai.ac.cn/views/16593
边栏推荐
- Those things about SAP - Career - 36 - from the subject of "fixed assets liquidation"
- 基于OpenStack的云计算平台搭建
- Module-3:外包学生管理系统架构设计文档
- Tips for using win10 close user tips before software installation
- uart学习
- Others - Introduction to Devops
- String. Length () and string getBytes(). Length difference
- 反射111
- 使用 Helm 部署 Wikijs
- 【常用英文单词】
猜你喜欢

TGIP-CN 038 报名|深度解析 Apache Pulsar 源码阅读正确姿势(一)

Principal component analysis R language implementation
![[embedded] about IAP + XMODEM receiving bin file from outside to upgrade the chip](/img/05/c69e3701bf80f03c8ec35c033944b1.png)
[embedded] about IAP + XMODEM receiving bin file from outside to upgrade the chip

为何PostgreSQL即将超越SQL Server?

135、137、138、139和445端口解释及关闭方法

其它——MyCat实现分库分表

档案管理系统操作说明

学生管理系统的架构文档

Tips for using win10 close user tips before software installation

公文管理系统案例展示
随机推荐
Qt QMenu简介
Pretreatment problem
主成分分析R语言实现
信息可视化大屏展板(附下载连接)
Live555学习
档案管理系统操作说明
其它——分库分表之终极设计方案
工作流报表设置 定制开发
Why is PostgreSQL about to surpass SQL Server?
Ubuntu安装MySQL8
Module-3: Outsourcing student management system architecture design document
Matlab-句柄图形
win10使用技巧之关闭软件安装前的用户提示
通达OA与第三方APP对接
UART learning
动态连接数据源与事务回滚
What are the material requirements of the electric slip ring
通道满了 继续往里面发 会如何?
[报错]Content-Length vs downloaded bytes
预处理问题