Translation between Molecules and Natural Language
目录
2. Text-Based de Novo Molecule Generation
总结
作者提出了MolT5,一个自监督学习框架,用于对大量未标记的自然语言文本和分子字符串的预训练模型。通过将分子与自然语言连接起来,可以在更高的语义层面上发现和理解分子。MolT5能够生成输出,包括分子和自然语言,在许多情况下,这些输出都是高质量的,并且与输入模式匹配的。在分子生成方面,最佳模型能够达到30%的精确匹配测试精度。
一、Introduction
想象一下,医生用几句话描述一种治疗病人的专门药物,AI就能得到所需药物的确切结构。这听起来像是科幻小说,但随着自然语言处理和分子生物学交叉领域的进展,未来很有可能成为现实。近来,人们对使用深度学习来改进计算机药物设计产生了相当大的兴趣。然而,其中大多数实验仍然只关注分子及其低级特性,例如 logP,辛醇 / 水分配系数等。我们很容易通过自然语言对分子设计进行高级别的控制。
在这个工作中,作者提出了两个新的任务:分子字幕和基于文本的de nove分子生成,以实现分子和自然语言之间的翻译。在分子字幕任务中,取一个分子(SMILES)并生成描述它的标题(图2)。在基于文本的de nove分子生成中,任务是创建与给定的自然语言描述相匹配的分子(图1)。
在多模态模型领域,自然语言处理和计算机视觉 (V+L) 的交叉已被广泛研究。本文提出的分子语言任务与V+L任务有一些相似之处,但有以下几个困难。对于困难1和2,作者提出了MolT5,一个在大量未标记的自然语言文本和分子字符串上预训练框架。然后在有限的带标签数据集上进行微调。为了充分评估模型,作者提出了一个名为Text2Mol的新指标。Text2Mol 重新调整了检索模型的用途,用来评估真实分子 / 描述和生成的描述 / 分子之间的相似性。
- 为分子生成描述需要大量的领域专业知识。
- 大量的分子-描述对难以获得。
- 同一个分子可以具有许多功能,需要多种不同的描述方式。
- 现有评估指标(如 BLEU)无法充分评估此任务。
作者主要贡献总结如下:
提出了两个新任务:分子字幕(给定的分子生成描述)和基于文本的de nove分子生成。(生成与给定的文本描述相匹配的分子)
为新任务考虑了多种评估指标,并提出了基于Text2Mol的跨模态检索相似度指标。
提出了MolT5:一种自监督学习模型,用于SMILES和自然语言文本联合训练,然后在跨模态任务中对该模型进行微调。
二、Tasks
1. Molecule Captioning
分子字幕与图像字幕非常相似。图2比较了用于训练的CheBI20数据集中的分子字幕示例与COCO中的图像字幕示例。但是与图像领域不同,分子通常用SMILES字符串表示,SMILES可以解释为分子的语言。因此,这个任务可以被认为是一个翻译任务,并且sequence2sequence的模型可以作为优秀的基线。现有的图像字幕不能很容易地应用于这一任务,因为分子是离散的图,而图像是连续的向量,相反,现有的工作更适用于将图像转换为SMILES等任务。
2. Text-Based de Novo Molecule Generation
此任务的目标是训练一个可以生成各种新分子的模型。作者建议根据所需分子的自然语言描述生成分子——这本质上是分子字幕任务交换输入和输出。图1显示了该任务的一个示例。
三、MolT5
数据集:
- 预训练阶段:自然语言文本(C4,700GB),和SMILES(Chemforme,1亿)
- 微调阶段:分子描述对(ChEBI-20,33,010)
首先使用 T5.1.1(T5 的改进版本)的公共检查点之一初始化encoder-decoder Transformer 模型。之后,使用「replace corrupted spans」目标对模型进行预训练。具体而言,在每个预训练 step 中,该研究都会采样一个包含自然语言序列和 SMILES 序列的 minibatch。对于每个序列来说,研究者将随机选择序列中的一些单词进行修改。每个连续 span 中的 corrupted token 都被一个 sentinel token 替换(如图 3 中的 [X] 和 [Y] 所示)。接下来的任务是预测 dropped-out span。
四、Experiments and Results
表1显示了分子字幕测试结果。作者发现,大型预训练模型(T5或MolT5)在生成分子描述方面比Transformer和RNN要好得多。RNN比Transformer更能从分子中提取相关属性,但它通常产生不符合语法的输出。而Transformer能产生符合语法的输出,但它往往重复相同的属性。作者推测原因在于ChEBI-20数据集太小,如果没有大规模的自然语言预训练,就无法有效地训练Transformer。图5展示了几个模型输出的示例。
在分子字幕任务中,我们看到RNN在分子生成方面的优于Transformer模型。然而,从表2中可以看出Transformer具有很高的有效性。作者推测Transformer限制自己为非常可靠的输出。在字幕任务中,经过预训练的大型模型比RNN和Transformer表现得更好。默认的T5只对文本数据进行了预训练,就能够生成比RNN更真实的分子,而且通常是有效的。随着语言模型规模的扩大,这种趋势也会持续l。尽管如此,MolT5的预训练仍然略微改善了一些分子生成的结果,特别是在有效性方面获得了很大的提高。
五、Conclusions and Future Work
作者提出了MolT5,该模型同时训练了自然语言文本和SMILES。同时提出了两个新的任务:分子字幕和基于文本的de nove分子生成。结果表明MolT5能够获得较高的Text2Mol和BLEU分数。这些新任务是生物信息学和自然语言处理领域一个令人兴奋的新方向。它们将允许没有机器学习知识的用户根据他们想要的方式生成分子列表。极大地提高当前分子生成技术的靶向性,并将这些工具扩展到非专家人员。