前言
最近研究到瓶颈了,怎么优化都提升不了,遂开始看点最新的论文。
DPFunc
2025.1.2 Nature Communication 中南大学
github仓库:CSUBioGroup/DPFunc
数据集:PDB(被认为test与train的序列相似度较高,在review中被指出)、CAFA3(在论文中说的是large_scale dataset)
使用蛋白质序列、结构、结构域数据
模型结构:
非常清晰的模型结构,序列特征用的ESM-1b,结构特征提取用的GCN,结构域用的Embedding,最后使用MLP分类
建图依然是接触图
融合的交叉注意力是值得关注的地方,这里用的domain作为Q,序列+结构作为K、V,主观感觉十分合理
另一个值得关注的地方是关键残基的预测算法:(论文中还有几个蛋白质的实例分析,非常细节)
简单来说就是,先按照每个残基位置的注意力得分进行排序,然后根据下图的方法选择。
结果:
PDB数据集:(虽然总标签数少,但结果也相当不错了)
CAFA3数据集:(结果有所下降,毕竟标签数有28000+个)
ProtCLIP
2024.12.28 还在arxiv上AAAI 浙江大学
论文地址:[2412.20014] ProtCLIP: Function-Informed Protein Multi-Modal Learning
github仓库:diaoshaoyou/ProtCLIP
该模型是利用蛋白质序列和蛋白质相关的描述文本进行对比学习预训练,然后再做下游任务预测,在22个下游任务中都取得了sota,相当nb
使用的数据是自己整理的两个数据集,ProtAnno-S和ProtAnno-D。
其中S数据集是量比较少,数据置信度高,D数据集是数据密集,但置信度稍低于S
模型结构:
序列特征提取用的ESM2-650M,蛋白质文本描述特征提取使用的PubMed-BERT
论文中定义了一个蛋白质簇u的Property属性P,C表示置信度、R表示覆盖率(文中的这个覆盖率定义还不是很清晰,看起来就是某个簇在总集中的占比吧)、N表示簇的大小
在选取训练数据时,根据这个P值作为概率分布来进行数据采样
预训练有四个任务loss,GC、MLM、PDA和BSR
GC就是普通的CLIP对比学习损失,MLM就是对文本mask重建的损失。
PDA(Property-Grouped Dynamic Segment Alignment)
直译就是根据文本属性(比如蛋白质名、功能、用途之类的描述)分组,然后动态区间对齐。按照论文的意思,就是蛋白质的每个氨基酸和文本中的原型(大概就是聚类的文本含义)求相似度,过一个阈值,把每个原型对应的相似度和蛋白质氨基酸求点积,得到每个原型的得分,最后再来对齐。
大致公式如下:(其实和对比学习损失差不多)
这里的公式似乎有些问题,不是求集合,而是求点积(按照示例图的含义)
BSR(Biotext-guided Static Segment Reconstruction)
直译就是基于生物文本引导的静态区间重建
它首先在蛋白质序列上进行区间采样,每次选一个长度为L(在5~10之间均匀分布)的区间(与之前的区间不重叠),直到采样区间总长度达到蛋白质序列总长度的15%。
然后把这些采样的区间mask之后,用生物文本的特征来重建这些区间,使用的交叉注意力+MLP+GELU,最后重建结果用以下的损失函数:
其实就是对每个mask位置的预测做一个交叉熵损失,求一个平均值。
下游任务表现
各个下游任务的模型结构:
蛋白质功能预测
相当恐怖的结果,在BP上能够达到0.567的AUPR,但在CC上却没有特别高,之前的论文在CC的Fmax一般都能上0.6(例如Domain-PFP),可能是下游模型比较简单,所以结果并不高。
另外一个值得注意的点,论文并没有明确指出使用的GO数据集,因为其本身的训练数据也很大,不好说是否训练集是否包含测试信息。
前SOTA ProtST论文地址2301.12040,用的方法和数据也是和这篇论文类似的,具有可比性。
突变效应预测
既然都看了这么多了,就不拘泥于蛋白质功能预测这一个任务指标,看看其他任务的表现
突变效应预测属于回归任务,使用的数据集是two vs many和human(与FLIP论文相同)
使用的是5个landscape的Spearman相关系数来衡量预测结果,分别是:
β-lactamase酶相关的特性、腺病毒相关特性、热力学特性、荧光性、稳定性
根据图例,应该是找一个位点,突变成不同的氨基酸,然后预测各个突变的fitness值
不过确实没看懂这个预测的是什么东西,怎么来的数据,论文也没细讲(我也没怎么了解过,之后多看点这方面的论文吧)
跨模态转移
这个就相对好懂一些,也是比较类似对比学习的相似性计算,不过这个衡量标准是MRR(推荐系统的常用指标)(这个图的match就是MRR的计算)。
(右图来自poe)
语义相似性预测
这个是检测biotext-encoder性能的实验
通过biotext-encoder对GO标签计算embedding,然后计算他们之间的曼哈顿距离
然后和GO标签之间的林相似度作比较,计算spearman系数(没想到之前IC值计算里面的困惑居然在这里解决了)
(图来自poe)
由于出现了太多次spearman系数,还是复习一下:
(图来自poe)
在这里是用来计算预测值和ground truth值的相关性的
计算两个相似度矩阵的spearman相关系数流程其实也是一样的,求得每个矩阵位置的预测值、真实值各自的大小排名,然后把每个位置的排名差值平方加起来,最后归一化。
至于归一化系数为什么是6/(n(n^2-1))
考虑最坏情况,两个序列完全相反,1~n对应n~1,Σdi^2则是Σ(i-(n-i+1))^2 (i -> 1~n)
=Σ(n-2i+1)^2
=2n(n+1)(2n+1)/3−(n^3+2n^2+n) (这里跳过了一大堆运算化简)
=(4n^3+6n^2+2n-3n^3-6n^2-3n)/3 = (n^3-n)/3 = n*(n^2-1)/3
Σdi^2最大取值就是上述式子,所以为了把spearman系数转换到[-1,1]区间中,我们用公式1-6/(n(n^2-1))*Σdi^2进行了归一化和转换,1表示正相关性,-1表示负相关性
PPI预测
这个就是连接预测任务了,没什么好说的
用的数据集是SHS27K、SHS148K、STRING,其实提升并不大
消融实验
这里的下游指标就只用了EC标签分类和Prot2MF模态跨转移
消融的目标是预训练数据集和预训练任务,可以看到PDA任务影响很大,ProtAnno-S(高质量数据集)的影响也较大。
有点奇怪的是这里的EC分类效果比前面对比实验的效果低了许多
最后还对loss权重进行了消融,没想到loss权重对训练效果的影响这么大
个人总结
这篇论文确实很好,可惜代码还没有开源,只有一个空仓库
用protein-biotext的预训练完成了下游任务的各项提升,尤其对类别众多的bp标签分类任务提升很大,已经跳出了用蛋白质本身信息端到端地预测蛋白质功能的传统方法。
除此之外,各种预训练的任务设计也很巧妙(或许这些方法在多模态学习领域已经见怪不怪了,但是对于我这种只在一个领域研究的来说,确实开拓了我的视野。只能说,不要闭门造车,还得多读、多看、多实践)
缺点就是,64张V100跑了10000个GPU小时,可能很少有实验室有复现的算力资源,而且如此繁杂的数据搜集整理以及下游任务,感觉一个人很难完成吧,应该是一个团队合力做出来的项目。
另外使用的下游蛋白质功能预测的数据集还不知道具体情况,等出了代码看看能不能对比。
本来说简写一点,结果快写成ProtCLIP的专门介绍了
后续有空会继续更新