2024年回顾:AI大模型在科学研究中的十大应用案例

发布于:2025-03-14 ⋅ 阅读:(25) ⋅ 点赞:(0)

大语言模型 (LLM) 已迅速成为科学研究的变革力量,彻底改变了科学家处理复杂问题、分析数据和产生新见解的方式。本文重点介绍 2024 年在科学研究中十个案例,展示了 LLM 在各个科学领域的多样化和有影响力的应用。  

1. 药物研发

牛津大学与瑞士联邦理工学院(EPFL)、剑桥大学、康奈尔大学的研究团队合作,开发了一种名为 DiffSBDD 的人工智能系统,用于精确设计和优化药物分子的三维结构。

DiffSBDD 的核心创新在于将 SE(3)- 等变扩散模型引入结构导向的药物设计中。该方法将药物设计视为一个三维条件生成问题,通过引入 SE(3)- 等变性来处理分子系统中的自然对称性,包括旋转和平移。这一方法使得 AI 系统能够像经验丰富的分子建筑师一样,精确设计和优化药物分子的三维结构。

在实际应用中,DiffSBDD 展现了多功能分子设计能力。例如,在激酶抑制剂优化的案例中,模型通过多轮优化,显著提升了分子对目标激酶的结合得分,同时降低了对非目标激酶的结合倾向。此外,DiffSBDD 还能同时调控多个药物属性,包括类药性、合成可行性和结合亲和力等关键物理化学性质。

这一研究成果表明,人工智能在药物研发中具有巨大的潜力。通过利用大语言模型(LLM)和扩散模型等先进技术,研究人员能够更准确地预测小分子与蛋白质靶标的结合亲和力,从而加速药物候选物的筛选过程。这不仅提高了新药发现的效率和精准度,也为个性化医疗和精准医学的发展提供了新的工具和方法。

链接: https://www.graphable.ai/blog/ai-in-drug-discovery-and-development/

Structure-based drug design with equivariant diffusion models | Nature Computational Science

2. 材料科学

麻省理工学院(MIT)开发了一种名为LLMatDesign的框架,利用大型语言模型(LLM)来实现自主材料发现。

该框架能够分析大量材料数据,精准预测新材料的特性,从而彻底改变材料设计,加速先进材料的开发。

LLMatDesign通过LLM代理来理解人类指令,对材料进行修改,并使用提供的工具评估结果。通过对先前决策的自我反思,LLMatDesign能够在零样本条件下快速适应新任务和环境。在多项材料设计任务中的系统评估显示,LLMatDesign在小数据环境下有效地开发了具有用户定义目标特性的新材料。这一框架展示了在计算环境中以及未来自驱动实验室中,LLM引导的自主材料发现的巨大潜力。

此外,LLMatDesign的代码已在GitHub上开源,研究人员和开发者可以访问并使用这一框架进行材料设计和预测。

GitHub

这一研究成果标志着人工智能在材料科学领域应用的又一重要进展,有望加速新材料的发现和应用,推动科技和工业的发展。

链接:https://arxiv.org/abs/2406.13163

3. 基因组学

由来自阿贡国家实验室、英伟达、芝加哥大学等机构的二十多位研究人员合作训练了一个大语言模型 (LLM) 来学习基因序列,从而追踪 SARS-CoV-2(新冠病毒)的基因突变并预测值得关注的变异株。这项工作获得了被誉为高性能计算领域诺贝尔奖的戈登贝尔特别奖。与之前大多数应用于生物学的 LLM 训练在小分子或蛋白质数据集上不同,该项目是首批在原始核苷酸序列(DNA 和 RNA 的最小单位)上训练的模型之一。该方法能够更好地理解基因组的演变,并有望应用于任何具有足够基因组数据的疾病预测。

研究团队将基因序列的四字母语言(DNA 中的 A、T、G、C 或 RNA 中的 A、U、G、C)与人类语言类比,解决了 LLM 在生物学领域应用的复杂性。由于基因组的庞大(人类基因组超过 30 亿个核苷酸,冠状病毒约 30,000 个核苷酸)以及核苷酸序列之间可能存在的远距离相互作用,难以将其分解成有意义的单元。英伟达的合作者设计了一种分层扩散方法,使 LLM 能够将大约 1,500 个核苷酸的长字符串视为“句子”进行处理,从而解决了长序列生成和变异分布学习的难题。

4. 生物信息学

国内外有多个研究团队致力于利用图神经网络(GNN)分析蛋白质-蛋白质相互作用(PPI)网络,以预测蛋白质功能和药物靶标。其中一些具有代表性的团队及其研究成果:

  1. 西湖大学李子青教授团队:该团队开发了PiFold蛋白质设计方法,采用多层图神经网络生成蛋白质序列。此外,他们还研究了KW-Design方法,通过融合预训练模型的信息提升蛋白质序列设计性能。

    Air Tsinghuaicon-default.png?t=O83Ahttps://air.tsinghua.edu.cn/info/1008/2105.htm?utm_source=chatgpt.com

  2. 中国科学院上海药物研究所郑明月课题组:该团队利用等变图神经网络整合蛋白质-配体相互作用的物理先验知识,构建了通用蛋白质-配体相互作用评分方法EquiScore,在新靶标的药物虚拟筛选中表现出良好的泛化性能。

    Shanghai Governmenticon-default.png?t=O83Ahttps://www.shanghai.gov.cn/nw31406/20240715/13666f0c887c43369bcc22b99b3a4cf8.html?utm_source=chatgpt.com

  3. 江南大学研究团队:该团队提出了一种集成深度学习和图学习的多视图集成学习网络(MINDG),结合图学习和深度学习提取药物和蛋白质的特征,用于预测药物-靶标相互作用。

    Jiqizhixinicon-default.png?t=O83Ahttps://www.jiqizhixin.com/articles/2024-05-25-2?utm_source=chatgpt.com

  4. 上海科技大学免疫化学研究所白芳课题组:该团队发布了蛋白质-蛋白质相互作用挖掘的新计算方法PPI-Miner,发现了PPI界面上存在一些高度保守的结构片段,有助于理解蛋白质相互作用的机制。

    SIAISicon-default.png?t=O83Ahttps://siais.shanghaitech.edu.cn/2022/1210/c5404a1040487/page.htm?utm_source=chatgpt.com

5. 结构生物学

2024年5月8日,谷歌DeepMind团队在《Nature》上发表了AlphaFold 3的研究成果,再次引爆了生物学界。 这项研究标志着蛋白质结构预测领域取得了重大突破,AlphaFold 3能够以惊人的准确度预测所有生物分子的结构,包括蛋白质、核酸、糖类等,甚至还能预测这些分子之间的相互作用。AlphaFold 3能够帮助科学家识别药物靶点、优化药物分子,并加速临床治疗方案的制定。它的应用还可能显著改善对各种疾病(包括癌症、遗传性疾病等)的治疗策略。

6. 环境科学

ClimateGPT是一种专门针对气候变化领域的大型语言模型(LLM),旨在整合跨学科的气候变化研究,提供可靠的气候科学信息,辅助研究人员、政策制定者和商业领袖在应对气候变化时做出明智决策。

主要特点:

  • 多学科整合: ClimateGPT通过整合来自不同学科的研究成果,提供全面的气候变化信息,帮助用户深入了解气候变化的各个方面。

  • 高质量数据集: 该模型在包含3000亿个标记的科学数据集上进行了训练,确保其生成的回答具有高准确性和可靠性。

  • 多语言支持: ClimateGPT支持多种语言,利用级联机器翻译技术,使其能够为非英语用户提供服务。

  • 开放源代码: ClimateGPT作为开源平台,用户可以自由访问和使用其模型,促进全球范围内的气候变化研究和应用。

应用领域:

  • 研究支持: 为研究人员提供最新的气候变化研究成果,帮助他们深入了解特定领域的进展。

  • 政策制定: 为政策制定者提供科学依据,支持制定有效的气候变化应对策略。

  • 公众教育: 通过提供易于理解的气候变化信息,增强公众对气候变化的认识和理解。

获取方式:

ClimateGPT的模型和相关资源已在Hugging Face上公开发布,用户可以免费下载和使用。

Hugging Face

7.天文物理学

2024年10月30日,天文大模型AstroOne在中国天文学会2024年学术年会上首次亮相。由之江实验室与中国科学院国家天文台联合打造,AstroOne拥有700亿参数,经过1万道天文学评测数据集的测评,是当前天文知识能力最强的大语言模型。它能够快速阅读和学习专业文献,检测研究中的潜在错误、数据异常或逻辑矛盾,辅助验证假设和结果的可靠性。

多模态宇宙数据集的发布

Polymathic AI团队发布了名为“多模态宇宙”的数据集,包含数亿次天文观测和测量,如詹姆斯·韦伯太空望远镜拍摄的星系肖像,以及盖亚宇宙飞船对银河系的观测数据。该数据集旨在训练AI模型像科学家一样思考,推动跨学科的科学发现。

Ebiotrade

Mephisto:AI天文学家的崛起

微软亚洲研究院开发了名为Mephisto的大语言模型智能体,旨在分析观测到的数十亿个星系,帮助研究那些行为与现有物理学理论不符的异常天体。Mephisto能够在超级计算机上夜以继日地挖掘星系测光数据,并将有趣的发现反馈给人类专家,拓宽人类科学家的认知边界。

Microsoft

AstroPT:天文预训练模型的探索

AstroPT是一种自回归预训练变换器,专为天文应用而设计。它在860万张512×512像素的星系邮票观测数据上进行了预训练,模型参数从100万到21亿不等。研究发现,AstroPT在下游任务上的表现随着模型规模的增大而提高,遵循类似于文本模型的对数对数饱和缩放规律。

ArXiv

AI对宇宙理解的能力

一项研究测试了通过天体物理学数据微调GPT模型的能力,结果表明,经过微调的模型能够成功分类天体物理现象,区分不同类型的伽马射线暴,推导类星体的红移,并估计黑洞参数,证明了大语言模型在科学研究中的有效性。

ArXiv

8. 社会科学

哈佛大学近期利用大型语言模型(LLM)对历史文献进行分析,揭示了人类社会发展的规律。具体而言,研究团队对游乐场报纸进行了深入解码,利用LLM技术对其内容进行分析,从而揭示了历史上人类社会的演变和文化变迁。这一研究为社会、文化和政治研究提供了全新的视角。

此外,哈佛大学的朱科航教授提出了自动化社会科学代理(Agent)与人类行为建模的研究方法。该方法利用LLM自动化整个社会科学研究流程,特别是在因果关系研究中,采用因果结构模型来规范化因果关系的表述,从而提高研究的效率和准确性。

AITNT News

9. 医疗健康

2024年6月12日由哈佛医学院科学家发表在《Nature》杂志上发布探索多模态生成式AI病理大模型助手PathChat。

PathChat的核心组件

  1. 视觉编码器:预训练于超过100万张病理学图像,以提取高维图像特征。

  2. 多模态投影模块:将视觉特征映射到大型语言模型(LLM)的嵌入空间,使得视觉和语言信息可以结合处理。

  3. 大型语言模型(LLM):使用13亿参数的Llama 2模型,能够处理复杂的自然语言指令并生成响应。

研究方法与数据集

  • 数据集包含456,916条指令和999,202次问答回合,涵盖图像说明、PubMed开放获取文章、病理学病例报告和全视野图像的兴趣区域。

  • 高质量病理学问答基准(PathQABench)包括105例从多家医院收集的全视野图像。

主要结果

  1. 多选诊断问题

    • 无临床背景:准确率78.1%,显著高于LLaVA 1.5和LLaVA-Med。

    • 有临床背景:准确率提升至89.5%。

  2. 开放性问题回答

    • PathChat在回答病理学相关复杂问题时,准确率分别为“显微镜检查”73.3%和“诊断”78.5%,明显优于GPT4V。

临床应用

  • PathChat能够辅助病理医生进行更准确的诊断,提高诊断效率并减少误诊风险。

  • 该AI助手还可用于医学教育,为病理学培训提供专家级指导。

10. 个性化教育

密歇根大学正在积极利用大语言模型(LLM)来为学生提供个性化的学习体验,旨在提升教育效率,满足不同学生的学习需求。密歇根大学推出了AI驱动的Coursera Coach,利用苏格拉底式对话增强学生的互动性和参与感。这种方法不仅提高了学习效果,还为教育者提供了新的教学工具。

Forward Pathway

此外,密歇根大学还发布了三款生成式AI产品,应用于教学和日常工作中。这些产品提供个性化的学习计划和多模态的学习体验,使学生能够在不同的场景中进行语言学习,提升学习效果。

这 10 个 2024 年的案例展示了AI大模型在革新各学科科学研究方面的巨大潜力。随着大模型的不断发展,我们可以期待未来几年会出现更多突破性的应用。

欢迎关注 公众号“科研之心”

科研之心,致力于探索AI大模型与科研结合。科研之心为您提供最新的AI资讯、最实用的AI工具、最深入的AI分析,帮助您在科学研究中发掘AI的无限潜力。

大语言模型(LLM) 相关文章(以下点击可阅读):

985院长用AI生成论文插图,论文发表后三天被撤稿……

大语言模型简化了临床研究的自动化机器学习 | 临床科研的福音

基于GPT-4的Coscientist成功完成复杂化学实验,布洛芬配方轻松拿捏,复现诺贝尔化学奖

AI超大模型!一个午休就能读完20万篇论文、提取信息完成生物数据库更新!

ChatGPT一周年:AI如何改变医疗健康领域的未来?

两篇Nature:AI实现新材料的快速合成!17天独自创造41种新材料

顶刊 | 解放军总医院:基于生成对抗网络的主动脉和颈动脉非造影 CT 血管造影

Nature:AI 如何重塑科研范式

GPT-4V在医疗领域全面测评(178页,128个案例)

目前最好的医疗大语言模型居然是……

医疗AI与GPT | 梳理全球医疗大模型

1个小时利用ChatGPT完成神经外科领域的完全虚构的论文!AI写论文的逼真程度令人震惊

精选32篇AI大模型&GPT+医学的论文(免费领取)

利用ChatGPT,这位医生4个月内完成16篇论文,且已发表5篇!医生科研开启加速模式!

Nature新规:用ChatGPT写论文可以,列为作者不行

AI论文 | ChatGPT在医学中的应用概述:应用、优势、局限性、未来前景和伦理思辨

AI论文 | 从临床和科研场景分析ChatGPT在医疗健康领域的应用可行性

Nature:大语言模型构建的AI医生,比人类医生更出色

GPT辅助论文降重教程,100%降至13%(实用指令,赶紧收藏)

2023年国自然医学科学学部人工智能及大模型相关课题项目汇总