文章目录~
- 1.A Methodology for Explainable Large Language Models with Integrated Gradients and Linguistic Analysis in Text Classification
- 2.Zero-Shot Classification of Crisis Tweets Using Instruction-Finetuned Large Language Models
- 3.KV-Compress: Paged KV-Cache Compression with Variable Compression Rates per Attention Head
- 4.Text Clustering as Classification with LLMs
- 5.Instance-adaptive Zero-shot Chain-of-Thought Prompting
- 6.VideoINSTA: Zero-shot Long Video Understanding via Informative Spatial-Temporal Reasoning with LLMs
- 7.Federated Instruction Tuning of LLMs with Domain Coverage Augmentation
- 8.Aggressive Post-Training Compression on Extremely Large Language Models
- 9.Beyond Scores: A Modular RAG-Based System for Automatic Short Answer Scoring with Feedback
- 10.RouterDC: Query-Based Router by Dual Contrastive Learning for Assembling Large Language Models
- 11.The Construction of Instruction-tuned LLMs for Finance without Instruction Data Using Continual Pretraining and Model Merging
- 12.CoTKR: Chain-of-Thought Enhanced Knowledge Rewriting for Complex Knowledge Graph Question Answering
- 13.LANDeRMT: Detecting and Routing Language-Aware Neurons for Selectively Finetuning LLMs to Machine Translation
- 14.Transforming Scholarly Landscapes: Influence of Large Language Models on Academic Fields beyond Computer Science
- 15.Visual Question Decomposition on Multimodal Large Language Models
- 16.Designing Domain-Specific Large Language Models: The Critical Role of Fine-Tuning in Public Opinion Simulation
- 17.HybridFlow: A Flexible and Efficient RLHF Framework
- 18.Can LLMs Really Learn to Translate a Low-Resource Language from One Grammar Book?
- 19.LLMs4Synthesis: Leveraging Large Language Models for Scientific Synthesis
- 20.Leveraging Long-Context Large Language Models for Multi-Document Understanding and Summarization in Enterprise Applications
- 21.SciDFM: A Large Language Model with Mixture-of-Experts for Science
- 22.LLM4Brain: Training a Large Language Model for Brain Video Understanding
- 23.Efficient In-Domain Question Answering for Resource-Constrained Environments
- 24.A Scalable Data-Driven Framework for Systematic Analysis of SEC 10-K Filings Using Large Language Models
- 25.Uni-Med: A Unified Medical Generalist Foundation Model For Multi-Task Learning Via Connector-MoE
- 26.HaloScope: Harnessing Unlabeled LLM Generations for Hallucination Detection
1.A Methodology for Explainable Large Language Models with Integrated Gradients and Linguistic Analysis in Text Classification
标题:在文本分类中使用综合梯度和语言分析的可解释大型语言模型方法论
author:Marina Ribeiro, Bárbara Malcorra, Natália B. Mota, Rodrigo Wilkens, Aline Villavicencio, Lilian C. Hubner, César Rennó-Costa
publish:27 pages, 6 figures, authors Marina Ribeiro and B’arbara Malcorra
have equal contribution, C’esar Renn’o-Costa is the corresponding author
date Time:2024-09-30
paper pdf:http://arxiv.org/pdf/2410.00250v1
摘要:
影响语言产生的神经系统疾病,如阿尔茨海默病(AD),会对患者和护理者的生活产生重大影响,无论是通过社交、心理情感影响还是其他尚未完全理解的方面。大型语言模型(LLM)架构的最新进展开发了许多工具,可通过自发语音识别神经系统疾病的代表性特征。然而,大型语言模型通常缺乏可解释性,这意味着它们无法为其决策提供明确而具体的理由。因此,我们需要能够识别语音中神经系统疾病代表性特征的方法,并清楚地解释为什么这些特征是相关的。本文介绍了一种可解释的 LLM 方法,名为 SLIME(用于模型解释的统计和语言学见解),该方法能够识别代表 AD 的词汇成分,并指出哪些成分对 LLM 的决定最为重要。在开发该方法的过程中,我们使用了一个英语数据集,该数据集由 Cookie Theft 图片说明任务的转录组成。LLM 的双向变换器编码器表征(BERT)将文字描述分为 AD 组和对照组。为了识别具有代表性的词汇特征,并确定哪些特征与模型的决策最相关,我们使用了一个包括综合梯度(IG)、语言调查和字数统计(LIWC)以及统计分析的管道。我们的方法表明,BERT 利用了反映 AD 中社会参考文献减少的词汇成分,并确定了可进一步提高 LLM 准确性的词汇成分。因此,我们提供了一种可解释性工具,可增强将 LLM 应用于神经学临床环境(尤其是神经变性研究)的信心。
2.Zero-Shot Classification of Crisis Tweets Using Instruction-Finetuned Large Language Models
标题:使用指令调整的大型语言模型对危机推文进行零点分类
author:Emma McDaniel, Samuel Scheele, Jeff Liu
date Time:2024-09-30
paper pdf:http://arxiv.org/pdf/2410.00182v1
摘要:
社交媒体帖子经常被认为是灾难响应的宝贵开源情报来源,而前 LLM NLP 技术已在危机推文数据集上进行了评估。我们评估了三种商用大型语言模型(OpenAI GPT-4o、Gemini 1.5-flash-001 和 Anthropic Claude-3-5 Sonnet)对社交媒体短文进行零镜头分类的能力。在一个提示中,要求模型执行两项分类任务:1) 识别帖子在人道主义背景下是否具有信息量;以及 2) 根据 16 种可能的人道主义类别对帖子进行排序并提供概率。被分类的帖子来自综合危机推文数据集 CrisisBench。使用宏观、加权和二元 F1 分数对结果进行评估。信息分类任务在没有额外信息的情况下一般表现较好,而在人道主义标签分类中,提供挖掘推文期间发生的事件会带来更好的表现。此外,我们还发现不同数据集的模型性能差异很大,这就提出了数据集质量的问题。
3.KV-Compress: Paged KV-Cache Compression with Variable Compression Rates per Attention Head
标题:KV-Compress:分页 KV 缓存压缩,每个注意头的压缩率可变
author:Isaac Rehg
date Time:2024-09-30
paper pdf:http://arxiv.org/pdf/2410.00161v1
摘要:
近年来,大型语言模型(LLM)的上下文长度激增,128k 标记上下文已成为标准,百万标记上下文也已成为现实。高效支持长上下文推理仍然具有挑战性,因为必须在键值(KV)缓存中为一代产品分配的内存与其上下文长度成比例,从而限制了在给定内存预算下可并发服务的长上下文请求的数量。KV 缓存压缩可以缓解这一问题,它可以从每个注意头的缓存中移除未充分利用的 KV,并减少其内存占用。当各注意头移除的 KV 数量不同时,理论上可以实现更高的压缩率,但在现有推理框架中应用这种策略会增加碎片,无法在物理内存中实现理论压缩率。我们引入了 KV-Compress,这是一种新颖的压缩方法,可在分页注意力框架内移除连续的 KV 块,从而根据理论压缩率按比例减少 KV 缓存的内存占用。我们的方法在 Mistral-7B-Instruct-v0.2 和 Llama-3.1-8B-Instruct 的 LongBench 上实现了最先进的性能,同时与之前的方法相比,压缩 KV 的总数减少了 4 倍。对 Llama-3.1-8B-Instruct 和 Llama-3.1-70B-Instruct-FP8 的评估显示,压缩率最高可达 8 倍,对性能的影响几乎可以忽略不计;除三个子集外,所有子集的压缩率最高可达 64 倍,同时保留了 90% 以上的全缓存性能。我们对我们的方法与 vLLM 的集成进行了基准测试,通过启用更大的解码批次,总吞吐量最多提高了 5.18 倍。
4.Text Clustering as Classification with LLMs
标题:使用 LLM 进行文本聚类分类
author:Chen Huang, Guoxiu He
publish:12 pages, 3 figures
date Time:2024-09-30
paper pdf:http://arxiv.org/pdf/2410.00927v1
摘要:
在人工标注成本过高的实际应用中,文本聚类仍然很有价值。它可以根据相似文本的表述方式对其进行分组,从而促进信息的有效组织和分析。然而,实施这种方法需要对下游数据和复杂的相似性度量进行微调嵌入。为解决这一问题,本研究提出了一种新颖的文本聚类框架,可有效利用大型语言模型(LLM)的上下文学习能力。我们建议通过 LLM 将文本聚类转化为分类任务,而不是微调 embedders。首先,我们促使 LLM 为给定数据集生成潜在标签。其次,在整合 LLM 生成的类似标签后,我们会提示 LLM 为数据集中的每个样本分配最合适的标签。实验证明,我们的框架无需复杂的微调或聚类算法,就能实现与采用嵌入法的最先进聚类方法相当或更优的性能。我们向公众提供我们的代码,供其在 https://anonymous.4open.science/r/Text-Clustering-via-LLM-E500 上使用。
5.Instance-adaptive Zero-shot Chain-of-Thought Prompting
标题:实例自适应零点思维链提示
author:Xiaosong Yuan, Chen Shen, Shaotian Yan, Xiaofeng Zhang, Liang Xie, Wenxiao Wang, Renchu Guan, Ying Wang, Jieping Ye
publish:13 pages, 6 figures
date Time:2024-09-30
paper pdf:http://arxiv.org/pdf/2409.20441v2
摘要:
零点思维链(CoT)提示是一种简单而有效的策略,可以提高大型语言模型(LLM)在真实世界推理任务中的性能。然而,将单一的任务级提示统一应用于所有实例的功效本身是有限的,因为一个提示不可能是所有实例的好搭档。本研究通过自适应地区分好的和坏的提示,引入了一种实例自适应提示算法,作为另一种零次CoT推理方案。具体来说,我们首先从信息流的角度对 LLM 进行分析,以检测零次 CoT 推理的机制,其中我们发现从问题到提示和从问题到理由的信息流共同对推理结果产生了最大的影响。我们注意到,一个较好的零次CoT推理需要提示语从问题中获取语义信息,然后理由直接从问题中汇总足够的信息,并通过提示语间接汇总。相反,缺少其中任何一项都可能导致推理的失败。在此基础上,我们进一步提出了一种用于零射 CoT 推理的实例自适应提示策略(IAP)。使用 LLaMA-2、LLaMA-3 和 Qwen 在数学、逻辑和常识推理任务(如 GSM8K、MMLU、因果判断)上进行的实验获得了一致的改进,证明了实例自适应零次 CoT 提示比其他任务级方法中的一些精心策划的提示或复杂的程序表现得更好,显示了我们的发现在零次 CoT 推理机制中的意义。
6.VideoINSTA: Zero-shot Long Video Understanding via Informative Spatial-Temporal Reasoning with LLMs
标题:VideoINSTA:通过 LLM 的信息时空推理理解零镜头长视频
author:Ruotong Liao, Max Erler, Huiyu Wang, Guangyao Zhai, Gengyuan Zhang, Yunpu Ma, Volker Tresp
publish:EMNLP 2024 Findings; 22 pages; Code:
https://github.com/mayhugotong/VideoINSTA
date Time:2024-09-30
paper pdf:http://arxiv.org/pdf/2409.20365v1
摘要:
在视频语言领域,利用基于零镜头大型语言模型的推理来进行视频理解的最新研究成果已成为对以往端到端模型的有力挑战。然而,由于推理时间跨度较长,即使是基于零镜头大语言模型的方法,其复杂性也给长视频理解带来了独特的挑战。长视频中的信息冗余挑战提出了这样一个问题:哪些特定信息对大型语言模型(LLM)至关重要,以及如何在长视频分析中利用这些信息进行复杂的时空推理。我们提出了一个框架 VideoINSTA,即用于零镜头长视频理解的信息空间-时间推理(INFORMative Spatial-TemporAl Reasoning)。VideoINSTA 的贡献包括:(1) 使用 LLMs 进行长视频理解的零镜头框架;(2) 基于事件的时间推理和基于内容的空间推理方法,用于 LLMs 对视频中的空间-时间信息进行推理;(3) 基于信息充分性和预测置信度平衡时间因素的自省式信息推理方案。在三个长视频问题解答基准测试中,我们的模型大大提高了先进水平:EgoSchema、NextQA 和 IntentQA,以及开放式问题解答数据集 ActivityNetQA。代码在此发布:https://github.com/mayhugotong/VideoINSTA。
7.Federated Instruction Tuning of LLMs with Domain Coverage Augmentation
标题:利用领域覆盖增强功能对 LLM 进行联合指令调整
author:Zezhou Wang, Yaxin Du, Zhuzhong Qian, Siheng Chen
date Time:2024-09-30
paper pdf:http://arxiv.org/pdf/2409.20135v3
摘要:
联邦特定领域指令调整(Federated Domain-specific Instruction Tuning,FedDIT)利用有限的跨客户端私有数据和服务器端公共数据进行指令增强,最终提高特定领域内的模型性能。迄今为止,影响 FedDIT 的因素仍不明确,现有的指令增强方法主要集中在集中式环境中,没有考虑分布式环境。我们的实验表明,在 FedDIT 中,驱动模型性能的是跨客户端领域覆盖率,而不是数据异质性。为此,我们提出了 FedDCA,通过贪婪的客户端中心选择和基于检索的增强来优化领域覆盖。为了提高客户端计算效率和系统可扩展性,FedDCA 的变体 FedDCA ∗ ^* ∗ 利用异构编码器与服务器端特征对齐。在四个不同领域(代码、医疗、金融和数学)进行的广泛实验证明了这两种方法的有效性。此外,我们还利用各种数量的公共数据研究了针对内存提取攻击的隐私保护。结果表明,公共数据量与隐私保护能力之间没有明显的相关性。不过,随着微调轮数的增加,隐私泄露的风险会降低或收敛。
8.Aggressive Post-Training Compression on Extremely Large Language Models
标题:对超大语言模型进行积极的后训练压缩
author:Zining Zhang, Yao Chen, Bingsheng He, Zhenjie Zhang
date Time:2024-09-30
paper pdf:http://arxiv.org/pdf/2409.20094v1
摘要:
大型语言模型(LLM)的规模和复杂性不断增加,给在个人电脑和移动设备上部署这些模型带来了挑战。为了减小模型的大小,有必要对训练后的模型进行积极压缩,但这往往会导致准确率的显著下降。为了应对这一挑战,我们提出了一种新颖的网络剪枝技术,该技术利用了 0.7 以上的稀疏性和不到 8 位的量化。我们的方法能在几个小时内压缩常用的 LLM,同时保持相对较小的精度损失。在实验评估中,我们的方法证明了其有效性和实际部署的潜力。通过在家用设备上提供 LLM,我们的工作可以促进自然语言处理应用进入一个具有广泛影响的新时代。
9.Beyond Scores: A Modular RAG-Based System for Automatic Short Answer Scoring with Feedback
标题:超越分数:基于模块化 RAG 的自动简答评分反馈系统
author:Menna Fateen, Bo Wang, Tsunenori Mine
date Time:2024-09-30
paper pdf:http://arxiv.org/pdf/2409.20042v1
摘要:
自动简答评分(ASAS)有助于减轻教育工作者的评分负担,但往往缺乏详细、可解释的反馈。带反馈的自动简答评分(ASAS-F)的现有方法依赖于利用有限的数据集对语言模型进行微调,这种方法耗费大量资源,而且难以在不同语境中推广。最近使用大型语言模型(LLMs)的方法侧重于无需大量微调的评分。然而,这些方法往往严重依赖提示工程,要么不能生成详细的反馈,要么不能对反馈进行充分评估。在本文中,我们提出了一种基于模块化检索增强生成的 ASAS-F 系统,该系统可在严格的零次和少量学习场景中为答案评分并生成反馈。我们设计的系统可适应各种教育任务,无需使用自动提示生成框架进行大量提示工程。结果表明,与微调相比,在未见过的问题上,评分准确率提高了 9%,提供了一种可扩展且经济高效的解决方案。
10.RouterDC: Query-Based Router by Dual Contrastive Learning for Assembling Large Language Models
标题:RouterDC:基于查询的双对比学习路由器,用于组装大型语言模型
author:Shuhao Chen, Weisen Jiang, Baijiong Lin, James T. Kwok, Yu Zhang
publish:Accepted by NeurIPS 2024
date Time:2024-09-30
paper pdf:http://arxiv.org/pdf/2409.19886v1
摘要:
最近的研究表明,组装多个现成的大型语言模型(LLM)可以利用它们的互补能力。为了实现这一目标,路由是一种很有前途的方法,它通过学习路由器为每个查询选择最合适的 LLM。然而,当多个 LLM 都能很好地处理一个查询时,现有的路由模型就会失效。为了解决这个问题,我们在本文中提出了一种称为基于查询的双对比学习路由器(RouterDC)的方法。RouterDC 模型由编码器和 LLM 嵌入组成,我们提出了两种对比学习损失来训练 RouterDC 模型。实验结果表明,RouterDC能够有效地组装LLM,并且在分布内(+2.76%)和分布外(+1.90%)任务中的表现大大优于单个表现最佳的LLM以及现有的路由方法。源代码见 https://github.com/shuhao02/RouterDC。
11.The Construction of Instruction-tuned LLMs for Finance without Instruction Data Using Continual Pretraining and Model Merging
标题:利用持续预训练和模型合并构建无指令数据的金融学指令调整 LLMs
author:Masanori Hirano, Kentaro Imajo
publish:9 pages
date Time:2024-09-30
paper pdf:http://arxiv.org/pdf/2409.19854v1
摘要:
本文提出了一种新方法,可在没有指令数据的情况下为金融领域构建指令调整的大型语言模型(LLM)。传统上,开发这种特定领域的 LLM 需要大量资源,需要大量数据集和强大的计算能力来进行持续预训练和指令调整。我们的研究提出了一种更简单的方法,将特定领域的持续预训练与模型合并相结合。鉴于通用预训练 LLM 及其指令调整 LLM 通常可以公开获得,因此可以利用它们来获得必要的指令任务向量。通过将其与特定领域的预训练向量合并,我们可以有效地创建针对金融的指令调整 LLM,而无需额外的指令数据。我们的过程包括两个步骤:首先,我们对金融数据进行持续预训练;其次,我们将指令调整向量与特定领域预训练向量合并。我们的实验证明,我们成功地构建了针对金融领域的指令调整 LLM。我们方法的一个主要优势是,指令调整向量和特定领域预训练向量几乎是独立的。这种独立性使我们的方法非常有效。我们在本研究中开发的日本金融指令调整 LLMs 可在 https://huggingface.co/pfnet/nekomata-14b-pfn-qfin-inst-merge 上查阅。
12.CoTKR: Chain-of-Thought Enhanced Knowledge Rewriting for Complex Knowledge Graph Question Answering
标题:CoTKR:面向复杂知识图谱问题解答的思维链增强型知识重写
author:Yike Wu, Yi Huang, Nan Hu, Yuncheng Hua, Guilin Qi, Jiaoyan Chen, Jeff Z. Pan
date Time:2024-09-29
paper pdf:http://arxiv.org/pdf/2409.19753v1
摘要:
最近的研究探索了将大语言模型(LLM)与检索增强生成(RAG)用于知识图谱问题解答(KGQA)。它们通常需要将检索到的子图重写为 LLM 可理解的自然语言格式。然而,在处理复杂问题时,现有方法重写的知识可能包括无关信息、遗漏关键细节或与问题的语义不符。针对这些问题,我们提出了一种新颖的重写方法 CoTKR(Chain-of-Thought Enhanced Knowledge Rewriting),它能以交错的方式生成推理踪迹和相应的知识,从而减轻单步知识重写的局限性。此外,为了弥补知识重写器与问题解答(QA)模型之间的偏好差距,我们提出了一种训练策略 PAQAF(来自问题解答反馈的偏好对齐),用于利用 QA 模型的反馈来进一步优化知识重写器。我们在多个 KGQA 基准中使用各种 LLM 进行了实验。实验结果表明,与之前的知识重写方法相比,CoTKR 能为 QA 模型生成最有利的知识表示,从而显著提高 LLM 在 KGQA 中的性能。
13.LANDeRMT: Detecting and Routing Language-Aware Neurons for Selectively Finetuning LLMs to Machine Translation
标题:LANDeRMT:检测和路由语言感知神经元,有选择性地对机器翻译的 LLM 进行微调
author:Shaolin Zhu, Leiyu Pan, Bo Li, Deyi Xiong
date Time:2024-09-29
paper pdf:http://arxiv.org/pdf/2409.19523v1
摘要:
大型语言模型(LLMs)的最新进展表明,即使在双语监督有限的情况下,多语言翻译也能取得可喜的成果。主要的挑战是灾难性遗忘和参数干扰,在提供平行训练数据时,需要对 LLM 进行微调。为了应对这些挑战,我们提出了 LANDeRMT,这是一个 \textbf{L}anguage-\textbf{A}ware \textbf{N}euron \textbf{De}tecting and \textbf{R}outing 框架,它可以选择性地对 LLM 进行微调,从而利用多样化的翻译训练数据进行 \textbf{M}achine \textbf{T} translation。在 LANDeRMT 中,我们评估了神经元对 MT 任务的认知,并将其分为语言通用神经元和语言专用神经元。这种分类能在微调过程中选择性地更新参数,从而减轻参数干扰和灾难性遗忘问题。对于检测到的神经元,我们进一步提出了一种基于条件意识的路由机制,在翻译信号的引导下,动态调整 LLM 内的语言通用和语言专用能力。实验结果表明,所提出的 LANDeRMT 在学习翻译知识方面非常有效,与多种语言对的各种强基线相比,显著提高了翻译质量。
14.Transforming Scholarly Landscapes: Influence of Large Language Models on Academic Fields beyond Computer Science
标题:改变学术格局:大型语言模型对计算机科学以外学术领域的影响
author:Aniket Pramanick, Yufang Hou, Saif M. Mohammad, Iryna Gurevych
date Time:2024-09-29
paper pdf:http://arxiv.org/pdf/2409.19508v1
摘要:
大型语言模型(LLMs)开创了自然语言处理(NLP)的变革时代,重塑了研究,并将 NLP 的影响力扩展到其他研究领域。然而,几乎没有研究 LLM 对其他研究领域的影响程度的工作。这项工作以经验为基础,系统地研究了LLM在NLP以外领域的影响和使用情况。我们整理了 106 106 106 LLMs,并分析了引用 LLMs 的 ∼ \sim ∼ 148 k 148k 148k 论文,以量化其影响力并揭示其使用模式的趋势。我们的分析不仅揭示了法学硕士在非科学领域的日益普及,还揭示了其使用的差异,自2018年以来,一些领域比其他领域更频繁地使用法学硕士,特别是语言学和工程学合计占法学硕士引文的45%。我们的研究结果进一步表明,这些领域中的大多数主要采用任务无关的 LLM,它们精通零学习或少量学习,无需进一步微调,即可解决其特定领域的问题。这项研究揭示了 LLM 对 NLP 的跨学科影响,让人们更好地了解其中的机遇与挑战。
15.Visual Question Decomposition on Multimodal Large Language Models
标题:多模态大语言模型上的可视化问题分解
author:Haowei Zhang, Jianzhe Liu, Zhen Han, Shuo Chen, Bailan He, Volker Tresp, Zhiqiang Xu, Jindong Gu
publish:Accepted to EMNLP2024 Findings
date Time:2024-09-28
paper pdf:http://arxiv.org/pdf/2409.19339v1
摘要:
问题分解已成为促使大型语言模型(LLM)回答复杂问题的有效策略。然而,现有方法主要针对单模态语言模型,而多模态大型语言模型(MLLM)的问题分解能力尚待探索。为此,本文探讨了多模态大语言模型的可视化问题分解。具体来说,我们引入了一个系统的评估框架,其中包括一个数据集和几个评估标准,用于评估分解出的子问题的质量。针对这一局限性,我们提出了一个特定的微调数据集 DecoVQA+,以增强模型的问题分解能力。为了使模型能够进行适当的选择性分解,我们提出了一个高效的微调管道。微调管道由我们提出的数据集和选择性分解的训练目标组成。经过微调的 MLLM 在子问题的质量和选择性问题分解策略方面都有显著改善。此外,这些模型还在 VQA 基准数据集上实现了更高的选择性分解准确率。
16.Designing Domain-Specific Large Language Models: The Critical Role of Fine-Tuning in Public Opinion Simulation
标题:设计特定领域的大型语言模型:微调在舆情模拟中的关键作用
author:Haocheng Lin
date Time:2024-09-28
paper pdf:http://arxiv.org/pdf/2409.19308v1
摘要:
大型语言模型(LLMs)已经改变了各个领域的自然语言处理方式,然而其通用设计限制了其在专业领域的有效性,例如模拟环境政策的意见。本文介绍了一种利用英国家庭纵向研究数据对 LLM 进行微调的方法,通过对年龄、收入、教育和地区等社会人口因素对模型进行调节,提高了意见生成的准确性。通过模拟不同的合成特征,微调模型能比预训练模型更有效地捕捉不同人口群体之间的细微差别。Chi-Squared、余弦相似度、Jaccard 指数和 KL-发散度等指标表明,合成数据与真实世界的舆情数据非常吻合。这种方法凸显了对 LLM 进行微调的潜力,从而为公众对环境问题的看法提供更具信息性、代表性和道德性的见解。研究结果强调了根据特定社会背景调整 LLMs 以实现更准确、更合乎道德的政策模拟的重要性。
17.HybridFlow: A Flexible and Efficient RLHF Framework
标题:HybridFlow:灵活高效的 RLHF 框架
author:Guangming Sheng, Chi Zhang, Zilingfeng Ye, Xibin Wu, Wang Zhang, Ru Zhang, Yanghua Peng, Haibin Lin, Chuan Wu
date Time:2024-09-28
paper pdf:http://arxiv.org/pdf/2409.19256v2
摘要:
从人类反馈中强化学习(RLHF)被广泛应用于大型语言模型(LLM)对齐中。传统的 RL 可以建模为数据流,其中每个节点代表一个神经网络 (NN) 的计算,每条边代表 NN 之间的数据依赖关系。RLHF 将每个节点扩展为分布式 LLM 训练或生成程序,并将每条边扩展为多对多的组播,从而使数据流复杂化。传统的 RL 框架使用单个控制器来执行数据流,以指示节点内计算和节点间通信,由于分布式节点内计算的控制调度开销较大,因此在 RLHF 中效率很低。现有的 RLHF 系统采用多控制器模式,由于分布式计算和数据通信的嵌套,这种模式可能不够灵活。我们提出了 HybridFlow,它以混合方式结合了单控制器和多控制器范例,从而实现了 RLHF 数据流的灵活表示和高效执行。我们精心设计了一套分层应用程序接口,在复杂的 RLHF 数据流中解耦并封装计算和数据依赖关系,从而实现高效的操作协调以实施 RLHF 算法,并将计算灵活地映射到各种设备上。我们进一步设计了一个 3D 混合引擎(3D-HybridEngine),用于在训练和生成阶段之间高效地重新分配角色模型,同时实现零内存冗余并显著降低通信开销。我们的实验结果表明,与最先进的基线相比,使用HybridFlow运行各种RLHF算法时,吞吐量提高了1.53倍~20.57倍。HybridFlow源代码可在https://github.com/volcengine/verl。
18.Can LLMs Really Learn to Translate a Low-Resource Language from One Grammar Book?
标题:法学硕士真的能从一本语法书中学会翻译一门低资源语言吗?
author:Seth Aycock, David Stap, Di Wu, Christof Monz, Khalil Sima’an
date Time:2024-09-27
paper pdf:http://arxiv.org/pdf/2409.19151v1
摘要:
资源极度匮乏(XLR)的语言缺乏用于训练 NLP 模型的大量语料库,因此需要利用字典和语法书等所有可用资源。来自一本书的机器翻译》(Tanzer 等人,2024 年)建议用一本语法书提示长语境 LLM,从而实现英语-卡拉芒语(一种未见过的 XLR 语言)的翻译,这是语言知识帮助 NLP 任务的一个值得注意的案例。我们研究了语法书的语法解释或并列示例对学习 XLR 翻译是否最有效,发现几乎所有的改进都来自并列示例。此外,我们还发现尼泊尔语(一种常见的低资源语言)也有类似的效果,只需对编码器-解码器翻译模型进行微调,就能达到与使用语法书的 LLM 相媲美的效果。然后,我们通过测试语法性判断和词汇预测这两项语言任务来研究语法书在哪些方面提供了帮助,并通过引入类型学特征提示来探索哪种语法知识能提供帮助,从而在这些更相关的任务中取得领先的结果。因此,我们强调了适合 XLR 语言任务的数据的重要性:用于翻译的平行示例和用于语言任务的语法数据。由于我们没有发现证据表明长语境 LLM 可以有效利用语法解释进行 XLR 翻译,因此我们建议多语言 XLR 任务(如翻译)的数据收集最好侧重于平行数据而非语言描述。
19.LLMs4Synthesis: Leveraging Large Language Models for Scientific Synthesis
标题:LLMs4Synthesis:利用大型语言模型进行科学合成
author:Hamed Babaei Giglou, Jennifer D’Souza, Sören Auer
publish:12 pages, 3 figures, Accepted to JCDL 2024 Research Track
date Time:2024-09-27
paper pdf:http://arxiv.org/pdf/2409.18812v1
摘要:
为了应对科学文献日益增长的复杂性和数量,本文介绍了 LLMs4Synthesis 框架,该框架旨在增强大型语言模型(LLM)生成高质量科学综述的能力。该框架利用开源和专有 LLM,满足了对快速、连贯和上下文丰富的科学见解进行整合的需求。它还考察了 LLM 在评估这些综合的完整性和可靠性方面的有效性,从而缓解了当前定量指标的不足。我们的研究通过开发一种处理科学论文的新方法、定义新的合成类型以及建立九项评估合成的详细质量标准,为这一领域做出了贡献。我们建议将 LLMs 与强化学习和人工智能反馈相结合,以优化合成质量,确保与既定标准保持一致。LLMs4Synthesis 框架及其组件可供使用,有望增强科研综述的生成和评估过程。
20.Leveraging Long-Context Large Language Models for Multi-Document Understanding and Summarization in Enterprise Applications
标题:在企业应用中利用长语境大型语言模型进行多文档理解和总结
author:Aditi Godbole, Jabin Geevarghese George, Smita Shandilya
date Time:2024-09-27
paper pdf:http://arxiv.org/pdf/2409.18454v1
摘要:
随着各领域非结构化数据的快速增长,多文档理解和摘要成为一项关键任务。传统方法往往无法捕捉相关上下文、保持逻辑一致性,也无法从冗长的文档中提取重要信息。本文探讨了长语境大语言模型(LLM)在多文档摘要中的应用,展示了其在把握广泛联系、提供有内聚力的摘要、适应各种行业领域以及与企业应用/系统集成方面的卓越能力。本文讨论了有效部署长上下文 LLM 的多文档摘要工作流程,并辅以法律应用、人力资源、财务和采购等企业功能以及医疗和新闻领域的案例研究。这些案例研究表明,效率和准确性都有显著提高。此外,还仔细分析了数据集多样性、模型可扩展性等技术障碍,以及减少偏见和事实准确性等道德考虑因素。还提出了前瞻性研究途径,以增强长语境 LLM 的功能和应用,使其成为改变不同领域和企业应用信息处理的关键工具。
21.SciDFM: A Large Language Model with Mixture-of-Experts for Science
标题:SciDFM:专家混合科学大语言模型
author:Liangtai Sun, Danyu Luo, Da Ma, Zihan Zhao, Baocai Chen, Zhennan Shen, Su Zhu, Lu Chen, Xin Chen, Kai Yu
publish:12 pages, 1 figure, 9 tables. Technical Report, Under Review
date Time:2024-09-27
paper pdf:http://arxiv.org/pdf/2409.18412v1
摘要:
最近,人们对利用大型语言模型(LLM)协助科学发现的兴趣大增。然而,大多数 LLM 只关注一般科学,而缺乏特定领域的知识,如化学分子和氨基酸序列。为了弥补这些差距,我们引入了 SciDFM,这是一种专家混合型 LLM,从零开始训练,能够进行大学水平的科学推理,并理解分子和氨基酸序列。我们收集了一个大规模的训练语料库,其中包含来自不同学科的大量科学论文和书籍,以及来自特定领域数据库的数据。我们在大量教学数据上进一步微调预训练模型,以提高在下游基准测试中的性能。实验结果表明,SciDFM 在一般科学基准(如 SciEval 和 SciQ)上取得了很好的性能,而在特定领域基准上,它在类似规模的模型中达到了 SOTA 性能。我们进一步分析了专家层,结果表明专家选择的结果随不同学科的数据而变化。为了让更广泛的研究社区受益,我们在 https://huggingface.co/OpenDFM/SciDFM-MoE-A5.6B-v1.0 上开源了 SciDFM。
22.LLM4Brain: Training a Large Language Model for Brain Video Understanding
标题:LLM4Brain:为大脑视频理解训练大型语言模型
author:Ruizhe Zheng, Lichao Sun
publish:ECCV2024 Workshop
date Time:2024-09-26
paper pdf:http://arxiv.org/pdf/2409.17987v1
摘要:
从大脑信号(如功能性核磁共振成像(fMRI))中解码不同受试者的视觉语义信息面临着巨大的挑战,包括低信噪比、有限的数据可用性和跨受试者的可变性。大型语言模型(LLMs)的最新进展表明,该模型在处理多模态信息方面效果显著。在本研究中,我们介绍了一种基于 LLM 的方法,用于从视频刺激激发的 fMRI 信号中重建视觉语义信息。具体来说,我们在配有适配器的 fMRI 编码器上采用微调技术,将大脑反应转化为与视频刺激一致的潜在表征。随后,这些表征通过 LLM 映射到文本模态。特别是,我们整合了自监督领域适配方法,以增强视觉语义信息与大脑反应之间的一致性。我们提出的方法使用各种定量语义指标取得了良好的效果,同时与地面实况信息具有相似性。
23.Efficient In-Domain Question Answering for Resource-Constrained Environments
标题:针对资源受限环境的高效域内问题解答
author:Isaac Chung, Phat Vo, Arman Kizilkale, Aaron Reite
publish:6 pages, 2 tables
date Time:2024-09-26
paper pdf:http://arxiv.org/pdf/2409.17648v2
摘要:
检索增强生成(RAG)是一种将外部知识整合到预训练大语言模型(LLM)中的常用方法,可提高问题解答(QA)任务的准确性和相关性。然而,在为现实世界中的 QA 应用开发最佳和稳健的 RAG 解决方案时,提示工程和资源效率仍然是重大瓶颈。最近的研究表明,使用微调技术解决这些问题取得了成功;特别是,与使用更大模型(如 GPT-3.5)的 RAG 设置相比,应用于较小的 7B 模型的检索增强微调技术(RAFT)表现出更优越的性能。将 RAFT 与参数高效微调(PEFT)技术(如 Low-Rank Adaptation (LoRA))相结合,有望获得更高效的解决方案,但这仍是一个尚未开发的领域。在这项工作中,我们将 RAFT 与 LoRA 结合起来,以减少微调和存储需求,并在保持与 RAG 性能相当的情况下获得更快的推理时间。这就产生了一种计算效率更高的 RAFT,即 CRAFT,尤其适用于资源受限环境中的知识密集型质量保证任务,因为在这种环境中,互联网访问可能受到限制,硬件资源也有限。
24.A Scalable Data-Driven Framework for Systematic Analysis of SEC 10-K Filings Using Large Language Models
标题:利用大型语言模型对美国证券交易委员会 10-K 报告进行系统分析的可扩展数据驱动框架
author:Syed Affan Daimi, Asma Iqbal
publish:10 pages, 7 figures
date Time:2024-09-26
paper pdf:http://arxiv.org/pdf/2409.17581v1
摘要:
在纽约证券交易所上市的公司数量呈指数级增长,这给市场分析师、交易员和股东带来了巨大的挑战,他们必须定期监控和评估大量公司的业绩和战略变化。人们越来越需要一种快速、经济、全面的方法来评估业绩,并有效地检测和比较许多公司的战略变化。我们提出了一种新颖的数据驱动方法,利用大型语言模型(LLM),根据公司向美国证券交易委员会(SEC)提交的 10-K 文件,对公司业绩进行系统分析和评级。这些文件提供了有关公司财务业绩和战略方向的详细年度报告,是评估公司健康状况(包括信心、环境可持续性、创新和劳动力管理)各个方面的丰富数据来源。我们还引入了一套自动系统,用于提取和预处理 10-K 申报文件。该系统能准确识别并分割美国证券交易委员会规定的必要部分,同时还能分离出包含公司关键信息的关键文本内容。然后,将这些经过整理的数据输入 Cohere 的 Command-R+ LLM,生成各种绩效指标的量化评级。随后对这些评级进行处理和可视化,以提供可操作的见解。建议的方案随后在交互式图形用户界面上实施,作为运行数据管道和创建可视化的无代码解决方案。该应用程序可展示评级结果,并提供公司业绩的年度比较。
25.Uni-Med: A Unified Medical Generalist Foundation Model For Multi-Task Learning Via Connector-MoE
标题:Uni-Med:通过 Connector-MoE 实现多任务学习的统一医学全科基础模型
author:Xun Zhu, Ying Hu, Fanbin Mo, Miao Li, Ji Wu
date Time:2024-09-26
paper pdf:http://arxiv.org/pdf/2409.17508v1
摘要:
多模态大语言模型(MLLM)作为各种视觉和语言任务的通用接口,已经显示出令人印象深刻的能力。然而,为医学领域的多任务学习建立统一的 MLLM 仍然是一个棘手的挑战。为了缓解多模态多任务优化的拉锯战问题,最近的进展主要集中在改进 LLLM 组件上,而忽略了在模态之间架起桥梁的连接器。在本文中,我们介绍了 Uni-Med,这是一种新型医学通才基础模型,由通用视觉特征提取模块、连接器专家混合(CMoE)模块和 LLM 组成。Uni-Med 利用所提出的 CMoE(利用精心设计的路由器与连接器处的混合投影专家),实现了对拉锯战问题的高效解决,并能执行六种不同的医疗任务,包括问题解答、视觉问题解答、报告生成、参考表达式理解、参考表达式生成和图像分类。据我们所知,Uni-Med 是首次在连接器上解决多任务干扰的努力。广泛的消融实验验证了在任何配置下引入 CMoE 的有效性,平均性能提升高达 8%。我们进一步从梯度优化和参数统计的角度对拉锯战问题进行了解释分析。与之前最先进的医疗 MLLM 相比,Uni-Med 在各种任务上都取得了具有竞争力或更优越的评估指标。代码、数据和模型即将在 GitHub 上发布。
26.HaloScope: Harnessing Unlabeled LLM Generations for Hallucination Detection
标题:HaloScope:利用未标记的 LLM 世代进行幻觉检测
author:Xuefeng Du, Chaowei Xiao, Yixuan Li
publish:NeurIPS 2024 Spotlight
date Time:2024-09-26
paper pdf:http://arxiv.org/pdf/2409.17504v1
摘要:
大型语言模型(LLM)应用的激增引发了人们对产生误导或捏造信息(即幻觉)的担忧。因此,检测幻觉对于保持人们对 LLM 生成内容的信任至关重要。学习真实性分类器的一个主要挑战是缺乏大量标注真实和幻觉的数据。为了应对这一挑战,我们引入了 HaloScope,这是一个新颖的学习框架,可利用野生的无标签 LLM 生成数据进行幻觉检测。在开放世界中部署 LLM 时,会自由产生此类未标记数据,其中既包括真实信息,也包括幻觉信息。为了利用无标记数据,我们提出了一种自动成员估计得分法,用于区分无标记混合数据中的真实和非真实世代,从而在此基础上训练二元真实性分类器。重要的是,我们的框架不需要额外的数据收集和人工标注,为现实世界的应用提供了强大的灵活性和实用性。广泛的实验表明,HaloScope 可以实现卓越的幻觉检测性能,远远超过竞争对手。代码见 https://github.com/deeplearningwisc/haloscope。