中国LLM研究所收集100+AI大模型资源

发布于:2024-08-08 ⋅ 阅读:(24) ⋅ 点赞:(0)

自ChatGPT为代表的大语言模型 (大型语言模型,LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的法学开源之后,业界涌现了非常多基于法学的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100 + 个!

如果本项目能给您带来一点点帮助,麻烦点个⭐️ 吧 ~

同时也欢迎大家贡献本项目未收录的开源模型、应用、数据集等。提供新的仓库信息请发起公关、并按照本项目的格式提供仓库链接、明星数、简介等相关信息、感谢 ~

常见底座模型细节概览:

底座 包含模型 模型参数大小 训练令牌数 训练最大长度 是否可商用
ChatGLM ChatGLM/2/3 Base & Chat 6B 1T/1.4 2K/32K 可商用
美洲驼 LLaMA/2/3基地和聊天 7B/8B/13B/33B/70B 1T/2T 2k/4k 部分可商用
百川 百川/2基地 & 聊天 7B/13B 1.2T/1.4T 4k 可商用
Qwen Qwen/1.5 Base & Chat 7B/14B/72B/110B 2.2T/3T 8k/32k 可商用
布卢姆 布卢姆 1B/7B/176B-MT 1.5T 2k 可商用
天鹰座 天鹰座/2基地/聊天 7B/34B - 2k 可商用
InternLM InternLM/2基本/聊天/代码 7B/20B - 200k 可商用
混合 基地和聊天 8x7B - 32k 可商用
彝族 基地和聊天 6B/9B/34B 3T 200k 可商用
DeepSeek 基地和聊天 1.3B/7B/33B/67B - 4k 可商用
XVERSE 基地和聊天 7B/13B/65B/A4.2B 2.6T/3.2T 8k/16k/256k 可商用

目录

1.模型

 😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓


👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

1.1文本LLM模型
1.2多模态LLM模型
  • VisualGLM-6B

    • 地址:https://github.com/THUDM/ VisualGLM-6B 
    • 简介:一个开源的,支持图像,中文和英文的多模态对话语言模型,语言模型基于ChatGLM-6B,具有62亿参数;图像部分通过训练BLIP2-Qformer构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。依靠来自于CogView数据集的30米高质量中文图文对,与300米经过筛选的英文图文对进行预训练。
  • CogVLM

  • 粘性

  • 视觉-中国-美洲驼-羊驼

    • 地址:https://github.com/airaria/ 视觉-中国-美洲驼-羊驼 
    • 简介:基于中文美洲驼和羊驼大模型项目开发的多模态中文大模型。VisualCLA在中文美洲驼/羊驼模型上增加了图像编码等模块,使美洲驼模型可以接收视觉信息。在此基础上,使用了中文图文对数据进行了多模态预训练,对齐图像与文本表示,赋予其基本的多模态理解能力;并使用多模态指令数据集精调,增强其对多模态指令的理解,执行和对话能力,目前开源了VisualCLA-7B-v0.1。
  • LLaSM

  • Qwen-VL

    • 地址:https://github.com/QwenLM/ qwen-vl 
    • 简介:是阿里云研发的大规模视觉语言模型、可以以图像、文本、检测框作为输入、并以文本和检测框作为输出。特点包括:强大的性能:在四大类多模态任务的标准英文测评中上均取得同等通用模型大小下最好效果;多语言对话模型:天然支持英文、中文等多语言对话、端到端支持图片里中英双语的长文本识别;多图交错对话:支持多图输入和比较、指定图片问答、多图文学创作等;首个支持中文开放域定位的通用模型:通过中文开放域语言表达进行检测框标注;细粒度识别和理解:相比于目前其它开源LVLM使用的224分辨率,qwen-vl是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。

2.应用

2.1垂直领域微调
医疗

法律

金融

  • 聚宝盆 (聚宝盆):基于中文金融知识的美洲驼微调模型

    • 地址:https://github.com/jerry1993-tech/聚宝盆-美洲驼-Fin-中文 
    • 简介:开源了经过中文金融知识指令精调/指令微调 (指示-调优) 的LLaMA-7B模型。通过中文金融公开数据 + 爬取的金融数据构建指令数据集,并在此基础上对LLaMA进行了指令微调,提高了LLaMA在金融领域的问答效果。基于相同的数据,后期还会利用GPT3.5 API构建高质量的数据集,另在中文知识图谱-金融上进一步扩充高质量的指令数据集。
  • BBT-FinCUGE-应用程序

    • 地址:https://github.com/ssymmetry/ BBT-FinCUGE-应用 
    • 简介:开源了中文金融领域开源语料库BBT-fincorp,中文金融领域知识增强型预训练语言模型BBT-FinT5及中文金融领域自然语言处理评测基准CFLEB。
  • 轩辕 (轩辕):首个千亿级中文金融对话模型

    • 地址:https://github.com /杜小曼地/轩辕 
    • 简介:轩辕是国内首个开源的千亿级中文对话大模型,同时也是首个针对中文金融领域优化的千亿级开源对话大模型。轩辕在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,它不仅可以应对通用领域的问题,也可以解答与金融相关的各类问题,为用户提供准确,全面的金融信息和建议。
  • 手指

  • 圆盘-FinLLM

    • 地址:https://github.com/FudanDISC/ 圆盘-FinLLM 
    • 简介:该项目由复旦大学数据智能与社会计算实验室 (复旦-光盘) 开发并开源,项目中开源的资源包括: 光盘-FinLLM-SFT训练数据样本,光盘-FinLLM模型参数(基于Baichuan-13B-聊天训练),光盘-鳍-Eval-基准等。
  • 同益-金融

    • 地址:https:// modelscope.cn/models/TongyiFinance/ Tongyi-Finance-14B
    • 简介:该模型是针对对金融行业推出的大语言模型、基于通义千问基础模型进行行业语料增量学习、强化金融领域知识和场景应用能力、覆盖金融知识问答、文本分类、信息抽取、文本创作、阅读理解、逻辑推理、多模态、编码等能力象限。具有以下特点:行业语料增量学习:使用200B高质量金融行业语料进行增量学习,并进行金融行业词表扩展,覆盖丰富的数据类型,支持更大上下文(16k)输入和完整的语义表达。行业能力强化:自研SFT质量和多样性分析工具,筛选高质量SFT数据,解决大语言模型的对齐问题。行业后链路优化:借助多agent框架,实现知识库增强和工具API调用。
教育
科技
  • 天文大语言模型StarGLM:

    • 地址:https://github.com /yu-yang-li/StarGLM 
    • 简介:基于聊天训练了天文大语言模型、以期缓解大语言模型在部分天文通用知识和前沿变星领域的幻觉现象、为接下来可处理天文多模态任务、部署于望远镜阵列的观测代理 -- 司天大脑(数据智能处理)打下基础。
  • 致远:

    • 地址:GitHub - DUOMO/TransGPT 
    • 简介:开源交通大模型、主要致力于在真实交通行业中发挥实际价值、它能够实现交通情况预测、智能咨询助手、公共交通服务、交通规划设计、交通安全教育、协助管理、交通事故报告和分析、自动驾驶辅助系统等功能。
  • 墨子:

电商
  • EcomGPT
    • 地址:https://github.com /阿里巴巴-NLP/EcomGPT 
    • 简介:一个由阿里发布的面向电商领域的语言模型,该模型基于布卢姆兹在电商指令微调数据集上微调得到,人工评估在12个电商评测数据集上超过查特。
网络安全
农业
  • 后稷 (阿格里马):
    • 地址:GitHub - zhiweihu1103/AgriMa: 后稷-首个开源中文农业大模型 
    • 简介:首个中文开源农业大模型是由山西大学、山西农业大学与Fin AI联合研发,以百川为底座、基于海量有监督农业领域相关数据微调、具备广泛的农业知识和智能分析能力、该模型旨在为农业领域提供全面而高效的信息处理和决策支持。
  • 稷丰(AgriAgent):
    • 地址:GitHub - zhiweihu1103/AgriAgent: 稷丰-首个开源中文农业多模态大模型 
    • 简介:首个开源中文农业多模态大模型是由山西农业大学研发,以MiniCPM-Llama3-V 2.5为底座、能够从图像、文本、气象数据等多源信息中提取有用信息、为农业生产提供全面、精准的智能化解决方案。我们致力于将稷丰应用于作物健康监测、病虫害识别、土壤肥力分析、农田管理优化等多个方面、帮助农民提升生产效率、减少资源浪费、促进农业的可持续发展。
2.2 LangChain应用
2.3其他应用

3.数据集

预训练数据集
SFT数据集
  • RefGPT:基于RefGPT生成大量真实和定制的对话数据集

    • 地址:https://github.com/DA-南安普敦/RedGPT 
    • 数据集说明:包括refgpt-fact和refgpt-code两部分,其中refgpt-fact给出了5万中文的关于事实性知识的多轮对话,refgpt-code给出了3.9万中文编程相关的多轮对话数据。
  • COIG

    • 地址:https:// huggingface.co/datasets/BAAI/COIG
    • 数据集说明:维护了一套无害、有用且多样化的中文指令语料库、包括一个人工验证翻译的通用指令语料库、一个人工标注的考试指令语料库、一个人类价值对齐指令语料库、一个多轮反事实修正聊天语料库和一个leetcode指令语料库。
  • generated_chat_0.4M:

  • alpaca_chinese_dataset:

  • 羊驼床:

    • 地址:https://github.com/PhoebusSi/ 羊驼-CoT 
    • 数据集说明:统一了丰富的IFT数据(如CoT数据,目前仍不断扩充),多种训练效率方法(如lora,p调谐) 以及多种LLMs,三个层面上的接口,打造方便研究人员上手的llm-ift研究平台。
  • pCLUE:

  • firefly-train-1.1M:

  • BELLE-data-1.5M:

  • 中国科学文献数据集:

  • 中医对话数据:

    • 地址:https://github.com/Toyhom/ 中医-医学-对话-数据 
    • 数据集说明:中文医疗对话数据集,包括:<Andriatria男科> 94596个问答对 <内科> 220606个问答对 <OAGD妇产科> 183751个问答对 <肿瘤学肿瘤科> 75553个问答对 <儿科儿科> 101602个问答对 <外科外科> 115991个问答对总计792099个问答对。
  • Huatuo-26M:

    • 地址:https://github.com/FreedomIntelligence/ Huatuo-26M 
    • 数据集说明:Huatuo-26M是一个中文医疗问答数据集,此数据集包含了超过2600万个高质量的医疗问答对,涵盖了各种疾病,症状,治疗方式,药品信息等多个方面。Huatuo-26M是研究人员,开发者和企业为了提高医疗领域的人工智能应用,如聊天机器人,智能诊断系统等需要的重要资源。
  • Alpaca-GPT-4:

  • 说明野生

    • 地址:GitHub - XueFuzhao/InstructionWild 
    • 数据集说明:InstructionWild是一个从网络上收集自然指令并过滤之后使用自然指令结合ChatGPT接口生成指令微调数据集的项目。主要的指令来源:Twitter、CookUp.AI、Github和丢弃。
  • 共享聊天

    • 地址:https:// paratranz.cn/projects/ 6725
    • 数据集说明:一个倡议大家一起翻译高质量ShareGPT数据的项目。
    • 项目介绍:清洗/构造/翻译中文的聊天数据,推进国内AI的发展,人人可炼优质中文聊天模型。本数据集为ChatGPT约九万个对话数据,由ShareGPT API获得(英文68000,中文11000条,其他各国语言)。项目所有数据最终将以CC0协议并入多语言共享GPT语料库。
  • 瓜纳科

  • chatgpt-语料库

  • SmileConv

偏好数据集
  • C值

    • 地址:https://github.com /x-plug/c值 
    • 数据集说明:该项目开源了数据规模为145k的价值对齐数据集,该数据集对于每个及时包括了拒绝和正向建议 (安全和责任) > 拒绝为主 (安全) > 风险回复 (不安全) 三种类型,可用于增强SFT模型的安全性或用于训练奖励模型。
  • GPT-4-LLM

  • zhihu_rlhf_3k

    • 地址:https:// huggingface.co/datasets/liyucheng/zhihu_rlhf_3k
    • 数据集说明:该项目开源了3k + 条基于知乎问答的人类偏好数据集,每个实际的知乎问题下给出了赞同数据较高 (选择) 和较低 (拒绝) 的回答,可以用于奖励模型的训练。
  • hh_rlhf_cn

    • 地址:https:// huggingface.co/datasets/dikw/hh_rlhf_cn
    • 数据集说明:基于的人类论文训练一个有帮助和无害的助手从人类反馈中强化学习开源的有帮助的和无害的数据,使用翻译工具进行了翻译。
  • chatbot_arena_conversations

  • UltraFeedback

    • 地址:GitHub - OpenBMB/UltraFeedback: A large-scale, fine-grained, diverse preference dataset (and models). 
    • 数据集说明:该数据集是一个大规模、细粒度、多样化的偏好数据集、用于训练强大的奖励模型和批评者模型。该工作从各种资源(包括UltraChat、ShareGPT、Evol-指示、TruthfulQA、FalseQA和FLAN、数据集统计数据请参见此处)中收集了约64k条提示。然后使用这些提示来查询多个LLM(模型列表请参见此处),并为每个提示生成4个不同的回复,从而得到总共256k个样本。

4. LLM训练微调框架

  • DeepSpeed聊天:

    • 地址:https://github.com/microsoft/DeepSpeed/tree/master/blogs/ deepspeed-聊天 
    • 简介:该项目提供了一键式RLHF训练框架,只需一个脚本即可实现多个训练步骤,包括SFT,奖励模型微调和基于人类反馈的强化学习(RLHF),此外还实现了深高速HE,统一的高效混合引擎,达到训练和推理引擎之间的过渡是无缝的。
  • LLaMA高效调谐:

    • 地址:https://github.com/hiyouga/ 美洲驼-高效-调谐 
    • 简介:该项目提供了易于使用的基于PEFT的美洲驼微调框架,实现了包括全参数,LoRA,QLoRA等的预训练,指令微调和RLHF,并支持美洲驼,布鲁姆,猎鹰,百川,国际等底座模型。
  • ChatGLM高效调优:

  • bert4torch:

    • 地址:https://github.com/Tongjilibo/ bert4torch 
    • 简介:该项目提供了一个大模型的训练和部署框架,包含了目前主要的开源大模型,美洲驼系列,chatglm,布鲁姆系列等等,同时还给出了预训练和微调的示例。

5. LLM推理部署框架

6.法学评测

  • FlagEval (天秤)大模型评测体系及开放平台

    • 地址:GitHub - FlagOpen/FlagEval: FlagEval is an evaluation toolkit for AI large foundation models. 
    • 简介:旨在建立科学、公正、开放的评测基准、方法、工具集、协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。FlagEval (天秤)创新构建了 “能力-任务-指标” 三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。
  • C-eval: 构造中文大模型的知识评估基准:

    • 地址:https://github.com/SJTU照明/ceval 
    • 简介:构造了一个覆盖人文,社科,理工,其他专业四个大方向,52个学科(微积分,线代 …),从中学到大学研究生以及职业考试,一共13948道题目的中文知识和推理型测试集。此外还给出了当前主流中文法学硕士的评测结果。
  • OpenCompass:

  • SuperCLUElyb: SuperCLUE琅琊榜

  • 高考长椅:

    • 地址:https://github.com/OpenLMLab/ 高考-长凳 
    • 简介: 高考是一个以中国高考题目为数据集,测评大模型语言理解能力,逻辑推理能力的测评框架,收集了2010年-2022年年全国高考卷的题目,其中包括1781道客观题和1030道主观题,构建起高考的数据部分。
  • AGIEval:

    • 地址:GitHub - ruixiangcui/AGIEval 
    • 简介:由微软发布的一项新型基准测试、这项基准选取20种面向普通人类考生的官方、公开、高标准往常和资格考试、包括普通大学入学考试(中国高考和美国SAT考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等等。
  • 协智:

    • 地址:https://github.com/mikegu721/xiezhiebenchmark 
    • 简介:由复旦大学发布的一个综合的、多学科的、能够自动更新的领域知识评估基准、包含了哲学、经济学、法学、教育学、文学、历史学、自然科学、工学、农学、医学、军事学、管理学、艺术学这13个个学科门类,24个万道学科题目,516个具体学科,249587道题目。
  • 打开LLM排行榜:

  • CMMLU:

    • 地址:https://github.com /浩南里/CMMLU 
    • 简介:CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。
  • MMCU:

  • 中文-llm-基准:

    • 地址:https://github.com/jeinlee1991/中文-llm-基准 
    • 简介:中文大模型能力评测榜单:覆盖百度文心一言,chatgpt,阿里通义千问,讯飞星火,belle / chatglm6b等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!
  • 安全提示:

    • 地址:https://github.com/thu-coai/安全提示 
    • 简介:由清华大学提出的一个关于LLM安全评测基准,包括安全评测平台等,用于评测和提升大模型的安全性,囊括了多种典型的安全场景和指令攻击的提示。
  • PromptCBLUE: 中文医疗场景的法学硕士评测基准

  • 哈卢卡: 中文幻觉评估基准

    • 地址:GitHub - OpenMOSS/HalluQA: Dataset and evaluation script for "Evaluating Hallucinations in Chinese Large Language Models" 
    • 简介: 用于衡量中文大型语言模型中的幻觉现象哈卢卡的基准测试该项目提出了一个名为。halluQA包含450个精心设计的对抗性问题,涵盖多个领域,并考虑了中国历史文化,风俗和社会现象。在构建HalluQA时,考虑了两种类型的幻觉:模仿性虚假和事实错误,并基于GLM-130B和ChatGPT构建对抗性样本。为了评估,设计了一种使用GPT-4进行自动评估的方法,判断模型输出是否是幻觉。

7.法学教程

法学基础知识
提示工程教程
  • 面向开发者的LLM入门课程:

    • 地址:https://github.com/datawhalechina/ 提示-面向开发人员的工程 
    • 简介: 主要包括围绕吴恩达老师的大模型系列课程展开一个中文版的大模型入门教程: 吴恩达《开发人员的ChatGPT Prompt工程》课程中文版,吴恩达《使用ChatGPT API构建系统》课程中文版,吴恩达《LangChain for LLM Application Development》课程中文版等。
  • 提示工程指南:

    • 地址:https:// www.promptingguide.ai/zh
    • 简介:该项目基于对大语言模型的浓厚兴趣、编写了这份全新的提示工程指南、介绍了大语言模型相关的论文研究、学习指南、模型、讲座、参考资料、大语言模型能力以及与其他与提示工程相关的工具。
  • awesome-chatgpt-提示-zh:

法学应用教程
法学实战教程

网站公告

今日签到

点亮在社区的每一天
去签到