以deepseek为例的AI学习及公司知识库的搭建

发布于:2025-02-21 ⋅ 阅读:(22) ⋅ 点赞:(0)

一、 如何下载模型参考下列文章和视频

https://testerhome.com/articles/41474
https://www.bilibili.com/video/BV1QyFoeuE3e/?spm_id_from=333.1387.favlist.content.click&vd_source=13dd0c4a82a579a2d8aef2ac9bf547bc

  • 启动模型命令

       ollama run deepseek-r1:1.5b
    
  • 列出本地已下载的 AI 模型

      	ollama list 
    

二、 如何搭建公司的知识库

大概流程:数据准备→预处理→向量化存储→模型集成→构建检索和生成系统→权限和界面开发→测试优化→部署维护

1 .数据准备阶段

1 预处理

三、 名词解释

  • AGI:
    通用人工智能(Artificial General Intelligence),是指具有高效的学习和泛化能力、能够根据所处的复杂动态环境自主产生并完成任务的通用人工智能体,具备自主的感知、认知、决策、学习、执行和社会协作等能力,且符合人类情感、伦理与道德观念 [1]。其研究发展通常涉及众多学科领域,包括计算机科学、认知科学、心理学、神经科学等.(这个是AI的终极目标)
  • Hugging Face( https://huggingface.co/):
    Hugging Face Hub 允许用户上传、分享、管理 AI 模型、数据集和代码。你可以 Fork 其他人的模型,就像在 GitHub 上 Fork 代码一样。总结:Hugging Face 作为 AI 领域的 GitHub/Docker Hub
  • 神经网络
  • 前向传播
  • RGA
    RAG(Retrieval-Augmented Generation)是一种结合信息检索与生成式语言模型的方法,旨在提升知识问答的精准性和有效性。最简单的理解,可以认为是给大模型外挂了一个知识库。
  • ollama
    Ollama 是一个开源的人工智能平台,旨在为开发者提供更便捷的方式来构建和部署基于大型语言模型(LLMs,Large Language Models)的应用。它的目标是提供一种高效、简洁且低成本的方式来运行和集成语言模型,允许用户在本地环境中高效地使用 AI总结;像 运行 Docker 容器,但 Ollama 聚焦于 AI 模型的运行,而不涉及其他复杂的部署步骤
  • Agent(智能体):最重要的思考模型,一堆流程、工具和api,具有意图识别(词槽 还有反问用户生成模型时确实的东西 如点外卖 会追问你喜好和价格)、意图转移等功能 总结:如查询今天订单总价格 他就知道去调用哪个api了
    在这里插入图片描述

智能体参考(https://meeting.tencent.com/cw/2GoPkEpMe5

  • 词向量
    词向量(Word Embedding)是一种将词语映射到高维向量空间的技术。通过这种方式,每个词都被表示为一个固定长度的向量(通常是几十到几百维)。这些向量能够捕捉词与词之间的语义关系,使得相似意义的词在向量空间中彼此靠得更近。例如,“王”和“皇帝”在词向量空间中会比“王”和“狗”更接近。
  • 向量库
    向量库(Vector Database):向量库是用于存储和管理高维向量的数据库。由于现代AI任务中,经常需要处理大量的向量数据,特别是词向量、句向量、图像特征向量等,传统的关系型数据库并不适合存储和高效地查询这些数据。因此,向量数据库被开发出来,以便对这些高维数据进行快速的插入、存储、检索和相似度计算
  • 余弦相似度
    余弦相似度用来衡量两个词向量之间的相似度,计算的是它们的角度大小。对于两个词语,如果它们的词向量之间的夹角较小(即余弦相似度接近1),那么这两个词语的语义较为相近。比如,“猫”和“狗”的词向量之间的余弦相似度通常较高,因为它们都是常见的宠物。
    词向量、 向量库与余弦相似度之间得关系
    举个实际例子,假设我们有一个搜索引擎,当用户输入一个查询词时:

这个查询词首先被转换成词向量(比如 “猫” → 词向量A)。
然后,在向量库中检索所有词的向量,并计算它们与词向量A的余弦相似度。
最后,返回那些与查询词“猫”最相似的词(比如“狗”,“宠物”)。
所以,这三者结合在一起,构成了一个有效的文本检索、推荐或理解的基础。

  • 微调(fine-tune)
    1.全量微调:一般不做,容易让模型变得更傻
    2.高效微调:具体来说,LORA微调并不直接调整原始模型的所有参数,而是通过在某些层中插入低秩的适配器(Adapter)层来进行训练。
    LORA(Low-Rank Adaptation)微调是一种参数高效的微调方法,旨在通过引入低秩矩阵来减少微调时需要调整的参数数量,从而显著降低显存和计算资源的消耗。
    高效微调主要用于以下四个方面:
    2.1 对话风格微调:高效微调可以用于根据特定需求调整模型的对话风格。例如,针对客服系统、虚拟助理等场景,模型可以通过微调来适应不同的语气、礼貌程度或回答方式,从而在与用户互动时提供更符合要求的对话体验。通过微调少量的参数(例如对话生成的策略情感表达等),可以使模型表现出更具针对性和个性化的风格。
    2.2 知识灌注:知识灌注是指将外部知识或领域特定的信息快速集成到已有的预训练模型中。通过高效微调,模型可以更好地学习新领域的专有知识,而无需重新从头开始训练。例如,对于法律、医疗等专业领域,可以使用少量的标注数据对预训练模型进行微调,帮助模型理解特定行业的术语、规则和知识,进而提升专业领域的问答能力。
    2.3 推理能力提升:高效微调还可以用于提升大模型的推理能力,尤其是在处理更复杂推理任务时。通过微调,模型能够更加高效地理解长文本、推理隐含信息,或者从数据中提取逻辑关系,进而在多轮推理任务中提供更准确的答案。这种微调方式可以帮助模型在解答复杂问题时,提高推理准确性并减少错误。
    2.4 Agent能力(Functioncalling能力)提升: 在多任务协作或功能调用场景中,高效微调能够显著提升模型的Agent能力,使得模型能够有效地与其他系统进行交互、调用外部API或执行特定任务。通过针对性微调,模型可以学会更精准的功能调用策略、参数解析和操作指令,从而在自动化服务、智能助手或机器人控制等领域表现得更加高效和智能。

  • COT数据集
    CoT 数据集(Chain-of-Thought Dataset)通常指的是与 Chain-of-Thought (CoT) 方法相关的数据集,CoT 是一种用于改进大型语言模型推理能力的技术。在CoT方法中,模型在推理过程中不仅给出最终答案,还会生成中间推理步骤或思路,从而提升模型在复杂任务中的表现。CoT 数据集则是通过模拟这种推理过程,生成带有详细推理链的数据。

unsolth