AI Agent基本概念

发布于:2025-04-16 ⋅ 阅读:(11) ⋅ 点赞:(0)

AI Agent的崛起

生成式人工智能正引领数字革命的浪潮,成为核心技术力量。在这一快速发展的领域,嵌入(embedding)、副驾驶(Copilot)和智能体(Agents)模式正在重塑人机交互方式,标志着AI在信息处理、问题解决和创造性任务中的进步。
在这里插入图片描述

AGENT的工作机制

下图展示了一个智能体(Agent)的工作原理模型,模拟人类从感知环境到做出决策和行动的过程。
在这里插入图片描述
下面我们来仔细解读一下这张图。

1、感知(Perception)

  1. 这是Agent工作流程的第一步。通过各种输入,让AI能够感知到外部信息。
  2. 输入Input:可以是传感器、摄像头、麦克风和输入文本等各种数据源。
  3. 外部环境Environment:系统所在环境的上下文。比如”我有点不舒服“这件事,会涉及到天气、环境等。

2、信息处理(Agent的大脑Brain)

Agent的大脑可以简单理解为LLM大模型+N个知识库,用来处理问题。
1、信息存储相关
记忆系统:包括Storage和Memory,用来存储长期和短期的数据。
知识库Knowledge:包括医学知识、商品库等,用来诊断我当前的状态,以及后续治疗、生活所需的管理。
2、大模型对信息进行处理
基于感知的信息(input+environment)、记忆、知识库等信息,进行加工处理,得出结论。“我生病了,而且是阳了这种情况”。
3、制定下一步的计划(planning)
Action/Reasoning是基于其决策的具体动作,但还没有实行。
要帮我写好请假条、帮我买药、买水、叫车等。

3、执行(Action)

基于Brain一系列的操作后,得出结论,制定下一步计划。这一步就是Action完成。大模型本身不能完成这些任务,需要调用外部的工具。

AI Agent的系统组成

在这里插入图片描述

规划(Planning)

规划模块具备事前规划和事后反思两个阶段。
在事前规划阶段,这里设计对未来行动的预测和决策制定,如执行复杂任务时,Agent将大目标分解成更小的,可管理的子目标,从而能够高效的规划一系列步骤和行动,以达到预期结果。
在事后反思阶段,智能体具有检查和改进制定计划中不足的能力,反思错误并吸取经验教训进行完善,形成和加入长期记忆,帮助Agent之后规避错误,更新其对世界的认知。

工具使用(Tool Use)

工具使用模块指的是智能体能够利用外部资源或工具来执行任务。如学习调用外部 API 来获取模型权重中缺失的额外信息,包括当前信息、代码执行能力、对专有信息源的访问等,以此来补足 LLM 自身弱项。
例如 LLM 的训练数据不是实时更新的,这时可以使用工具访问互联网来获取最新信息,或者使用特定软件来分析大量数据。
现在市场上已经存在大量数字化、智能化的工具,智能体使用工具比人类更为顺手和高效,通过调用不同的 API 或工具,完成复杂任务和输出高质量结果,这种使用工具的方式也代表了智能体的一个重要特点和优势。

行动

行动模块是智能体实际执行决定或响应的部分。面对不同的任务,智能体系统有一个完整的行动策略集,在决策时可以选择需要执行的行动,比如广为熟知的记忆检索、推理、学习、编程等。

记忆(Memory)

记忆模块负责存储信息,包括过去的交互、学习到的知识,甚至是临时的任务信息。对于一个智能体来说,有效的记忆机制能够保障它在面对新的或复杂的情况时,调用以往的经验和知识。
例如,一个具备记忆功能的聊天机器人可以记住用户的偏好或先前的对话内容,从而提供更个性化和连贯的交流体验。
它分为短期记忆和长期记忆:
a. 短期记忆,所有的上下文学习都是利用短期记忆来学习;
b. 长期记忆,这为智能体提供了长时间保留和回忆。
除了以上四个核心模块之外,一个 AI Agent 的良好运行离不开LLM、提示词(Prompt)以及知识库(Knowledge)。
LLM
○ AI Agent 的核心计算引擎是一个大语言模型。LLM 在海量数据集上进行训练,以理解文本数据并从中推理。
提示词(Prompt)
○ 提示词是向大语言模型(LLM)提供关于 Agent 的目标、行为与计划的信息阐述。建议从角色、技能、插件、知识库等层面,分层次进行描述,这样能让提示词(Prompt)更完善。
○ 它分为通用提示词和特定提示词:
○ 通用提示词(General prompt):对 Agent 的角色与行为予以说明。
○ 特定提示词(Specific prompt):将特定任务的目标传达给 Agent。
知识库(Knowledge)
○ 没有该领域的知识,Agent就无法解决甚至理解任务。因此,要么必须对 LLM 进行微调以获得知识,要么我们可以创建一个工具来从数据库中提取知识。
总的来说,以上各个模块相互配合使 Agent 能够在更广泛的情境中采取行动和作出决策,以更智能、更高效的方式执行复杂任务。

Function Calling

在 Agent 的工具使用(Tool Use)实现中,许多大型语言模型(LLM)平台(如 OpenAI 和 Google)引入了函数调用(Function Call)功能(详见OpenAI Function calling)。简单来说,就是让模型在需要的时候自动调用一些预定义的函数来获取数据或执行操作。
在这里插入图片描述
存在的问题:

  1. 标准化问题:虽然能够实现大模型调用外部工具的功能,但由于各家模型的标准不一,导致不同大模型之间难以互相操作。
  2. 碎片化问题:不同的工具和功能需要不同的调用方式,增加了开发的复杂性和工作量。
  3. 效率问题:在调用外部工具时,需要创建和管理大量的外部函数,这不仅增加了系统的复杂度,还可能影响调用效率。

MCP(Model Context Protocol,模型上下文协议)

MCP 起源于 2024 年 11 月 25 日 Anthropic 发布的文章:Introducing the Model Context Protocol。
MCP定义了应用程序和 AI 模型之间交换上下文信息的方式。这使得开发者能够以一致的方式将各种数据源、工具和功能连接到 AI 模型(一个中间协议层),就像 USB-C 让不同设备能够通过相同的接口连接一样。解决了Agent开发中调用外部工具门槛过高的问题。
在这里插入图片描述
在这里插入图片描述


网站公告

今日签到

点亮在社区的每一天
去签到