A0.LLM大语言模型及其作用
一、大语言模型 (LLMs)
LLMs是一种人工智能 (AI) 计算机系统,能够理解、生成和处理自然语言,包括根据其训练数据或在查询时提供给它们的数据回答问题。您可以了解更多关于使用 LLMs 的信息。
二、代理应用
当 LLM 在应用程序中使用时,它通常用于做出决策、采取行动和/或与世界交互。这是代理应用的核心定义。
尽管代理应用的定义很广泛,但有几个关键特征定义了代理应用
LLM 增强:LLM 通过工具(即代码中任意可调用的函数)、内存和/或动态提示进行增强。
提示链:使用多个相互构建的 LLM 调用,一个 LLM 调用的输出用作下一个调用的输入。
路由:LLM 用于将应用程序路由到应用程序中的下一个适当的步骤或状态。
并行性:应用程序可以并行执行多个步骤或操作。
编排:使用 LLM 的层级结构来编排较低级别的操作和 LLM。
反思:LLM 用于反思和验证前一步骤或 LLM 调用的输出,这可以用来指导应用程序进入下一个适当的步骤或状态。
三、代理
我们将代理定义为“代理应用”的一个具体实例。代理是一种软件,通过将 LLMs 与其他工具和内存结合,在推理循环中自主地执行任务,该循环决定接下来使用哪个工具(如果需要)。
这在实践中意味着:- 代理接收用户消息 - 代理使用 LLM,结合先前的聊天历史、工具和最新的用户消息来确定要采取的下一个适当行动 - 代理可能会调用一个或多个工具来协助处理用户的请求 - 如果使用了工具,代理将解释工具输出并用其指导下一个行动 - 一旦代理停止采取行动,它会将最终输出返回给用户
您可以了解更多关于代理的信息。
四、检索增强生成 (RAG)
检索增强生成 (RAG) 是使用 LlamaIndex 构建数据支持 LLM 应用的核心技术。它通过在查询时将您的私有数据提供给 LLM,而不是在您的数据上训练 LLM,从而使 LLMs 能够回答关于您私有数据的问题。为了避免每次都将所有数据发送给 LLM,RAG 会索引您的数据,并仅选择性地将相关部分与您的查询一起发送。您可以了解更多关于 RAG 的信息。
五、使用案例
大致可以分为五类
代理:代理是由 LLM 驱动的自动化决策器,通过一套工具与世界交互。代理可以执行任意数量的步骤来完成给定任务,动态决定最佳行动方案,而不是遵循预设步骤。这使其具有额外的灵活性来处理更复杂的任务。
工作流:工作流是一种特定的事件驱动抽象,允许您编排一系列步骤和 LLMs 调用。工作流可用于实现任何代理应用。
结构化数据提取 摄取大量非结构化数据并将其以结构化格式返回。这对于从 PDF、网站等非结构化源中提取结构化数据非常有用,也是自动化工作流的关键。
查询引擎:查询引擎是一个端到端流程,允许您对数据提出问题。它接收自然语言查询,并返回响应以及检索到的并传递给 LLM 的参考上下文。
聊天引擎:聊天引擎是一个端到端流程,用于与您的数据进行对话(多次往返而不是单一问答)。
A1.闭源LLM大语言模型概况(2025-07)
一、全景图:当前最活跃的 10+ 家闭源大模型(2025-07)
厂商/系列 | 最新版本 | 特长关键词 | 国内合规直调入口 | 计费模式 | 免费额度 |
---|---|---|---|---|---|
OpenAI | GPT-4.1 / o3 pro | 通用+推理 | 需中转代理,官方未直连 | 按 token | 无 |
Anthropic | Claude 4 Opus | 超长上下文/代码 | 需中转代理,官方未直连 | 按 token | 无 |
Gemini 2.5 Pro | 10M token 上下文 | 需中转代理,官方未直连 | 按 token | 无 | |
百度文心一言 | ERNIE 4.5 Turbo | 搜索+插件 | yiyan.baidu.com | 免费 | 不限量 |
阿里通义千问 | Qwen3-235B-A22B | MCP+Agent | qianwen.aliyun.com | 按 token / 包月 | 50 万 tokens |
月之暗面 Kimi | Kimi-VL-Thinking | 长文档阅读 | kimi.moonshot.cn | 按 token | 100 万 tokens/月 |
字节豆包 | Doubao-2.0 | K12 教育 | doubao.com | 按 token | 10 万 tokens/日 |
智谱 ChatGLM | GLM-4.0 | 多模态+插件 | chatglm.cn | 按 token | 50 万 tokens |
腾讯元宝 | Hunyuan-T1 | 微信生态 | yuanbao.tencent.com | 按 token | 50 万 tokens |
讯飞星火 | Spark-4.0 | 语音场景 | xinghuo.xfyun.cn | 按 token | 200 万 tokens |
DeepSeek | DeepSeek-R1 | 数理推理 | deepseek.com | 按 token | 100 万 tokens |
注:GPT/Claude/Gemini 虽在全球最活跃,但**境内用户需通过合规云厂商的“中转”或“镜像”**才能稳定调用,详见下表。
二、国内合规直调通道速查表(2025-07)
原模型 | 国内可直连入口 | 获得方式 | 网络要求 | 价格 vs 官方 | 备注 |
---|---|---|---|---|---|
GPT-4.1 | 腾讯云 TI-Platform · 大模型广场 | 腾讯云账号→实名→开通服务 | 无需 VPN | 比官方贵 10-20% | 仅企业实名可开 |
GPT-4.1 | 百度智能云 · 千帆大模型 | 百度账号→实名→开通 | 无需 VPN | 与官方持平 | 支持按量/资源包 |
Claude 4 | 阿里云 PAI-灵积 | 阿里云账号→实名→申请白名单 | 无需 VPN | 按 token | 个人可申 |
Gemini 2.5 | 谷歌 Cloud 中国(需企业) | 谷歌云 Partner 通道 | 需 ICP 备案 | 官方美元价 | 目前仅对 EAP 客户开放 |
以上所有 | 第三方聚合 API(OpenRouter、PPIO、Together) | 直接注册 | 无需 VPN | 加价 5-15% | 适合开发者快速上线 |
三、计费方式对比(2025-07,人民币)
模型 | 输入价 | 输出价 | 计费单元 | 免费额度/日 | 省钱技巧 |
---|---|---|---|---|---|
国内官方通道 | |||||
百度文心 4.5 | 0 | 0 | 免费 | 不限 | 直接白嫖 |
阿里 Qwen3-235B | ¥0.006/1k | ¥0.018/1k | token | 50 万/月 | 买资源包 8 折 |
月之暗面 Kimi | ¥0.002/1k | ¥0.006/1k | token | 100 万/月 | 夜间(0-6 点)7 折 |
字节豆包 | ¥0.001/1k | ¥0.003/1k | token | 10 万/日 | 教育客户可申请折扣 |
智谱 GLM-4 | ¥0.005/1k | ¥0.015/1k | token | 50 万/月 | 学生认证领 2 倍额度 |
讯飞星火 | ¥0.004/1k | ¥0.012/1k | token | 200 万/月 | 语音场景券包 |
国际模型·国内镜像 | |||||
GPT-4.1(腾讯云) | ¥0.06/1k | ¥0.18/1k | token | 无 | 买 1 亿 token 包 9 折 |
Claude 4(阿里云) | ¥0.08/1k | ¥0.24/1k | token | 无 | 夜间 8 折 |
1k tokens ≈ 750 英文单词 ≈ 500 汉字。
四、免费额度领取 3 步法
- 注册国内云账号(实名认证)
阿里云 / 腾讯云 / 百度智能云 / 火山引擎 均可。 - 搜索“大模型”或“Model-as-a-Service”产品页,点击“立即开通”。
系统会自动送 10-200 万 tokens 代金券。 - 在“费用中心→代金券”查看有效期,30 天内用完即可。
一句话总结
- 想“零门槛”:直接用百度文心一言(永久免费)或各家国产大模型(送 10-200 万 tokens)。
- 想“用 GPT/Claude”:找腾讯云、阿里云、OpenRouter 等合规镜像,价格≈官方+10%,无需翻墙。
A2.闭源LLM大语言模型落地
下面给出一份“从 0 到上线”的实操清单,分两条主线说明:
- 客户端(CLI / Web / App /小程序)如何配置
- 服务端(Python/Java/云函数/容器)如何集成闭源大模型
所有示例均以「国内可直接访问、无需翻墙」的闭源大模型(百度千帆、阿里DashScope、智谱GLM、月之暗面Kimi、字节豆包)为范例,时间截点为 2025-07-16。