LLMs：大模型算法专家&架构师必读—从系统架构和技术栈的角度深度剖析如何搭建一个类似ChatGPT的大模型界面应用—明确需求与目标→分层设计技术架构(数据层/模型层/后端层/前端层)→架构实现(后端-EW帮帮网

LLMs：大模型算法专家&架构师必读—从系统架构和技术栈的角度深度剖析如何搭建一个类似ChatGPT的大模型界面应用—明确需求与目标(确定应用功能和范围/功能需求/非功能需求)→分层设计技术架构(数据层/模型层/后端层/前端层)→架构实现(后端开发/前端开发/模型部署/数据库与日志系统/系统部署与运维)→项目开发与上线计划→总结与反思(阶段性/持续性)之详细攻略

导读：在本文中，博主将带领大家深入探讨如何从系统架构和技术栈的角度，搭建一个类似ChatGPT的大模型界面应用。文章首先明确了应用的需求与目标，包括功能需求和非功能需求，为后续技术架构的设计奠定了基础。接下来，我们采用分层设计理念，详细剖析了数据层、模型层、后端层和前端层的技术架构。文章还详细介绍了架构实现的五大步骤：后端开发、前端开发、模型部署、数据库与日志系统、系统部署与运维，并提供了相应的工具与资源，以及分别从两大部署组(后端服务和Nginx服务【反向代理+负载均衡】)来深度探讨大模型高效部署与应用的核心逻辑。此外，本文还制定了项目开发与上线计划，包括时间计划和开发团队分工。最后，我们对整个项目进行了总结与反思，以期为类似项目的开发提供借鉴和启示。如果想要要搭建一个类似ChatGPT的界面应用，从系统架构和技术栈的角度进行详细规划。以下是从头到尾的分步骤详解。但是，下述步骤是一个迭代的过程，需要不断地学习和改进。从一个简单的 MVP 开始，逐步添加功能，是一个比较稳妥的策略。
#################################################
该文章将持续更新……

AGI：人工智能大模型领域实战篇—设计一个类似GPT-3.5/GPT-4的大模型从开发→部署→应用需要经过的八大步骤、为什么只有少数公司和机构能够承担这样的训练成本之详细介绍

LLMs：业务角度路线—基于开源大模型实现对中文语料实战应用(企业级ChatGPT领域大模型-私有化实战八大步骤、提高LLMs模型中文性能的三大策略(直接原始LLMs进行指令微调/基于原始模型扩充词表再二次预训练/直采国内LLMs)、两条路线(国外模型方案LLaMA/Falcon/Chinese-LLaMA等、国内模型方案ChatGLM/BaiChuan等)的设计流程实战集合之详细攻略

从系统架构和技术栈的角度深度剖析如何搭建一个类似ChatGPT的大模型界面应用

1、明确需求与目标(确定应用功能和范围/功能需求/非功能需求)

2、分层设计技术架构

2.1、采用分层架构(数据层/模型层/后端层/前端层)

Python：Python语言的简介(语言特点/pyc介绍/Python版本语言兼容问题(python2 VS Python3))、安装、学习路线(数据分析/机器学习/网页爬等编程案例分析)之详细攻略

Python之Flask框架：Flask框架简介、安装、使用方法详细攻略

Docker：Docker的简介、安装、使用方法之详细攻略

BigData之MongoDB：MongoDB(分布式文件存储/非关系型数据库/面向文档库/Jason格式存储/高性能高扩展)的简介、下载、案例应用之详细攻略

LLMs之VDB：Elasticsearch的简介、安装和使用方法、案例应用之详细攻略

DataScience之Prometheus：Prometheus(开源监控系统)的简介、安装方法、使用方法

3、架构实现步骤(后端开发/前端开发/模型部署/数据库与日志系统/系统部署与运维)

LLMs：基于互联网应用系统的架构的视角—分别从两大部署组(后端服务和Nginx服务【反向代理+负载均衡】)来深度探讨大模型高效部署与应用的核心逻辑、实战案例讲解(对比并分析线电商网站和基于大型语言模型服务案例)之详细攻略

步骤一：后端开发

(1)、核心内容：基础API搭建、模型接口集成、安全与用户管理、日志与监控

MLOPS：数据科学/机器学习算法领域之工程化五大核心技术—模型部署实战之利用Docker在服务器上部署模型文件+Flask创建REST API实现服务(九大步骤/一键部署自动化脚本代码)之详细攻略

Tool之Jmeter：本地端实现客户端与服务器的模拟交互获取压测数据之利用python代码的Flask框架编写的简单Web应用程序(提供一个 Web服务+接收来自客户端的 HTTP请求(通过JSON数据获取用户输入)+并根据请求中的数据返回相应的响应)，并利用Jmeter对该服务实现压测的图文教程案例

LLMs之LLaMA3：基于Llama-3-8B-Instruct模型采用FastApi实现部署调用——创建model_download.py文件下载模型→创建api.py脚本文件构建FastAPI应用(设置设备参数【指定使用并设置CUDA设备ID】→实例化FastAPI对象→加载预训练的分词器和模型→构建处理POST请求的端点并返回响应【从请求中提取JSON数据并获取提示prompt和历史记录history→使用bulid_input函数构建模型输入【使用特定的格式来构建对话输入，以便模型理解对话的上下文】→调用模型生成对话并对输出进行解析和处理→构建响应JSON并返回给客户端→构建日志信息并打印输出→利用torch_gc函数清理GPU内存】→启动FastAPI应用并监听特定端口)→终端运行脚本文件启动API服务并测试对话交互(两种方法实现，利用curl调用或利用python中的requests库进行调用)

LLMs之ToolAgent：基于LangChain框架的LangServe提供FastAPI服务的ToolAgent应用实战案例—通过接收用户输入+Agent调用语言模型并利用检索工具来处理输入(提供关于查询的相关信息)然后返回相应的输出—创建retriever检索器(加载指定网页数据+文本分割+利用OpenAIEmbeddings文档向量化到FAISS)→定义工具集(将retriever包装为检索工具【根据指定网页检索】+Tavily搜索工具【爬虫实时最新搜索】)并初始化→创建Agent(采用更优的GPT3.5+提供指定工具集+模板prompt)并定义Agent执行器→利用FastAPI(标题+版本+描述)创建应用程序→添加路由(定义输入和输出模型+添加一个路由到FastAPI应用)→启动应用(通过Uvicorn启动FastAPI应用并监听)

LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混合精度优化/梯度累积/梯度裁剪/定期保存模型

(2)、工具与资源：Python依赖、部署工具

Py之transformers：transformers的简介、安装、使用方法、案例应用之详细攻略

步骤二：前端开发

(1)、核心内容：UI设计、代码实现、与后端API对接、状态管理、用户体验优化

Postman：Postman(HTTP的测试工具)使用方法详细攻略

(2)、工具与资源：开发环境、UI库

步骤三：模型部署

(1)、核心内容：搭建环境、选择模型、优化模型性能、部署架构

AIGC之GPT-4：GPT-4的简介(核心原理/意义/亮点/技术点/缺点/使用建议)、使用方法、案例应用(计算能力/代码能力/看图能力等)之详细攻略

LLMs之Claude 3.5：Claude 3.5(Claude 3.5 Sonnet和Claude 3.5 Haiku)的简介、安装和使用方法、案例应用之详细攻略

MLM之GLM-4：GLM-4-9B的简介、安装和使用方法、案例应用之详细攻略

LLMs之Qwen：Qwen2.5的简介、安装和使用方法、案例应用之详细攻略

LLMs之GPUStack：基于国产硬件华为Atlas(昇腾910B)以及GPUStack框架推理并部署Qwen 2.5—配置昇腾NPU环境(安装NPU驱动+CANN Toolkit及其Kernel+配置环境变量)→安装 GPUStack→纳管昇腾 NPU 资源→部署 Qwen 2.5 模型→测试与性能优化

ML与Docker：《Deploy Machine Learning Pipeline on the cloud using Docker Container使用Docker容器在云端部署机器学习管道》的翻译与解读—PyCaret(训练和部署机器学习管道和模型到生产环境中)+Flask(构建Web应用程序)+Docker(通过使用容器来创建-部署-运行应用程序)+Microsoft Azure(云服务)

Ubuntu之Docker：基于Ubuntu系统利用Docker部署一个Python脚本来实现函数功能的部署案例图文教程之详细攻略

LLMs之VDB之Elasticsearch：基于Elasticsearch向量数据库工具中的ElasticsearchRetriever对比多种不同搜索方法并构建RAG系统—基于本地Docker开启Elasticsearch服务(与Elasticsearch集群交互)→定义数据/创建索引/向量化并索引到Elasticsearch中→对比不同的检索方法(向量搜索/BM25搜索/混合搜索/模糊匹配/复杂过滤)→自定义文档映射器→结合GPT-4o构建RAG系统

(2)、工具与资源：模型框架、硬件加速

AI之HardWare：人工智能领域之大模型部署两大设计方案(本地搭建服务器+调用云厂商服务)、服务器和硬件相关技术的简介(GPU/TPU/NPU，GeForce【3090-4090】、Tesla【A800-A100/V100】、Ascend 910B)、服务器搭建(GPU集群、节点、GPU卡/显卡)之详细攻略

LLMs之NPU之Ascend之PyTorch：基于华为昇腾NPU设备实现PyTorch模型迁移和训练之单机多卡+混合精度训练手动迁移—导入支持库、参数配置、设备映射、进程管理、模型迁移、数据加载、训练过程等多方面调

步骤四：数据库与日志系统

(1)、核心内容：选择数据库、日志管理、数据备份与恢复

MLM之RAG：探索基于LangChain和Redis的新多模态RAG模板实战

(2)、工具与资源：数据库、日志工具

步骤五：系统部署与运维

(1)、核心内容：CI/CD、负载均衡、监控与告警、安全性、弹性扩展

CI/CD之Jenkins：Jenkins的简介、安装、使用方法(比如在 Jenkins 中配置和使用机器学习项目)之详细攻略

DataScience之Grafana：Grafana(数据可视化和监控平台)的简介、安装方法、使用方法

DayDayUp之LLMs：人工智能项目优先级排序常用维度、大模型项目失败的五大类别(技术导向与设计问题/业务理解与融合问题/产品规划与管理问题/评估与反馈不足/隐性成本与风险问题，几十条高价值经验)

AGI：人工智能大模型领域实战篇—设计一个类似GPT-3.5/GPT-4的大模型从开发→部署→应用需要经过的八大步骤、为什么只有少数公司和机构能够承担这样的训练成本之详细介绍

AGI：人工智能大模型领域实战篇—设计一个类似GPT-3.5/GPT-4的大模型从开发→部署→应用需要经过的八大步骤、为什么只有少数公司和机构能够承担这样的训练成本之详细介绍_大模型实战-CSDN博客

LLMs：业务角度路线—基于开源大模型实现对中文语料实战应用(企业级ChatGPT领域大模型-私有化实战八大步骤、提高LLMs模型中文性能的三大策略(直接原始LLMs进行指令微调/基于原始模型扩充词表再二次预训练/直采国内LLMs)、两条路线(国外模型方案LLaMA/Falcon/Chinese-LLaMA等、国内模型方案ChatGLM/BaiChuan等)的设计流程实战集合之详细攻略

LLMs：业务角度路线—基于开源大模型实现对中文语料实战应用(企业级ChatGPT领域大模型-私有化实战八大步骤、提高LLMs模型中文性能的三大策略(直接原始LLMs进行指令微调/基于原始模型扩充词表_libertranslate 私有化训练-CSDN博客

从系统架构和技术栈的角度深度剖析如何搭建一个类似ChatGPT的大模型界面应用

1、明确需求与目标(确定应用功能和范围/功能需求/非功能需求)

这一步至关重要，因为它决定了整个项目的规模和方向。过高的目标可能导致项目延期或失败。需要进行充分的市场调研和需求分析，制定一个切实可行的MVP（最小可行产品）计划。

确定应用功能和范围	>> 功能定义：明确你的应用的核心功能。例如，它是否仅支持文本对话？是否支持多轮对话？是否需要上下文记忆？是否需要个性化设置？是否需要集成其他功能，例如语音识别、图像生成等等？功能越复杂，系统架构越复杂。 >> 用户群体：你的目标用户是谁？他们的技术水平如何？这将影响你的界面设计和技术选型。 >> 数据来源：你的模型将从哪里获取数据？你需要考虑数据来源的可靠性、安全性以及数据处理的成本。这可能涉及到大型语言模型的API调用，或者自建模型的训练和部署。
核心功能	>> 明确应用的核心功能，如自然语言处理任务（问答、文本生成等）、用户交互方式（聊天窗口、语音输入等）、支持的语言种类、响应速度要求等。 ● 这一步主要是通过市场调研和用户需求分析来确定，不需要特定的技术工具，但要形成清晰的产品文档，作为后续开发的指导。 ● 准确的需求定义是项目成功的基础，避免在开发过程中频繁变更需求。
功能需求	>> 文本输入框、对话窗口、交互按钮。 >> 实时响应功能，支持流式输出（如字逐渐显示效果）。 >> 用户身份认证（可选）。
非功能需求	>> 可扩展性：支持用户增长。 >> 高可用性：响应迅速，低延迟。 >> 安全性：防止数据泄露和恶意攻击。

2、分层设计技术架构

2.1、采用分层架构(数据层/模型层/后端层/前端层)

	简介	技术选型
前端层	>> 用户界面，与用户直接交互。 >> 实现主要功能：对话输入与显示。	>> 语言/框架：HTML、CSS、JavaScript，结合React.js或Vue.js。 >> 部署工具：Vite、Webpack。
后端层	>> 提供API服务，负责接收请求并调用AI模型。	>> 服务器选择：需要选择合适的服务器来部署应用，这取决于应用规模和预期用户数量。可以选择云服务器（例如 AWS、Azure、Google Cloud），也可以选择自建服务器。云服务器更具扩展性和灵活性，但成本更高。 >> 编程语言和框架：Python（FastAPI、Flask），或Node.js（Express），甚至Go等。选择合适的框架（例如 Flask、Django、Express.js、Gin）可以提高开发效率。 ●● Python 拥有丰富的机器学习库，对于集成大型语言模型非常方便； ●● Node.js 具有高并发处理能力； ●● Go 则以其高性能和效率著称。 ●● 选择框架时要考虑其易用性、性能和可扩展性。 >> 部署环境：Docker容器化，支持负载均衡。
模型层	>> 执行推理（Inference），生成用户期望的回复。	>> 可以选择现成的开源模型(如OpenAI API Claude API)，闭源语言模型（如LLaMA家族、GLM家族/、Qwen家族），或者使用云服务提供商提供的语言模型服务（如Azure OpenAI Service），或部署自己的模型。 ●● 如果选择开源模型，要考虑模型的性能、训练数据、许可证等因素； ●● 如果使用云服务，要考虑成本、服务协议等。 ●● 选择合适的语言模型是关键决策，影响应用的性能和成本。
数据层	>> 存储用户数据、对话历史、模型日志。	>> 数据库：ES(向量数据库)，关系型PostgreSQL（结构化数据），NoSQL 的MongoDB（非结构化数据），Redis（缓存）。 >> 日志：Wandb(训练监控)、Elasticsearch（用户行为日志）、Prometheus（系统监控日志）。
基础设施层	>> 服务器设置	>> 硬件资源：根据应用的预计负载，选择合适的服务器配置。对于小型测试应用，云服务器的基础配置（如几GB内存、几个CPU核心）可能就足够；对于大规模应用，可能需要强大的计算资源，包括高性能CPU、GPU（如果进行模型训练或对推理速度要求极高）和大量内存。例如，AWS EC2、Azure虚拟机等云服务是常见的选择。 ●● 服务器资源的合理配置可以确保应用的性能和可靠性。 >> 操作系统：Linux（如Ubuntu、CentOS）是服务器端的常用操作系统，因为其稳定性和对服务器软件的良好支持。在服务器上安装和配置操作系统时，要注意安全设置，如防火墙配置、定期更新等。 ●● 操作系统的选择要考虑开发团队的熟悉程度和应用的具体需求。

Python：Python语言的简介(语言特点/pyc介绍/Python版本语言兼容问题(python2 VS Python3))、安装、学习路线(数据分析/机器学习/网页爬等编程案例分析)之详细攻略

Python：Python语言的简介(语言特点/pyc介绍/Python版本语言兼容问题(python2 VS Python3))、安装、学习路线(数据分析/机器学习/网页爬等编程案例分析)之详细攻略-CSDN博客

3、架构实现步骤(后端开发/前端开发/模型部署/数据库与日志系统/系统部署与运维)

LLMs：基于互联网应用系统的架构的视角—分别从两大部署组(后端服务和Nginx服务【反向代理+负载均衡】)来深度探讨大模型高效部署与应用的核心逻辑、实战案例讲解(对比并分析线电商网站和基于大型语言模型服务案例)之详细攻略

https://yunyaniu.blog.csdn.net/article/details/144439333

步骤一：后端开发(服务)

后端架构的设计需要考虑可扩展性、可靠性和安全性。需要选择合适的技术栈，并进行充分的测试和优化。模型的选择需要权衡性能、成本和易用性。

(1)、核心内容：基础API搭建、模型接口集成、安全与用户管理、日志与监控

后端服务是应用的核心，编程语言和框架的选择影响开发效率和维护成本，API的设计要注重稳定性和安全性。

	简介
基础API搭建	API设计：构建API用于接收用户请求、调用语言模型进行处理，并返回结果。例如，定义一个API端点，接收用户输入的文本，将其传递给语言模型，然后将模型生成的回答返回给客户端。要考虑API的安全性，如身份验证、授权、防止恶意请求等。需要设计清晰的 API 接口，以便前端可以与后端进行交互。 RESTful API 是常用的选择。 >> API 设计：使用FastAPI构建RESTful接口。 >> 实现基础路由：如/chat, /healthcheck。
模型接口集成	模型集成：需要选择一个大型语言模型 (LLM)，并将其集成到后端系统中。这可能涉及到调用现有的 LLM API (例如 OpenAI 的 API)，或者部署自己训练的 LLM 模型。如果选择部署开源模型或自训练模型，需要考虑模型的训练、微调和部署等问题。 >> 使用Hugging Face的transformers库加载模型。 >> 提供流式返回接口（如使用WebSocket或HTTP长轮询）。
安全与用户管理	安全考虑：后端需要考虑安全性，例如防止 SQL 注入、跨站脚本攻击 (XSS) 等。需要对用户数据进行加密和保护。 >> 引入JWT验证用户身份。 >> 使用HTTPS，防止数据泄露。
日志与监控	>> 使用logging模块记录请求日志。 >> 集成wandb、Prometheus导出监控指标。

MLOPS：数据科学/机器学习算法领域之工程化五大核心技术—模型部署实战之利用Docker在服务器上部署模型文件+Flask创建REST API实现服务(九大步骤/一键部署自动化脚本代码)之详细攻略

MLOPS：数据科学/机器学习算法领域之工程化五大核心技术—模型部署实战之利用Docker在服务器上部署模型文件+Flask创建REST API实现服务(九大步骤/一键部署自动化脚本代码)之详细攻略_容器动态管理开源大模型多并发推理api布暑方案-CSDN博客

Tool之Jmeter：本地端实现客户端与服务器的模拟交互获取压测数据之利用python代码的Flask框架编写的简单Web应用程序(提供一个 Web服务+接收来自客户端的 HTTP请求(通过JSON数据获取用户输入)+并根据请求中的数据返回相应的响应)，并利用Jmeter对该服务实现压测的图文教程案例

Tool之Jmeter：本地端实现客户端与服务器的模拟交互获取压测数据之利用python代码的Flask框架编写的简单Web应用程序(提供一个 Web服务+接收来自客户端的 HTTP请求(通过JSON_jmeter如何模拟服务器接收消息-CSDN博客

LLMs之LLaMA3：基于Llama-3-8B-Instruct模型采用FastApi实现部署调用——创建model_download.py文件下载模型→创建api.py脚本文件构建FastAPI应用(设置设备参数【指定使用并设置CUDA设备ID】→实例化FastAPI对象→加载预训练的分词器和模型→构建处理POST请求的端点并返回响应【从请求中提取JSON数据并获取提示prompt和历史记录history→使用bulid_input函数构建模型输入【使用特定的格式来构建对话输入，以便模型理解对话的上下文】→调用模型生成对话并对输出进行解析和处理→构建响应JSON并返回给客户端→构建日志信息并打印输出→利用torch_gc函数清理GPU内存】→启动FastAPI应用并监听特定端口)→终端运行脚本文件启动API服务并测试对话交互(两种方法实现，利用curl调用或利用python中的requests库进行调用)

https://yunyaniu.blog.csdn.net/article/details/138017973

LLMs之ToolAgent：基于LangChain框架的LangServe提供FastAPI服务的ToolAgent应用实战案例—通过接收用户输入+Agent调用语言模型并利用检索工具来处理输入(提供关于查询的相关信息)然后返回相应的输出—创建retriever检索器(加载指定网页数据+文本分割+利用OpenAIEmbeddings文档向量化到FAISS)→定义工具集(将retriever包装为检索工具【根据指定网页检索】+Tavily搜索工具【爬虫实时最新搜索】)并初始化→创建Agent(采用更优的GPT3.5+提供指定工具集+模板prompt)并定义Agent执行器→利用FastAPI(标题+版本+描述)创建应用程序→添加路由(定义输入和输出模型+添加一个路由到FastAPI应用)→启动应用(通过Uvicorn启动FastAPI应用并监听)

https://yunyaniu.blog.csdn.net/article/details/137751029

LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混合精度优化/梯度累积/梯度裁剪/定期保存模型

LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混_minimind 讲解-CSDN博客

(2)、工具与资源：Python依赖、部署工具

Python依赖	>> Python依赖：transformers, uvicorn, gunicorn。
部署工具	>> 部署工具：Docker, Kubernetes。

Py之transformers：transformers的简介、安装、使用方法、案例应用之详细攻略

Py之transformers：transformers的简介、安装、使用方法、案例应用之详细攻略_python transformers-CSDN博客

步骤二：前端开发(界面)

前端设计需要注重用户体验，并保证应用的性能和稳定性。需要进行充分的测试，并根据用户反馈进行改进。

(1)、核心内容：UI设计、代码实现、与后端API对接、状态管理、用户体验优化

前端技术栈：使用HTML、CSS和JavaScript构建用户界面。可以选择流行的前端框架，如React、Vue.js或Angular，这些框架可以提高开发效率，实现复杂的用户交互功能。例如，使用React可以构建一个响应式的聊天窗口界面。

	简介
UI设计	界面设计：需要设计一个用户友好的界面，方便用户与应用进行交互。这需要考虑用户体验 (UX) 和用户界面 (UI) 的设计原则。 >> 使用工具（如Figma）设计聊天界面。 >> 用户体验设计：注重界面的布局、颜色、字体等设计元素，以提供良好的用户体验。例如，聊天窗口要易于使用，消息显示清晰，输入框位置合理等。 >> 前端界面是用户直接接触的部分，要确保界面美观、易用，技术栈的选择要考虑与后端的集成和团队的技术能力。
代码实现	技术选型：前端可以使用 React、Vue、Angular 等框架。这些框架可以提高开发效率，并提供良好的用户体验。 >> 搭建基础框架（React.js）。 >> 开发组件（输入框、聊天气泡）。 >> 实现流式加载动画（使用JavaScript setInterval）。
与后端API对接	实时通信：为了实现实时的对话效果，需要使用 WebSocket 或 Server-Sent Events 等技术。 >> 通过Axios等工具发起HTTP请求。
状态管理	状态管理：对于复杂的应用，需要选择合适的状态管理方案，例如 Redux、Vuex 或 MobX。响应式设计：应用需要在各种设备上都能良好运行，因此需要进行响应式设计。
用户体验优化	>> 响应速度优化。 >> 适配不同屏幕。

Postman：Postman(HTTP的测试工具)使用方法详细攻略

Postman：Postman(HTTP的测试工具)使用方法详细攻略-CSDN博客

(2)、工具与资源：开发环境、UI库

开发环境	>> 开发环境：Node.js + npm/yarn。
UI库	>> UI库：Material-UI、Bootstrap。

步骤三：模型部署

部署和维护是一个持续的过程。需要建立完善的监控和报警机制，并及时响应用户反馈。

(1)、核心内容：搭建环境、选择模型、优化模型性能、部署架构

	简介
搭建环境	需要选择合适的部署环境，例如云服务器、虚拟机或容器。
选择模型	>> 使用OpenAI API直接调用（简单但付费），如GPT系列、Claude系列。 >> 自部署开源模型（如GPT-NeoX，以及LLaMA系列、GLM系列、Qwen系列）。
优化模型性能	>> 使用ONNX、TensorRT优化推理速度。 >> 部署高效硬件（如GPU服务器、NPU服务器，或云服务AWS EC2）。
部署架构	>> 使用容器化技术（Docker）运行模型推理服务。 >> 部署在云端（AWS、GCP、Azure，国产TCS等）。

AIGC之GPT-4：GPT-4的简介(核心原理/意义/亮点/技术点/缺点/使用建议)、使用方法、案例应用(计算能力/代码能力/看图能力等)之详细攻略

AIGC之GPT-4：GPT-4的简介(核心原理/意义/亮点/技术点/缺点/使用建议)、使用方法、案例应用(计算能力/代码能力/看图能力等)之详细攻略_gpt4原理-CSDN博客

LLMs之Claude 3.5：Claude 3.5(Claude 3.5 Sonnet和Claude 3.5 Haiku)的简介、安装和使用方法、案例应用之详细攻略

LLMs之Claude 3.5：Claude 3.5(Claude 3.5 Sonnet和Claude 3.5 Haiku)的简介、安装和使用方法、案例应用之详细攻略_claude3.5安装-CSDN博客

MLM之GLM-4：GLM-4-9B的简介、安装和使用方法、案例应用之详细攻略

MLM之GLM-4：GLM-4-9B的简介、安装和使用方法、案例应用之详细攻略-CSDN博客

LLMs之Qwen：Qwen2.5的简介、安装和使用方法、案例应用之详细攻略

LLMs之Qwen：Qwen2.5的简介、安装和使用方法、案例应用之详细攻略_ollama run qwen2.5-CSDN博客

LLMs之GPUStack：基于国产硬件华为Atlas(昇腾910B)以及GPUStack框架推理并部署Qwen 2.5—配置昇腾NPU环境(安装NPU驱动+CANN Toolkit及其Kernel+配置环境变量)→安装 GPUStack→纳管昇腾 NPU 资源→部署 Qwen 2.5 模型→测试与性能优化

https://yunyaniu.blog.csdn.net/article/details/144319627

ML与Docker：《Deploy Machine Learning Pipeline on the cloud using Docker Container使用Docker容器在云端部署机器学习管道》的翻译与解读—PyCaret(训练和部署机器学习管道和模型到生产环境中)+Flask(构建Web应用程序)+Docker(通过使用容器来创建-部署-运行应用程序)+Microsoft Azure(云服务)

https://yunyaniu.blog.csdn.net/article/details/129201074

Ubuntu之Docker：基于Ubuntu系统利用Docker部署一个Python脚本来实现函数功能的部署案例图文教程之详细攻略

Ubuntu之Docker：基于Ubuntu系统利用Docker部署一个Python脚本来实现函数功能的部署案例图文教程之详细攻略_docker ubuntu python-CSDN博客

LLMs之VDB之Elasticsearch：基于Elasticsearch向量数据库工具中的ElasticsearchRetriever对比多种不同搜索方法并构建RAG系统—基于本地Docker开启Elasticsearch服务(与Elasticsearch集群交互)→定义数据/创建索引/向量化并索引到Elasticsearch中→对比不同的检索方法(向量搜索/BM25搜索/混合搜索/模糊匹配/复杂过滤)→自定义文档映射器→结合GPT-4o构建RAG系统

LLMs之VDB之Elasticsearch：基于Elasticsearch向量数据库工具中的ElasticsearchRetriever对比多种不同搜索方法并构建RAG系统—基于本地Docker开-CSDN博客

(2)、工具与资源：模型框架、硬件加速

模型框架

>> 模型框架：PyTorch, TensorFlow。

硬件加速

>> GPU加速：NVIDIA CUDA, cuDNN。

>> NPU加速：华为昇腾Ascend 910B, CANN

AI之HardWare：人工智能领域之大模型部署两大设计方案(本地搭建服务器+调用云厂商服务)、服务器和硬件相关技术的简介(GPU/TPU/NPU，GeForce【3090-4090】、Tesla【A800-A100/V100】、Ascend 910B)、服务器搭建(GPU集群、节点、GPU卡/显卡)之详细攻略

AI之HardWare：人工智能领域之大模型部署两大设计方案(本地搭建服务器+调用云厂商服务)、服务器和硬件相关技术的简介(GPU/TPU/NPU、GeForce【3090-4090】/Tesla【A_ai服务器方案-CSDN博客

LLMs之NPU之Ascend之PyTorch：基于华为昇腾NPU设备实现PyTorch模型迁移和训练之单机多卡+混合精度训练手动迁移—导入支持库、参数配置、设备映射、进程管理、模型迁移、数据加载、训练过程等多方面调

LLMs之NPU之Ascend之PyTorch：基于华为昇腾NPU设备实现PyTorch模型迁移和训练之单机多卡+混合精度训练手动迁移—导入支持库、参数配置、设备映射、进程管理、模型迁移、数据加载-CSDN博客

步骤四：数据库与日志系统

(1)、核心内容：选择数据库、日志管理、数据备份与恢复

	简介
选择数据库	>> 如果需要存储用户信息、聊天记录等数据，可以合适的数据库。关系型数据库（如MySQL、PostgreSQL）适合存储结构化数据，非关系型数据库（如MongoDB）适用于存储灵活的、半结构化的数据。根据应用的需求设计数据库模式，例如，创建用户表、聊天记录表等。 >> PostgreSQL：存储用户和会话数据。 >> Redis：存储临时缓存，减少重复模型调用。 ● 数据库的选择要根据数据的性质和应用的需求，合理的数据库设计可以提高数据存储和查询的效率。
日志管理	监控与日志：需要监控应用的运行状态，并记录日志，以便及时发现和解决问题。 >> 使用Elasticsearch和Kibana分析日志。
数据备份与恢复	>> 实现定期备份策略（使用云存储）。

MLM之RAG：探索基于LangChain和Redis的新多模态RAG模板实战

MLM之RAG：探索基于LangChain和Redis的新多模态RAG模板实战_langchain 融合多模态-CSDN博客

(2)、工具与资源：数据库、日志工具

数据库	>> 数据库：pgAdmin（PostgreSQL管理工具）、Kibana(Elasticsearch向量数据库管理工具)。
日志工具	>> 日志工具：wandb、Fluentd。

步骤五：系统部署与运维

将前端界面与后端服务进行集成，确保数据能够正确地在两者之间传递。进行功能测试，检查应用的各个功能是否正常工作，如用户输入文本后是否能够得到正确的回答；进行性能测试，评估应用的响应时间、吞吐量等性能指标；进行安全测试，检查是否存在安全漏洞。
>> 集成和测试是确保应用质量的关键步骤，要采用多种测试方法，及时发现和解决问题。

将应用部署到服务器上，配置域名、SSL证书等，使应用能够通过互联网访问。建立监控系统，实时监测应用的性能、资源使用情况等，及时发现和解决故障。定期更新语言模型、服务器软件、应用代码等，以提高性能、修复漏洞和增加新功能。
>> 部署后的维护工作是长期的，要确保应用的稳定运行和持续改进。

(1)、核心内容：CI/CD、负载均衡、监控与告警、安全性、弹性扩展

	简介
CI/CD	持续集成/持续交付 (CI/CD)：为了提高开发效率，需要建立 CI/CD 流程。 >> 使用GitHub Actions或GitLab CI实现自动化部署。
负载均衡	>> 使用Nginx或Traefik分发流量。
监控与告警	>> Prometheus + Grafana监控系统性能。
安全性	安全性：需要定期进行安全审计，并及时修复安全漏洞。
弹性扩展	>> 使用Kubernetes实现自动扩容。

CI/CD之Jenkins：Jenkins的简介、安装、使用方法(比如在 Jenkins 中配置和使用机器学习项目)之详细攻略

CI/CD之Jenkins：Jenkins的简介、安装、使用方法(比如在 Jenkins 中配置和使用机器学习项目)之详细攻略_csdn 人工智能课程-CSDN博客

DataScience之Grafana：Grafana(数据可视化和监控平台)的简介、安装方法、使用方法

DataScience之Grafana：Grafana(数据可视化和监控平台)的简介、安装方法、使用方法-CSDN博客

(2)、工具与资源：容器编排、云服务

容器编排	>> 容器编排：Docker Compose/Kubernetes。
云服务	>> 云服务：AWS, GCP, 或阿里云。

4、项目开发与上线计划

4.1、时间计划

第一个时间段：需求分析与架构设计。
第二个时间段：前端、后端开发。
第三个时间段：模型部署与优化。
第四个时间段：测试与上线。

4.2、开发团队分工

团队合作：需要组建一个合适的团队，包括前端工程师、后端工程师、数据科学家等。小型团队如下所示：
>> 前端工程师1-2人。
>> 后端工程师1-2人。
>> 数据科学家1人（模型优化）。
>> DevOps工程师1人。

5、总结与反思(阶段性/持续性)

反思的关键点

>> 体验：用户量是否可控？需要预测峰值流量。

>> 性能：模型性能如何？是否需要更多优化。

>> 成本：你需要评估整个项目的成本，包括服务器成本、人力成本、数据成本等。

>> 法律合规：你需要遵守相关的法律法规，例如数据隐私保护法规。系统是否足够安全？需要防止常见漏洞（如SQL注入、XSS攻击）。

改进方向

>> 可以结合微服务架构进一步解耦。

>> 增强UI设计，支持多语言和无障碍访问。

DayDayUp之LLMs：人工智能项目优先级排序常用维度、大模型项目失败的五大类别(技术导向与设计问题/业务理解与融合问题/产品规划与管理问题/评估与反馈不足/隐性成本与风险问题，几十条高价值经验)

https://yunyaniu.blog.csdn.net/article/details/144097116

LLMs：大模型算法专家&架构师必读—从系统架构和技术栈的角度深度剖析如何搭建一个类似ChatGPT的大模型界面应用—明确需求与目标→分层设计技术架构(数据层/模型层/后端层/前端层)→架构实现(后端

相关文章

AGI：人工智能大模型领域实战篇—设计一个类似GPT-3.5/GPT-4的大模型从开发→部署→应用需要经过的八大步骤、为什么只有少数公司和机构能够承担这样的训练成本之详细介绍

从系统架构和技术栈的角度深度剖析如何搭建一个类似ChatGPT的大模型界面应用

1、明确需求与目标(确定应用功能和范围/功能需求/非功能需求)

2、分层设计技术架构

2.1、采用分层架构(数据层/模型层/后端层/前端层)

Python：Python语言的简介(语言特点/pyc介绍/Python版本语言兼容问题(python2 VS Python3))、安装、学习路线(数据分析/机器学习/网页爬等编程案例分析)之详细攻略

Python之Flask框架：Flask框架简介、安装、使用方法详细攻略

Docker：Docker的简介、安装、使用方法之详细攻略

BigData之MongoDB：MongoDB(分布式文件存储/非关系型数据库/面向文档库/Jason格式存储/高性能高扩展)的简介、下载、案例应用之详细攻略

LLMs之VDB：Elasticsearch的简介、安装和使用方法、案例应用之详细攻略

DataScience之Prometheus：Prometheus(开源监控系统)的简介、安装方法、使用方法

3、架构实现步骤(后端开发/前端开发/模型部署/数据库与日志系统/系统部署与运维)

步骤一：后端开发(服务)

(1)、核心内容：基础API搭建、模型接口集成、安全与用户管理、日志与监控

MLOPS：数据科学/机器学习算法领域之工程化五大核心技术—模型部署实战之利用Docker在服务器上部署模型文件+Flask创建REST API实现服务(九大步骤/一键部署自动化脚本代码)之详细攻略

LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混合精度优化/梯度累积/梯度裁剪/定期保存模型

(2)、工具与资源：Python依赖、部署工具

Py之transformers：transformers的简介、安装、使用方法、案例应用之详细攻略

步骤二：前端开发(界面)

(1)、核心内容：UI设计、代码实现、与后端API对接、状态管理、用户体验优化

Postman：Postman(HTTP的测试工具)使用方法详细攻略

(2)、工具与资源：开发环境、UI库

步骤三：模型部署

(1)、核心内容：搭建环境、选择模型、优化模型性能、部署架构

AIGC之GPT-4：GPT-4的简介(核心原理/意义/亮点/技术点/缺点/使用建议)、使用方法、案例应用(计算能力/代码能力/看图能力等)之详细攻略

LLMs之Claude 3.5：Claude 3.5(Claude 3.5 Sonnet和Claude 3.5 Haiku)的简介、安装和使用方法、案例应用之详细攻略

MLM之GLM-4：GLM-4-9B的简介、安装和使用方法、案例应用之详细攻略

LLMs之Qwen：Qwen2.5的简介、安装和使用方法、案例应用之详细攻略

LLMs之GPUStack：基于国产硬件华为Atlas(昇腾910B)以及GPUStack框架推理并部署Qwen 2.5—配置昇腾NPU环境(安装NPU驱动+CANN Toolkit及其Kernel+配置环境变量)→安装 GPUStack→纳管昇腾 NPU 资源→部署 Qwen 2.5 模型→测试与性能优化

Ubuntu之Docker：基于Ubuntu系统利用Docker部署一个Python脚本来实现函数功能的部署案例图文教程之详细攻略

(2)、工具与资源：模型框架、硬件加速

LLMs之NPU之Ascend之PyTorch：基于华为昇腾NPU设备实现PyTorch模型迁移和训练之单机多卡+混合精度训练手动迁移—导入支持库、参数配置、设备映射、进程管理、模型迁移、数据加载、训练过程等多方面调

步骤四：数据库与日志系统

(1)、核心内容：选择数据库、日志管理、数据备份与恢复

MLM之RAG：探索基于LangChain和Redis的新多模态RAG模板实战

(2)、工具与资源：数据库、日志工具

步骤五：系统部署与运维

(1)、核心内容：CI/CD、负载均衡、监控与告警、安全性、弹性扩展

CI/CD之Jenkins：Jenkins的简介、安装、使用方法(比如在 Jenkins 中配置和使用机器学习项目)之详细攻略

DataScience之Grafana：Grafana(数据可视化和监控平台)的简介、安装方法、使用方法

(2)、工具与资源：容器编排、云服务

4、项目开发与上线计划

4.1、时间计划

4.2、开发团队分工

5、总结与反思(阶段性/持续性)

DayDayUp之LLMs：人工智能项目优先级排序常用维度、大模型项目失败的五大类别(技术导向与设计问题/业务理解与融合问题/产品规划与管理问题/评估与反馈不足/隐性成本与风险问题，几十条高价值经验)

网站公告

今日签到

热门文章

最新发布