AI时代的webRTC-EW帮帮网

webRTC是音视频实时通信的协议，最初是为个人对个人视频通话而设计的。它出现已经有十五个年头了，技术和应用的进展不温不火。最近，OpenAI 推出了大模型的realtime API，它采用了webRTC和webSocket 协议。实现客户端与多模态大模型交互。一下子有一次进入更多人的眼帘。另一方面，ROS 2 提供了webRTC 节点，实现机器人低延时音视频通信。英伟达的Isaac Sim 也提供了WebRTC流客户端。我们感觉WebRTC 被更多的应用于多媒体实时通信。在国内，火山引擎推出了WebRTC 接入大模型的服务。并且流出了ESP32，移远EC800M-CN 等硬件配套的webRTC 接入大模型的客户端应用。

将 LLM 与 WebRTC 集成

OpenAI Realtime API

更合理的架构

大模型服务直接支持音视频端对端的连接看起来很美，应用只需要买一个低成本的AI 语音助手模块，下载一个WebRTC AI Assistant 的二进制代码就OK了。但是，这种应用没有任何差异化竞争能力。

为了实现产品的差异化，为用户提供更多的价值，用户应该不是直接接入大模型（LLM），而是接入一个AI 的Agent。

Agent 的主要功能

调用大模型

根据前端用户的请求，选择合适的大模型，也可以本地部署一个小模型（例如Phi-2），需要的时候调用远程的大模型。

本地STT/TTS

本地实现语音转文字，文字转语音服务。，比如使用OpenAI 的whisper V3，可以实现本地转码。

文字转语音我们测试了许多种，比如openAI的TTS-1，百度，阿里，火山引擎等，

MCP 接口

个人语音助手需要许多服务。他们可以通过各种MCP 服务实现。例如：

听新闻
播放音乐
播放博客
个人备忘录
购物

根据不同的应用场景，将会提供不同的MCP 服务，比如教育，玩具，医疗，老人，现场工作人员等等。

我们相信，未来的语音助手将是一个语音为主的手机，也可以说是人们的第二个手持终端。相比大公司会对这类产品做出规划和尝试。OpenAI 就在部署自己的AI 硬件产品。

webRTC AI Agent 部署的位置

另一个问题是这种webRTC AI Agent 部署在什么地方。相比大模型而言，这种Agent 对算力的需求不是太高，它只是实现STT/TTS 转换，小模型推理的任务。可以本地化部署，这样做的好处是信息安全，大量个人信息被存储在本地。

MCP 可以部署在本地，也可以部署在云端。

webRTC 客户端的实现

webRTC 最早是为浏览器而设计的，所以，最多的webRTC 都是javascript 实现的。在边缘设备上实现一个web 服务器，就能够实现webRTC 得客户端，web实现的方式可以是Go，NodeJS，和Python ，C/C++ 等语言。也可以基于electronJS 构建桌面应用软件。

也有C/C++ 的webRTC 实现，不过，它需要使用ffmpeg 实现音视频显示，还需要使用合适的UI 工具，在嵌入式系统中实现并不轻松。相比之下，android OS 实现webRTC 容易一些。

webRTC AI Agent 的实现

使用Python 比较合适。

结束语

为个人音视频通信而开发的webRTC 已经被越来越多地应用于AI 机器通信场合。将AI语音助手直接通过webRTC与大模型服务连接的应用已经出现，但这并不是一个好主意，更合理的方式是webRTC 与AI Agent 连接。

AI时代的webRTC

更合理的架构

Agent 的主要功能

调用大模型

本地STT/TTS

MCP 接口

webRTC AI Agent 部署的位置

webRTC 客户端的实现

webRTC AI Agent 的实现

结束语

网站公告

今日签到

热门文章

最新发布