AI时代的webRTC

发布于:2025-06-20 ⋅ 阅读:(17) ⋅ 点赞:(0)

         

        webRTC是音视频实时通信的协议,最初是为个人对个人视频通话而设计的。它出现已经有十五个年头了,技术和应用的进展不温不火。最近,OpenAI 推出了大模型的realtime API,它采用了webRTC和webSocket 协议。实现客户端与多模态大模型交互。一下子有一次进入更多人的眼帘。另一方面,ROS 2 提供了webRTC 节点,实现机器人低延时音视频通信。英伟达的Isaac Sim 也提供了WebRTC流客户端。我们感觉WebRTC 被更多的应用于多媒体实时通信。在国内,火山引擎推出了WebRTC 接入大模型的服务。并且流出了ESP32,移远EC800M-CN 等硬件配套的webRTC 接入大模型的客户端应用。

将 LLM 与 WebRTC 集成

OpenAI Realtime API

更合理的架构

                大模型服务直接支持音视频端对端的连接看起来很美,应用只需要买一个低成本的AI 语音助手模块,下载一个WebRTC AI Assistant 的二进制代码就OK了。但是,这种应用没有任何差异化竞争能力。

          为了实现产品的差异化,为用户提供更多的价值,用户应该不是直接接入大模型(LLM),而是接入一个AI 的Agent。

Agent 的主要功能

 调用大模型

     根据前端用户的请求,选择合适的大模型,也可以本地部署一个小模型(例如Phi-2),需要的时候调用远程的大模型。

本地STT/TTS

本地实现语音转文字,文字转语音服务。,比如使用OpenAI 的whisper V3,可以实现本地转码。

文字转语音我们测试了许多种,比如openAI的TTS-1,百度,阿里,火山引擎等,

MCP 接口

个人语音助手需要许多服务。他们可以通过各种MCP 服务实现。例如:

  • 听新闻
  • 播放音乐
  • 播放博客
  • 个人备忘录
  • 购物

     根据不同的应用场景,将会提供不同的MCP 服务,比如教育,玩具,医疗,老人,现场工作人员等等。   

  我们相信,未来的语音助手将是一个语音为主的手机,也可以说是人们的第二个手持终端。相比大公司会对这类产品做出规划和尝试。OpenAI 就在部署自己的AI 硬件产品。

webRTC AI Agent 部署的位置

      另一个问题是这种webRTC AI Agent 部署在什么地方。相比大模型而言,这种Agent 对算力的需求不是太高,它只是实现STT/TTS 转换,小模型推理的任务。可以本地化部署,这样做的好处是信息安全,大量个人信息被存储在本地。

MCP 可以部署在本地,也可以部署在云端。

webRTC 客户端的实现

        webRTC 最早是为浏览器而设计的,所以,最多的webRTC 都是javascript 实现的。在边缘设备上实现一个web 服务器,就能够实现webRTC 得客户端,web实现的方式可以是Go,NodeJS,和Python ,C/C++ 等语言。也可以基于electronJS 构建桌面应用软件。

   也有C/C++ 的webRTC 实现,不过,它需要使用ffmpeg 实现音视频显示,还需要使用合适的UI 工具,在嵌入式系统中实现并不轻松。相比之下,android OS 实现webRTC 容易一些。

webRTC AI Agent 的实现

   使用Python 比较合适。

结束语

        为个人音视频通信而开发的webRTC 已经被越来越多地应用于AI 机器通信场合。将AI语音助手直接通过webRTC与大模型服务连接的应用已经出现,但这并不是一个好主意,更合理的方式是webRTC 与AI Agent 连接。


网站公告

今日签到

点亮在社区的每一天
去签到