在 C/C++ 开发中,处理音频和视频需要依赖专业的库来实现编解码、播放、录制、处理等功能。
一.音频库(C/C++)
1.FFmpeg(音频 + 视频全能库)
功能:
支持几乎所有音频 / 视频格式的编解码(如 MP3、AAC、WAV、FLAC、H.264、VP9 等)。
提供音频重采样、混音、降噪、格式转换等处理功能。
支持流媒体协议(如 RTMP、HTTP)和直播处理。
特点:
跨平台(Windows/macOS/Linux),开源(LGPL/GPL 协议)。
功能极其强大,但 API 复杂,学习门槛较高。
用途:
多媒体播放器(如 VLC)、视频编辑软件、直播平台、音视频服务器等。
官网:https://ffmpeg.org
2.libsndfile
功能:
专注于音频文件的读写,支持多种格式(WAV、FLAC、OGG、AIFF 等)。
提供音频数据的基本操作(如读取采样点、调整音量等)。
特点:
轻量级,接口简洁,适合快速读取音频数据。
开源(LGPL 协议),跨平台。
用途:
音频数据分析、音频处理工具、教育类音频项目等。
官网:http://www.mega-nerd.com/libsndfile
3.PortAudio
功能:
跨平台音频 I/O 库,支持录音和播放(低延迟实时处理)。
提供统一的 API 访问不同平台的音频设备(如麦克风、扬声器)。
特点:
专注于实时音频,支持多通道、多设备管理。
开源(MIT 协议),适合实时音频应用(如语音识别、音频监控)。
用途:
实时音频处理(如音频效果器、语音聊天软件)、音频采集工具。
官网:http://portaudio.com
4.SoundTouch
功能:
音频时间拉伸和音高调整(变调不变速,或变速不变调)。
支持 WAV、MP3 等格式的处理。
特点:
算法高效,音质较好,适合音乐处理。
开源(LGPL 协议),C++ 实现,可集成到 C 项目中。
用途:
音乐编辑软件、音频特效开发、游戏音效调整。
官网:https://www.surina.net/soundtouch
5.SDL2_mixer(基于 SDL2)
功能:
简单音频播放库,支持多种格式(MP3、WAV、OGG 等)。
提供基本的音效控制(音量、循环播放、3D 音效等)。
特点:
轻量级,适合游戏或简单多媒体项目。
依赖 SDL2 库,跨平台(Windows/macOS/Linux/ 移动端)。
用途:
游戏开发中的音效管理、简易音频播放器。
官网:https://www.libsdl.org/projects/SDL_mixer
6.SoX(Sound eXchange)
定位:命令行音频处理工具,支持格式转换、效果处理(均衡器、混响、变速)。
特点:轻量高效,适合脚本化批量处理,如音频数据集预处理。
示例:调整音量并转换格式:sox input.wav output.mp3 gain -6。
二.视频库(C/C++)
1.FFmpeg(同上,视频核心库)
功能:
视频编解码(H.264、H.265、VP8/VP9、AV1 等)、格式转换、视频剪辑、滤镜处理(如缩放、旋转、水印)。
特点:
包含 libavcodec(编解码核心)、libavformat(格式处理)、libavfilter(滤镜)等模块。
需配合其他库(如 SDL、Qt)实现播放界面。
用途:
视频播放器、视频编辑器、转码工具、流媒体服务器。
2.OpenCV(计算机视觉库,含视频处理)
功能:
视频帧读取、处理(如目标检测、图像分割、特征提取)。
支持摄像头实时捕获和视频文件解析。
特点:
专注于计算机视觉,提供丰富的图像处理算法。
跨平台,开源(BSD 协议),社区活跃。
用途:
视频分析(如安防监控、自动驾驶)、计算机视觉研究、视频特效开发。
官网:https://opencv.org
3.libvpx(VP8/VP9 编解码)
功能:
实现 VP8 和 VP9 视频编码标准(高效压缩,适合网络传输)。
是 WebM 格式的核心库之一。
特点:
开源(BSD 协议),由 Google 维护,适合高清视频流(如 YouTube)。
可配合 FFmpeg 使用,或独立集成到项目中。
用途:
视频流媒体、视频会议软件(如 WebRTC)、高清视频存储。
官网:https://www.webmproject.org/code
4.libavif(AVIF 图像 / 视频编码)
功能:
实现 AVIF(AV1 图像格式)编解码,支持高压缩比的静态图像和视频帧。
特点:
基于 AV1 标准,压缩效率优于 JPEG、PNG、WebP。
适合需要高质量、低码率的场景(如网页图片、视频缩略图)。
用途:
图像和视频帧的高效存储与传输。
官网:https://libavif.org
5.Qt Multimedia(基于 Qt 框架)
功能:
提供高层 API 实现视频播放、录制、编解码(依赖 FFmpeg 或系统原生组件)。
支持跨平台的视频界面开发(如窗口、控件)。
特点:
集成 Qt 界面框架,适合快速开发带 GUI 的视频应用。
开源(LGPL 协议),商业友好。
用途:
跨平台视频播放器、教育类视频软件、企业级多媒体工具。
官网:https://doc.qt.io/qt-6/qtmultimedia-module.html
6.GStreamer
定位:基于插件架构的开源多媒体框架,通过 “管道”(Pipeline)模型处理数据流。
特点:
模块化设计,支持动态插件加载(如编解码、特效、流媒体协议)。
适合构建复杂的多媒体处理流程,如实时视频分析、多源混音。
应用场景:视频会议系统(Jami)、车载多媒体(Android Automotive)、工业视觉检测。
三.流媒体与实时通信
1. WebRTC(Web Real-Time Communication)
定位:浏览器原生支持的实时通信框架,实现音视频直播、视频通话、P2P 传输。
核心技术:
支持 H.264、VP8/VP9 视频编码,Opus 音频编码。
集成 NAT 穿透(STUN/TURN)、带宽自适应、前向纠错(FEC)。
特点:纯前端实现,无需插件,适合 Web 端实时应用。
应用场景:视频会议(Zoom、Google Meet)、直播连麦、在线教育平台。
2. Live555
定位:C++ 编写的开源流媒体框架,支持 RTSP/RTP/RTCP 协议。
特点:轻量高效,适合构建 RTSP 服务器或客户端,但学习曲线较陡。
应用场景:安防监控(摄像头 RTSP 流接入)、工业设备数据传输。
四.RTSP服务器构建
1.Live555
特点:
历史悠久、应用广泛的开源流媒体框架,支持 RTSP/RTP/RTCP 协议。
纯 C++ 实现,提供完整的服务器和客户端组件。
支持多种音视频编码(H.264、H.265、AAC 等)和传输模式(UDP、TCP、组播)。
优势:
轻量级,适合资源受限的嵌入式设备(如 IP 摄像头)。
社区活跃,文档丰富,有大量示例代码。
劣势:
API 设计复杂,学习曲线陡峭。
缺乏现代 C++ 特性(如多线程、异步 I/O),需手动管理内存。
应用场景:
IP 摄像头、视频监控系统、嵌入式流媒体设备。
官网:http://www.live555.com
2.GStreamer
特点:
基于插件的多媒体框架,通过gstrtspserver插件实现 RTSP 服务器功能。
支持动态构建媒体管道(如:摄像头 → 编码 → RTSP 流)。
优势:
与 GStreamer 生态无缝集成,可快速搭建复杂流媒体处理链。
支持硬件加速(如 NVIDIA、Intel 编解码器)。
劣势:
依赖 GStreamer 庞大的库,不适合极简部署。
性能略低于直接使用 Live555(因中间层开销)。
应用场景:
多媒体服务器、直播平台、视频会议系统。
官网:https://gstreamer.freedesktop.org
3.libVLC (基于 VLC)
特点:
VLC 媒体播放器的后端库,支持 RTSP 服务器功能。
通过简单 API 实现媒体流发布。
优势:
开箱即用,支持几乎所有音视频格式。
跨平台(Windows/macOS/Linux/ 嵌入式)。
劣势:
库体积庞大(约 100MB),不适合轻量级应用。
定制化能力有限,难以深入控制底层协议。
应用场景:
快速原型开发、桌面端流媒体服务器。
官网:https://www.videolan.org/vlc/libvlc.html
五.RTSP客户端构建
1.Live555(同上)
特点:
提供 RTSP 客户端实现,支持连接 RTSP 服务器并接收音视频流。
优势:
底层协议实现完整,支持 RTP 包解析和音视频同步。
劣势:
需手动处理音视频解码和渲染,开发复杂度高。
2.FFmpeg
特点:
通过libavformat和libavcodec支持 RTSP 客户端功能。
可直接解码 RTSP 流并输出原始音视频帧。
优势:
与 FFmpeg 生态无缝集成,可快速实现转码、录制等功能。
支持硬件加速解码(如 NVIDIA CUDA、Intel QSV)。
劣势:
对 RTSP 协议细节控制较弱(如难自定义 RTSP 信令流程)。
应用场景:
RTSP 流接收、转码(如推送到 RTMP 服务器)、录制。
3.GStreamer(同上)
特点:
通过gst-rtsp-client插件实现 RTSP 客户端功能。
支持构建接收 → 解码 → 渲染的完整管道。
优势:
事件驱动模型,适合实时处理(如视频会议)。
支持动态切换媒体源和码率。
劣势:
依赖较多,部署复杂度高。