Paper–Detecting AI-Synthesized Speech Using Bispectral Analysis
- CVPR workshops
- CCF-A
摘要
从语音到图像和视频,机器学习的进步导致所谓的 AI 合成内容的质量和真实感得到显着提高。虽然有许多令人兴奋和有趣的应用程序,但这种类型的内容也可用于创建令人信服且危险的假货。我们寻求开发能够区分真实人声和合成人声的取证技术。我们观察到,用于合成语音的深度神经网络引入了人类语音中通常没有的特定和不寻常的频谱相关性。虽然不一定可以听到,但这些相关性可以使用双频分析工具进行测量,并用于区分人类语音和合成语音。
结论
- 成功开发了一种基于双谱分析的检测方法,能够有效区分人类语音与AI合成语音。该方法通过捕捉高阶谱相关性,实现了高精度的二分类检测,AUC(曲线下面积)达到0.99。
- 双谱分析揭示了AI合成语音的独特特征:合成语音由于神经网络架构的长程时间连接,引入了显著的高阶谱相关性,这些相关性在自然人类语音中通常不存在。通过实验验证,减少神经网络的长程连接会降低双谱幅度,进一步支持了这一结论。
- 方法具有高鲁棒性:即使在添加噪声(SNR >20 dB)或进行音频压缩(64 kbit/s)的情况下,检测性能仍保持较高水平(AUC >0.98),表明该方法适用于实际取证场景。
- 多分类能力:该方法不仅能区分人类语音与合成语音,还能有效识别不同AI合成工具生成的语音(如Amazon Polly、Google WaveNet等),为追踪合成语音来源提供了可能。
- 对抗性挑战:虽然高阶谱相关性难以通过简单调整消除,但未来需警惕基于生成对抗网络(GAN)等新兴技术的合成语音可能绕过检测。
背景
近年来,人工智能(AI)在语音、图像和视频合成领域取得了显著进展,能够生成高度逼真的内容。这些技术虽然为娱乐、教育和辅助技术等领域带来了创新应用,但也引发了严重的安全和伦理问题。AI合成内容可能被滥用于虚假信息传播和身份伪造,例如伪造世界领导人的语音或视频引发国际危机,或伪造公司高管的语音操纵股市。这些威胁凸显了开发检测技术的紧迫性,以区分真实内容与AI合成内容。然而,传统的音频取证方法主要针对低阶统计特性,难以应对现代AI合成语音的挑战。因此,需要新的检测技术来捕捉AI合成语音中的高阶统计特性。
论文提出了一种基于双谱分析(Bispectral Analysis)的检测方法,能够捕捉信号中的三阶相关性。AI合成语音由于神经网络架构的特性,会引入特定的高阶谱相关性,这些相关性在自然人类语音中通常不存在。双谱分析为检测合成语音提供了强有力的工具,具有高精度和鲁棒性。论文的研究目标是开发一种能够区分人类语音与AI合成语音、识别不同合成方法,并应对对抗性攻击的检测方法。通过引入双谱分析,论文为检测AI合成语音提供了一种新的技术路径,具有重要的学术价值和实际意义。
内容成果
详细介绍关键方法
1. 数据集构建
数据来源:
- 人类语音:从9名说话者(5男4女)的高质量播客中提取,共1,845条语音片段,平均时长10.5秒。
- 合成语音:使用相同文本(从人类语音转录)生成,覆盖多种主流AI合成工具:
- 商业化工具:Amazon Polly、Apple文本转语音、Baidu DeepVoice、Google WaveNet。
- 个性化工具:Lyrebird.ai(因API限制,部分文本未完全匹配)。
- 多样性增强:为合成语音选择多种说话者配置(如不同性别、语调),以提高数据多样性。
数据平衡与预处理:
- 文本对齐:确保合成语音与人类语音使用相同文本(除Lyrebird.ai部分样本外),减少内容差异对检测的干扰。
- 噪声与压缩测试:为评估鲁棒性,对部分合成语音添加加性噪声(SNR 20-40 dB)并进行压缩(64-128 kbit/s)。
2. 双谱分析技术
双谱(Bispectrum)和双相干性(Bicoherence)用于捕捉语音信号中的三阶统计相关性,揭示人类与合成语音的频域差异。
数学定义:
- 傅里叶变换:将时域信号( y(k) )转换为频域表示( Y(\omega) )。 Y ( ω ) = ∑ k = − ∞ ∞ y ( k ) e − i k ω Y(\omega) = \sum_{k=-\infty}^{\infty} y(k)e^{-ik\omega} Y(ω)=k=−∞∑∞y(k)e−ikω
- 功率谱(二阶谱):仅反映幅度平方信息,无法捕捉相位相关性。 P ( ω ) = Y ( ω ) Y ∗ ( ω ) P(\omega) = Y(\omega)Y^*(\omega) P(ω)=Y(ω)Y∗(ω)
- 双谱(三阶谱):量化三个频率分量 ω 1 , ω 2 , ω 1 + ω 2 \omega_1, \omega_2, \omega_1+\omega_2 ω1,ω2,ω1+ω2的相位耦合。 B ( ω 1 , ω 2 ) = Y ( ω 1 ) Y ( ω 2 ) Y ∗ ( ω 1 + ω 2 ) B(\omega_1, \omega_2) = Y(\omega_1)Y(\omega_2)Y^*(\omega_1+\omega_2) B(ω1,ω2)=Y(ω1)Y(ω2)Y∗(ω1+ω2)
- 双相干性(归一化双谱):消除信号能量影响,取值范围[0,1]。 B c ( ω 1 , ω 2 ) = B ( ω 1 , ω 2 ) ∣ Y ( ω 1 ) Y ( ω 2 ) ∣ 2 ∣ Y ( ω 1 + ω 2 ) ∣ 2 B_c(\omega_1, \omega_2) = \frac{B(\omega_1, \omega_2)}{\sqrt{|Y(\omega_1)Y(\omega_2)|^2 |Y(\omega_1+\omega_2)|^2}} Bc(ω1,ω2)=∣Y(ω1)Y(ω2)∣2∣Y(ω1+ω2)∣2B(ω1,ω2)
计算流程:
- 分段与平均:为提升噪声鲁棒性,将语音信号分为多段(每段64样本,重叠32样本),计算各段双相干性后取平均。
- 幅度与相位分离:分析双谱的幅度(反映相关性强度)和相位(反映相位一致性)。
关键发现:
- 幅度差异:合成语音的双谱幅度显著高于人类语音(图1)。
- 相位一致性:合成语音的相位呈现更强的规律性,推测由神经网络的长程时间连接引入。
3. 分类器设计
从双谱中提取统计特征,训练分类器区分人类与合成语音。
特征提取:
- 双谱统计量:对每个语音样本的双谱幅度和相位分别计算以下四阶统计矩:
- 均值(Mean):反映整体相关性强度。
- 方差(Variance):量化数据离散程度。
- 偏度(Skewness):描述分布不对称性。
- 峰度(Kurtosis):衡量分布的尖锐程度。
- 特征维度:幅度和相位各4个统计量,共8维特征向量。
- 双谱统计量:对每个语音样本的双谱幅度和相位分别计算以下四阶统计矩:
分类模型:
- 逻辑回归(Logistic Regression):选择简单高效的线性分类器,训练多个二分类模型(如“Amazon vs. 其他”),最终通过阈值判定是否为合成语音。
- 类别平衡策略:
- 采样限制:每类最多取90个样本(训练集占比70%),缓解类别不平衡问题(如Lyrebird仅45个样本)。
- 多分类扩展:通过混淆矩阵评估对不同合成方法的区分能力(图4)。
性能验证:
- ROC曲线:二分类AUC达0.99(原始数据),压缩(64 kbit/s)和加噪(SNR >20 dB)后AUC仍高于0.98(图3)。
- 鲁棒性测试:验证双谱特征对常见信号处理的抵抗能力。
4. 网络架构影响实验
为验证神经网络结构与双谱特征的关系,作者对WaveNet进行“剪枝”操作:
- 剪枝方法:
- 卷积层截断:在WaveNet的24层卷积网络中,分别固定第1、12、24层的左端滤波器权重为0,模拟减少长程连接。
- 效果验证:剪枝后合成语音的双谱幅度显著降低(接近人类水平),但相位相关性仍保留(图3),表明幅度差异与网络深度相关。
方法创新与优势
- 高阶谱特征:利用双谱捕捉三阶统计特性,相比传统一阶(频谱)或二阶(功率谱)特征更难以被合成工具模仿。
- 网络架构关联性:通过剪枝实验,首次将双谱异常与神经网络的长程连接关联,为解释检测原理提供理论支持。
- 高鲁棒性:对噪声和压缩的强抗干扰能力,适用于实际取证场景。
贡献点
- 提出了一种基于双谱分析的检测方法:
- 首次将高阶谱分析(双谱和双相干性)应用于AI合成语音的检测,捕捉了合成语音中的三阶统计相关性。
- 该方法能够有效区分人类语音与AI合成语音,AUC(曲线下面积)达到0.99,具有高精度和高鲁棒性。
- 揭示了AI合成语音的独特特征:
- 通过实验发现,AI合成语音由于神经网络架构的长程时间连接,引入了显著的高阶谱相关性,这些相关性在自然人类语音中通常不存在。
- 通过剪枝实验验证了神经网络结构与双谱特征之间的关联,为解释检测原理提供了理论支持。
- 开发了多分类能力:
- 该方法不仅能区分人类语音与合成语音,还能有效识别不同AI合成工具生成的语音(如Amazon Polly、Google WaveNet等),为追踪合成语音来源提供了可能。