所有现有的欺骗性语音数据库都包含整个欺骗性的攻击数据。在实践中,使用仅部分欺骗的话语来装载成功的攻击是完全合理的。根据定义,部分欺骗的话语包含欺骗和真实段的混合,这可能会降低使用完全欺骗的话语训练的对策的性能。这个假设提出了一个明显的问题:“我们能检测到部分欺骗的音频吗?本文介绍了一个名为 PartialSpoof 的部分欺骗数据的新数据库,以帮助解决此问题。这个新数据库使我们能够调查和比较对策在话语和片段级别标签上的表现。使用话语级别标签的实验结果表明,在使用部分欺骗数据进行测试时,发现训练用于检测完全欺骗数据的对策的可靠性会大大降低,而在完全和部分欺骗话语的情况下,对部分欺骗数据进行训练的性能则可靠。使用分段级标签的其他实验表明,即使使用最新的对策模型,发现话语中包含的注入的欺骗性片段也是一项更具挑战性的任务。
- !!!新增功能!!!
有关 PartialSpoof v1.3 的详细(真实/欺骗方法/非语音/连接部分)时间戳- Google 云端硬盘
- 正式版正在准备中。如果您急需此版本,请下载此版本。
- 对于 PartialSpoof v1.2 的细化标签
- Arxiv: http://arxiv.org/abs/2204.05177
- PartialSpoof Database v1.2(包括不同时间分辨率的分段级标签和时间戳标签):这个
- 对于 PartialSpoof v1.1 的多任务版本
- Arxiv: https://arxiv.org/abs/2107.14132
- PartialSpoof Database v1.1(包括 0.16s 分段标签):https://zenodo.org/record/5112031
- 对于 PartialSpoof v1.0 的初始版本
- Arxiv: https://arxiv.org/abs/2104.02518
- 示例:https://nii-yamagishilab.github.io/zlin-demo/IS2021/index.html
- PartialSpoof 数据库 v1.0:https://zenodo.org/record/4817532
文件结构与内容
音频文件
- database_train.tar.gz(2.0 GB)、database_dev.tar.gz(2.0 GB)和database_eval.tar.gz(5.8 GB)包含训练、开发和评估用的音频文件,格式可能是WAV,命名可能遵循ASVspoof 2019 LA数据库的惯例。
段标签
- database_segment_labels_v1.2.tar.gz(76.6 MB)包含段标签,标识音频中哪些部分是伪造的,哪些是真实的。标签提供多种时间分辨率(20 ms至640 ms),用户需根据任务选择合适分辨率。
VAD标签
- database_vad.tar.gz(10.2 MB)包含语音活动检测标签,标记音频中语音存在的部分,有助于聚焦于语音段的分析。
协议文件
- database_protocols.tar.gz(5.4 MB)可能包含实验协议,说明如何分割数据或设置训练、验证和测试。
README文件
- README_v1.2提供使用说明,详细解释文件格式、标签解读和注意事项。
使用方法
- 解压文件:首先解压所有tar.gz文件到相应目录。
- 读取README:查看README_v1.2以了解具体使用指导。
- 话语级检测:使用训练、开发和评估集的音频文件,结合段标签判断整段音频是否伪造(若含伪造段则标记为“伪造”,否则为“真实”)。
- 段级检测:利用段标签训练模型,分类每个段为真实或伪造,选择合适的时间分辨率。
- 使用VAD标签:根据需要聚焦于语音部分,排除非语音区域。
详细报告
本文详细分析了PartialSpoof数据库的文件结构、内容及其使用方法,基于Zenodo页面(PartialSpoof Database)和相关论文《The PartialSpoof Database and Countermeasures for the Detection of Short Fake Speech Segments Embedded in an Utterance》(arXiv:2204.05177)的内容。PartialSpoof数据库是一个部分伪造音频数据集,旨在研究反欺骗措施在部分伪造语音上的性能,特别适用于语音验证系统的安全研究。
数据集概述
PartialSpoof数据库专注于部分伪造音频,即音频中某些段落是伪造的(通过文本到语音合成或语音转换生成),其他部分是真实的。数据库基于ASVspoof 2019 LA数据库构建,通过替换真实音频的某些段落生成部分伪造音频。研究表明,训练于完全伪造数据的反欺骗措施在测试部分伪造数据时性能显著下降,而训练于部分伪造数据的模型在两种场景下均表现可靠。
文件结构与内容
以下是数据集的文件列表及其详细内容:
文件名 | 大小 | 内容描述 |
---|---|---|
database_train.tar.gz | 2.0 GB | 训练集音频文件,包含部分伪造和真实音频,格式可能是WAV,命名可能如CON_T_0000001.wav。 |
database_dev.tar.gz | 2.0 GB | 开发集音频文件,用于验证模型性能,内容与训练集类似。 |
database_eval.tar.gz | 5.8 GB | 评估集音频文件,用于测试模型泛化能力,数量和时长最多。 |
database_protocols.tar.gz | 5.4 MB | 可能包含实验协议,说明数据分割(如训练、开发、评估集的文件列表)或实验设置。 |
database_segment_labels_v1.2.tar.gz | 76.6 MB | 段标签文件,标识音频中每个段的真伪,提供20 ms至640 ms的不同时间分辨率。 |
database_vad.tar.gz | 10.2 MB | 语音活动检测标签,标记音频中语音存在的部分,帮助聚焦于语音段。 |
README_v1.2 | 17.9 kB | 使用说明文档,详细解释文件格式、标签解读和注意事项。 |
音频文件
音频文件存储在database_train.tar.gz、database_dev.tar.gz和database_eval.tar.gz中,分别对应训练集、开发集和评估集。
根据示例,音频文件命名可能如CON_T_0000001.wav,部分伪造音频通过替换真实段落生成,例如CON_T_0000001.wav可能替换LA_T_1007571.wav的某些段(Samples)。
音频格式可能是WAV,采样率可能为16 kHz,与ASVspoof 2019 LA数据库一致。
段标签
存储在database_segment_labels_v1.2.tar.gz中,提供段级真伪标签,覆盖多种时间分辨率(20 ms、40 ms、80 ms、160 ms、320 ms、640 ms)。
标签可能以文本格式提供,例如每个音频文件对应一个标签文件,包含段的开始时间、结束时间和类别(bona fide或spoofed)。
用于训练和测试段级检测模型,研究表明段级检测具有挑战性,尤其在伪造比例较低时。
VAD标签
存储在database_vad.tar.gz中,标记音频中语音活动的部分,可能以二进制标签或时间戳格式提供。
帮助模型聚焦于语音段,排除非语音部分(如静音或背景噪声)。
协议文件
database_protocols.tar.gz可能包含文本文件,列出每个集(训练、开发、评估)的文件列表,或提供实验设置的指导。
根据ASVspoof数据库的惯例,协议文件可能包括训练/测试对的划分,或特定任务的评估规则。
README文件
- README_v1.2提供使用指导,可能包括:
文件格式说明(如音频为16 kHz WAV,标签为CSV或JSON)。
标签解读方法(如如何从段标签推导话语级标签)。
已知问题或注意事项(如某些时间戳仍在准备中)。
统计信息
根据论文附录,数据集的伪造音频统计如下:
数据集分区 | 数量 (# Num) | 总时长 (sec.) | 伪造系统数 | 音频时长 (sec.) | 伪造段落比例 (%) |
---|---|---|---|---|---|
Train | 22,800 | 78,577.64 | 6 | 0.62 / 3.45 / 21.02 | 0.65 / 47.63 / 99.80 |
Dev | 22,296 | 78,705.49 | 6 | 0.62 / 3.53 / 15.34 | 0.72 / 46.78 / 99.77 |
Eval | 63,882 | 218,667.47 | 9 | 0.48 / 3.42 / 18.20 | 0.23 / 41.97 / 99.81 |
评估集的音频数量和时长最多,伪造系统数为9,增加了多样性。
伪造段落比例范围广,平均值约40%-50%,反映了部分伪造的多样性。
使用方法
使用PartialSpoof数据库时,需遵循以下步骤:
解压和组织文件:
使用tar -xzf命令解压所有tar.gz文件到相应目录,确保文件结构清晰。
例如,database_train.tar.gz解压后可能生成train/目录,包含所有训练音频。
读取README:
- 查看README_v1.2以了解具体使用指导,包括文件格式和标签解读方法。
话语级检测:
收集训练集音频(database_train.tar.gz),结合段标签判断整段音频的真伪:
- 若段标签中含伪造段,则标记为“spoofed”;否则为“bona fide”。
开发集和评估集类似,用于验证和测试。
段级检测:
使用database_segment_labels_v1.2.tar.gz中的标签,训练模型分类每个段为真实或伪造。
根据任务选择时间分辨率,例如20 ms用于细粒度检测,640 ms用于粗略分析。
模型可能需要处理不同分辨率的标签,论文建议使用增强LCNN模型。
使用VAD标签:
从database_vad.tar.gz提取VAD标签,聚焦于语音部分。
可在特征提取阶段应用VAD,排除非语音区域以提高检测精度。
协议文件的使用:
- 参考database_protocols.tar.gz,确保正确分割数据或遵循实验协议。
注意事项
版本选择:确保使用v1.2版本,部分时间戳可能仍在准备中,需查阅README。
伪造比例影响:研究表明,伪造段落比例较低时检测难度增加,需注意模型在低比例场景下的性能。
时间分辨率选择:段标签提供多种分辨率,需根据任务需求选择,细粒度检测可能更具挑战性。
一致性:音频特征提取(如LFCC)需与ASVspoof 2019 LA数据库保持一致,采样率可能为16 kHz。
额外细节
数据集的构建过程涉及从ASVspoof 2019 LA数据库中选取真实音频,并通过替换部分段生成部分伪造音频。例如,示例页面展示了具体替换过程,如CON_T_0000001.wav替换LA_T_1007571.wav的某些段(Samples)。这表明用户在分析时需关注音频的来源和替换逻辑,以确保模型训练的准确性。
论文还提到了一种新反欺骗措施(CM),能够同时使用不同时间分辨率的段级标签和话语级标签进行检测,取得了较低的等错误率(PartialSpoof数据库为0.77%,ASVspoof 2019 LA数据库为0.90%)。这为用户提供了在多种分辨率下进行检测的可能性。
总结
PartialSpoof数据库是一个强大的工具,用于研究部分伪造音频的反欺骗措施。通过正确使用音频文件、段标签、VAD标签和协议文件,并注意版本选择、伪造比例影响及时间分辨率选择,用户可以有效利用该数据集推进语音安全研究。建议结合ASVspoof 2019 LA数据库的背景,并查阅相关文档以优化使用体验。