【AI视野·今日Sound 声学论文速览 第二十八期】Wed, 18 Oct 2023

发布于:2023-10-25 ⋅ 阅读:(61) ⋅ 点赞:(0)

AI视野·今日CS.Sound 声学论文速览
Wed, 18 Oct 2023
Totally 12 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles
Authors Fernando L pez, Jordi Luque, Carlos Segura, Pablo G mez
基于语音的接口依靠唤醒词机制来发起与设备的通信。然而,实现稳健、节能且快速的检测仍然是一个挑战。本文通过时间对齐增强数据并使用基于多分辨率两阶段的检测来满足这些实际生产需求。它采用两种模型,一种是用于实时处理音频流的轻量级设备模型,另一种是服务器端的验证模型,它是细化检测的异构架构的集合。该方案允许优化两个操作点。为了保护隐私,音频功能而不是原始音频被发送到云端。该研究研究了用于特征提取的不同参数配置,以选择一种用于设备检测,另一种用于验证模型。此外,还对十三种不同的音频分类器的性能和推理时间进行了比较。

High-Fidelity Noise Reduction with Differentiable Signal Processing
Authors Christian J. Steinmetz, Thomas Walther, Joshua D. Reiss
基于深度学习的降噪技术在提高录制语音的整体质量方面表现出了令人印象深刻的性能。虽然这些方法具有高性能,但它们在音频工程中的应用可能由于多种因素而受到限制。这些包括仅对语音进行操作而不支持音乐、缺乏实时功能、缺乏可解释的控制参数、以较低采样率进行操作以及引入伪影的倾向。另一方面,基于信号处理的降噪算法提供了对广泛内容的细粒度控制和操作,但是,它们通常需要手动操作才能获得最佳结果。为了解决这两种方法的局限性,在这项工作中,我们引入了一种利用基于信号处理的降噪器的方法,该降噪器与神经网络控制器结合使用时,可以对语音和音乐信号实现全自动、高保真度的降噪。我们通过客观指标和感知听力测试来评估我们提出的方法。我们的评估表明,语音增强模型可以扩展到音乐,但是训练模型以仅消除静态噪声至关重要。此外,我们提出的方法实现了与深度学习模型相当的性能,同时在某些情况下效率显着提高并且引入的工件更少。

Serenade: A Model for Human-in-the-loop Automatic Chord Estimation
Authors Hendrik Vincent Koops, Gianluca Micchi, Ilaria Manco, Elio Quinton
计算和声分析对于自动分割、语料库分析和自动和弦标签估计等 MIR 任务非常重要。然而,最近对音乐和声的模糊性的研究表明,准确度等常见指标存在玻璃天花板,导致评估者之间的一致性有限。通常,这些问题可以在训练数据本身中通过创建多数规则注释来解决,也可以在训练阶段通过学习软目标来解决。我们提出了一种新颖的替代方法,其中人类和自回归模型共同为音轨创建谐波注释。自动生成和声预测后,人类会稀疏地注释模型置信度较低的部分,然后模型会根据人类的指导调整其预测。我们在流行音乐数据集上评估我们的模型,并表明,通过这种人机交互方法,和声分析性能比仅模型方法有所提高。

Leveraging Content-based Features from Multiple Acoustic Models for Singing Voice Conversion
Authors Xueyao Zhang, Yicheng Gu, Haopeng Chen, Zihao Fang, Lexiao Zou, Liumeng Xue, Zhizheng Wu
歌声转换SVC是一种使任意歌手能够演唱任意歌曲的技术。为了实现这一目标,从源音频中获取与说话人无关的表示非常重要,这是一项具有挑战性的任务。常见的解决方案是从预训练的声学模型中提取基于内容的特征,例如 PPG。然而,声学模型的选择多种多样。不同声学模型的内容特征有何特点,以及整合多个内容特征是否可以互相帮助,还有待探索。受此启发,本研究调查了三种不同的内容特征,分别源自 WeNet、Whisper 和 ContentVec。我们探讨了它们在 SVC 的可理解性、韵律和转换相似性方面的互补作用。通过将多个内容特征与基于扩散的 SVC 模型相集成,与单一内容特征源相比,我们的 SVC 系统在客观和主观评估方面都实现了卓越的转换性能。

Lyricist-Singer Entropy Affects Lyric-Lyricist Classification Performance
Authors Mitsuki Morita, Masato Kikuchi, Tadachika Ozono
尽管歌词是音乐的重要组成部分,但很少有关于作词者特征的音乐信息处理研究。由于这些特征对于音乐应用(例如推荐)可能很有价值,因此值得进一步研究。我们考虑了一种潜在的方法,可以从歌词中提取代表作词者特征的特征。由于必须在提取之前识别这些特征,因此我们重点关注具有易于识别特征的作词者。我们相信歌手们需要表演具有该歌手特定特征的独特歌曲。因此,我们假设作词者解释了他们为其写歌词的歌手的独特特征。换句话说,作词者分类表现或从歌词中捕捉作词者特征的容易程度可能取决于歌手的多样性。在这项研究中,我们观察了词作者熵或与单个词作者和词词作者分类表现相关的歌手种类之间的关系。举个例子,当作词者只为一位歌手写歌词时,作词者歌手的熵最小。在我们的实验中,我们根据作词歌手熵将作词者分为五组,并评估每组内的作词者分类表现。因此,作词歌手熵最低的组获得了最好的 F1 分数。

A High Fidelity and Low Complexity Neural Audio Coding
Authors Wenzhe Liu, Wei Xiao, Meng Wang, Shan Yang, Yupeng Shi, Yuyong Kang, Dan Su, Shidong Shang, Dong Yu
音频编码是实时通信系统中必不可少的模块。由于深度神经网络强大的建模和生成能力,神经音频编解码器可以以低比特率压缩音频样本。针对高频表达较差、计算成本和存储消耗较高的问题,我们提出了一种综合框架,利用神经网络对宽带分量进行建模,并根据心理听觉知识采用传统信号处理来压缩高频带分量。受听觉感知理论的启发,设计了基于感知的损失函数来改进谐波建模。此外,首次提出针对神经音频编解码器的生成对抗网络 GAN 压缩。

Unsupervised Lead Sheet Generation via Semantic Compression
Authors Zachary Novack, Nikita Srivatsan, Taylor Berg Kirkpatrick, Julian McAuley
主奏表在生成音乐研究中已变得司空见惯,被用作多轨音乐生成和自动编排等下游任务的初始压缩表示。尽管如此,研究人员在寻找配对铅表和满分时,经常依靠确定性约简方法(例如天际线算法)来生成铅表,而很少关注铅表本身的质量以及它们如何准确地反映其精心策划的结果。同行。为了解决这些问题,我们提出了条件主奏表生成问题,即在给定完整乐谱版本的情况下生成主奏表,并表明该任务可以表示为无监督音乐压缩任务,其中主奏表代表了压缩的潜在版本分数。我们引入了一种称为 Lead AE 的新颖模型,该模型将引导片建模为原始序列的离散子选择,使用可微分的前 k 运算符来允许可控的局部稀疏性约束。

Long-form Simultaneous Speech Translation: Thesis Proposal
Authors Peter Pol k
同步语音翻译 SST 旨在提供口语的实时翻译,甚至在说话者说完句子之前也是如此。传统上,SST 主要通过级联系统来解决,这些系统将任务分解为子任务,包括语音识别、分割和机器翻译。然而,深度学习的出现引发了人们对端到端端到端系统的极大兴趣。然而,当前文献中报道的大多数 E2E SST 方法的一个主要限制是,它们假设源语音被预先分割成句子,这对于实际的、现实世界的应用来说是一个重大障碍。本论文提案解决了端到端同步语音翻译问题,特别是在长格式设置中,即没有预分割的情况下。

VoxArabica: A Robust Dialect-Aware Arabic Speech Recognition System
Authors Abdul Waheed, Bashar Talafha, Peter Suvellin, Abdelrahman Elmadney, Muhammad Abdul Mageed
阿拉伯语是一种复杂的语言,有多种变体和方言,全世界有超过 4.5 亿人使用。由于语言的多样性和变化,为阿拉伯语构建一个强大且通用的 ASR 系统具有挑战性。在这项工作中,我们通过开发和演示一个名为 VoxArabica 的系统来解决这一差距,该系统用于方言识别 DID 以及阿拉伯语的自动语音识别 ASR。我们在阿拉伯语 DID 和 ASR 任务的监督环境中训练了各种模型,例如 HuBERT DID、Whisper 和 XLS R ASR。我们的 DID 模型经过训练,可以识别除 MSA 之外的 17 种不同方言。我们根据 MSA、埃及、摩洛哥和混合数据微调我们的 ASR 模型。此外,对于 ASR 中的其余方言,我们提供了在零样本设置中选择各种模型的选项,例如 Whisper 和 MMS。我们将这些模型集成到一个具有多种功能的 Web 界面中,例如录音、文件上传、模型选择以及针对错误输出提出标记的选项。总体而言,我们相信 VoxArabica 对于关注阿拉伯语研究的广大受众来说将是有用的。

Correction Focused Language Model Training for Speech Recognition
Authors Yingyi Ma, Zhe Liu, Ozlem Kalinli
语言模型 LM 已被普遍采用来提高自动语音识别 ASR 的性能,特别是在领域适应任务中。传统的 LM 训练方式对语料库中的所有单词一视同仁,导致 ASR 性能的提升不够理想。在这项工作中,我们引入了一种新颖的专注于纠正的 LM 训练方法,旨在优先考虑 ASR 错误单词。单词级 ASR 易错性分数(代表 ASR 错误识别的可能性)被定义并形成为先验单词分布,以指导 LM 训练。为了使用纯文本语料库进行以校正为重点的训练,通过多任务微调,大型语言模型法学硕士被用作易错分数预测器和文本生成器。领域适应任务的实验结果证明了我们提出的方法的有效性。与传统的 LM 相比,以纠正为重点的训练在足够的文本场景下实现了相对 5.5 的单词错误率 WER 降低。

Spatial HuBERT: Self-supervised Spatial Speech Representation Learning for a Single Talker from Multi-channel Audio
Authors Antoni Dimitriadis, Siqi Pan, Vidhyasaharan Sethu, Beena Ahmed
自监督学习已被用来利用未标记的数据,通过表示模型的训练来提高语音系统的准确性和泛化性。虽然最近的许多工作都试图在各种声学领域、语言、模式甚至同时说话者之间产生有效的表示,但这些研究都仅限于单通道录音。本文提出了 Spatial HuBERT,这是一种自监督语音表示模型,它通过使用多通道音频输入来学习潜在噪声环境中单个说话者的声学和空间信息。 Spatial HuBERT 学习的表示在各种空间下游任务上优于最先进的单通道语音表示,特别是在混响和噪声环境中。我们还演示了 Spatial HuBERT 学习到的表示在语音定位下游任务中的实用性。

Optimized Tokenization for Transcribed Error Correction
Authors Tomer Wullach, Shlomo E. Chazan
语音识别系统面临的挑战,例如发音变化、不利的音频条件和标记数据的稀缺,强调了纠正重复错误的后处理步骤的必要性。先前的研究已经证明了采用专用纠错模型的优势,但训练此类模型需要大量不易获得的标记数据。为了克服这一限制,通常使用合成的转录类似数据,然而,弥合转录错误和合成噪声之间的分布差距并非易事。在本文中,我们证明仅使用合成数据进行训练可以显着提高校正模型的性能。具体来说,我们凭经验表明 1 使用从一组转录数据导出的误差分布生成的合成数据优于应用随机扰动的常见方法 2 对 BPE 分词器的词汇应用特定于语言的调整在适应看不见的分布和保留转录错误的知识。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com