INTERSPEECH 2025 | 数据堂诚邀您参加MLC-SLM挑战赛暨研讨会

发布于:2025-08-14 ⋅ 阅读:(19) ⋅ 点赞:(0)

Interspeech是由国际语音通讯协会(ISCA)组织的语音研究领域顶级国际会议,第26届Interspeech大会将于2025年8月17日至21日在荷兰鹿特丹隆重举行。作为全球最大的综合性语音处理领域的科技盛会,历届Interspeech会议都备受全球学术界和工业界的广泛关注。
本届大会的主题为“公平与包容的语音科学与技术”,旨在强调个体之间、语言之间丰富多样的语音特性,推动更加公平、强大且个性化的语音技术应用发展。数据堂将在鹿特丹AHOY会议中心设立展台并举办workshop,期待与各位同仁相聚在此,共话语音领域行业前沿。

会议日程

8月17日大会日程在这里插入图片描述

主题演讲

From Talking and Listening Devices to Intelligent Communicative Machines

在这里插入图片描述Prof. Dr. Roger K. Moore, University of Sheffield

✦ 摘要:在语音技术领域从事已有50多年,我有幸见证并亲身参与了诸多惊人的发展,正是这些发展造就了我们今天拥有的卓越的解决方案。我对口语领域的投入可谓一场“情缘”,能与众多杰出的研究者共同致力于研究“已知宇宙中最复杂生物体最精妙的行为”,我感到非常荣幸!尽管我一直致力于建立面向口语处理的机器学习方法,包括发表了最早关于人工神经网络在自动语音识别的应用论文之一,但我的方法始终是试图揭示“智能”(基于语音的)交互的潜在机制,基于生命系统在学习中具有显著的数据效率。本次演讲既回顾过去,也会展望未来,问我们是如何走到今天?又将去向何方?我希望我的一些见解能激励他人踏上相似的征途。

From Speech Science to Language Transparence

在这里插入图片描述Prof. Dr. Alexander Waibel, Carnegie Mellon University

✦ 摘要:打破语言障碍一直是几个世纪以来的梦想。看似无法解决的问题,我们现在很幸运地生活在使全球通信成为共同现实的一代人中。这种全球转型被认为是不可能的,只有通过人工智能、语言和语音处理方面的革命性进步才成为可能。事实上,处理口语的挑战要求、引发、指导和激励人工智能领域最具影响力的进步。在基于知识的语音和语言处理的时代,我开始相信,只有数据驱动的机器学习才能合理地处理通信的复杂性、不确定性和可变性,并且只有潜在的学习表征才能抽象并融合新的和互补的知识。事实证明,它的工作超出了我们最疯狂的预期。从用于音素的小移位不变延时延神经网络 (TDNN) 开始,我们最终将神经系统扩展到大规模的语音、语言和口译系统。从小词汇识别,我们可以发展到同声传译、摘要、交互式对话、多模态系统,以及现在的自动口型同步配音。然而,尽管有数据驱动的机器学习,语音科学对于激发模型是必要的,而观察人类交流继续激励我们在人工智能领域正在进行的工作。

Speech Kinematic Analysis from Acoustics: Scientific, Clinical and Practical Applications

在这里插入图片描述Prof. Dr. Carol Espy-Wilson, University of Maryland College Park

✦ 摘要:我的大部分研究涉及探索言语发音器官在时空协调上的微小变化如何影响语音信号声学特征的变异性。对语音变异性的这种兴趣最终促使我开发了一套语音反演(SI)系统,该系统能够从语音信号中重建嘴唇、舌尖和舌体的发音运动轨迹。最近,我们成功扩展了该SI系统的功能,使其能够提供关于腭咽口开度(鼻音性)的信息,并即将研究揭示舌根和声门开度大小信息的方法。我们的SI系统已被证明具有说话人无关特性,并能很好地泛化应用于不同的声学数据库。在本次演讲中,我将阐述我们开发该SI系统的过程,以及迄今为止我们应用它的多种途径:用于精神健康和言语障碍评估的临床目的、用于跨语言言语模式的科学分析,以及用于改进自动语音识别。

Using and comprehending language in face-to-face conversation

在这里插入图片描述Dr. Judith Holler, Radboud University

✦ 摘要:面对面交谈互动是人类社会性的核心,也是语言演化和习得的自然生态位。然而,我们对于在这种环境中话语如何产生和理解仍然知之甚少。本次演讲将聚焦于手势、面部表情和头部运动如何组织起来传递交谈中的语义和语用意义,以及这些信号的存在和时机如何影响话语理解和回应。具体而言,我将介绍基于互补性方法的研究,这些方法相互补充、相互启发。这包括定性和定量的多模态语料库研究,表明视觉信号确实常常较早出现,以及受语料库结果启发并基于其设计的实验性理解研究,通过受控操作来测试视觉身体信号与理解过程及机制之间的因果效应。这些实验包括行为和脑电图(EEG)研究,其中大多使用了多模态动画虚拟人物。总之,这些发现为以下假设提供了证据:视觉身体信号构成了交谈互动中语义和语用意义传递的一个组成部分;并且它们促进了语言处理,特别是由于它们的时间安排和它们通过时间编排获得的预测潜力。

挑战赛

Challenge and Workshop on Multilingual Conversational Speech Language Model

✦ 简述:真实对话语音数据不仅对于技术进步至关重要,还在构建能够理解多语种和长上下文内容的人工智能系统方面发挥关键作用。对于下一代人机交互系统而言,语音对话是核心的沟通方式,高质量的对话语音数据对于提升其准确性和自然度尤为重要。本次挑战赛/研讨会旨在通过发起多语种对话语音语言模型(MLC-SLM)的挑战,以及发布真实的多语种对话语音数据集来促进该方向的研究。挑战赛开放 1500 小时、11 语种自然对话语音数据,并设置多语种对话语音识别及多语种对话语音日志与识别双赛道任务,均要求参赛者探索基于LLM的语音模型的开发。

✦ 网址:https://www.datatang.com/mcslm

Interspeech 2025 URGENT Challenge

✦ 简述:URGENT 系列挑战赛旨在促进开发通用、鲁棒且可泛化的语音增强 (Universal, Robust, and Generalizable speech EnhancemeNT - URGENT) 系统。Interspeech 2025 URGENT挑战赛是该系列的第二届,重点关注研究如何有效利用含噪语料库、解决广泛的语音退化问题以及探索语音增强模型的语言依赖性。我们欢迎判别式与生成式模型参赛。挑战赛设置两个赛道,提供不同规模的训练数据(约2.5k小时和约60k小时),供参与者研究系统的可扩展性。评估将使用多达13项客观指标和主观听测进行。

✦ 网址:https://urgent-challenge.github.io/urgent2025/

MultiLingual Speech processing Universal PERformance Benchmark (SUPERB) Challenge

✦ 简述:多语言 SUPERB (ML-SUPERB) 是SUPERB基准的扩展,旨在评估语音表征学习的跨语言能力。在今年的挑战赛中,我们邀请参与者为所有语言及语言变体开发最先进的自动语音识别 (ASR) 系统。因此,ML-SUPERB 2.0挑战赛是完全无约束的:我们鼓励使用基础模型和数据管理的最新进展。挑战赛将设置实时排行榜和在线评估服务器,用于测试模型提交在154种语言及超过200种口音和方言上的鲁棒性。

✦ 网址:https://multilingual.superbbenchmark.org

Multimodal Information Based Speech Processing (MISP) 2025 Challenge

✦ 简述:会议是语音应用最具价值但也最具挑战性的场景之一,因其富含信息交换和决策过程,内容的准确转录和分析对于提升生产力和保存见解至关重要。MISP 2025挑战赛聚焦于多模态多设备会议转录,旨在通过引入额外的模态信息(特别是视频模态)来突破当前技术的边界。挑战赛的具体任务包括:音视频说话人日志 (Audio-Visual Speaker Diarization)、音视频语音识别 (Audio-Visual Speech Recognition)以及音视频日志与识别 (Audio-Visual Diarization and Recognition)。

✦ 网址:https://mispchallenge.github.io/mispchallenge2025/index.html

Speech Accessibility Project Challenge

✦ 简述:语音无障碍项目挑战赛的目标是快速推进构音障碍语音识别 (dysarthric speech recognition) 的技术水平。参赛者可使用来自 Speech Accessibility Project 2024-04-30 数据集(训练集:290小时,来自369名说话人;开发集:44小时,来自59名说话人)的数据训练自动语音识别 (ASR) 系统。获胜者将包括在测试集上获得最低词错误率的系统,以及其转写结果具有最高语义得分的团队。

✦ 网址:https://eval.ai/web/challenges/challenge-page/2362/overview

Speech Emotion Recognition in Naturalistic Conditions Challenge

✦ 简述:Interspeech 2025 的“自然条件下语音情感识别 (SER) 挑战赛”旨在推动自发语音情感识别领域的发展,强调在真实世界中的适用性,而非受控的表演场景。挑战赛利用 MSP-Podcast 语料库——一个包含超过 324 小时自然对话语音的丰富数据集,为研究者提供了一个开发和基准测试能够在复杂现实环境中有效运行的 SER 技术的平台。参与者可使用独立于说话人的训练集和开发集,以及一个专用的测试集。所有数据均针对两项任务进行了标注:分类情感识别 (categorical emotion recognition) 和情感属性预测 (emotional attributes prediction)。

✦ 网址:https://lab-msp.com/MSP-Podcast_Competition/IS2025/

多语种对话语音语言模型(MLC-SLM)挑战赛暨研讨会

大语言模型(LLMs)作为语言理解与生成的基础技术,其应用已扩展至语音和音频处理领域。然而,构建基于LLMs的语音对话系统面临核心挑战:真实多语种对话数据的稀缺性。这类数据对提升AI系统的多语种理解能力和长上下文处理能力至关重要,直接影响下一代人机交互的自然度与准确性。

数据堂将于8月22日在14号码头-鹿特丹AHOY会议中心举办多语种对话语音语言模型(MLC-SLM)挑战赛暨研讨会👇:

✔ 参赛优秀队伍方案分享和竞赛总结与颁奖;

✔ 领域大咖和专家主旨/特邀报告,包括CMU Shinji Watanabe、台大李宏毅、DKU-KS李明、NJU王帅老师;

✔ 地点就在Interspeech会场,非常方便;

✔ 注册可以连同Interspeech官方注册(选加上我们的workshop)或者填写临时注册表单现场缴费(50Euro)。

期待与您相聚现场,携手探索数据价值,共促行业创新发展!

大会地址及展位

交通指南
在这里插入图片描述

本次大会将于荷兰鹿特丹AHOY会议中心举办,建议参会者飞往荷兰以下3个机场之一:阿姆斯特丹史基浦机场(AMS)、鹿特丹海牙机场(RTM)及埃因霍温机场(EIN),乘坐火车或公交车抵达鹿特丹中央车站,再从鹿特丹中央车站前往会议会场,参会者可乘坐:
· 地铁 D/E 到 Zuidplein
· 44 路公交车前往 Zuidplein Hoog

数据堂展位

数据堂将亮相INTERSPEECH 2025,在鹿特丹AHOY会议中心3层展台全面呈现多模态、语音识别、语音合成、大语言模型及视觉语言模型等领域的最新数据解决方案。
在这里插入图片描述

诚邀您拨冗出席,与全球顶尖专家学者共话前沿、共促创新!


网站公告

今日签到

点亮在社区的每一天
去签到