目录
这三篇论文应该是最早将神经隐式表示引入声学领域的最早开坑的论文。
NAF首次将神经隐式表示引入声学领域,解决连续声场建模问题,但局限于STFT表示和局部几何条件化,未处理多场景或时域优化。
INRAS直接引用并改进NAF,通过Scatter/Bounce/Gather模块解耦场景几何,支持多场景训练和时域直接输出,解决了NAF的泛化瓶颈(如未见过位置组合)。
NACF引用NAF和INRAS,引入多模态声学上下文(几何、材料、空间),并针对RIR的物理特性(非光滑性和衰减)设计时域模块和损失函数,补足了前两篇在感知真实性和上下文利用上的不足。
一、NAF
1、概述
nips2022,joshua的开坑论文。
motivation:现有神经表示在视觉场景中取得突破,但声学空间进展滞后。以往方法凭借几何声学模拟或波方程求解(比如AAC,Opus,DSP),计算成本昂贵,且无法泛化到任意连续位置。
contribution:提出了首个隐式神经声场表示,将声场传播建模成线性时不变系统,建立了一个任意发射器-监听器位置的脉冲响应函数,捕捉任意场景中的声学特征。
2、方法
建模声学传播
假设听者位置,声源位置
,声源处原始声音波形为
,脉冲响应函数可以定义为
,听者位置
处接收到的时域声音信号可以定义为原声音波形与脉冲响应的时域卷积。
而就可以看成整个场景的一个声学滤波器,受听者位置和声源位置控制,我们也就是要构建一个神经场
,来直接模拟这个声学滤波器,从而预测任意地点的声音。
声学辐射场
这里他考虑到了听者位置,声源位置,头部角度(2自由度),双耳
。一共九维。由于脉冲信号维度过高非平滑,而且有混沌特性,所以利用STFT转换到平滑的频域谱进行分析,输出为STFT的对数幅度和瞬时频率,这里为了进行STFT转换所以引入了时间和频率。
由于瞬时频率IF在频域下仍然不连续,所以用GANSynth进行表示,主要就是转换成连续的频率,纯声学知识,看不下去。
声学辐射场网络,应该是仿照的NeRF,然后位置上输入听者位置和声源位置的拼接或融合,然后方向,双耳标识作为条件输入,最后输出STFT域幅度值和IF频率(对比NeRF输出密度和不透明度)。损失函数最小化STFT域幅度与IF的MSE误差。
另外提到声学辐射场可以提升NeRF三维重建的效果,所以需要提升NeRF的稀疏视图重建时,NAF与NeRF可共享局部特征网格,同步优化声学+视觉损失。具体网络信息没有,我的理解是Global feature这些都作为条件,然后输入只输入NeRF需要的位姿。
3、实验
数据
这个模型,当时用的数据是MeshRIR和SoundSpaces,都是脉冲响应(RIR)的数据
MeshRIR:真实场景数据录制,单一房间立方体结构,声源分布在听者平面上方和下方,保留环境噪声、材质反射等物理细节。RIR数据就是个单声道音频。
SoundSpaces:合成数据,多房间复杂结构,声源分布二维平面,RIR数据。
对比实验(MeshRIR)
提高NeRF的重建能力
二、INRAS
1、概述
INRAS相当于只做声场重建,不考虑场景光场重建问题,解耦声场特征信息,更加注重场景几何的性质。
motivation:他认为NAF论文未充分解耦场景几何与位置变量,多场景泛化能力不足,且STFT容易丢失时域细节,比如早期反射峰值在NAF直接通过STFT平滑掉了,所以无法建模。
contribution:特征解耦声场,强调场景几何的复用和轻量化。
2、方法
两个阶段,先分解声场特征,再做双耳脉冲响应预测
声场特征分解
INRAS将声场特征分解为三个独立模块。Scatter关联声源和边界点,Bounce学习场景静态几何特征,Gather关联听者与边界点。并且INRAS不做STFT变换,直接生成时域脉冲响应,保留早期反射尖锐峰值。
Scatter模块:输入声源到八个边界点(绿色点)的相对距离,并进行正弦处理,经过全连接网络输出特征,模拟初始散射。
Bounce模块:输入边界点位置,通过残差网络,输出场景几何特征
Gather模块:输入听者位置到边界点的相对位置,进行正弦处理,全连接网络输出特征,模拟听者收集声音。
双耳脉冲预测
时空特征融合:不在每一个模块单独引入时间t,而是使用正弦编码对时间编码,并通过快速矩阵嵌入到每一个模块输出的特征上。
之后将三个特征拼接,并且与听者方向,左右耳标识特征输入到残差MLP中,输出双耳脉冲响应。
训练过程,对时域重建计算损失,以及频谱,幅度,相位误差,均计算损失。这不就是RIR的响应的拟合吗。
3、实验
放在这里看一下对比。
三、NACF
1、概述
motivation:现有神经声场,忽略场景声学上下文,导致预测过于平滑,无法捕捉冲击响应(如早期反射的非光滑性和能量衰减)。文档强调,RIR的时域不光滑性和单调衰减是感知真实性的核心。
contribution:提出NACF,引入声学上下文模块:从场景边界点提取多模态特征(深度图、RGB图、声学系数、空间位置),融合后作为时空查询输入神经场。设计时域相关模块(膨胀CNN)处理RIR的非光滑性;多尺度能量衰减准则监督能量衰减趋势,匹配真实RIR的物理特性。
2、方法
这个按着顺序对着图看就行
声学上下文模块
从边界点提取多模态特征,构建整个场景的声学指纹。
边界点:沿房间边界(墙壁、地板、天花板)均匀采样的空间点
多模态特征:RGB图,深度图,声学系数,边界点自身位置,声源到边界点距离,听者到边界点距离(从上到下,对应下面图的顺序就好)
所有特征嵌入为256维向量 → 拼接为全局声学上下文 ,N为边界点数比如下图(a)就是四个点。
隐式神经场
声学上下文C+时间查询->点积生成时空查询
其中方向和声道标记作为MLP每层的输入,4层MLP跳跃连接,直接输出时域RIR信号
时域模块
问题:神经场的连续性先验导致RIR预测过于平滑,但真实RIR在早期反射阶段存在尖锐非光滑峰值
输入:初始RIR
输出:精细化RIR
结构:3层膨胀卷积,多尺寸(3x3,5x5,7x7)
损失函数
幅度损失,时频能量损失(这个好像就是为了拟合时域模块的,因为如果出现突发的峰值,整体能量也会变大)
参考论文:
[2204.00628] Learning Neural Acoustic Fields