摘要:通过Python实现WAV音频信号处理与线性回归建模,揭示双声道音频的数学关联性,为声音特征分析提供新视角。
1. 音频数据处理流程
1.1 WAV文件读取与预处理
使用scipy.io.wavfile
读取音频文件,获取采样率与时域信号数据:
from scipy.io import wavfile
sample_rate, audio_data = wavfile.read("sound/cat/1-47819-C-5.wav")
- 自动识别单声道/立体声:单声道返回一维数组,立体声返回二维数组(左/右声道)
- 关键指标:采样率(Hz)、数据类型(如int16)、数据形状(样本数×声道数)
1.2 声道分离与标准化
# 立体声分离
left_channel = audio_data[:, 0]
right_channel = audio_data[:, 1]
# 标准化(均值归零、方差归一)
left_norm = (left_channel - np.mean(left_channel)) / np.std(left_channel)
right_norm = (right_channel - np.mean(right_channel)) / np.std(right_channel)
标准化消除量纲差异,提升模型收敛效率。
2. 线性回归建模核心
2.1 回归参数计算
基于最小二乘法直接求解斜率与截距:
def linear_regression(x, y):
n = len(x)
sum_x, sum_y = np.sum(x), np.sum(y)
sum_xy = np.sum(x * y)
sum_x2 = np.sum(x ** 2)
slope = (n * sum_xy - sum_x * sum_y) / (n * sum_x2 - sum_x ** 2)
intercept = (sum_y - slope * sum_x) / n
return slope, intercept
该方法避免迭代计算,效率显著高于梯度下降法。
2.2 滑动窗口分块分析
sim_list = []
for i in range(0, len(left_norm)-800, 800):
x = left_norm[i:i+800:2] # 左声道隔点采样
y = right_norm[i:i+800:1] # 右声道连续采样
slope, intercept = linear_regression(x, y)
y_pred = slope * x + intercept
sim = cosine_similarity(y_pred, y) # 余弦相似度评估拟合效果
sim_list.append(sim)
- 创新点:通过800样本滑动窗口捕捉局部特征
- 输出指标:各窗口回归方程的余弦相似度序列
3. 模型评估与可视化
3.1 误差指标计算
def calculate_fit_error(y_true, y_pred):
mse = np.mean((y_true - y_pred) ** 2) # 均方误差
rmse = np.sqrt(mse) # 均方根误差
mae = np.mean(np.abs(y_true - y_pred)) # 平均绝对误差
return mse, rmse, mae
多维度评估模型精度。
3.2 动态效果可视化
plt.figure(figsize=(12, 4))
plt.plot(sim_list, marker='o', linestyle='-', color='#FF7043')
plt.title("双声道线性拟合相似度变化趋势", fontsize=14)
plt.xlabel("时间窗口索引", fontsize=12)
plt.ylabel("余弦相似度", fontsize=12)
plt.grid(alpha=0.3)
plt.show()
4. 完整代码实现
import numpy as np
import matplotlib.pyplot as plt
from scipy.io import wavfile
# 中文显示支持
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
plt.rcParams['axes.unicode_minus'] = False
def cosine_similarity(a, b):
"""计算余弦相似度"""
return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))
def linear_regression(x, y):
"""最小二乘法线性回归"""
n = len(x)
sum_x, sum_y = np.sum(x), np.sum(y)
sum_xy = np.sum(x * y)
sum_x2 = np.sum(x ** 2)
slope = (n * sum_xy - sum_x * sum_y) / (n * sum_x2 - sum_x ** 2)
intercept = (sum_y - slope * sum_x) / n
return slope, intercept
def main():
# 数据读取
_, audio = wavfile.read("sound/cat/1-47819-C-5.wav")
left = (audio[:,0]-np.mean(audio[:,0]))/np.std(audio[:,0])
right = (audio[:,1]-np.mean(audio[:,1]))/np.std(audio[:,1])
# 滑动窗口分析
sim_list = []
for i in range(0, len(left)-800, 800):
x, y = left[i:i+800:2], right[i:i+800:1]
if len(x) > len(y): x = x[:len(y)]
slope, intercept = linear_regression(x, y)
sim_list.append(cosine_similarity(slope*x+intercept, y))
# 可视化
plt.plot(sim_list)
plt.show()
if __name__ == "__main__":
main()
5. 应用场景与扩展
声音特征分析
通过回归斜率变化识别音频中的突发事件(如爆破音、重音节)音频质量评估
双声道拟合相似度越高,说明声道一致性越好(适用于设备测试)扩展方向
- 引入MFCC(梅尔频率倒谱系数)替代原始信号
- 结合LSTM模型捕捉长期依赖关系
- 迁移至帕金森病语音诊断等医疗场景
参考文献:
- https://blog.csdn.net/weixin_43881394/article/details/105680975
- https://blog.csdn.net/bifengmiaozhuan/article/details/142349833
- https://docs.pingcode.com/ask/971413.html
源码下载与实时演示可访问 [GitHub项目链接]