【fish-speech】新模型openaudio-s1-mini尝鲜

发布于：2025-06-27 ⋅ 阅读:(363) ⋅ 点赞:(0)

一、配置

显卡：v100（测试简短语句，显存实际占用不足6G）

二、安装测试

1. 安装

1.1 下载源码

git clone https://github.com/fishaudio/fish-speech.git

1.2 安装系统组件

apt install portaudio19-dev libsox-dev ffmpeg

1.3 conda创建虚拟环境

conda create -n fish-speech python=3.12
conda activate fish-speech

pip install -e .

2. 下载模型

cd /data/models
mkdir openaudio-s1-mini
modelscope download --model fishaudio/openaudio-s1-mini --local_dir ./openaudio-s1-mini

3. webui测试

3.1 启动命令

export GRADIO_SERVER_NAME=192.168.114.114
python -m tools.run_webui \
    --llama-checkpoint-path "/data/models/openaudio-s1-mini" \
    --decoder-checkpoint-path "/data/models/openaudio-s1-mini/codec.pth" \
    --decoder-config-name modded_dac_vq

3.2 访问

页面：http://192.168.114.114:7860/

随机音色

在Input Text中键入要生成的文字，点击Generate。

在这里插入图片描述

固定音色

需要在Reference Audio上传音频和Reference Text键入音频对应的文字，之后就可以在Input Text中键入要生成的文字，点击Generate即可。

在这里插入图片描述

4. api测试

4.1 启动服务端

python -m tools.api_server \
    --llama-checkpoint-path "/data/models/openaudio-s1-mini" \
    --decoder-checkpoint-path "/data/models/openaudio-s1-mini/codec.pth" \
    --decoder-config-name modded_dac_vq

4.2 客户端调用

默认保存到generated_audio.wav，也可以通过指定--output参数重命名。

随机音色

python tools/api_client.py \
  -t '在《长安的荔枝》开播并收获一众好评后，又一有着大爆剧潜质的《以法之名》也紧接着播出了。' \
  --no-play

固定音色

–reference_audio指定要参考的音频，–reference_text指定参考音频的文字，-t指定要生成的音频文字，–no-play禁止生成后播放。

python tools/api_client.py \
  -t '在《长安的荔枝》开播并收获一众好评后，又一有着大爆剧潜质的《以法之名》也紧接着播出了。' \
  --no-play \
  --reference_audio 'fake.wav' \
  --reference_text '您想要转换的文本'

5. 总结

fish-speech和各类工具，功能越来越强大的同时，v100这些旧显卡，也渐渐要退出历史舞台了，官方文档说您可能希望使用 --compile 来融合 CUDA 内核以实现更快的推理（~15 token/秒 -> ~150 token/秒，在RTX 4090 GPU上,但是v100不支持了。