一、配置
显卡:v100(测试简短语句,显存实际占用不足6G)
二、安装测试
1. 安装
1.1 下载源码
git clone https://github.com/fishaudio/fish-speech.git
1.2 安装系统组件
apt install portaudio19-dev libsox-dev ffmpeg
1.3 conda创建虚拟环境
conda create -n fish-speech python=3.12
conda activate fish-speech
pip install -e .
2. 下载模型
cd /data/models
mkdir openaudio-s1-mini
modelscope download --model fishaudio/openaudio-s1-mini --local_dir ./openaudio-s1-mini
3. webui测试
3.1 启动命令
export GRADIO_SERVER_NAME=192.168.114.114
python -m tools.run_webui \
--llama-checkpoint-path "/data/models/openaudio-s1-mini" \
--decoder-checkpoint-path "/data/models/openaudio-s1-mini/codec.pth" \
--decoder-config-name modded_dac_vq
3.2 访问
页面:http://192.168.114.114:7860/
- 随机音色
在Input Text中键入要生成的文字,点击Generate。
- 固定音色
需要在Reference Audio上传音频和Reference Text键入音频对应的文字,之后就可以在Input Text中键入要生成的文字,点击Generate即可。
4. api测试
4.1 启动服务端
python -m tools.api_server \
--llama-checkpoint-path "/data/models/openaudio-s1-mini" \
--decoder-checkpoint-path "/data/models/openaudio-s1-mini/codec.pth" \
--decoder-config-name modded_dac_vq
4.2 客户端调用
默认保存到generated_audio.wav,也可以通过指定--output
参数重命名。
- 随机音色
python tools/api_client.py \
-t '在《长安的荔枝》开播并收获一众好评后,又一有着大爆剧潜质的《以法之名》也紧接着播出了。' \
--no-play
- 固定音色
–reference_audio指定要参考的音频,–reference_text指定参考音频的文字,-t指定要生成的音频文字,–no-play禁止生成后播放。
python tools/api_client.py \
-t '在《长安的荔枝》开播并收获一众好评后,又一有着大爆剧潜质的《以法之名》也紧接着播出了。' \
--no-play \
--reference_audio 'fake.wav' \
--reference_text '您想要转换的文本'
5. 总结
fish-speech和各类工具,功能越来越强大的同时,v100这些旧显卡,也渐渐要退出历史舞台了,官方文档说您可能希望使用 --compile 来融合 CUDA 内核以实现更快的推理(~15 token/秒 -> ~150 token/秒,在RTX 4090 GPU上
,但是v100不支持了。