语音识别服务
本项目强依赖语音识别服务,请根据以下步骤进行配置。
支持的语音服务
目前支持的语音服务有:
- Fast-Whisper
- bcut (不稳定)
- kuaishou (不稳定)
- mlx-whisper(仅Apple平台)
配置方法
语音识别服务配置在 .env 文件中的TRANSCRIBER_TYPE字段,具体配置方法请参考 .env.example 文件。
配置方法
语音识别服务配置在 .env 文件中的TRANSCRIBER_TYPE字段。
dotenv
TRANSCRIBER_TYPE=fast-whisperFast-Whisper 模型选择
fast-whisper 是一个高性能、低资源消耗的语音转文字模型,支持多种不同规模的模型版本。你可以根据性能与精度的需求进行选择:
| 模型名称 | 对应 modelscope 仓库路径 | 特点说明 |
|---|---|---|
tiny | pengzhendong/faster-whisper-tiny | 模型最小,速度最快,适合对实时性要求高但容忍低精度的场景 |
base | pengzhendong/faster-whisper-base | 体积小、速度快,精度比 tiny 略高 |
small | pengzhendong/faster-whisper-small | 平衡精度与性能,适用于大多数普通转写任务 |
medium | pengzhendong/faster-whisper-medium | 精度更高,适合需要较强识别能力的场景 |
large-v1 | pengzhendong/faster-whisper-large-v1 | 精度极高,适合追求最强识别能力的任务 |
large-v2 | pengzhendong/faster-whisper-large-v2 | 在 v1 基础上改进,识别更稳定 |
large-v3 | pengzhendong/faster-whisper-large-v3 | 当前主流大模型之一,推荐使用 |
large-v3-turbo | pengzhendong/faster-whisper-large-v3-turbo | 速度优化版本,适合在保证精度基础上提升处理效率的场景 |
⚠️ 注意:模型越大,所需内存和计算资源也越高,建议根据你的服务器配置合理选择。
配置模型大小在 .env 文件配置 WHISPER_MODEL_SIZE
dotenv
WHISPER_MODEL_SIZE=baseGroq Fast-Whisper 配置
Groq 提供了Fast-Whisper服务,如果本地性能不足,可以考虑使用。 首先确保你的模型供应商里面配置了 Groq API。 然后在 .env 文件中的TRANSCRIBER_TYPE字段填写groq
dotenv
TRANSCRIBER_TYPE=groq
GROQ_TRANSCRIBER_MODEL=whisper-large-v3-turbo