Skip to content

语音识别服务

本项目强依赖语音识别服务,请根据以下步骤进行配置。

支持的语音服务

目前支持的语音服务有:

配置方法

语音识别服务配置在 .env 文件中的TRANSCRIBER_TYPE字段,具体配置方法请参考 .env.example 文件。

配置方法

语音识别服务配置在 .env 文件中的TRANSCRIBER_TYPE字段。

dotenv
TRANSCRIBER_TYPE=fast-whisper

Fast-Whisper 模型选择

fast-whisper 是一个高性能、低资源消耗的语音转文字模型,支持多种不同规模的模型版本。你可以根据性能与精度的需求进行选择:

模型名称对应 modelscope 仓库路径特点说明
tinypengzhendong/faster-whisper-tiny模型最小,速度最快,适合对实时性要求高但容忍低精度的场景
basepengzhendong/faster-whisper-base体积小、速度快,精度比 tiny 略高
smallpengzhendong/faster-whisper-small平衡精度与性能,适用于大多数普通转写任务
mediumpengzhendong/faster-whisper-medium精度更高,适合需要较强识别能力的场景
large-v1pengzhendong/faster-whisper-large-v1精度极高,适合追求最强识别能力的任务
large-v2pengzhendong/faster-whisper-large-v2v1 基础上改进,识别更稳定
large-v3pengzhendong/faster-whisper-large-v3当前主流大模型之一,推荐使用
large-v3-turbopengzhendong/faster-whisper-large-v3-turbo速度优化版本,适合在保证精度基础上提升处理效率的场景

⚠️ 注意:模型越大,所需内存和计算资源也越高,建议根据你的服务器配置合理选择。

配置模型大小在 .env 文件配置 WHISPER_MODEL_SIZE

dotenv
WHISPER_MODEL_SIZE=base

Groq Fast-Whisper 配置

Groq 提供了Fast-Whisper服务,如果本地性能不足,可以考虑使用。 首先确保你的模型供应商里面配置了 Groq API。 然后在 .env 文件中的TRANSCRIBER_TYPE字段填写groq

dotenv
TRANSCRIBER_TYPE=groq
GROQ_TRANSCRIBER_MODEL=whisper-large-v3-turbo