语音识别服务

本项目强依赖语音识别服务，请根据以下步骤进行配置。

支持的语音服务

目前支持的语音服务有：

语音识别服务配置在 .env 文件中的TRANSCRIBER_TYPE字段，具体配置方法请参考 .env.example 文件。

语音识别服务配置在 .env 文件中的TRANSCRIBER_TYPE字段。

dotenv

TRANSCRIBER_TYPE=fast-whisper

fast-whisper 是一个高性能、低资源消耗的语音转文字模型，支持多种不同规模的模型版本。你可以根据性能与精度的需求进行选择：

模型名称	对应 modelscope 仓库路径	特点说明
`tiny`	`pengzhendong/faster-whisper-tiny`	模型最小，速度最快，适合对实时性要求高但容忍低精度的场景
`base`	`pengzhendong/faster-whisper-base`	体积小、速度快，精度比 `tiny` 略高
`small`	`pengzhendong/faster-whisper-small`	平衡精度与性能，适用于大多数普通转写任务
`medium`	`pengzhendong/faster-whisper-medium`	精度更高，适合需要较强识别能力的场景
`large-v1`	`pengzhendong/faster-whisper-large-v1`	精度极高，适合追求最强识别能力的任务
`large-v2`	`pengzhendong/faster-whisper-large-v2`	在 `v1` 基础上改进，识别更稳定
`large-v3`	`pengzhendong/faster-whisper-large-v3`	当前主流大模型之一，推荐使用
`large-v3-turbo`	`pengzhendong/faster-whisper-large-v3-turbo`	速度优化版本，适合在保证精度基础上提升处理效率的场景

⚠️ 注意：模型越大，所需内存和计算资源也越高，建议根据你的服务器配置合理选择。

配置模型大小在 .env 文件配置 WHISPER_MODEL_SIZE

dotenv

WHISPER_MODEL_SIZE=base

Groq 提供了Fast-Whisper服务，如果本地性能不足，可以考虑使用。首先确保你的模型供应商里面配置了 Groq API。然后在 .env 文件中的TRANSCRIBER_TYPE字段填写groq

dotenv

TRANSCRIBER_TYPE=groq
GROQ_TRANSCRIBER_MODEL=whisper-large-v3-turbo