生成式 AI
AI 助手
创作
效率与办公
开发者
行业垂直
开源的多语种语音转文字模型
OpenAI Whisper 是一个开源的通用语音识别模型,支持多种语言和音频格式的转录。它能够将语音转换为文本,具有较强的鲁棒性,可处理背景噪音、技术术语和不同口音。适合开发者、内容创作者、研究人员等需要集成语音转文字功能的用户。
✓ 优点
✗ 不足
支持 mp3、mp4、mpeg、mpga、m4a、wav、webm 等常见音频格式。
可以。Whisper 采用 MIT 许可证,允许商业使用。
阿里出品的会议转写与纪要
飞书出品的会议录音转写与纪要
国产 AI 语音克隆
Suno 出品的开源文本到语音模型
国产音色克隆与语音合成
高质量 AI 语音合成
🏷 相关标签