Skip to content

Whisper语音转文字

whisper

什么是Whisper?

Whisper 是由OpenAI开发的一个强大的开源语音识别模型,能够将音频文件转录为文本或字幕文件,支持多种语言和多格式输出。Whisper在680,000小时的多语言和多任务监督数据上进行训练,使其在语音识别方面表现出色,尤其是在处理不同口音、背景噪音和技术术语时表现出色。

特性

  • 多语言支持:Whisper支持超过96种语言的语音识别,包括一些数据匮乏的小语种。
  • 高准确率:在多种语言和领域中,Whisper都能提供准确的转录结果,几乎可以媲美人类专业译员。
  • 鲁棒性:Whisper能够处理嘈杂环境下的音频,保持较高的识别准确性。
  • 实时性:Whisper能够实时将语音转换为文本,满足即时通信和会议记录的需求。
  • 离线运行:Whisper可以在客户端和服务器端运行,且无需依赖互联网连接,这为用户提供了极大的便利性和安全性。

优势

  • 开源免费:Whisper遵循开源许可协议,用户可以免费使用和修改源代码,这有助于降低开发成本,加速产品上市时间。
  • 易于集成:Whisper提供了丰富的API和SDK,方便用户将其集成到各种应用场景中,无论是桌面应用程序、移动应用程序还是Web应用程序,都可以轻松实现语音转文字功能。
  • 持续更新:Whisper是一个开源项目,不断有社区贡献者为其添加新功能、修复Bug,保证了项目的持续进化和可用性。
  • 多种模型选择:Whisper提供5种不同规模的模型,从tiny到large,参数量从39M到1.55B不等,以平衡速度和准确性。

应用场景

  • 会议记录:在商务会议中,使用Whisper可以实时将与会者的发言转换为文本,方便会议记录人员快速整理会议纪要。
  • 在线教育:教师可以使用Whisper将课堂讲解实时转换为文本,供学生复习和巩固知识。
  • 客服系统:在客服系统中,Whisper可以实时将客户的语音请求转换为文本,供客服人员快速理解和响应。
  • 法律事务:律师和法官可以使用Whisper将法庭审理过程中的语音记录转换为文本,方便后续的整理和查阅。
  • 媒体制作:在媒体制作领域,Whisper可以实时将采访、讲座等语音内容转换为文本,为视频制作提供字幕支持。
  • 无障碍辅助:对于听力障碍者而言,Whisper可以将语音内容转化为可读的文字,提供便捷的辅助服务。
  • 智能家居与车载系统:在智能家居和车载信息娱乐系统中,Whisper可以作为语音交互的基础组件,提升用户体验。

安装使用

在使用Whisper之前,需要先安装一些依赖项,如Python、ffmpeg。

安装Python环境

sudo apt update
sudo apt install python3.8

安装ffmpeg

安装

sh
sudo apt update
sudo apt install ffmpeg

验证是否已经安装上

sh
ffmpeg -version

安装whisper

下载whisper

sh
git clone https://github.com/openai/whisper.git

安装whisper

sh
pip install -e .

验证

sh
whisper --help

下载whisper模型

直接执行命令无法下载模型,这里需要先手动下载模型文件.pt ,存放在目录 /root/.cache/whisper/

json
{
    "tiny.en": "https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d8822fac7d9d27d5dc00b4ca2826dd03/tiny.en.pt",
    "tiny": "https://openaipublic.azureedge.net/main/whisper/models/65147644a518d12f04e32d6f3b26facc3f8dd46e5390956a9424a650c0ce22b9/tiny.pt",
    "base.en": "https://openaipublic.azureedge.net/main/whisper/models/25a8566e1d0c1e2231d1c762132cd20e0f96a85d16145c3a00adf5d1ac670ead/base.en.pt",
    "base": "https://openaipublic.azureedge.net/main/whisper/models/ed3a0b6b1c0edf879ad9b11b1af5a0e6ab5db9205f891f668f8b0e6c6326e34e/base.pt",
    "small.en": "https://openaipublic.azureedge.net/main/whisper/models/f953ad0fd29cacd07d5a9eda5624af0f6bcf2258be67c92b79389873d91e0872/small.en.pt",
    "small": "https://openaipublic.azureedge.net/main/whisper/models/9ecf779972d90ba49c06d968637d720dd632c55bbf19d441fb42bf17a411e794/small.pt",
    "medium.en": "https://openaipublic.azureedge.net/main/whisper/models/d7440d1dc186f76616474e0ff0b3b6b879abc9d1a4926b7adfa41db2d497ab4f/medium.en.pt",
    "medium": "https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt",
    "large-v1": "https://openaipublic.azureedge.net/main/whisper/models/e4b87e7e0bf463eb8e6956e646f1e277e901512310def2c24bf0e11bd3c28e9a/large-v1.pt",
    "large-v2": "https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt",
    "large-v3": "https://openaipublic.azureedge.net/main/whisper/models/e5b1a55b89c1367dacf97e3e19bfd829a01529dbfdeefa8caeb59b3f1b81dadb/large-v3.pt",
    "large": "https://openaipublic.azureedge.net/main/whisper/models/e5b1a55b89c1367dacf97e3e19bfd829a01529dbfdeefa8caeb59b3f1b81dadb/large-v3.pt",
}

运行测试

sh
whisper --language Chinese --model tiny  test.m4a
sh
(base) root@nvidia-desktop:/home/nvidia# whisper --language Chinese --model tiny  test.m4a
/home/nvidia/whisper/whisper/transcribe.py:132: UserWarning: FP16 is not supported on CPU; using FP32 instead
  warnings.warn("FP16 is not supported on CPU; using FP32 instead")
[00:00.000 --> 00:04.000] 您可以直接在五八好借HP离就能先行啦
[00:04.000 --> 00:06.000] 那我给您介绍一下好了
[00:10.000 --> 00:12.000] 您好在吗
[00:16.000 --> 00:20.000] 您能听到我说话吗
[00:24.000 --> 00:25.000] 您好在吗
[00:25.000 --> 00:28.000] 我这边听到您声音就行了