Whisper语音转文字

什么是Whisper?

Whisper 是由OpenAI开发的一个强大的开源语音识别模型，能够将音频文件转录为文本或字幕文件，支持多种语言和多格式输出。Whisper在680,000小时的多语言和多任务监督数据上进行训练，使其在语音识别方面表现出色，尤其是在处理不同口音、背景噪音和技术术语时表现出色。

特性

多语言支持：Whisper支持超过96种语言的语音识别，包括一些数据匮乏的小语种。
高准确率：在多种语言和领域中，Whisper都能提供准确的转录结果，几乎可以媲美人类专业译员。
鲁棒性：Whisper能够处理嘈杂环境下的音频，保持较高的识别准确性。
实时性：Whisper能够实时将语音转换为文本，满足即时通信和会议记录的需求。
离线运行：Whisper可以在客户端和服务器端运行，且无需依赖互联网连接，这为用户提供了极大的便利性和安全性。

优势

开源免费：Whisper遵循开源许可协议，用户可以免费使用和修改源代码，这有助于降低开发成本，加速产品上市时间。
易于集成：Whisper提供了丰富的API和SDK，方便用户将其集成到各种应用场景中，无论是桌面应用程序、移动应用程序还是Web应用程序，都可以轻松实现语音转文字功能。
持续更新：Whisper是一个开源项目，不断有社区贡献者为其添加新功能、修复Bug，保证了项目的持续进化和可用性。
多种模型选择：Whisper提供5种不同规模的模型，从tiny到large，参数量从39M到1.55B不等，以平衡速度和准确性。

应用场景

会议记录：在商务会议中，使用Whisper可以实时将与会者的发言转换为文本，方便会议记录人员快速整理会议纪要。
在线教育：教师可以使用Whisper将课堂讲解实时转换为文本，供学生复习和巩固知识。
客服系统：在客服系统中，Whisper可以实时将客户的语音请求转换为文本，供客服人员快速理解和响应。
法律事务：律师和法官可以使用Whisper将法庭审理过程中的语音记录转换为文本，方便后续的整理和查阅。
媒体制作：在媒体制作领域，Whisper可以实时将采访、讲座等语音内容转换为文本，为视频制作提供字幕支持。
无障碍辅助：对于听力障碍者而言，Whisper可以将语音内容转化为可读的文字，提供便捷的辅助服务。
智能家居与车载系统：在智能家居和车载信息娱乐系统中，Whisper可以作为语音交互的基础组件，提升用户体验。

安装使用

在使用Whisper之前，需要先安装一些依赖项，如Python、ffmpeg。

安装Python环境

sudo apt update
sudo apt install python3.8

安装ffmpeg

安装

sudo apt update
sudo apt install ffmpeg

验证是否已经安装上

ffmpeg -version

安装whisper

下载whisper

git clone https://github.com/openai/whisper.git

安装whisper

pip install -e .

验证

whisper --help

下载whisper模型

直接执行命令无法下载模型，这里需要先手动下载模型文件.pt ，存放在目录 /root/.cache/whisper/

json

{
    "tiny.en": "https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d8822fac7d9d27d5dc00b4ca2826dd03/tiny.en.pt",
    "tiny": "https://openaipublic.azureedge.net/main/whisper/models/65147644a518d12f04e32d6f3b26facc3f8dd46e5390956a9424a650c0ce22b9/tiny.pt",
    "base.en": "https://openaipublic.azureedge.net/main/whisper/models/25a8566e1d0c1e2231d1c762132cd20e0f96a85d16145c3a00adf5d1ac670ead/base.en.pt",
    "base": "https://openaipublic.azureedge.net/main/whisper/models/ed3a0b6b1c0edf879ad9b11b1af5a0e6ab5db9205f891f668f8b0e6c6326e34e/base.pt",
    "small.en": "https://openaipublic.azureedge.net/main/whisper/models/f953ad0fd29cacd07d5a9eda5624af0f6bcf2258be67c92b79389873d91e0872/small.en.pt",
    "small": "https://openaipublic.azureedge.net/main/whisper/models/9ecf779972d90ba49c06d968637d720dd632c55bbf19d441fb42bf17a411e794/small.pt",
    "medium.en": "https://openaipublic.azureedge.net/main/whisper/models/d7440d1dc186f76616474e0ff0b3b6b879abc9d1a4926b7adfa41db2d497ab4f/medium.en.pt",
    "medium": "https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt",
    "large-v1": "https://openaipublic.azureedge.net/main/whisper/models/e4b87e7e0bf463eb8e6956e646f1e277e901512310def2c24bf0e11bd3c28e9a/large-v1.pt",
    "large-v2": "https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt",
    "large-v3": "https://openaipublic.azureedge.net/main/whisper/models/e5b1a55b89c1367dacf97e3e19bfd829a01529dbfdeefa8caeb59b3f1b81dadb/large-v3.pt",
    "large": "https://openaipublic.azureedge.net/main/whisper/models/e5b1a55b89c1367dacf97e3e19bfd829a01529dbfdeefa8caeb59b3f1b81dadb/large-v3.pt",
}

运行测试

whisper --language Chinese --model tiny  test.m4a

(base) root@nvidia-desktop:/home/nvidia# whisper --language Chinese --model tiny  test.m4a
/home/nvidia/whisper/whisper/transcribe.py:132: UserWarning: FP16 is not supported on CPU; using FP32 instead
  warnings.warn("FP16 is not supported on CPU; using FP32 instead")
[00:00.000 --> 00:04.000] 您可以直接在五八好借HP离就能先行啦
[00:04.000 --> 00:06.000] 那我给您介绍一下好了
[00:10.000 --> 00:12.000] 您好在吗
[00:16.000 --> 00:20.000] 您能听到我说话吗
[00:24.000 --> 00:25.000] 您好在吗
[00:25.000 --> 00:28.000] 我这边听到您声音就行了

Whisper语音转文字 ​

什么是Whisper? ​

特性 ​

优势 ​

应用场景 ​

安装使用 ​

安装Python环境 ​

安装ffmpeg ​

安装whisper ​

下载whisper模型 ​

运行测试 ​

Whisper语音转文字

什么是Whisper?

特性

优势

应用场景

安装使用

安装Python环境

安装ffmpeg

安装whisper

下载whisper模型

运行测试