问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

OpenAI开源免费AI语音转文字工具Whisper本地部署指南

创作时间:
作者:
@小白创作中心

OpenAI开源免费AI语音转文字工具Whisper本地部署指南

引用
CSDN
1.
https://blog.csdn.net/TechAI/article/details/136903249

Whisper是OpenAI开发的一款强大的语音识别工具,能够将语音转换为文本,并支持多语言识别、翻译和语言检测。与其他商业语音转文字产品不同,Whisper完全开源且免费,效果出色。本文将详细介绍如何在Windows11系统上部署和运行Whisper。

一、使用场景

语音转文字功能在多个场景中都有重要应用:

  • 会议、讲座、法庭、医疗等场景的记录
  • 口述笔记,方便需要频繁记录思路、灵感的人
  • 智能助手,例如智能音箱、导航等
  • 文案提取,将视频中的对话转换为文字

ChatGPT的手机APP中使用的语音对话功能,就是基于Whisper实现的。

二、安装步骤

1. 安装FFmpeg

FFmpeg是一个开源的多媒体框架,用于处理音视频数据。下载地址:ffmpeg.org/download.html

安装完成后,在命令行中输入以下命令检查是否安装成功:

ffmpeg -version

如果无法执行,需要手动配置环境变量PATH。

2. 安装Rust

Rust是一种系统编程语言,Whisper的某些组件需要使用Rust编译。下载地址:rust-lang.org/tools/install

安装完成后,检查命令行是否可以执行:

rustc --version

如果无法执行,需要手动配置环境变量PATH。默认安装位置是~/.cargo/bin

3. 安装Whisper

创建Python虚拟环境,因为Whisper需要特定版本的Python:

conda create --name whisper_env python=3.9.18
activate whisper_env

安装依赖库:

pip install setuptools-rust
pip install -U openai-whisper

三、运行

命令行运行

在命令行中输入以下命令:

whisper Haul.mp3 --model medium

其中,“Haul.mp3”是测试用的音频文件。“--model medium”指定使用medium版本的模型(Whisper有多种模型:tiny、base、small、medium、large,模型大小依次变大)。

第一次运行时,会先下载指定的模型,需要耐心等待一会儿。模型下载之后,就会开始执行语音识别,输出识别结果,并自动写入文件。

Python代码中运行

import whisper

# 加载模型
model = whisper.load_model("medium")

# 加载音频文件
audio = whisper.load_audio("Haul.mp3")
audio = whisper.pad_or_trim(audio)

# make log-Mel spectrogram and move to the same device as the model
mel = whisper.log_mel_spectrogram(audio).to(model.device)

# detect the spoken language
_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}")

# decode the audio
options = whisper.DecodingOptions()
result = whisper.decode(model, mel, options)

# print the recognized text
print(result.text)

通过以上步骤,你就可以在本地运行Whisper,体验其强大的语音转文字功能了。项目源码地址:github.com/openai/whisper

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号