开始使用openai whisper ,初步使用

OpenAI Whisper介绍

OpenAI Whisper 是一个开源音频转文本模型。可将视频内的语音提取成文本。

本文假设你对python有一定的了解,并且能够基本的使用。

环境准备

  • python 3.9+
  • ffmpeg

python 3.9+ 安装方法请自行安装。

由于Whisper使用到了ffmpeg,所以需要安装ffmpeg。

在windows上安装ffmpeg

下载地址:https://www.gyan.dev/ffmpeg/builds/ffmpeg-release-full.7z

解压后将bin目录添加到环境变量中。

验证是否安装成功:

ffmpeg -version

如果出现版本信息,则安装成功。

安装Whisper

新建一个python虚拟环境,然后安装whisper。

pip install -U openai-whisper

使用Whisper

whisper Park.mp3 --model medium

使用GPU加速

默认情况下,Whisper使用CPU进行推理。如果你的电脑有NVIDIA显卡,可以使用GPU进行加速。

安装CUDA

CUDA是NVIDIA的GPU加速库,可以大幅提升GPU的计算能力。

下载地址:https://developer.nvidia.com/cuda-downloads

安装方法请自行安装。

检测whisper使用的是GPU还是CPU:

whisper --help

列出的参数中如果有 default: cuda,则说明whisper使用的是GPU。

 --device DEVICE   device to use for PyTorch inference (default: cuda)

如果安装了CUDA,但是whisper使用的是CPU,则需要安装pytorch的CUDA版本。

安装pytorch的CUDA版本

打开pytorch的官网:https://pytorch.org/

找到以下内容:


复制安装命令,然后在命令行中执行。