失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 【Buzz】离线语音转文字 实时语音识别

【Buzz】离线语音转文字 实时语音识别

时间:2021-02-15 02:18:24

相关推荐

【Buzz】离线语音转文字 实时语音识别

Buzz是基于 OpenAI Whisper的离线语音转文字(字幕),实时语音识别工具。

功能

实时语音转文字、实时翻译(需麦克风权限)导入音频、视频文件(mp3、wav、m4a、ogg、mp4、webm、ogm),导出逐句字幕或逐词字幕(导出格式:TXT、SRT、VTT)

相较于 Autocut 功能更单一,专注于语音转文字、字幕生成。

相较于命令行 Python 版 Whisper 速度更快,有 GUI 对普通用户更友好。

由于支持离线,所以…尺寸是一个很大的问题:

Buzz-0.5.8-mac.dmg 330 MBBuzz-0.5.8-unix.tar.gz 1.5 GBBuzz-0.5.8-windows.tar.gz 261 MBBuzz.exe 161 MB

Whisper 是什么?

Whisper 是一种通用语音识别模型。它利用各种大型数据集上的音频进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。

在第一次使用 Buzz 的时候,会下载 Whisper 的模型,根据不同的质量要求,模型尺寸也非常可观:

Whisper 模型存储在电脑中:

~/.cache/whisper~/Library/Caches/Buzz (macOS)~/.cache/Buzz (Linux)C:\Users\<username>\AppData\Local\Buzz\Buzz\Cache (Windows)

当卸载的时候,别忘记把模型也删掉。

Buzz 也相当于是一个 Whisper 的可视化界面版本。

Buzz 界面

Buzz 提供了两个任务:

Translate 翻译Transcribe 转录

如果想要从文件转录,需要单击“文件”菜单上的“导入”(或在 Mac 上单击 command + O,在 Windows 上单击按 Ctrl + O)

支持的格式:“mp3”,“wav”,“m4a”,“ogg”,“mp4”,“webm”,“ogm”

导出的格式:“TXT”、“SRT”、“VTT”

转换过程根据电脑性能有快有慢,最终会直接给出文件,效果还是非常不错的。对中文的识别也很好。

获取

/chidiwilliams/buzz

来源:/buzz-openai-whisper/

如果觉得《【Buzz】离线语音转文字 实时语音识别》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。