

小試 OpenAI Whisper 語音轉文字
source link: https://blog.darkthread.net/blog/openai-whisper/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

小試 OpenAI Whisper 語音轉文字
| 2023-06-23 02:49 PM | | 1 | | 571 |
影片轉逐字稿,之前玩過 Azure Speech-To-Text,這回試試 OpenAI Whisper。
註:若你只想要魚,對撈魚或釣魚沒興趣,可考慮用現成工具 Whisper Desktop,能直接將 MP3 或麥克風輸入轉成文字稿。
OpenAI Whisper 有五種模型大小,大模型精準度較高,但耗用資源多,處理速度慢。除了最大模型之外,另外有英語專用模型,提供更好的識別率。

Whisper 支援多種語言,68 萬小時的訓練資料中,有 11.7 萬小時包含 96 種各國語言 參考來源,想當然爾英文的識別精準度最佳,中文的錯誤率(Word Error Rate, WER)約 14.7%。

以下是我實測在 Windows 安裝及執行 Whisper 的記錄:
- 安裝 Python
choco install -y python
- 安裝 PyTorch
在官網選擇作業系統、語言平台、CUDA/CPU 決定安裝指令pip3 install torch torchvision torchaudio
- 安裝 Whisper
pip install -U openai-whisper
- 安裝影音轉檔工具 ffmpeg
choco install -y ffmpeg
轉檔小筆記# M4A 轉 MP3 ffmpeg -i input.m4a output.mp3 # 124K # https://superuser.com/a/704535/264724 ffmpeg -i input.m4a -c:v copy -c:a libmp3lame -q:a 4 output.mp3 # MP4 擷取 MP3 https://superuser.com/a/332348/264724 ffmpeg -i video.mp4 -b:a 192K -vn music.mp3
- 轉檔
whisper talk.mp3 --language Chinese --model medium
我先實測了電腦語音旁白,準確度精準到嚇人,錯字極少(專有名詞如態疊加、波包、波粒二象性理解錯無可厚非),以及偶爾出現漏抓,例如一句話的後半段不見。
我也試了真人口語,準確度依然是出奇的好!
有趣的是,Whisper 目前的中文語言選項只有 Chinese (或縮寫 zh) 無法再細分,Whisper 會自己決定翻成繁體還是簡體,像是量子力學影片被轉成繁體中文、李永樂老師的影片則被判斷轉成簡體。在網路上找到 Workaround - 加上 --initial_prompt="..."
進行提示(在進行這段語音前的前言,不知道輸入什麼的話,就放第一句文字的繁體或簡體字串),其使用繁體或簡體可決定整篇翻譯使用語系:
之前玩 AI 都是用線上服務,在自己的硬體上跑,對於 「AI 需要大量算力」這事兒有了全新體會。用 CPU 轉檔效能比我預期的慢很多,在 32 核 CPU 主機上跑(無獨立顯卡/GPU/CUDA,純靠 CPU),用 Medium 模型轉換一分鐘語音需要花五分鐘,三十分鐘要花兩個多小時,粗估大約一分鐘不到一百個中文字。
找到網路上有個 13 分鐘音檔 Medium 模型評測,RTX 3050 為每分鐘 1328 個字(WPM),RTX 3060 1594 WPM、RTX 4090 3131 WPM,速度相差十倍以上。
過去老覺得自己不玩遊戲,買工作機完全不需考慮獨立顯卡,多花錢又浪費電。但 AI 時代一切改觀了,工作研究也需要高檔顯卡才能盡興,哈!
- Posted in
- AI
and has 1 comment
Comments
Post a comment
CommentRecommend
-
8
-
7
Amazon Transcribe (語音轉文字) 支援中文 AWS 宣佈 Amazon Transcribe (語音轉文字的服務) 支援中文:「
-
9
-
10
小試 Github Copilot 2022-04-06 12:09 AM 0 4,426 這陣子接連看過 VS2022 的 IntelliCode
-
5
小試 SweetAlert2 快顯通知模式 2022-05-16 10:13 PM 0 65...
-
10
Azure Speech-To-Text 不專業測試-黑暗執行緒 之前玩過 Azure 文字轉語音(TTS),這次反過來,試試語音轉文字。 上次已有經驗,加上官方 SDK 程式...
-
10
轻声低语,藏在光芒下的语音转文字模型Whisper 2023-04-15 86 865 3 分钟 ChatGPT的模型gpt-3.5-turbo发布当天,OpenAI还开源了一个语音转文本的模型...
-
6
Mac M1 使用 whisper 和 ffmpeg 将视频转换为文字 2023-05-29 tech
-
6
語音交談、拍照上傳、AI 生圖隨意玩-黑暗執行緒 後知後覺發現 Bing Chat
-
3
整合 ChatGPT 與自有資料 (駕駛人手冊實測)-黑暗執行緒 最近學到新名詞 -
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK