Streamlit UI for OpenAI’s Whisper
「Whisper UI」是一款轉錄字幕的開源軟體,支援識別多國語言(包含中文、英文、日文)的影片或音訊,生成逐字稿,還會幫您打好srt字幕檔,並且準確度很高。
Whisper UI後來改名叫做「FrogBase」。
此軟體使用Streamlit做圖形前端,背後使用的技術是OpenAI釋出的Whisper語音辨識模型。
此軟體的優點在於支援Linux/Windows/macOS,並提供友善圖形界面,但是相對其他Whisper的前端軟體來說不太好安裝。
1. 硬體需求#
您需要一張中階等級的Nvidia顯示卡。
OpenAI釋出了5個Whisper的模型,分為Tiny(需要1GB VRAM)、Base(需要1GB VRAM)、Small(需要2GB VRAM)、Medium(需要5GB VRAM)、Large(需要10GB VRAM)
最低只要1GB VRAM的顯示卡就可以跑,最大的模型需要10GB VRAM,越大模型準確度越高,不過Small的轉錄效果就已經很好了。
2. 安裝Wisper AI GUI#
根據Wisper UI的儲存庫說明,作者提供二種安裝方法。
1. 一般安裝#
安裝Anaconda
安裝ffmpeg,例如Ubuntu為:
sudo apt install ffmpeg
- 複製作者的儲存庫,建立conda環境,安裝依賴套件
git clonehttps://github.com/hayabhay/whisper-ui.git
cd whisper-ui
conda env create -f environment.yml
pip install -r requirements.txt
- 接著啟動網頁程式。開啟網址
http://localhost:8501
streamlit run app/01_🏠_Home.py
2. Docker容器化#
安裝Docker
複製儲存庫,啟動容器,開啟網址
http://localhost:8501
git clonehttps://github.com/hayabhay/whisper-ui.git
cd whisper-ui
sudo docker compose up
3. 給Youtube影片生成逐字稿#
進入網頁後,點選左邊的Add Media,輸入Youtube影片網址(我這裡使用張雨生以前的訪問影片當例子),
Task
點選Transcribe
,再按Add Media。處理進度顯示在終端機。Whisper UI會將影片下載下來,轉成音訊,再開始處理轉譯。
等到影片處理好後,就可以點進去看生成的中文逐字稿了。
實測生成日文影片的逐字稿效果也不錯。
除了生成逐字稿外,進入複製下來的Whisper UI儲存庫下的
/data/media
目錄,還會看到自動生成的srt字幕檔。您可以用Kdenlive這類剪輯軟體將字幕合成回影片。
4. 上傳音訊並生成逐字稿#
Whisper UI支援使用者自行上傳音訊檔案。您可以使用yt-dlp下載純音訊的Yotuube影片,再用ffmpeg指令轉成mp3。
點選左邊的Add Media,選取Upload,上傳音訊檔
處理結果同樣會顯示在右邊面板。
5. 自動翻譯逐字稿#
Whisper UI支援在轉譯文本後將其翻譯為英文。
注意:您應該先跑一輪生成逐字稿,看AI能能否識別出影片中的對話,再試著跑翻譯。
點選左邊的Add Media,Task
選取Translate
,生成的結果即會變成英文逐字稿。
6. 切換使用的模型#
點選Settings,切換使用更大型的模型,提高識別準確度。因為轉譯要求準確性,下面語言的參數不該亂調。