Whisper UI，開源免費AI語音轉文字軟體，一鍵產生逐字稿與字幕檔

Streamlit UI for OpenAI’s Whisper

「Whisper UI」是一款轉錄字幕的開源軟體，支援識別多國語言(包含中文、英文、日文)的影片或音訊，生成逐字稿，還會幫您打好srt字幕檔，並且準確度很高。

Whisper UI後來改名叫做「FrogBase」。

此軟體使用Streamlit做圖形前端，背後使用的技術是OpenAI釋出的 Whisper語音辨識模型。

此軟體的優點在於支援Linux/Windows/macOS，並提供友善圖形界面，但是相對其他Whisper的前端軟體來說不太好安裝。

1. 硬體需求
#

您需要一張中階等級的Nvidia顯示卡。

OpenAI釋出了5個Whisper的模型，分為Tiny(需要1GB VRAM)、Base(需要1GB VRAM)、Small(需要2GB VRAM)、Medium(需要5GB VRAM)、Large(需要10GB VRAM)

最低只要1GB VRAM的顯示卡就可以跑，最大的模型需要10GB VRAM，越大模型準確度越高，不過Small的轉錄效果就已經很好了。

根據 Wisper UI的儲存庫說明，作者提供二種安裝方法。

sudo apt install ffmpeg

git clonehttps://github.com/hayabhay/whisper-ui.git
cd whisper-ui
conda env create -f environment.yml
pip install -r requirements.txt

streamlit run app/01_🏠_Home.py

git clonehttps://github.com/hayabhay/whisper-ui.git
cd whisper-ui
sudo docker compose up

進入網頁後，點選左邊的Add Media，輸入Youtube影片網址(我這裡使用張雨生以前的訪問影片當例子)，Task點選Transcribe，再按Add Media。
處理進度顯示在終端機。Whisper UI會將影片下載下來，轉成音訊，再開始處理轉譯。
等到影片處理好後，就可以點進去看生成的中文逐字稿了。
實測生成日文影片的逐字稿效果也不錯。
除了生成逐字稿外，進入複製下來的Whisper UI儲存庫下的/data/media目錄，還會看到自動生成的srt字幕檔。您可以用 Kdenlive這類剪輯軟體將字幕合成回影片。