Whisper UI,開源免費AI語音轉文字軟體,一鍵產生逐字稿與字幕檔

Streamlit UI for OpenAI’s Whisper

「Whisper UI」是一款轉錄字幕的開源軟體,支援識別多國語言(包含中文、英文、日文)的影片或音訊,生成逐字稿,還會幫您打好srt字幕檔,並且準確度很高。

此軟體使用Streamlit做圖形前端,背後使用的技術是OpenAI釋出的Whisper語音辨識模型

此軟體的優點在於支援Linux/Windows/macOS,並提供友善圖形界面,但是相對其他Whisper的前端軟體來說不太好安裝。

1. 硬體需求

您需要一張中階等級的Nvidia顯示卡。

OpenAI釋出了5個Whisper的模型,分為Tiny(需要1GB VRAM)、Base(需要1GB VRAM)、Small(需要2GB VRAM)、Medium(需要5GB VRAM)、Large(需要10GB VRAM)

最低只要1GB VRAM的顯示卡就可以跑,最大的模型需要10GB VRAM,越大模型準確度越高,不過Small的轉錄效果就已經很好了。

2. 安裝Wisper AI GUI

根據Wisper UI的儲存庫說明,作者提供二種安裝方法。

1. 一般安裝

  1. 安裝Anaconda

  2. 安裝ffmpeg,例如Ubuntu為:

1
sudo apt install ffmpeg
  1. 複製作者的儲存庫,建立conda環境,安裝依賴套件
1
2
3
4
git clonehttps://github.com/hayabhay/whisper-ui.git
cd whisper-ui
conda env create -f environment.yml
pip install -r requirements.txt
  1. 接著啟動網頁程式。開啟網址http://localhost:8501
1
streamlit run app/01_🏠_Home.py

2. Docker容器化

  1. 安裝Docker

  2. 複製儲存庫,啟動容器,開啟網址http://localhost:8501

1
2
3
git clonehttps://github.com/hayabhay/whisper-ui.git
cd whisper-ui
sudo docker compose up

3. 給Youtube影片生成逐字稿

  1. 進入網頁後,點選左邊的Add Media,輸入Youtube影片網址(我這裡使用張雨生以前的訪問影片當例子),Task點選Transcribe,再按Add Media。

  2. 處理進度顯示在終端機。Whisper UI會將影片下載下來,轉成音訊,再開始處理轉譯。

  3. 等到影片處理好後,就可以點進去看生成的中文逐字稿了。

  4. 實測生成日文影片的逐字稿效果也不錯。

  5. 除了生成逐字稿外,進入複製下來的Whisper UI儲存庫下的/data/media目錄,還會看到自動生成的srt字幕檔。您可以用Kdenlive這類剪輯軟體將字幕合成回影片。

4. 上傳音訊並生成逐字稿

Whisper UI支援使用者自行上傳音訊檔案。您可以使用yt-dlp下載純音訊的Yotuube影片,再用ffmpeg指令轉成mp3。

  1. 點選左邊的Add Media,選取Upload,上傳音訊檔

  2. 處理結果同樣會顯示在右邊面板。

5. 自動翻譯逐字稿

Whisper UI支援在轉譯文本後將其翻譯為英文。

注意:您應該先跑一輪生成逐字稿,看AI能能否識別出影片中的對話,再試著跑翻譯。

點選左邊的Add Media,Task選取Translate,生成的結果即會變成英文逐字稿。

6. 切換使用的模型

點選Settings,切換使用更大型的模型,提高識別準確度。因為轉譯要求準確性,下面語言的參數不該亂調。


感謝您的閱讀。歡迎分享Ivon的部落格(ivonblog.com)的文章,引用或轉載請註明文章網址,並遵守創用CC-姓名標示-非商業性-禁止改作 4.0 國際授權條款。如需商業使用請來信告之。

written by human, not by AI

如果本網站文章對您有幫助,歡迎請我喝杯珍珠奶茶。

留言板

點選按鈕,選擇您覺得方便的留言系統。

這是Giscus留言板,需要登入Github帳號才能留言。方便您張貼程式碼,若要上傳圖片請貼Imgur連結。您的留言會在Github Discussions向所有人公開。