快轉到主要內容

Whisper UI,開源免費AI語音轉文字軟體,一鍵產生逐字稿與字幕檔

分類   開源AI應用 AI音訊處理
標籤   Speech to Text Whisper AI
🗓️ 民國112年 癸卯年
✍ 切換正體/簡體字
目錄

Streamlit UI for OpenAI’s Whisper

「Whisper UI」是一款轉錄字幕的開源軟體,支援識別多國語言(包含中文、英文、日文)的影片或音訊,生成逐字稿,還會幫您打好srt字幕檔,並且準確度很高。

Whisper UI後來改名叫做「FrogBase」。

此軟體使用Streamlit做圖形前端,背後使用的技術是OpenAI釋出的 Whisper語音辨識模型

此軟體的優點在於支援Linux/Windows/macOS,並提供友善圖形界面,但是相對其他Whisper的前端軟體來說不太好安裝。

1. 硬體需求
#

您需要一張中階等級的Nvidia顯示卡。

OpenAI釋出了5個Whisper的模型,分為Tiny(需要1GB VRAM)、Base(需要1GB VRAM)、Small(需要2GB VRAM)、Medium(需要5GB VRAM)、Large(需要10GB VRAM)

最低只要1GB VRAM的顯示卡就可以跑,最大的模型需要10GB VRAM,越大模型準確度越高,不過Small的轉錄效果就已經很好了。

2. 安裝Wisper AI GUI
#

根據 Wisper UI的儲存庫說明,作者提供二種安裝方法。

1. 一般安裝
#

  1. 安裝 Anaconda

  2. 安裝ffmpeg,例如Ubuntu為:

sudo apt install ffmpeg
  1. 複製作者的儲存庫,建立conda環境,安裝依賴套件
git clonehttps://github.com/hayabhay/whisper-ui.git
cd whisper-ui
conda env create -f environment.yml
pip install -r requirements.txt
  1. 接著啟動網頁程式。開啟網址http://localhost:8501
streamlit run app/01_🏠_Home.py

2. Docker容器化
#

  1. 安裝 Docker

  2. 複製儲存庫,啟動容器,開啟網址http://localhost:8501

git clonehttps://github.com/hayabhay/whisper-ui.git
cd whisper-ui
sudo docker compose up

3. 給Youtube影片生成逐字稿
#

  1. 進入網頁後,點選左邊的Add Media,輸入Youtube影片網址(我這裡使用張雨生以前的訪問影片當例子),Task點選Transcribe,再按Add Media。

  2. 處理進度顯示在終端機。Whisper UI會將影片下載下來,轉成音訊,再開始處理轉譯。

  3. 等到影片處理好後,就可以點進去看生成的中文逐字稿了。

  4. 實測生成日文影片的逐字稿效果也不錯。

  5. 除了生成逐字稿外,進入複製下來的Whisper UI儲存庫下的/data/media目錄,還會看到自動生成的srt字幕檔。您可以用 Kdenlive這類剪輯軟體將字幕合成回影片。

4. 上傳音訊並生成逐字稿
#

Whisper UI支援使用者自行上傳音訊檔案。您可以使用yt-dlp下載純音訊的Yotuube影片,再用ffmpeg指令轉成mp3。

  1. 點選左邊的Add Media,選取Upload,上傳音訊檔

  2. 處理結果同樣會顯示在右邊面板。

5. 自動翻譯逐字稿
#

Whisper UI支援在轉譯文本後將其翻譯為英文。

注意:您應該先跑一輪生成逐字稿,看AI能能否識別出影片中的對話,再試著跑翻譯。

點選左邊的Add Media,Task選取Translate,生成的結果即會變成英文逐字稿。

6. 切換使用的模型
#

點選Settings,切換使用更大型的模型,提高識別準確度。因為轉譯要求準確性,下面語言的參數不該亂調。

相關文章

特製版,Vlad版的SD.Next (Stable Diffusion WebUI)安裝
分類   開源AI應用 Stable Diffusion教學
顯卡跑不動AI繪圖?Stable Diffusion WebUI部署至Google Colab教學
分類   開源AI應用 Stable Diffusion教學
標籤   Stable Diffusion Google Colab
教學文章整理,Stable Diffusion WebUI中文使用手冊發佈
分類   開源AI應用 Stable Diffusion教學

留言板

此處提供二種留言板。點選按鈕,選擇您覺得方便的留言板。要討論程式碼請用Giscus,匿名討論請用Disqus。

這是Giscus留言板,需要Github帳號才能留言。支援markdown語法,若要上傳圖片請貼Imgur或Postimages。您的留言會在Github Discussions向所有人公開。

這是Disqus留言板,您可能會看到Disqus強制投放的廣告。為防止垃圾內容,有時留言可能會被系統判定需審核,導致延遲顯示,請見諒。若要上傳圖片請善用圖床網站。