快轉到主要內容

Whisper UI,開源免費AI語音轉文字軟體,一鍵產生逐字稿與字幕檔

分類   開源AI應用 AI音訊處理
標籤   Speech to Text Whisper AI
🗓️ 民國112年 癸卯年
✍ 切換正體/簡體字
目錄

Streamlit UI for OpenAI’s Whisper

「Whisper UI」是一款轉錄字幕的開源軟體,支援識別多國語言(包含中文、英文、日文)的影片或音訊,生成逐字稿,還會幫您打好srt字幕檔,並且準確度很高。

Whisper UI後來改名叫做「FrogBase」。

此軟體使用Streamlit做圖形前端,背後使用的技術是OpenAI釋出的 Whisper語音辨識模型

此軟體的優點在於支援Linux/Windows/macOS,並提供友善圖形界面,但是相對其他Whisper的前端軟體來說不太好安裝。

1. 硬體需求
#

您需要一張中階等級的Nvidia顯示卡。

OpenAI釋出了5個Whisper的模型,分為Tiny(需要1GB VRAM)、Base(需要1GB VRAM)、Small(需要2GB VRAM)、Medium(需要5GB VRAM)、Large(需要10GB VRAM)

最低只要1GB VRAM的顯示卡就可以跑,最大的模型需要10GB VRAM,越大模型準確度越高,不過Small的轉錄效果就已經很好了。

2. 安裝Wisper AI GUI
#

根據 Wisper UI的儲存庫說明,作者提供二種安裝方法。

1. 一般安裝
#

  1. 安裝 Anaconda

  2. 安裝ffmpeg,例如Ubuntu為:

sudo apt install ffmpeg
  1. 複製作者的儲存庫,建立conda環境,安裝依賴套件
git clonehttps://github.com/hayabhay/whisper-ui.git
cd whisper-ui
conda env create -f environment.yml
pip install -r requirements.txt
  1. 接著啟動網頁程式。開啟網址http://localhost:8501
streamlit run app/01_🏠_Home.py

2. Docker容器化
#

  1. 安裝 Docker

  2. 複製儲存庫,啟動容器,開啟網址http://localhost:8501

git clonehttps://github.com/hayabhay/whisper-ui.git
cd whisper-ui
sudo docker compose up

3. 給Youtube影片生成逐字稿
#

  1. 進入網頁後,點選左邊的Add Media,輸入Youtube影片網址(我這裡使用張雨生以前的訪問影片當例子),Task點選Transcribe,再按Add Media。

  2. 處理進度顯示在終端機。Whisper UI會將影片下載下來,轉成音訊,再開始處理轉譯。

  3. 等到影片處理好後,就可以點進去看生成的中文逐字稿了。

  4. 實測生成日文影片的逐字稿效果也不錯。

  5. 除了生成逐字稿外,進入複製下來的Whisper UI儲存庫下的/data/media目錄,還會看到自動生成的srt字幕檔。您可以用 Kdenlive這類剪輯軟體將字幕合成回影片。

4. 上傳音訊並生成逐字稿
#

Whisper UI支援使用者自行上傳音訊檔案。您可以使用yt-dlp下載純音訊的Yotuube影片,再用ffmpeg指令轉成mp3。

  1. 點選左邊的Add Media,選取Upload,上傳音訊檔

  2. 處理結果同樣會顯示在右邊面板。

5. 自動翻譯逐字稿
#

Whisper UI支援在轉譯文本後將其翻譯為英文。

注意:您應該先跑一輪生成逐字稿,看AI能能否識別出影片中的對話,再試著跑翻譯。

點選左邊的Add Media,Task選取Translate,生成的結果即會變成英文逐字稿。

6. 切換使用的模型
#

點選Settings,切換使用更大型的模型,提高識別準確度。因為轉譯要求準確性,下面語言的參數不該亂調。

相關文章

特製版,Vlad版的SD.Next (Stable Diffusion WebUI)安裝
分類   開源AI應用 AI繪圖教學
顯卡跑不動AI繪圖?Stable Diffusion WebUI部署至Google Colab教學
分類   開源AI應用 AI繪圖教學
標籤   Stable Diffusion Google Colab
教學文章整理,Stable Diffusion WebUI中文使用手冊發佈
分類   開源AI應用 AI繪圖教學

留言板

此處提供二種留言板。點選按鈕,選擇您覺得方便的留言板。要討論程式碼請用Giscus,匿名討論請用Disqus。

這是Giscus留言板,需要Github帳號才能留言。支援markdown語法,若要上傳圖片請貼Imgur或Postimages。您的留言會在Github Discussions向所有人公開。

這是Disqus留言板,您可能會看到Disqus強制投放的廣告。為防止垃圾內容,有時留言可能會被系統判定需審核,導致延遲顯示,請見諒。若要上傳圖片請善用圖床網站。