快轉到主要內容

Kdenlive搭配Whisper語音轉文字,影片AI自動上字幕

分類   開源AI人工智慧應用 AI音訊處理
標籤   Kdenlive Speech to Text Whisper AI
🗓️ 民國113年 甲辰年
✍ 切換正體/簡體字
目錄

Generating subtitles automatically for videos using Kdenlive + Whisper on Linux.

影片上字幕是一件累人的事情,好在現在有很多語音轉文字(speech to text)軟體可以幫我們節省大量時間,自動偵測人聲,生成字幕檔,再加到影片。

開源影片剪輯軟體Kdenlive除了能給影片加字幕以外,其實也有內建語音轉文字,並自動生成srt和字幕軌的功能。使用完全免費。

影片版教學

目前Kdenlive支援VOSK和OpenAI Whisper二種模型,本文我要講的是後者。Whisper的語音辨識十分優秀,很多軟體都使用了Whisper技術來生成逐字稿,現在Kdenlive也可以直接調用Whisper來生成字幕,於是乎你就擁有了開源的語音轉字幕+影片編輯解決方案。

我自己測試的結果是即使講話中英文夾雜,Whisper也能清楚的分辨出來,斷句準確。啊不過如果講話台灣國語太重可能就沒辦法XD

另外一個好處是,Whisper在語音辨識的時候不會連網,全部都是本機運算,保障你的隱私。

本文介紹如何使用Kdenlive搭配語音轉文字服務,讓你剪輯影片更為快速。

1. 安裝Python與語音轉文字套件
#

Kdenlvie版本:23.08.4

文字轉語音技術Linux與Windows皆可使用,詳 官方使用手冊 Speech to Text — Kdenlive Manual

  1. 我的Kdenlive是透過 Linux Flatpak安裝的,內建Python。透過以下指令進入Kdenlive的shell:
flatpak run --command=/bin/bash org.kde.kdenlive
python3 -m ensurepip
  1. 安裝要使用的語音轉文字服務,例如OpenAI的Whisper,這個是2023年很熱門的語音轉文字模型,準確率高,支援多國語言
python3 -m pip install -U openai-whisper
  1. 或是VOSK模型,這個模型很老了,效果不好,中文支援度很差。
python3 -m pip install vosk srt
  1. 開啟Kdenlive,點選設定 → 設定Kdenlive → Speech to text,Engine勾選使用Whisper模型。Base是基礎模型,大約需要2GB VRAM,越大的模型越準確但也越吃效能,一不小心可能就會爆VRAM。Device如果你有顯示卡就勾選顯示卡,沒有的話就維持CPU計算。

2. 自動語音轉字幕(subtitle)
#

這個功能可以偵測選定片段的語音,生成字幕軌。

  1. 點選Project → Subtitles → Enable Subtitle Tool,為專案啟用字幕軌

  2. 調整時間軸最上方的藍色橫條,畫出要語音辨識的片段

  3. 點選字幕軌左邊的魔術棒按鈕

  4. 語言設定Autodetect,開始生成字幕。

  5. 字幕會直接匯入到Kdenlive的軌道。如果生成的字幕不理想,建議改用更大的模型。

  6. 生成字幕後點選Project → Subtitles → Export Subtitle File即可匯出srt檔案。

3. 給影片生成逐字稿(clips)
#

這個功能可以給素材庫的影片個別生成逐字稿,作為剪輯參考之用。你還可以按照生成的內容,自動分割時間軸的影片片段,方便編輯特效。

  1. 點選視窗 → 啟用Speech Editor

  2. 選取專案的影片素材,再點選螢幕右邊的Speech Editor按鈕, 點選Start Recongition開始生成

  3. 生成的逐字稿不會插到時間軸,這裡比較像是參考用的。

  4. 如果你按時間點,再按下書籤按鈕,它就會把註解插到時間軸的影片上

  5. Insert selection in timeline則是按照逐字稿的時間軸內容,將該片段的影片插入到時間軸。Create new sequence with edit會生成一個按照逐字稿的時間軸下去切割的影片序列(sequence)。

4. 其他語音轉文字工具
#

Kdenlive支援匯入srt字幕檔,因此用其他工具處理字幕後再匯入Kdenlive編輯也是可以的。

相關文章

Whisper UI,開源免費AI語音轉文字軟體,一鍵產生逐字稿與字幕檔
分類   開源AI人工智慧應用 AI音訊處理
標籤   Speech to Text Whisper AI
Suno Bark GUI,支援多國語言的生成式語音合成AI
分類   開源AI人工智慧應用 AI音訊處理
標籤   Text to Speech
Kanban Desktop,在PC桌面放一隻Live2D桌寵!支援AI智慧聊天
分類   開源AI人工智慧應用 大型語言模型
標籤   Desktop Mascot Live2D ChatGPT LLaMA AI

留言板

此處提供二種留言板。點選按鈕,選擇您覺得方便的留言板。要討論程式碼請用Giscus,匿名討論請用Disqus。

這是Giscus留言板,需要Github帳號才能留言。支援markdown語法,若要上傳圖片請貼Imgur連結。您的留言會在Github Discussions向所有人公開。

這是Disqus留言板,您可能會看到Disqus強制投放的廣告。有時留言可能會被系統判定需審核,導致延遲顯示,請見諒。