快轉到主要內容

Suno Bark GUI,支援多國語言的生成式語音合成AI

· 民國112年癸卯年
· ·
分類   資訊科技 電腦軟體分享
標籤   Text to Speech
目錄

Suno AI開發的「Bark」(狗叫)是一款生成式語音合成AI,能夠根據文本生成一小段接近真人說話的語音,支援英、日、中、韓等多國語言。

範例對話:

:給我學狗叫啊,你這混蛋!
:汪!汪!
:三回啊,三回!

生成結果:

圖片來源:https://seiga.nicovideo.jp/seiga/im11069563
圖片來源:https://seiga.nicovideo.jp/seiga/im11069563

還可以插入情緒、唱歌等指示。

不過Bark生成的語音是高度隨機的,類似早期Stable Diffusion。無法保證品質,需要抽卡。且因為原理類似GPT模型,生成的語音不見得會正確念出文字。

就目前的情況來看,英語支援程度最好。中文生成能力真的像是在狗叫一樣。

1. 安裝Bark GUI
#

硬體需求:顯示卡VRAM > 2GB

原始版程式:suno-ai/bark

這裡裝C0untFloyd開發的圖形版,參考Github說明,Windows有一鍵安裝器,Linux請手動設定:

  1. 安裝Anaconda,建立Python 3.10環境
conda create --name barkgui python=3.10
conda activate barkgui
  1. 安裝依賴
git clone https://github.com/C0untFloyd/bark-gui
cd bark-gui
pip install .
pip install pandas attrs psutil rich pyparsing lxml absl-py protobuf scrapy
pip install .
  1. 安裝CUDA
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
  1. 裝完剩下的依賴套件
pip install -r requirements.txt
  1. 啟動WebUI。可加上-offloadcpu-smallmodels 減少VRAM佔用,或-forcecpu強制使用CPU計算
python webui.py -offloadcpu
  1. 初次啟動會自動下載語言模型。接著在瀏覽器開啟http://127.0.0.1:7860

2. Bark使用方式
#

開啟主界面,於左上角填入要生成的文本。

下面有作者提供的範例。例如要插入笑聲就使用[laughs],要生成唱歌就將文本前後用框起來。用Man:Woman:指定說話者性別。(有時候AI會無視這些指令,英語以外的語言更容易亂說話的樣子)

左下角選擇要使用的人聲,日文就選擇ja,中文為zh。選日文的人聲講英文文本也是可以,但會有口音。

點選右下角控制隨機的程度,我自己測試的結果,如果拉太低,則生成的內容很容易牛頭不對馬嘴。

設定好之後點選左下角的Generate,等待生成完成。如果用顯示卡計算,一句話大約30秒處理完畢。

生成的音訊會儲存在bark-gui專案目錄下的outputs目錄。

Bark預設只能生成10秒左右的語音,如果要生成更長對話呢?就得用SMML格式填寫文本。如下圖,在voice name欄位指定要使用的人聲,再於角括號之間填入文本。這樣它就會批次生成音訊,再將音訊合併在一起。

相關文章

免費AI漫畫圖片翻譯軟體 ~ Manga Image Translator安裝與使用
分類   資訊科技 電腦軟體分享
標籤   Machine Translation Anime ChatGPT
Whisper UI,開源免費AI語音轉文字軟體,一鍵產生逐字稿與字幕檔
分類   資訊科技 電腦軟體分享
標籤   Speech to Text Whisper AI
Linux GIMP使用「內容感知」,自動填充圖片選取區
分類   資訊科技 電腦軟體分享
標籤   GIMP

留言板

此處提供二種留言板。點選按鈕,選擇您覺得方便的留言板。要討論程式碼請用Giscus,匿名討論請用Disqus。

這是Disqus留言板,您可能會看到Disqus強制投放的廣告。為防止垃圾內容,有時留言可能會被系統判定需審核,導致延遲顯示,請見諒。若要上傳圖片請善用圖床網站。