快轉到主要內容

Open WebUI圖像辨識,和Ollama語言模型語音視訊聊天

· 民國113年甲辰年
· ·
分類   開源AI應用 大型語言模型
標籤   Ollama Multimodal Text to Speech Speech to Text
目錄
Open WebUI與Ollama教學 - 點選展開系列文章
7: 本文

Open WebUI支援與本機語言模型進行視訊聊天。利用Whisper將講的話變成語音指令,再搭配開源的多模態模型,實現視訊對話,讓AI分析攝像頭的畫面並給出建議。

這有什麼用途呢?圖像辨識能夠讓語言模型參酌你的圖片內容進行對話,比如嘗試辨認圖片的建築物風格,以此寫故事。或是從圖片中辨識出文字。還可以嘗試讓語言模型依照圖片裡面的UI去生成程式碼。

1. 需要的模型
#

語音辨識不是由語言模型處理,所以跟任一個語言模型對話都可以。

圖像辨識,並不是所有語言模型都支援,如果要使用圖像辨識和視訊聊天,需要用多模態(multimodal)模型,例如LLaMA 3.2 VisionLLaVA 7B、Phi 3.5 Vision這類的。請在Open WebUI的管理員界面下載模型。

語言模型的圖像辨識回應速度視硬體性能而定,純CPU跑會非常慢。

2. 圖片辨識使用方法
#

就…很簡單,在Open WebUI文字框點選上傳檔案,上傳照片,提示詞輸入「解釋圖片內容為何」。

這裡我的例子是,要語言模型根據我上傳的樹狀圖,生成繪製圖片的Python程式。

3. 語音視訊與圖片辨識
#

  1. 由於這個功能會用到裝置的攝像頭和麥克風,因此需要給Open WebUI啟用HTTPS連線。如果沒有自己的域名,可以用Nginx Proxy Manager自簽SSL憑證解決。我個人是透過Tailscale cert取得SSL憑證。

  2. 開啟Open WebUI管理員設定 → 音訊,啟用語音轉文字(STT)服務,下載Fast Whisper模型

  3. 再來是選擇性設定,設定文字轉語音(TTS)服務,看是要使用SpeechT5 + CMU Arctic(Open WebUI會自動幫你下載模型),或是第三方服務的引擎。

  4. 在聊天介面選多模態模型,點選文字框旁邊的耳機圖示開始聊天,右邊會跳出語音界面。

  5. 可以純語音聊天,你講的一段話會使用Whisper轉成提示詞,自動送出。

  6. 點選攝像頭按鈕開啟相機。目前Open WebUI的設計是講完一段話之後,才會截圖並傳送圖片給語言模型分析。

  7. 你得手動按回覆文字框下方的喇叭按鈕,才會生成語音。

4. 如何將螢幕分享給Open WebUI
#

能不能讓語言模型直接辨認電腦螢幕上的內容,而不用手動截圖?可以,Open WebUI支援使用瀏覽器分享螢幕,電腦版的Chrome和Firefox應該都支援分享螢幕的功能。

不過電腦必須至少有一個攝像頭,Open WebUI才會讓你開啟相機。若你的電腦完全沒有攝像頭,這裡有一個取巧的方式能達成目的,那就是OBS Studio的虛擬攝像頭功能,將OBS Studio擷取到的畫面,傳到虛擬攝像頭。例如Linux系統的OBS Studio能夠透過V4L2製造虛擬攝像頭。

接著,只要在視訊的時候點選鏡頭圖示,切換為「螢幕分享」就行。

參考資料
#

Open WebUI與Ollama教學 - 點選展開系列文章
7: 本文

相關文章

Ollama + Open WebUI設定RAG,建立知識庫強化語言模型能力,讀取PDF文件生成回應
分類   開源AI應用 大型語言模型
標籤   Retrieval Augmented Generation Ollama Large Language Model
自架AI搜尋引擎,讓Open WebUI搜尋Google網頁,統整網頁資料
分類   開源AI應用 大型語言模型
標籤   Ollama Google Search
Ollama Open WebUI連接ComfyUI生成圖片操作方法,讓AI指揮AI繪圖
分類   開源AI應用 大型語言模型
標籤   Ollama ComfyUI

留言板

此處提供二種留言板。點選按鈕,選擇您覺得方便的留言板。要討論程式碼請用Giscus,匿名討論請用Disqus。

這是Disqus留言板,您可能會看到Disqus強制投放的廣告。為防止垃圾內容,有時留言可能會被系統判定需審核,導致延遲顯示,請見諒。若要上傳圖片請善用圖床網站。