快轉到主要內容

組個AI小電腦,樹莓派跑Ollama語言模型與架設Open WebUI網頁伺服器

分類   開源AI應用 大型語言模型
標籤   Ollama Raspberry Pi
🗓️ 民國113年 甲辰年
✍ 切換正體/簡體字
目錄

Raspberry Pi也能跑大型語言模型(LLM)嗎?可以,甚至能架個網頁聊天服務呢。

如下圖,在Raspberry Pi跑語言模型,並透過手機瀏覽器與之互動。

Ivon使用的板子為Raspberry Pi 5,加裝風扇。軟體部份採用Ollama的開源解決方案,以它為中心即可執行各種開源語言模型,包括LLaMA、Gemma、Mistral、Phi等等。

要發揮Ollama的更多功效,就是讓它與其他程式整合了吧,Ollama能作為Home Assistant的其中一個服務後端,用於控制智慧家庭的家電,參見 官網說明

1. 部署Ollama與Open WebUI服務
#

  1. 我使用Raspberry Pi OS 12跑Docker。

  2. 參見 Docker安裝Ollama + Open WebUI

  3. 執行指令取得樹莓派區域IP

ip addr
  1. 用電腦或手機連線到http://樹莓派IP:3000登入Open WebUI

  2. 我們再從Open WebUI的管理員控制台下載模型,考慮到性能,選擇Microsoft Phi-3。

2. 看看Ollama效能如何
#

我們以Ollama指令進入純文字對話模式,測試生成速度:

docker exec -it ollama ollama run phi3 --verbose

經測試,Raspberry Pi 5跑3B參數的Phi-3小型語言模型速度還行,10秒內就有回復,速度能達到3 token/s。

最大極限是跑7B參數的模型,可,Raspberry Pi 5只有8GB RAM,跑7B以上模型很容易記憶體不足,得用dphys-swapfile指令設定變數CONF_MAXSWAP,加大系統的SWAP才夠跑。不過即使如此,7B模型回應速度也是十分之緩慢,可能要把SD卡換成SSD才能加快模型載入速度。

還有,目前Ollama在Raspberry Pi無法使用GPU加速,全部都用CPU算,模型一跑起來CPU全滿,風扇就起飛了。要用Vulkan加速的話倒是有 MLC LLM

因此從實用性考量,還是跑小型語言模型就好了。

相關文章

Linux用docker-compose部署Open WebUI + Ollama語言模型網頁界面
分類   開源AI應用 大型語言模型
標籤   Ollama Large Language Model Retrieval Augmented Generation Nvidia
Android手機用Termux Ollama跑任意大型語言模型
分類   開源AI應用 大型語言模型
標籤   Ollama Large Language Model Android Termux
Ollama安裝教學,快捷部署AI大型語言模型到你的Linux電腦,離線執行
分類   開源AI應用 大型語言模型
標籤   Ollama Large Language Model Retrieval Augmented Generation

留言板

此處提供二種留言板。點選按鈕,選擇您覺得方便的留言板。要討論程式碼請用Giscus,匿名討論請用Disqus。

這是Giscus留言板,需要Github帳號才能留言。支援markdown語法,若要上傳圖片請貼Imgur或Postimages。您的留言會在Github Discussions向所有人公開。

這是Disqus留言板,您可能會看到Disqus強制投放的廣告。為防止垃圾內容,有時留言可能會被系統判定需審核,導致延遲顯示,請見諒。若要上傳圖片請善用圖床網站。