贏不了...離線部署的ChatGPT終究比不過線上的ChatGPT

贏不了…

已經好久沒研究離線本地部署的AI了。

＊「AI」是一個包容萬象的term，我在這裡只限定在「AI語言模型」和「AI繪圖」的玩意。其他本地部署的AI，如AI語音、AI字幕、AI翻譯暫此不表。

上次打開Ollama界面是什麼時候了？

自2022年以來一直在研究self-hosted的AI當作hobby project，想搞離線版ChatGPT，但我漸漸不感興趣了。

一部分原因是我為了追求開源的Linux圖形驅動環境，換到Intel Arc A380，拋棄Nvidia GTX1050Ti顯卡，導致一堆依賴CUDA的package崩盤，懶得折騰Intel家的推理加速方案。聽說他們GPU部門最近還搞裁員！？立武嘆吉某實在太狠了。

新顯卡的效能都拿去玩Steam遊戲了…其實都是《千戀萬花》這種不吃效能的。但起碼我不用擔心更新系統後Nvidia proprietary driver隨機break Wayland了。

另一個因素，是線上AI服務已經做的太方便了，尤其Google出馬後，透過自家生態系優勢，直接將Gemini工具送到所有Android用戶手上，所有工具都用漂亮的GUI包裝好。ChatGPT還要另外下載APP呢。暴力搶走市占率。

由此完成了AI的「近用」。

就算這些線上服務要收費，遲早也會便宜到像Youtube Premium一樣，讓人習以為常。因此，我已經放棄抵抗，直接躺平用這些大公司的解決方案了。

讀過一些LLM的原理之後，認知到本機部署的AI根本不可能追得上大公司訓練的怪物，要有好的品質得要finetune，還有許多除錯時間。不論你有幾個B都一樣。且光是要跑gpt-oss這種模型，就要花大錢添購實驗室等級的硬體（你可以按這裡贊助我購買設備）。2026年的今天，跑AI的低標隨便都要8GB VRAM的Nvidia顯卡，非常…不值得。連編譯Linux kernel都沒這麼誇張的需求。

我的裝備只有6GB VRAM顯示卡 + 16GB RAM，跑小模型就很吃力了。你不如把這些設備拿去挖礦。

我很佩服中國公司仍持續釋出開源的LLM，如阿里巴巴的通義千問(Qwen)，同時也不斷強化移動端邊緣計算的小模型(SLM)發展。也就是不只照顧到伺服器等級的硬體，在行動裝置也有執行之可能。

SLM不是只有中國公司在做，可是考慮到中國公司對中文語料庫的掌握程度，未來他們LLM產生的中文品質恐怕是Google的Gemma、Meta的LLaMA都比不上的。唯一能超越的地方可能就政治話題會比較開放。

本地部署的AI對一些需要高度隱私安全的商業公司可能有用，需要客製化的場合，善用開源社群的資源能做出有別於ChatGPT的特殊用途產品。AI也不是只有聊天功能，讓它協助其他服務做資料整理也是值得探討的用途。

敏感關鍵字審核是個問題，本地部署的AI可以繞過線上服務的審查。但我就問，你到底是整天拿AI提昇生產力，還是用來整天打手槍用的？還是想整天用AI鍵政？

可是對想直接打字就能得到答案的一般用戶來說，花時間部署本地AI模型，恐怕不如直接打開ChatGPT實用。

我覺得要玩self-hosted的AI服務，尚且能與線上服務一戰的大概就AI繪圖了，如ComfyUI，因其生成的結果隨機性高又有高自由度，沒有關鍵字限制，不用瘋狂堆硬體就能跑。FLUX新的模型仍在推出，不斷加強對自然語言的理解能力。

你可能會質疑離線LLM產出的文本品質不行，但是藝術這種主觀的東西，即使模型體量小，生出來的東西還是能騙過許多人的眼睛的。

相關文章