快轉到主要內容

Meta的LLaMA開源大型語言模型與相關軟體介紹

開源AI人工智慧應用 大型語言模型 LLaMA AI Large Language Model ChatGPT
🗓️ 民國112年 癸卯年
✍ 切換正體/簡體字
目錄

本文Ivon簡介Meta LLaMA AI聊天模型的背景資訊,並解說如何在您的電腦上跑離線版LLaMA AI。

1. LLaMA是什麼?
#

隨著OpenAI ChatGPT的出現,讓人們了解到通用大型語言模型的應用潛力。不過ChatGPT有一個很大缺點,就是它跑在OpenAI的伺服器。語言模型龐大需要伺服器等級的硬體支撐,這點可以理解,但是使用會受到廠商限制,導致不能肆意妄為,甚至要「催眠」一下才會聽話(喂)。那麼有沒有可能在個人電腦跑「解除封印」的語言模型呢?LLaMA是目前最新的選擇。

LLaMA是Meta推出的通用大型語言模型(large language model),其硬體需求較低,可安裝在個人電腦,離線與AI聊天,當作OpenAI ChatGPT的低階替代品。

LLaMA即為英文的羊駝之意。圖片來自BusinessFocus

2023年2月,Meta研發的通用大型語言模型「LLaMA」在發表前慘遭外洩,造成轟動,吸引許多人為其撰寫程式。儘管Meta要求各大網站下架,仍阻擋不了相關程式的推出。所以Meta等於「被迫」將LLaMA開源,只不過模型的完整權重(weights)仍需要向Meta填表格索取。

Meta訓練了不同等級的LLaMA模型,依訓練參數數量分為7B、13B、30B、65B。Meta在他們的論文宣稱LLaMA 13B的模型性能超越GPT-3模型。

2023年7月,Meta和Microsoft共同發表新一代模型「LLaMA 2」。

在那之後,基於LLaMA訓練的模型如雨後春筍出現,人們餵給LLaMA各式各樣的資料,從而強化了LLaMA的聊天能力,甚至使其支援中文對答。


即使如此,LLaMA的訓練參數還是差ChatGPT一截,所以不能預期回答品質超越ChatGPT,更何況GPT 4了。

訓練參數越多的LLaMA模型理論上越聰明,但是最大的(65B)跑起來仍需要伺服器等級的硬體;而較小的模型(7B、13B)雖然比較笨,卻是個人電腦跑得動的等級,有些模型甚至不用顯示卡也能跑。

所以LLaMA使個人電腦、手機跑大型語言模型成為可能。

2. LLmMA可以做的事情
#

作為大型語言模型,LLaMA可以完成以下這些類似ChatGPT的任務:

解釋學術概念,例如:解釋Skinner行為主義心理學理論的優缺點,並舉出五個例子

寫一個Python程式,解決八皇后演算法問題(Eight queens puzzle)並給出解釋

幫我想五個中文的文章標題:在電影院吃鹹酥雞是不是合理的行為?

段落抓重點:請抓出以下 中央社新聞段落的重點,並用50個字以內解釋事件起因,以及最後結果。

文字翻譯(取自 澤連斯基Twitter

3. 基於LLaMA訓練的大型語言模型
#

在Meta發表LLaMA後,開始有基於LLaMA訓練的模型出現,我們姑且把他們稱作「LLaMA系列模型」吧,列舉部份如下。

  • Nomic AI的 GPT4ALL模型為基於LLaMA + 800k GPT-3.5-Turbo所訓練。這個模型的名字有點誤導,其實它跟OpenAI的GPT-4是沒有關係的。
  • OpenLM Research的 OpenLLaMA是完全開源版的LLaMA實作,dataset也一併開源。
  • WizardLM,使模型能夠按照複雜指令回答。
  • 中國的簡體中文 Chinese-LLaMA-Alpaca大模型
  • 台灣中研院研發的正體中文模型 CKIP-Llama-2-7b
  • 台灣還在研發的國科會 TAIDE

想知道更多情報?到 Reddit r/localLLaMA板吧,每個禮拜都會有新模型的情報出現。

4. 如何安裝使用LLaMA系列模型?
#

大型語言模型不能直接使用,還需要有人開發程式方便與大型語言模型對話。

參見 開源大型語言模型軟體列表

5. LLaMA大型語言模型優缺點總結
#

優點

  • 在個人電腦跑一個小型ChatGPT,不需要超高級的硬體。參數最少的LLaMA 7B模型只要4GB的RAM就能跑。
  • 不用「催眠」就能繞過道德限制,回答各式各樣的問題,
  • LLaMA 7B可以只用6GB VRAM的GPU跑,也可以只用CPU跑(llama.cpp)。

缺點

  • LLaMA的性能比OpenAI的ChatGPT弱,訓練參數越少的越容易亂回答,可能回答牛頭不對馬嘴。
  • LLaMA預設只支援英文對答。不過已有用LoRA技術微調的中文、日文模型出現。
  • 按照Meta的授權條款,LLaMA模型禁止商用,且完整模型權重尚未完全開放。

參考資料
#

相關文章

Serge:離線跑類似ChatGPT的聊天AI!支援LLaMA系列大型語言模型
開源AI人工智慧應用 大型語言模型 LLaMA AI Large Language Model Docker
Android手機Termux跑Alpaca.cpp (LLaMA) 大型語言模型
開源AI人工智慧應用 大型語言模型 LLaMA AI Large Language Model Termux
Dalai本機安裝教學,與LLaMA大型語言模型離線聊天
開源AI人工智慧應用 大型語言模型 LLaMA AI

留言板

此處提供二種留言板。點選按鈕,選擇您覺得方便的留言板。要討論程式碼請用Giscus,匿名討論請用Disqus。

這是Giscus留言板,需要Github帳號才能留言。支援markdown語法,若要上傳圖片請貼Imgur連結。您的留言會在Github Discussions向所有人公開。

這是Disqus留言板,您可能會看到Disqus強制投放的廣告。有時留言可能會被系統判定需審核,導致延遲顯示,請見諒。