為何要訓練自訂模型？｜Stable Diffusion WebUI使用手冊

Stable Diffusion WebUI使用手冊 - 點選展開系列文

23: 現在位置

24: 準備訓練資料｜Stable Diffusion WebUI使用手冊

25: 訓練Embedding｜Stable Diffusion WebUI使用手冊

26: 訓練HyperNetwork｜Stable Diffusion WebUI使用手冊

27: 訓練LoRA｜Stable Diffusion WebUI使用手冊

本章所討論的訓練模型僅為自用用途，若要分享訓練的模型也應遵照開源的原則分享。

為什麼要訓練自己的模型？訓練自己的模型可以在現有模型的基礎上，讓AI懂得如何更精確生成/生成特定的風格、概念、角色、姿勢、物件。

舉例來說，如果餵給AI十幾張我精挑細選的「Hara老師繪製的、不同角度、FGO的斯卡薩哈」做訓練，那麼就能讓AI更懂得如何生成斯卡薩哈的臉部，風格也會比較固定。

以下是一個具體例子，透過使用自行訓練的HyperNetwork，便改善單靠Anything模型無法生成出Hara老師畫風的缺點。在不使用HyperNetwork的情況下，風格永遠是左邊那樣；一使用HyperNetwork，右邊的風格就能輕鬆生成出來了。

訓練模型是複雜的議題，基於哪個現有模型，以及餵給AI學習的圖片品質，還有訓練時的參數，都會影響模型訓練結果。

本文提及的Embedding、HyperNetwork、LoRA都是「小模型」，這是相對於網路動輒好幾GB的checkpoint「大模型」而言。這些小模型訓練時間短，檔案約幾MB而已，訓練成本不高。主要是用於生成特定人物/物件/畫風，並且訓練的模型可以多個混用。

如果硬體條件許可的話，蒐集大量圖片訓練特定領域的checkpoint大模型，再上傳到HuggingFace造福他人也是不錯的選項，只不過此任務過於龐大。要知道Stable Diffusion 1.5版的模型可是輸入了23億張圖片訓練出來的！網路上其他人訓練的模型至少也準備了幾萬張圖片。因此要生成特定的人物/物件/畫風，訓練小模型對一般人來說比較划算。

各個模型的原理差異請參考下圖。技術原理以及訓練參數設定請參閱「參考資料」一章，礙於篇幅無法一一細講，本章以操作過程為主。