午後,孩子專註於運用思維導圖做作業,其有序的學習方式令我深感啟迪。於是,我決定效仿此舉,以思維導圖為工具,對當前熱議的大模型理論展開系統梳理。以下是精煉後的思維導圖,難免錯誤,反正也是學習的過程。
graph LR;
A[大模型 - 整體架構和功能的集合]:::oval
A --> B[輸入處理 - 處理原始輸入數據]:::rectangle
A --> C[模型架構 - 定義模型的內部結構和運算]:::rectangle
A --> D[訓練過程 - 模型學習的過程]:::rectangle
A --> E[輸出生成 - 產生最終結果]:::rectangle
B --> F[標記化 - 將文本分割為更小的單位]:::cylinder
B --> G[嵌入層 - 將標記轉換為向量形式]:::cylinder
C --> H[Transformer層 - 模型的核心計算層]:::diamond
H --> I[自註意力機制 - 幫助模型理解輸入中的各個部份如何相關]:::diamond
H --> J[前饋神經網絡 - 為模型提供非線性處理能力]:::diamond
H --> K[層歸一化 - 幫助穩定訓練過程]:::diamond
H --> L[殘留誤差連線 - 幫助資訊在模型中流動,防止資訊遺失]:::diamond
D --> M[數據集 - 訓練模型使用的數據]:::parallelogram
D --> N[損失函數 - 評估模型輸出與真實值的差異]:::parallelogram
D --> O[最佳化演算法 - 用於改進模型參數]:::parallelogram
D --> P[反向傳播 - 演算法更新模型的方式]:::parallelogram
E --> Q[解碼策略 - 決定如何從模型的輸出中選擇最終結果]:::hexagon
E --> R[文本生成 - 生成人類可讀的文本]:::hexagon
Q --> S[貪心搜尋 - 每步選擇概率最高的詞]:::trapezoid
Q --> T[束搜尋 - 維護多個可能的輸出序列]:::trapezoid
Q --> U[采樣方法 - 隨機選擇輸出,增加多樣性]:::trapezoid
R --> V[自然語言輸出 - 最終生成的自然語言文本]:::ellipse
classDef oval fill:#5F9EA0,stroke:#333,stroke-width:2px,color:#fff;
classDef rectangle fill:#4682B4,stroke:#333,stroke-width:2px,color:#fff;
classDef cylinder fill:#6495ED,stroke:#333,stroke-width:2px,color:#fff;
classDef diamond fill:#00BFFF,stroke:#333,stroke-width:2px,color:#fff;
classDef parallelogram fill:#1E90FF,stroke:#333,stroke-width:2px,color:#fff;
classDef hexagon fill:#87CEFA,stroke:#333,stroke-width:2px,color:#fff;
classDef trapezoid fill:#B0C4DE,stroke:#333,stroke-width:2px,color:#fff;
classDef ellipse fill:#4682B4,stroke:#333,stroke-width:2px,color:#fff;