用思維腦圖梳理下大模型理論

2024-04-20親子

午後，孩子專註於運用思維導圖做作業，其有序的學習方式令我深感啟迪。於是，我決定效仿此舉，以思維導圖為工具，對當前熱議的大模型理論展開系統梳理。以下是精煉後的思維導圖，難免錯誤，反正也是學習的過程。

腦圖用mermaid生成

graph LR; A[大模型 - 整體架構和功能的集合]:::oval A --> B[輸入處理 - 處理原始輸入數據]:::rectangle A --> C[模型架構 - 定義模型的內部結構和運算]:::rectangle A --> D[訓練過程 - 模型學習的過程]:::rectangle A --> E[輸出生成 - 產生最終結果]:::rectangle B --> F[標記化 - 將文本分割為更小的單位]:::cylinder B --> G[嵌入層 - 將標記轉換為向量形式]:::cylinder C --> H[Transformer層 - 模型的核心計算層]:::diamond H --> I[自註意力機制 - 幫助模型理解輸入中的各個部份如何相關]:::diamond H --> J[前饋神經網路 - 為模型提供非線性處理能力]:::diamond H --> K[層歸一化 - 幫助穩定訓練過程]:::diamond H --> L[殘留誤差連線 - 幫助資訊在模型中流動，防止資訊遺失]:::diamond D --> M[數據集 - 訓練模型使用的數據]:::parallelogram D --> N[損失函式 - 評估模型輸出與真實值的差異]:::parallelogram D --> O[最佳化演算法 - 用於改進模型參數]:::parallelogram D --> P[反向傳播 - 演算法更新模型的方式]:::parallelogram E --> Q[解碼策略 - 決定如何從模型的輸出中選擇最終結果]:::hexagon E --> R[文本生成 - 生成人類可讀的文本]:::hexagon Q --> S[貪心搜尋 - 每步選擇機率最高的詞]:::trapezoid Q --> T[束搜尋 - 維護多個可能的輸出序列]:::trapezoid Q --> U[采樣方法 - 隨機選擇輸出，增加多樣性]:::trapezoid R --> V[自然語言輸出 - 最終生成的自然語言文本]:::ellipse classDef oval fill:#5F9EA0,stroke:#333,stroke-width:2px,color:#fff; classDef rectangle fill:#4682B4,stroke:#333,stroke-width:2px,color:#fff; classDef cylinder fill:#6495ED,stroke:#333,stroke-width:2px,color:#fff; classDef diamond fill:#00BFFF,stroke:#333,stroke-width:2px,color:#fff; classDef parallelogram fill:#1E90FF,stroke:#333,stroke-width:2px,color:#fff; classDef hexagon fill:#87CEFA,stroke:#333,stroke-width:2px,color:#fff; classDef trapezoid fill:#B0C4DE,stroke:#333,stroke-width:2px,color:#fff; classDef ellipse fill:#4682B4,stroke:#333,stroke-width:2px,color:#fff;