用思维脑图梳理下大模型理论

2024-04-20亲子

午后，孩子专注于运用思维导图做作业，其有序的学习方式令我深感启迪。于是，我决定效仿此举，以思维导图为工具，对当前热议的大模型理论展开系统梳理。以下是精炼后的思维导图，难免错误，反正也是学习的过程。

脑图用mermaid生成

graph LR; A[大模型 - 整体架构和功能的集合]:::oval A --> B[输入处理 - 处理原始输入数据]:::rectangle A --> C[模型架构 - 定义模型的内部结构和运算]:::rectangle A --> D[训练过程 - 模型学习的过程]:::rectangle A --> E[输出生成 - 产生最终结果]:::rectangle B --> F[标记化 - 将文本分割为更小的单位]:::cylinder B --> G[嵌入层 - 将标记转换为向量形式]:::cylinder C --> H[Transformer层 - 模型的核心计算层]:::diamond H --> I[自注意力机制 - 帮助模型理解输入中的各个部分如何相关]:::diamond H --> J[前馈神经网络 - 为模型提供非线性处理能力]:::diamond H --> K[层归一化 - 帮助稳定训练过程]:::diamond H --> L[残差连接 - 帮助信息在模型中流动，防止信息丢失]:::diamond D --> M[数据集 - 训练模型使用的数据]:::parallelogram D --> N[损失函数 - 评估模型输出与真实值的差异]:::parallelogram D --> O[优化算法 - 用于改进模型参数]:::parallelogram D --> P[反向传播 - 算法更新模型的方式]:::parallelogram E --> Q[解码策略 - 决定如何从模型的输出中选择最终结果]:::hexagon E --> R[文本生成 - 生成人类可读的文本]:::hexagon Q --> S[贪心搜索 - 每步选择概率最高的词]:::trapezoid Q --> T[束搜索 - 维护多个可能的输出序列]:::trapezoid Q --> U[采样方法 - 随机选择输出，增加多样性]:::trapezoid R --> V[自然语言输出 - 最终生成的自然语言文本]:::ellipse classDef oval fill:#5F9EA0,stroke:#333,stroke-width:2px,color:#fff; classDef rectangle fill:#4682B4,stroke:#333,stroke-width:2px,color:#fff; classDef cylinder fill:#6495ED,stroke:#333,stroke-width:2px,color:#fff; classDef diamond fill:#00BFFF,stroke:#333,stroke-width:2px,color:#fff; classDef parallelogram fill:#1E90FF,stroke:#333,stroke-width:2px,color:#fff; classDef hexagon fill:#87CEFA,stroke:#333,stroke-width:2px,color:#fff; classDef trapezoid fill:#B0C4DE,stroke:#333,stroke-width:2px,color:#fff; classDef ellipse fill:#4682B4,stroke:#333,stroke-width:2px,color:#fff;