午后,孩子专注于运用思维导图做作业,其有序的学习方式令我深感启迪。于是,我决定效仿此举,以思维导图为工具,对当前热议的大模型理论展开系统梳理。以下是精炼后的思维导图,难免错误,反正也是学习的过程。
graph LR;
A[大模型 - 整体架构和功能的集合]:::oval
A --> B[输入处理 - 处理原始输入数据]:::rectangle
A --> C[模型架构 - 定义模型的内部结构和运算]:::rectangle
A --> D[训练过程 - 模型学习的过程]:::rectangle
A --> E[输出生成 - 产生最终结果]:::rectangle
B --> F[标记化 - 将文本分割为更小的单位]:::cylinder
B --> G[嵌入层 - 将标记转换为向量形式]:::cylinder
C --> H[Transformer层 - 模型的核心计算层]:::diamond
H --> I[自注意力机制 - 帮助模型理解输入中的各个部分如何相关]:::diamond
H --> J[前馈神经网络 - 为模型提供非线性处理能力]:::diamond
H --> K[层归一化 - 帮助稳定训练过程]:::diamond
H --> L[残差连接 - 帮助信息在模型中流动,防止信息丢失]:::diamond
D --> M[数据集 - 训练模型使用的数据]:::parallelogram
D --> N[损失函数 - 评估模型输出与真实值的差异]:::parallelogram
D --> O[优化算法 - 用于改进模型参数]:::parallelogram
D --> P[反向传播 - 算法更新模型的方式]:::parallelogram
E --> Q[解码策略 - 决定如何从模型的输出中选择最终结果]:::hexagon
E --> R[文本生成 - 生成人类可读的文本]:::hexagon
Q --> S[贪心搜索 - 每步选择概率最高的词]:::trapezoid
Q --> T[束搜索 - 维护多个可能的输出序列]:::trapezoid
Q --> U[采样方法 - 随机选择输出,增加多样性]:::trapezoid
R --> V[自然语言输出 - 最终生成的自然语言文本]:::ellipse
classDef oval fill:#5F9EA0,stroke:#333,stroke-width:2px,color:#fff;
classDef rectangle fill:#4682B4,stroke:#333,stroke-width:2px,color:#fff;
classDef cylinder fill:#6495ED,stroke:#333,stroke-width:2px,color:#fff;
classDef diamond fill:#00BFFF,stroke:#333,stroke-width:2px,color:#fff;
classDef parallelogram fill:#1E90FF,stroke:#333,stroke-width:2px,color:#fff;
classDef hexagon fill:#87CEFA,stroke:#333,stroke-width:2px,color:#fff;
classDef trapezoid fill:#B0C4DE,stroke:#333,stroke-width:2px,color:#fff;
classDef ellipse fill:#4682B4,stroke:#333,stroke-width:2px,color:#fff;