^-^
二次元/音乐/深度学习
大模型基本原理之Transformer架构
字数总计:10.2k   |   阅读估时:40分钟
  1. 概述
  2. Transformer的结构
    1. 嵌入表示层
    2. 注意力层
    3. 残差连接与LayerNorm
    4. 前馈层
    5. 编码器解码器结构