通俗解构语言大模型的工作原理( 九 )


注释:
1.从技术上说 , LLM的单词片段成为词元 , 但我们将忽略此实现细节 , 以使本文保持在可控的长度内(可参考文章《揭示GPT Tokenizer的工作原理》) 。
2.前馈网络也被称为多层感知器 。自20世纪60年代以来 , 计算机科学家一直在研究这种类型的神经网络 。
3.从技术上讲 , 在神经元计算了输入的加权和之后 , 它将结果传递给激活函数 。本文将忽略这个实现细节 , 完整地解释神经元是如何工作的 , 请查看:https://arstechnica.com/science/2018/12/how-computers-got-shockingly-good-at-recognizing-images/) 。
4.如果你想了解更多关于反向传播的知识 , 请查看蒂姆2018年关于神经网络如何工作的解释 。
5.在实践中 , 为了提高计算效率 , 训练通常是按批次进行的 。因此 , 软件可能会在进行反向传播之前对32000个词元进行前向传播 。




推荐阅读