面试必问-Attention为什么要除以$\sqrt{d}$ 问题: Attention计算中为什么要除以$\sqrt{d}$?标准答案为了避免当d的值较大时,点积结果变得过大。如果不进行这样的缩放处理,过大的点积值会使softmax函数的结果趋向于极端值,进而导致梯度消失的问题,影响模型训练的效果。 2024-11-28 面试 大模型 原创 面试 大模型