subtitle
面试必问-Attention为什么要除以$\sqrt{d}$ 面试必问-Attention为什么要除以$\sqrt{d}$
问题: Attention计算中为什么要除以$\sqrt{d}$?标准答案为了避免当d的值较大时,点积结果变得过大。如果不进行这样的缩放处理,过大的点积值会使softmax函数的结果趋向于极端值,进而导致梯度消失的问题,影响模型训练的效果。