问题: Attention计算中为什么要除以$\sqrt{d}$?标准答案为了避免当d的值较大时,点积结果变得过大。如果不进行这样的缩放处理,过大的点积值会使softmax函数的结果趋向于极端值,进而导致梯度消失的问题,影响模型训练的效果。
2024-11-28