面试必问-Attention为什么要除以$\sqrt{d}$ 问题: Attention计算中为什么要除以$\sqrt{d}$?标准答案为了避免当d的值较大时,点积结果变得过大。如果不进行这样的缩放处理,过大的点积值会使softmax函数的结果趋向于极端值,进而导致梯度消失的问题,影响模型训练的效果。 2024-11-28 面试 大模型 原创 面试 大模型
文章速读-2023年10月15 文章速读-2023年10月151. 《问答场景常用大模型解决方案》原始链接 https://mp.weixin.qq.com/s/rojniYJ3PViO3uix0hIKFQ 文章概括LLM落地智能客服中的问题和解法。 1、落地有哪几种方案 2023-10-15 学习 文章速读 LLM Chatgpt 智能客服
leetcode-逐行讲解-链表反转 leetcode-逐行讲解-链表反转题目 https://leetcode.cn/problems/UHnkqh/description/def reverseList(head: ListNode) -> ListNode: #判 2023-09-24 面试 leetcode 原创 leetcode
社交网络账号挖掘系统设计-part1 系统概览一、针对的需求很多社交媒体平台(Social Media Platform,简称SMP)都存在创作者拉新的需求,通常是需要获取某个垂类下的创作者,比如说:PM:我们主打搞笑社区,希望获取ins上的搞笑作者,让他们在我们的社媒平台进行 2023-02-26 系统设计 账号挖掘 原创 系统设计 账号挖掘
vim8 编译安装 vim8 编译安装1. 引子开发机上的vim 版本太低,我也没有sudo权限,只好编译安装vim8 2. 安装步骤Step 1:下载vim的源码git clone https://github.com/vim& 2023-02-26 工具 linux vim 原创 vim 工具
Cha-6-循环神经网络-总结3 本章概念1. 门控循环单元 门控循环单元rnn梯度计算的时候,当时间步较大或者时间步较小时,梯度较容易出现衰减或者爆炸。裁剪梯度可以应对梯度爆炸,但无法解决梯度衰减问题。所以实际中,rnn较难捕捉时间序列中时间步距离较大的依赖关系。 门控 2021-12-26 算法技术 读书笔记 章总结 深度学习基础 d2l 面试复习 原创