我的梦想
不是每个人都应该像我这样去建造一座水晶大教堂,但是每个人都应该拥有自己的梦想,设计自己的梦想,追求自己的梦想,实现自己的梦想。梦想是生命的灵魂,是心灵的灯塔,是引导人走向成功的信仰。有了崇高的梦想,只要矢志不渝地追求,梦想就会成为现实,奋斗就会变成壮举,生命就会创造奇迹。——罗伯·舒乐
面试必问-Attention为什么要除以$\sqrt{d}$ 面试必问-Attention为什么要除以$\sqrt{d}$
问题: Attention计算中为什么要除以$\sqrt{d}$?标准答案为了避免当d的值较大时,点积结果变得过大。如果不进行这样的缩放处理,过大的点积值会使softmax函数的结果趋向于极端值,进而导致梯度消失的问题,影响模型训练的效果。
文章速读-2023年10月15 文章速读-2023年10月15
文章速读-2023年10月151. 《问答场景常用大模型解决方案》原始链接 https://mp.weixin.qq.com/s/rojniYJ3PViO3uix0hIKFQ 文章概括LLM落地智能客服中的问题和解法。 1、落地有哪几种方案
leetcode-逐行讲解-链表反转 leetcode-逐行讲解-链表反转
leetcode-逐行讲解-链表反转题目 https://leetcode.cn/problems/UHnkqh/description/def reverseList(head: ListNode) -> ListNode: #判
社交网络账号挖掘系统设计-part1 社交网络账号挖掘系统设计-part1
系统概览一、针对的需求很多社交媒体平台(Social Media Platform,简称SMP)都存在创作者拉新的需求,通常是需要获取某个垂类下的创作者,比如说:PM:我们主打搞笑社区,希望获取ins上的搞笑作者,让他们在我们的社媒平台进行
算法工程师面试考点思维导图 算法工程师面试考点思维导图
梳理总结了算法工程师面试考点思维导图
vim8 编译安装 vim8 编译安装
vim8 编译安装1. 引子开发机上的vim 版本太低,我也没有sudo权限,只好编译安装vim8 2. 安装步骤Step 1:下载vim的源码git clone https://github.com/vim&
Cha-6-循环神经网络-总结3 Cha-6-循环神经网络-总结3
本章概念1. 门控循环单元 门控循环单元rnn梯度计算的时候,当时间步较大或者时间步较小时,梯度较容易出现衰减或者爆炸。裁剪梯度可以应对梯度爆炸,但无法解决梯度衰减问题。所以实际中,rnn较难捕捉时间序列中时间步距离较大的依赖关系。 门控
Cha-6-循环神经网络-总结2 Cha-6-循环神经网络-总结2
本章概念:一、输入数据处理网络要处理的文本数据,需要将文本中的每个词都转换成one-hot向量。长度设为d(即为词典的大小)设输入数据的批次大小为n,步长step,那么每次(每个时间步)计算的时候,都是输入n个字符串,每个字符串的长度是st
Cha-6-循环神经网络-总结 Cha-6-循环神经网络-总结
本章概念:隐藏变量(隐藏状态):循环神经网络:语言模型: 一、语言模型1. 语言模型用来干什么? 自然语言文本可以看作一段离散的时间序列。假设一段长度为T的文本中的词依次为w1, w2, …,wT,那么对于每个词wt都可以看作是时间步t的标
1 / 2