似然函数和极大似然估计
概率和似然已知一个分布的参数,就可以根据这个分布去推测产生各种情况的可能性,我们称之为概率
已知一个分布的各种可能的情况,就可以根据这些情况去推测分布的参数,我们称之为似然(似然度)。
似然函数假设我们现在猜测这个参数为θ,那么评价我们猜的准不准就要计算它的似然度
L(θ|x)=P(X=x|θ)似 ...
为什么神经网络中参数的初始化要接近0?
当参数初始化接近0时,整个函数的斜率比较小,函数较为平滑。函数平滑的好处如下:
以$y=wx+b$为例,如果$w$比较大,即时$x_1$和$x_2$相差很小的$\Delta x$,他们的$y$值也会相差很大,这是不符合直觉的,所以应该将$w$初始化比较小的值。
为什么样本方差要除以n-1?
版权声明:本文为CSDN博主「Hearthougan」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/Hearthougan/article/details/77859173
转载作为学习笔记
设样本均值为 ...
从PCA到Auto Encoder
PCAPCA意为主成分分析,PCA降维就是分析主成分,然后再降维。
Q:那么降维的时候,为什么要分析主成分呢?
A:我们在做降维时,可以将当前的样本点投影到任意的向量空间,那么怎么投影才是最好的呢,一般我们认为投影之后的样本点越分散,也就是方差越大,则投影越好,所以我们选择是的样本点方差最大的维度进 ...
GRU
介绍GRU全称是Gate Recurrent Unit,也是LSTM的一个变种,它较LSTM网络的结构更加简单,而且效果也很好,因此也是当前非常流形的一种网络。
根据这两个图描述的前向传播公式如下:
文字描述:
首先将上次的隐藏层状态(长期记忆)和输入x串接起来,乘上不同的参数矩阵,再通过σ ...
Tips_for_training_DNN
训练误差的来源where does the error come from?
Error comes from bias and variance.
bias
variance
常见误差
复杂模型
较小
较大
overfiting
简单模型
较大
较小
underfiti ...
Why_deep
相对于机器学习,深度学习为什么要 Deep 呢?
直觉上是因为神经网络层数越多,参数就越多,拟合能力越强,但是参数多可以向 shallow 的方向发展,那为甚什么要向 Deep 的方向发展呢?
要对比Deep与Shallow ,首先要保证他们的参数两是一样的,这样对比才比较公平,如下图:
更深的 ...
RNN_LSTM
Naive RNN:
Bidirectional RNN:
RNN是三维的,沿时间维串起来,形成一个立体。因为下一时间点隐藏层的计算需要上一时间点隐藏层的数据,因此因此层需要一个memory单元来存储中间计算结果。
long short-term Memory(LSTM):从命名可以看出,LSTM ...
CNN
CNN全览
CNN主要包含卷积和池化两个操作
卷积层解决了两个问题:
有时,我们不用检测整个图片,只用检测图片的一部分
一样的部分可能出现在图像的不同部分。
池化层解决了一个问题:
图片清晰度不高依然可以辨识
所以,CNN并不能自动辨识不同尺度的相同图像,需要加一些额外手段。
CNN细节1 ...
反向传播算法
我们已经知道了梯度下降法的基本原理,那么对神经网络中的参数进行更新就可以利用梯度下降的方法,首先,我们根据链式法则对每个参数进行求导,然后利用梯度下降法更新。这样做当然是可行的,但是未免太蠢了。假如有100万个参数,我们就要求导100万次,并且每次都要进行链式展开,计算量实在太大了。此时,有一个聪明 ...