realLiuSir

似然函数和极大似然估计 2020-02-24|Math

概率和似然已知一个分布的参数，就可以根据这个分布去推测产生各种情况的可能性，我们称之为概率已知一个分布的各种可能的情况，就可以根据这些情况去推测分布的参数，我们称之为似然（似然度）。似然函数假设我们现在猜测这个参数为θ，那么评价我们猜的准不准就要计算它的似然度 L(θ|x)=P(X=x|θ)似 ...

为什么神经网络中参数的初始化要接近0？ 2020-02-24|机器学习

当参数初始化接近0时，整个函数的斜率比较小，函数较为平滑。函数平滑的好处如下：以$y=wx+b$为例，如果$w$比较大，即时$x_1$和$x_2$相差很小的$\Delta x$,他们的$y$值也会相差很大，这是不符合直觉的，所以应该将$w$初始化比较小的值。

为什么样本方差要除以n-1？ 2020-02-24|Math

从PCA到Auto Encoder 2020-02-23|机器学习

PCAPCA意为主成分分析，PCA降维就是分析主成分，然后再降维。 Q：那么降维的时候，为什么要分析主成分呢？ A：我们在做降维时，可以将当前的样本点投影到任意的向量空间，那么怎么投影才是最好的呢，一般我们认为投影之后的样本点越分散，也就是方差越大，则投影越好，所以我们选择是的样本点方差最大的维度进 ...

GRU 2020-02-23|机器学习

介绍GRU全称是Gate Recurrent Unit，也是LSTM的一个变种，它较LSTM网络的结构更加简单，而且效果也很好，因此也是当前非常流形的一种网络。根据这两个图描述的前向传播公式如下: 文字描述：首先将上次的隐藏层状态(长期记忆)和输入x串接起来，乘上不同的参数矩阵，再通过σ ...

Tips_for_training_DNN 2020-02-22|机器学习

训练误差的来源where does the error come from？ Error comes from bias and variance. bias variance 常见误差复杂模型较小较大 overfiting 简单模型较大较小 underfiti ...

Why_deep 2020-02-22|机器学习

相对于机器学习，深度学习为什么要 Deep 呢？直觉上是因为神经网络层数越多，参数就越多，拟合能力越强，但是参数多可以向 shallow 的方向发展，那为甚什么要向 Deep 的方向发展呢？要对比Deep与Shallow ，首先要保证他们的参数两是一样的，这样对比才比较公平，如下图：更深的 ...

RNN_LSTM 2020-02-18|机器学习

Naive RNN: Bidirectional RNN: RNN是三维的，沿时间维串起来，形成一个立体。因为下一时间点隐藏层的计算需要上一时间点隐藏层的数据，因此因此层需要一个memory单元来存储中间计算结果。 long short-term Memory（LSTM）：从命名可以看出，LSTM ...

CNN 2020-02-18|机器学习

CNN全览 CNN主要包含卷积和池化两个操作卷积层解决了两个问题：有时，我们不用检测整个图片，只用检测图片的一部分一样的部分可能出现在图像的不同部分。池化层解决了一个问题：图片清晰度不高依然可以辨识所以，CNN并不能自动辨识不同尺度的相同图像，需要加一些额外手段。 CNN细节1 ...

反向传播算法 2020-02-15|机器学习

我们已经知道了梯度下降法的基本原理，那么对神经网络中的参数进行更新就可以利用梯度下降的方法，首先，我们根据链式法则对每个参数进行求导，然后利用梯度下降法更新。这样做当然是可行的，但是未免太蠢了。假如有100万个参数，我们就要求导100万次，并且每次都要进行链式展开，计算量实在太大了。此时，有一个聪明 ...