当参数初始化接近0时,整个函数的斜率比较小,函数较为平滑。函数平滑的好处如下:
以$y=wx+b$为例,如果$w$比较大,即时$x_1$和$x_2$相差很小的$\Delta x$,他们的$y$值也会相差很大,这是不符合直觉的,所以应该将$w$初始化比较小的值。
当参数初始化接近0时,整个函数的斜率比较小,函数较为平滑。函数平滑的好处如下:
以$y=wx+b$为例,如果$w$比较大,即时$x_1$和$x_2$相差很小的$\Delta x$,他们的$y$值也会相差很大,这是不符合直觉的,所以应该将$w$初始化比较小的值。