机器学习我觉得就是数理统计和线性代数,由于都是求最值的问题,必然涉及导数.不过矩阵,向量,标量求导可大有学问. $ $

原因

虽然本篇主要是想记录矩阵导数运算,不过我还是想说出为什么要记录矩阵导数的原因.下面列出Locally Weighted Linear Regression(局部加权线性回归)的公式:

\[ J(\theta)=\mathop{\min}\limits_{\theta }\sum_{j=1}^{m}\omega ^{j}[h_{\theta}(x^{j})-y^{j}]^{2} \]

第一个问题是上面的公式我们怎么写成矩阵的型式?
我们都知道一个列向量的转置乘以该列向量可以代表列向量各个元素的平方和,但是这里有一个$\omega^{j}$,我们知道这个公式表达的意思是列向量的各个元素的平方乘以一个系数,然后将它们加起来
第二个问题就是我们怎么把$\omega$表示成矩阵的型式
首先写出结果:

\[ J(\theta)=\frac{1}{2}(X\theta-Y)^{T}W(X\theta-Y) \]

接着看一下下面的定义就一目了然了:

\[ \begin{align} &X=\begin{bmatrix} x_{0}^{1} &\cdots &x_{n}^{1} \\ \vdots & \cdots & \vdots \\ x_{0}^{m}&\cdots & x_{n}^{m} \end{bmatrix}\\ \\ &Y=\begin{bmatrix} y^{1}\\ \vdots\\ y^{m} \end{bmatrix}\\ \\ &\Theta =\begin{bmatrix} \theta_{0}\\ \vdots\\ \theta_{n-1} \end{bmatrix}\\ \\ &W =\begin{bmatrix} \omega^{1} &0 & \cdots &0 \\ 0&\omega^{2} &\cdots &0 \\ \vdots &\ddots & \ddots &\vdots \ \\ 0& 0 & \cdots &\omega^{m} \end{bmatrix} \end{align} \]

接下来就是重头戏了,求导

\[ \begin{align} \frac{\partial }{\partial \theta}J(\theta)&=\frac{1}{2}(X\theta-Y)^{T}W(X\theta-Y)\\ &=\frac{1}{2}\frac{\partial }{\partial \theta}(\theta^{T}X^{T}WX\theta-\theta^{T}X^{T}WY-Y^{T}WX\theta+Y^{T}WY)\\ &=\frac{1}{2}(\frac{\partial }{\partial \theta}(\theta X^{T}WX\theta)-X^{T}WY-X^{T}W^{T}Y)\\&=\frac{1}{2}(X^{T}WX\theta+X^{T}W^{T}X\theta-X^{T}WY-X^{T}W^{T}Y)\\ &=\frac{1}{2}(X^{T}WX\theta+X^{T}WX\theta-X^{T}WY-X^{T}WY)\\ &=X^{T}WX\theta-X^{T}WY\\ &=0 \end{align} \]

有以上公式推导,最后得到:

\[ \theta=(X^{T}WX)^{-1}X^{T}WY \]

原因

推荐