線性代數有什麽用？學習線性代數的意義在哪？

2022-06-02知識

謝邀。學線性代數有什麽用？用處可大了！可以說線性代數不管是實用性上來說，還是從對未來更有用的課程的理解上來說，都是作用大大的。

這裏不得不提一句，國內的線性代數教材非常的差。翻一翻國內的教材，基本上著重點在運算上，然而在電腦如此發達的今天，絕大多數情況下怎麽去計算矩陣的乘積、矩陣的秩實際上並沒有太大意義，重要的是計算的原理。而線性代數中最為重要的理念，比如線性空間、線性變換對於理解代數甚至高層次的數學都是非常有幫助的。如果想仔細深入理解線性代數，推薦看國外的教材。

簡單舉幾個例子吧。

1、現在有兩個n維向量(x_1,x_2,...x_n) 、(y_1,y_2,...y_n) ，我們可以定義內積：<x,y>=x_1\cdot y_1+x_2 \cdot y_2+...+x_n\cdot y_n 。有了內積的定義，我們可以另外定義兩個概念：距離和正交。範數可以定義為：||x||=\sqrt{<x,x>} ，相應的距離可以定義為d(x,y)=||x-y|| ，兩個向量x和y正交如果：<x,y>=0 。

現在假設有n個向量：e_1,e_2...e_n ，且滿足：<e_i,e_j>=0 ，那麽我們說這n個向量組成了一組正交基。下面討論規範化的正交基，即||e_i||=1

現在定義a_i=<x,e_i> ，那麽可以得到x=\sum_{i=1}^n a_i\cdot e_i ，或者寫成：

x=Ea, a=(a_1,a_2,...a_n)', E=[e_1,e_2,...e_n] ，同時有E'E=I 。

好了，那麽a就是x在由e_1,e_2...e_n 組成的座標系中的座標。最簡單的比如e_i=(0,0,...1,...0)' ，也就是我們經常使用的座標系。

說這麽多有什麽用呢？你可能還記得傅立葉級數。好了，我們現在把任何一個函數想象成一個向量，我們找一組函數，比如sin(nx), cos(mx) ，我們可以知道，\int_0^{2\pi} sin(nx)cos(mx)dx=0

\int_0^{2\pi} cos(nx)cos(mx)dx=0,n\ne m

\int_0^{2\pi} sin(nx)sin(mx)dx=0,n\ne m

你想到了啥？對了。如果把積分看成是「內積」，那麽以上的sin cos函數就變成了一組正交基，再仔細看一下傅立葉級數的公式，傅立葉級數無非就是把一個函數往這個正交基上進行投影。所以傅立葉級數其實就是得到了一組「座標」而已。當然了，這個座標是無窮維的。學好了線性代數，一般意義上的n維空間能夠想象，擴充套件到無窮維的傅立葉變幻也就沒啥了。而一旦你掌握了傅立葉級數，那麽聲音訊譜處理、影像壓縮等等一些初級技術，也就沒啥問題了。

2、現在考慮一個矩陣A，n-by-n維。一個x維的向量與其相乘意味著什麽？

y=Ax=[a_1,a_2...a_n](x_1,x_2...x_n)'=\sum_{i=1}^n a_i\cdot x_i

也就是把A的列向量的一個線性組合。同時，A這個矩陣把一個n維空間的點x對映到了n維空間的另一個點y，我們把這種對映叫做變換。（關於線性變換，有一大堆可以寫的，在此不說了，理解了線性變換才真正理解了矩陣）

線性變換有很多實用的例子，比如最簡單的，如果我有一個影像，需要旋轉、放大該怎麽做呢？用線性變換。比如：

A=\left[\begin{array}{cc}cos\theta & -sin\theta\\ sin\theta & cos\theta \end{array} \right]

這個矩陣乘以任意一個向量x，就把這個點逆時針旋轉了\theta 度。以上也就是電腦處理二維、三維影像的原理。

3、說起線性變換，有一類特殊的線性變換，叫做投影。比如我有k個n維空間的向量[x_1,...,x_k]=X ，我現在希望找到一個X的線性組合，使得新得到的點與空間上的其他點y距離最小。那麽可以證明，這個點為：

\hat y=X(X'X)^{-1}X'y

現在記矩陣P=X(X'X)^{-1}X', M=I-P ，可以得到：P^2=P, M^2=M, MP=PM=0 。

上面的兩個矩陣，P和M，因為其乘積等於其本身，所以成為冪等矩陣。冪等矩陣跟正交投影是一一對應的。

對於任何兩個向量x,y ，可以得到(Mx)'(Py)=x'MPy=0 ，所以經過M和P的變換之後的向量正交。

如果你仔細觀察，會發現以上推導的東西就是最小平方法OLS。最小平方法的很多優良性質都可以使用冪等矩陣推匯出來，特別是小樣本性質，基本上離不開冪等矩陣。比如最簡單的，根據勾股定理：

y'y=\hat y' \hat y +e'e=y'Py+y'My

如果把正交投影這個概念推廣到概率空間，那就是條件期望的概念了。什麽叠代期望公式之類的，都可以用這個正交投影進行類比。

4、說個實際點的套用吧。Morkov鏈相信大家都聽說過。如果向量x_t 代表了t期的狀態概率分布，根據馬爾科夫性的假設，下一期的狀態分布x_{t+1} 只跟上一期有關，跟x_{t-1},x_{t-2},... 都沒有關系，那麽可以把下一期的狀態分布寫成：

x_{t+1}=Tx_t

其中T為馬爾科夫矩陣，即第(i,j)個元素為從狀態i到狀態j的概率，且每行加起來等於1.

比如：

T=\left[\begin{array}{ccc}0.8 & 0.1 & 0.1\\ 0.2 & 0.6 & 0.2\\ 0.1 & 0.1 & 0.8 \end{array} \right]

那麽一個自然的問題是，當t趨向於無窮，穩定狀態是什麽呢？很簡單，把T進行特征值分解，對於特征值為1的特征向量就是平穩的分布，比如在這個例子裏，平穩的分布是（2/5, 1/5, 2/5）。

另外一個有趣的例子是，如果T代表的不是狀態，而是幾個網頁。比如

T=\left[\begin{array}{ccc}0 & 0.5 & 0.5\\ 1 & 0 & 0\\ 0.5 & 0.5 & 0 \end{array} \right]

這裏的T意味著，第一個頁面參照了第2\3個頁面，第2個頁面參照了第1個頁面，第三個頁面參照了第1、2個頁面，那麽這幾個頁面的重要程度如何呢？

這裏可以這麽想，一個無聊上網的人，從隨機的任何一頁開始看，並完全隨機的點選頁面上的連結，那麽當這個無聊透頂的人不斷的點選之後，這些網頁被點選的概率分布是怎樣的？

同樣的思路，特征值分解，得到最終穩定的分布為（4/9,3/9,2/9），那麽這些網頁的重要性也就評出來了。

這也就是Google的排序演算法PageRank的一個簡化版本