謝邀。學線性代數有什麽用?用處可大了!可以說線性代數不管是實用性上來說,還是從對未來更有用的課程的理解上來說,都是作用大大的。
這裏不得不提一句,國內的線性代數教材非常的差。翻一翻國內的教材,基本上著重點在運算上,然而在電腦如此發達的今天,絕大多數情況下怎麽去計算矩陣的乘積、矩陣的秩實際上並沒有太大意義,重要的是計算的原理。而線性代數中最為重要的理念,比如線性空間、線性變換對於理解代數甚至高層次的數學都是非常有幫助的。如果想仔細深入理解線性代數,推薦看國外的教材。
簡單舉幾個例子吧。
1、現在有兩個n維向量(x_1,x_2,...x_n) 、(y_1,y_2,...y_n) ,我們可以定義內積:<x,y>=x_1\cdot y_1+x_2 \cdot y_2+...+x_n\cdot y_n 。有了內積的定義,我們可以另外定義兩個概念:距離和正交。範數可以定義為:||x||=\sqrt{<x,x>} ,相應的距離可以定義為d(x,y)=||x-y|| ,兩個向量x和y正交如果:<x,y>=0 。
現在假設有n個向量:e_1,e_2...e_n ,且滿足:<e_i,e_j>=0 ,那麽我們說這n個向量組成了一組正交基。下面討論規範化的正交基,即||e_i||=1
現在定義a_i=<x,e_i> ,那麽可以得到x=\sum_{i=1}^n a_i\cdot e_i ,或者寫成:
x=Ea, a=(a_1,a_2,...a_n)', E=[e_1,e_2,...e_n] ,同時有E'E=I 。
好了,那麽a就是x在由e_1,e_2...e_n 組成的座標系中的座標。最簡單的比如e_i=(0,0,...1,...0)' ,也就是我們經常使用的座標系。
說這麽多有什麽用呢?你可能還記得傅立葉級數。好了,我們現在把任何一個函數想象成一個向量,我們找一組函數,比如sin(nx), cos(mx) ,我們可以知道,\int_0^{2\pi} sin(nx)cos(mx)dx=0
\int_0^{2\pi} cos(nx)cos(mx)dx=0,n\ne m
\int_0^{2\pi} sin(nx)sin(mx)dx=0,n\ne m
你想到了啥?對了。如果把積分看成是「內積」,那麽以上的sin cos函數就變成了一組正交基,再仔細看一下傅立葉級數的公式,傅立葉級數無非就是把一個函數往這個正交基上進行投影。所以傅立葉級數其實就是得到了一組「座標」而已。當然了,這個座標是無窮維的。學好了線性代數,一般意義上的n維空間能夠想象,擴充套件到無窮維的傅立葉變幻也就沒啥了。而一旦你掌握了傅立葉級數,那麽聲音訊譜處理、影像壓縮等等一些初級技術,也就沒啥問題了。
2、現在考慮一個矩陣A,n-by-n維。一個x維的向量與其相乘意味著什麽?
y=Ax=[a_1,a_2...a_n](x_1,x_2...x_n)'=\sum_{i=1}^n a_i\cdot x_i
也就是把A的列向量的一個線性組合。同時,A這個矩陣把一個n維空間的點x對映到了n維空間的另一個點y,我們把這種對映叫做變換。(關於線性變換,有一大堆可以寫的,在此不說了,理解了線性變換才真正理解了矩陣)
線性變換有很多實用的例子,比如最簡單的,如果我有一個影像,需要旋轉、放大該怎麽做呢?用線性變換。比如:
A=\left[\begin{array}{cc}cos\theta & -sin\theta\\ sin\theta & cos\theta \end{array} \right]
這個矩陣乘以任意一個向量x,就把這個點逆時針旋轉了\theta 度。以上也就是電腦處理二維、三維影像的原理。
3、說起線性變換,有一類特殊的線性變換,叫做投影。比如我有k個n維空間的向量[x_1,...,x_k]=X ,我現在希望找到一個X的線性組合,使得新得到的點與空間上的其他點y距離最小。那麽可以證明,這個點為:
\hat y=X(X'X)^{-1}X'y
現在記矩陣P=X(X'X)^{-1}X', M=I-P ,可以得到:P^2=P, M^2=M, MP=PM=0 。
上面的兩個矩陣,P和M,因為其乘積等於其本身,所以成為冪等矩陣。冪等矩陣跟正交投影是一一對應的。
對於任何兩個向量x,y ,可以得到(Mx)'(Py)=x'MPy=0 ,所以經過M和P的變換之後的向量正交。
如果你仔細觀察,會發現以上推導的東西就是最小平方法OLS。最小平方法的很多優良性質都可以使用冪等矩陣推匯出來,特別是小樣本性質,基本上離不開冪等矩陣。比如最簡單的,根據勾股定理:
y'y=\hat y' \hat y +e'e=y'Py+y'My
如果把正交投影這個概念推廣到概率空間,那就是條件期望的概念了。什麽叠代期望公式之類的,都可以用這個正交投影進行類比。
4、說個實際點的套用吧。Morkov鏈相信大家都聽說過。如果向量x_t 代表了t期的狀態概率分布,根據馬爾科夫性的假設,下一期的狀態分布x_{t+1} 只跟上一期有關,跟x_{t-1},x_{t-2},... 都沒有關系,那麽可以把下一期的狀態分布寫成:
x_{t+1}=Tx_t
其中T為馬爾科夫矩陣,即第(i,j)個元素為從狀態i到狀態j的概率,且每行加起來等於1.
比如:
T=\left[\begin{array}{ccc}0.8 & 0.1 & 0.1\\ 0.2 & 0.6 & 0.2\\ 0.1 & 0.1 & 0.8 \end{array} \right]
那麽一個自然的問題是,當t趨向於無窮,穩定狀態是什麽呢?很簡單,把T進行特征值分解,對於特征值為1的特征向量就是平穩的分布,比如在這個例子裏,平穩的分布是(2/5, 1/5, 2/5)。
另外一個有趣的例子是,如果T代表的不是狀態,而是幾個網頁。比如
T=\left[\begin{array}{ccc}0 & 0.5 & 0.5\\ 1 & 0 & 0\\ 0.5 & 0.5 & 0 \end{array} \right]
這裏的T意味著,第一個頁面參照了第2\3個頁面,第2個頁面參照了第1個頁面,第三個頁面參照了第1、2個頁面,那麽這幾個頁面的重要程度如何呢?
這裏可以這麽想,一個無聊上網的人,從隨機的任何一頁開始看,並完全隨機的點選頁面上的連結,那麽當這個無聊透頂的人不斷的點選之後,這些網頁被點選的概率分布是怎樣的?
同樣的思路,特征值分解,得到最終穩定的分布為(4/9,3/9,2/9),那麽這些網頁的重要性也就評出來了。
這也就是Google的排序演算法PageRank的一個簡化版本