在網上看到的一篇文章,看了以後感觸頗深。他講述了線性代數的本質,對線性空間、向量和矩陣做了直覺的描述。
線性代數課程,無論你從行列式入手還是直接從矩陣入手,從一開始就充斥着莫名其妙。
長按二維碼購買
比如說,在全國一般工科院系教學中應用最廣泛的同濟線性代數教材(現在到了第四版),一上來就介紹逆序數這個古怪概念,然後用逆序數給出行列式的一個極不直觀的定義,接着是一些簡直犯傻的行列式性質和習題——把這行乘一個系數加到另一行上,再把那一列減過來,折騰得那叫一個熱鬧,可就是壓根看不出這個東西有嘛用。
大多數像我一樣資質平庸的學生到這裡就有點犯暈:連這是個什麼東西都模模糊糊的,就開始鑽火圈表演了,這未免太無厘頭了吧!于是開始有人逃課,更多的人開始抄作業。這下就中招了,因為其後的發展可以用一句峰回路轉來形容,緊跟着這個無厘頭的行列式的,是一個同樣無厘頭但是偉大的無以複加的家夥的出場——矩陣來了!多年之後,我才明白,當老師犯傻似地用中括号把一堆傻了吧叽的數括起來,并且不緊不慢地說:“這個東西叫做矩陣”的時候,我的數學生涯掀開了何等悲壯辛酸、慘絕人寰的一幕!自那以後,在幾乎所有跟“學問”二字稍微沾點邊的東西裡,矩陣這個家夥從不缺席。對于我這個沒能一次搞定線性代數的笨蛋來說,矩陣老大的不請自來每每搞得我灰頭土臉,頭破血流。長期以來,我在閱讀中一見矩陣,就如同阿Q見到了假洋鬼子,揉揉額角就繞道走。
事實上,我并不是特例。一般工科學生初學線性代數,通常都會感到困難。這種情形在國内外皆然。瑞典數學家Lars Garding在其名著Encounter with Mathematics中說:“如果不熟悉線性代數的概念,要去學習自然科學,現在看來就和文盲差不多。然而“按照現行的國際标準,線性代數是通過公理化來表述的,它是第二代數學模型,這就帶來了教學上的困難。”事實上,當我們開始學習線性代數的時候,不知不覺就進入了“第二代數學模型”的範疇當中,這意味着數學的表述方式和抽象性有了一次全面的進化,對于從小一直在“第一代數學模型”,即以實用為導向的、具體的數學模型中學習的我們來說,在沒有并明确告知的情況下進行如此劇烈的paradigm shift,不感到困難才是奇怪的。
大部分工科學生,往往是在學習了一些後繼課程,如數值分析、數學規劃、矩陣論之後,才逐漸能夠理解和熟練運用線性代數。即便如此,不少人即使能夠很熟練地以線性代數為工具進行科研和應用工作,但對于很多這門課程的初學者提出的、看上去是很基礎的問題卻并不清楚。比如說:
1、矩陣究竟是什麼東西?
2、向量可以被認為是具有n個相互獨立的性質(維度)的對象的表示,矩陣又是什麼呢?
3、我們如果認為矩陣是一組列(行)向量組成的新的複合向量的展開式,那麼為什麼這種展開式具有如此廣泛的應用?特别是,為什麼偏偏二維的展開式如此有用?
4、如果矩陣中每一個元素又是一個向量,那麼我們再展開一次,變成三維的立方陣,是不是更有用?
5、矩陣的乘法規則究竟為什麼這樣規定?為什麼這樣一種怪異的乘法規則卻能夠在實踐中發揮如此巨大的功效?很多看上去似乎是完全不相關的問題,最後竟然都歸結到矩陣的乘法,這難道不是很奇妙的事情?難道在矩陣乘法那看上去莫名其妙的規則下面,包含着世界的某些本質規律?如果是的話,這些本質規律是什麼?
6、行列式究竟是一個什麼東西?為什麼會有如此怪異的計算規則?行列式與其對應方陣本質上是什麼關系?為什麼隻有方陣才有對應的行列式,而一般矩陣就沒有(不要覺得這個問題很蠢,如果必要,針對mxn矩陣定義行列式不是做不到的,之所以不做,是因為沒有這個必要,但是為什麼沒有這個必要)?而且,行列式的計算規則,看上去跟矩陣的任何計算規則都沒有直觀的聯系,為什麼又在很多方面決定了矩陣的性質?難道這一切僅是巧合?
7、矩陣為什麼可以分塊計算?分塊計算這件事情看上去是那麼随意,為什麼竟是可行的?
8、對于矩陣轉置運算AT,有(AB)T=BTAT,對于矩陣求逆運算A-1,有(AB)-1=B-1A-1。兩個看上去完全沒有什麼關系的運算,為什麼有着類似的性質?這僅僅是巧合嗎?
9、為什麼說P−1AP得到的矩陣與A矩陣“相似”?這裡的“相似”是什麼意思?
10、特征值和特征向量的本質是什麼?它們定義就讓人很驚訝,因為Ax=λx,一個諾大的矩陣的效應,竟然不過相當于一個小小的數λ,确實有點奇妙。但何至于用“特征”甚至“本征”來界定?它們刻劃的究竟是什麼?
這樣的一類問題,經常讓使用線性代數已經很多年的人都感到為難。就好像大人面對小孩子的刨根問底,最後總會迫不得已地說“就這樣吧,到此為止”一樣,面對這樣的問題,很多老手們最後也隻能用:“就是這麼規定的,你接受并且記住就好”來搪塞。
然而,這樣的問題如果不能獲得回答,線性代數對于我們來說就是一個粗暴的、不講道理的、莫名其妙的規則集合,我們會感到,自己并不是在學習一門學問,而是被不由分說地“抛到”一個強制的世界中,隻是在考試的皮鞭揮舞之下被迫趕路,全然無法領略其中的美妙、和諧與統一。直到多年以後,我們已經發覺這門學問如此的有用,卻仍然會非常迷惑:怎麼這麼湊巧?我認為這是我們的線性代數教學中直覺性喪失的後果。上述這些涉及到“如何能”、“怎麼會”的問題,僅僅通過純粹的數學證明來回答,是不能令提問者滿意的。比如,如果你通過一般的證明方法論證了矩陣分塊運算确實可行,那麼這并不能夠讓提問者的疑惑得到解決。他們真正的困惑是:矩陣分塊運算為什麼竟然是可行的?究竟隻是湊巧,還是說這是由矩陣這種對象的某種本質所必然決定的?如果是後者,那麼矩陣的這些本質是什麼?隻要對上述那些問題稍加考慮,我們就會發現,所有這些問題都不是單純依靠數學證明所能夠解決的。像我們的教科書那樣,凡事用數學證明,最後培養出來的學生,隻能熟練地使用工具,卻欠缺真正意義上的理解。
自從1930年代法國布爾巴基學派興起以來,數學的公理化、系統性描述已經獲得巨大的成功,這使得我們接受的數學教育在嚴謹性上大大提高。然而數學公理化的一個備受争議的副作用,就是一般數學教育中直覺性的喪失。數學家們似乎認為直覺性與抽象性是矛盾的,因此毫不猶豫地犧牲掉前者。然而包括我本人在内的很多人都對此表示懷疑,我們不認為直覺性與抽象性一定相互矛盾,特别是在數學教育中和數學教材中,幫助學生建立直覺,有助于它們理解那些抽象的概念,進而理解數學的本質。反之,如果一味注重形式上的嚴格性,學生就好像被迫進行鑽火圈表演的小白鼠一樣,變成枯燥的規則的奴隸。
對于線性代數的類似上述所提到的一些直覺性的問題,兩年多來我斷斷續續地反複思考了四、五次,為此閱讀了好幾本國内外線性代數、數值分析、代數和數學通論性書籍,其中像前蘇聯的名著《數學:它的内容、方法和意義》、龔昇教授的《線性代數五講》、前面提到的Encounter with Mathematics(《數學概觀》)以及Thomas A. Garrity的《數學拾遺》都給我很大的啟發。不過即使如此,我對這個主題的認識也經曆了好幾次自我否定。比如以前思考的一些結論曾經寫在自己的blog裡,但是現在看來,這些結論基本上都是錯誤的。因此打算把自己現在的有關理解比較完整地記錄下來,一方面是因為我覺得現在的理解比較成熟了,可以拿出來與别人探讨,向别人請教。另一方面,如果以後再有進一步的認識,把現在的理解給推翻了,那現在寫的這個snapshot也是很有意義的。
今天先談談對線形空間和矩陣的幾個核心概念的理解。這些東西大部分是憑着自己的理解寫出來的,基本上不抄書,可能有錯誤的地方,希望能夠被指出。但我希望做到直覺,也就是說能把數學背後說的實質問題說出來。
首先說說空間(space),這個概念是現代數學的命根子之一,從拓撲空間開始,一步步往上加定義,可以形成很多空間。線形空間其實還是比較初級的,如果在裡面定義了範數,就成了賦範線性空間。賦範線性空間滿足完備性,就成了巴那赫空間;賦範線性空間中定義角度,就有了内積空間,内積空間再滿足完備性,就得到希爾伯特空間。總之,空間有很多種。你要是去看某種空間的數學定義,大緻都是:存在一個集合,在這個集合上定義某某概念,然後滿足某些性質,就可以被稱為空間。這未免有點奇怪,為什麼要用“空間”來稱呼一些這樣的集合呢?大家将會看到,其實這是很有道理的。我們一般人最熟悉的空間,毫無疑問就是我們生活在其中的(按照牛頓的絕對時空觀)的三維空間,從數學上說,這是一個三維的歐幾裡德空間,我們先不管那麼多,先看看我們熟悉的這樣一個空間有些什麼最基本的特點,然後再把我們生活的這個三維空間推廣到其他空間。仔細想想我們就會知道,這個三維的空間:
1.由很多(實際上是無窮多個)位置點組成;
2.這些點之間存在相對的關系;
3.可以在空間中定義長度、角度;
4.這個空間可以容納運動,這裡我們所說的運動是從一個點到另一個點的移動(變換),而不是微積分意義上的“連續”性的運動。
上面的這些性質中,最最關鍵的是第4條。第1、2條隻能說是空間的基礎,不算是空間特有的性質,凡是讨論數學問題,都得有一個集合,大多數還得在這個集合上定義一些結構(關系),并不是說有了這些就算是空間。而第3條太特殊,其他的空間不需要具備,更不是關鍵的性質。隻有第4條是空間的本質,也就是說,容納運動是空間的本質特征。認識到了這些,我們就可以把我們關于三維空間的認識擴展到其他的空間。事實上,不管是什麼空間,都必須容納和支持在其中發生的符合規則的運動(變換)。你會發現,在某種空間中往往會存在一種相對應的變換,比如拓撲空間中有拓撲變換,線性空間中有線性變換,仿射空間中有仿射變換,其實這些變換都隻不過是對應空間中允許的運動形式而已。 因此隻要知道,“空間”是容納運動的對象的集合,而變換則規定了對應空間的運動。下面我們來看看線性空間。線性空間的定義任何一本書上都有,但是既然我們承認線性空間是個空間,那麼有兩個最基本的問題必須首先得到解決,那就是:
1.空間是一個對象集合,線性空間也是空間,所以也是一個對象集合(一個集合)。那麼線性空間是什麼樣的對象的集合?或者說,線性空間中的對象有什麼共同點嗎?
2.線性空間中的運動如何表述的?也就是,線性變換是如何表示的?
我們先來回答第一個問題,回答這個問題的時候其實是不用拐彎抹角的,可以直截了當的給出答案:線性空間中的任何一個對象,通過選取基和坐标的辦法,都可以表達為向量的形式。通常的向量空間我就不說了,舉兩個不那麼平凡的例子:
1、L1是最高次項不大于n次的多項式的全體構成一個線性空間,也就是說,這個線性空間中的每一個對象是一個多項式。如果我們以x0,x1,...,xn為基,那麼任何一個這樣的多項式都可以表達為一組n 1維向量,其中的每一個分量ai其實就是多項式中xi−1項的系數。值得說明的是,基的選取有多種辦法,隻要所選取的那一組基線性無關就可以。這要用到後面提到的概念了,所以這裡先不說,提一下而已。
2、L2是閉區間[a, b]上的n階連續可微函數的全體,構成一個線性空間。也就是說,這個線性空間的每一個對象是一個連續函數。對于其中任何一個連續函數,根據魏爾斯特拉斯定理,一定可以找到最高次項不大于n的多項式函數,使之與該連續函數的差為0,也就是說,完全相等。這樣就把問題歸結為L1了。後面就不用再重複了。
所以說,向量是很厲害的,隻要你找到合适的基,用向量可以表示線性空間裡任何一個對象。這裡頭大有文章,因為向量表面上隻是一列數,但是其實由于它的有序性,所以除了這些數本身攜帶的信息之外,還可以在每個數的對應位置上攜帶信息。為什麼在程序設計中數組最簡單,卻又威力無窮呢?根本原因就在于此。
這是另一個問題了,這裡就不說了。
下面來回答第二個問題,這個問題的回答會涉及到線性代數的一個最根本的問題。線性空間中的運動,被稱為線性變換。也就是說,你從線性空間中的一個點運動到任意的另外一個點,都可以通過一個線性變化來完成。那麼,線性變換如何表示呢?很有意思,在線性空間中,當你選定一組基之後,不僅可以用一個向量來描述空間中的任何一個對象,而且可以用矩陣來描述該空間中的任何一個運動(變換)。而使某個對象發生對應運動的方法,就是用代表那個運動的矩陣,乘以代表那個對象的向量。簡而言之,在線性空間中選定基之後,向量刻畫對象,矩陣刻畫對象的運動,用矩陣與向量的乘法施加運動。是的,矩陣的本質是運動的描述。
如果以後有人問你矩陣是什麼,那麼你就可以響亮地告訴他,矩陣的本質是運動的描述。
可是多麼有意思啊,向量本身不是也可以看成是n x 1矩陣嗎?這實在是很奇妙,一個空間中的對象和運動竟然可以用相類同的方式表示。能說這是巧合嗎?如果是巧合的話,那可真是幸運的巧合!可以說,線性代數中大多數奇妙的性質,均與這個巧合有直接的關系。
接着理解矩陣,上面說“矩陣是運動的描述”,到現在為止,好像大家都還沒什麼意見。但是我相信早晚會有數學系出身的網友來拍闆轉。因為運動這個概念,在數學和物理裡是跟微積分聯系在一起的。我們學習微積分的時候,總會有人照本宣科地告訴你,初等數學是研究常量的數學,是研究靜态的數學,高等數學是變量的數學,是研究運動的數學。大家口口相傳,差不多人人都知道這句話。但是真知道這句話說的是什麼意思的人,好像也不多。
因為這篇文章不是講微積分的,所以我就不多說了。有興趣的讀者可以去看看齊民友教授寫的《重溫微積分》。我就是讀了這本書開頭的部分,才明白“高等數學是研究運動的數學”這句話的道理。不過在我這個《理解矩陣》的文章裡,“運動”的概念不是微積分中的連續性的運動,而是瞬間發生的變化。比如這個時刻在A點,經過一個“運動”,一下子就“躍遷”到了B點,其中不需要經過A點與B點之間的任何一個點。這樣的“運動”,或者說“躍遷”,是違反我們日常的經驗的。不過了解一點量子物理常識的人,就會立刻指出,量子(例如電子)在不同的能量級軌道上跳躍,就是瞬間發生的,具有這樣一種躍遷行為。所以說,自然界中并不是沒有這種運動現象,隻不過宏觀上我們觀察不到。但是不管怎麼說,“運動”這個詞用在這裡,還是容易産生歧義的,說得更确切些,應該是“躍遷”。因此這句話可以改成:“矩陣是線性空間裡躍遷的描述”。可是這樣說又太物理,也就是說太具體,而不夠數學,也就是說不夠抽象。因此我們最後換用一個正牌的數學術語——變換,來描述這個事情。這樣一說,大家就應該明白了,所謂變換,其實就是空間裡從一個點(元素/對象)到另一個點(元素/對象)的躍遷。比如說,仿射變換,就是在仿射空間裡從一個點到另一個點的躍遷。
附帶說一下,這個仿射空間跟向量空間是親兄弟。做計算機圖形學的朋友都知道,盡管描述一個三維對象隻需要三維向量,但所有的計算機圖形學變換矩陣都是4x4的。說其原因,很多書上都寫着“為了使用中方便”,這在我看來簡直就是企圖蒙混過關。真正的原因,是因為在計算機圖形學裡應用的圖形變換,實際上是在仿射空間而不是向量空間中進行的。想想看,在向量空間裡相一個向量平行移動以後仍是相同的那個向量,而現實世界等長的兩個平行線段當然不能被認為同一個東西,所以計算機圖形學的生存空間實際上是仿射空間。而仿射變換的矩陣表示根本就是4x4的。有興趣的讀者可以去看《計算機圖形學——幾何工具算法詳解》。
一旦我們理解了“變換”這個概念,矩陣的定義就變成:矩陣是線性空間裡的變換的描述。到這裡為止,我們終于得到了一個看上去比較數學的定義。不過還要多說幾句。教材上一般是這麼說的,在一個線性空間V裡的一個線性變換T,當選定一組基之後,就可以表示為矩陣。因此我們還要說清楚到底什麼是線性變換,什麼是基,什麼叫選定一組基。線性變換的定義是很簡單的,設有一種變換T,使得對于線性空間V中間任何兩個不相同的對象x和y,以及任意實數a和b,有:T(ax by)=aT(x) bT(y),那麼就稱T為線性變換。定義都是這麼寫的,但是光看定義還得不到直覺的理解。線性變換究竟是一種什麼樣的變換?我們剛才說了,變換是從空間的一個點躍遷到另一個點,而線性變換,就是從一個線性空間V的某一個點躍遷到另一個線性空間W的另一個點的運動。這句話裡蘊含着一層意思,就是說一個點不僅可以變換到同一個線性空間中的另一個點,而且可以變換到另一個線性空間中的另一個點去。不管你怎麼變,隻要變換前後都是線性空間中的對象,這個變換就一定是線性變換,也就一定可以用一個非奇異矩陣來描述。而你用一個非奇異矩陣去描述的一個變換,一定是一個線性變換。
有的人可能要問,這裡為什麼要強調非奇異矩陣?所謂非奇異,隻對方陣有意義,那麼非方陣的情況怎麼樣?這個說起來就會比較冗長了,最後要把線性變換作為一種映射,并且讨論其映射性質,以及線性變換的核與像等概念才能徹底講清楚。
以下我們隻探讨最常用、最有用的一種變換,就是在同一個線性空間之内的線性變換。也就是說,下面所說的矩陣,不作說明的話,就是方陣(非方矩陣好像可以跨線性空間變換?),而且是非奇異方陣。
學習一門學問,最重要的是把握主幹内容,迅速建立對于這門學問的整體概念,不必一開始就考慮所有的細枝末節和特殊情況,自亂陣腳。
什麼是基呢?這個問題在後面還要大講一番,這裡隻要把基看成是線性空間裡的坐标系就可以了。注意是坐标系,不是坐标值,這兩者可是一個“對立矛盾統一體”。
這樣一來,“選定一組基”就是說在線性空間裡選定一個坐标系。好,最後我們把矩陣的定義完善如下:“矩陣是線性空間中的線性變換的一個描述。在一個線性空間中,隻要我們選定一組基,那麼對于任何一個線性變換,都能夠用一個确定的矩陣來加以描述。”理解這句話的關鍵,在于把“線性變換”與“線性變換的一個描述”區别開。一個是那個對象,一個是對那個對象的表述。就好像我們熟悉的面向對象編程中,一個對象可以有多個引用,每個引用可以叫不同的名字,但都是指的同一個對象。如果還不形象,那就幹脆來個很俗的類比。比如有一頭豬,你打算給它拍照片,隻要你給照相機選定了一個鏡頭位置,那麼就可以給這頭豬拍一張照片。
這個照片可以看成是這頭豬的一個描述,但隻是一個片面的的描述,因為換一個鏡頭位置給這頭豬拍照,能得到一張不同的照片,也是這頭豬的另一個片面的描述。
所有這樣照出來的照片都是這同一頭豬的描述,但是又都不是這頭豬本身。同樣的,對于一個線性變換,隻要你選定一組基,那麼就可以找到一個矩陣來描述這個線性變換。換一組基,就得到一個不同的矩陣。所有這些矩陣都是這同一個線性變換的描述,但又都不是線性變換本身。
但是這樣的話,問題就來了如果你給我兩張豬的照片,我怎麼知道這兩張照片上的是同一頭豬呢?同樣的,你給我兩個矩陣,我怎麼知道這兩個矩陣是描述的同一個線性變換呢?如果是同一個線性變換的不同的矩陣描述,那就是本家兄弟了,見面不認識,豈不成了笑話。好在,我們可以找到同一個線性變換的矩陣兄弟們的一個性質,那就是:若矩陣A與B是同一個線性變換的兩個不同的描述(之所以會不同,是因為選定了不同的基,也就是選定了不同的坐标系),則一定能找到一個非奇異矩陣P,使得A、B之間滿足這樣的關系:A=P−1BP。線性代數稍微熟一點的讀者一下就看出來,這就是相似矩陣的定義。沒錯,所謂相似矩陣,就是同一個線性變換的不同的描述矩陣。按照這個定義,同一頭豬的不同角度的照片也可以成為相似照片。俗了一點,不過能讓人明白。而在上面式子裡那個矩陣P,其實就是A矩陣所基于的基與B矩陣所基于的基這兩組基之間的一個變換關系。
關于這個結論,可以用一種非常直覺的方法來證明(而不是一般教科書上那種形式上的證明),如果有時間的話,我以後在blog裡補充這個證明。這個發現太重要了。原來一族相似矩陣都是同一個線性變換的描述啊!難怪這麼重要!工科研究生課程中有矩陣論、矩陣分析等課程,其中講了各種各樣的相似變換,比如什麼相似标準型,對角化之類的内容,都要求變換以後得到的那個矩陣與先前的那個矩陣式相似的,為什麼這麼要求?因為隻有這樣要求,才能保證變換前後的兩個矩陣是描述同一個線性變換的。
首先來總結一下前面部分的一些主要結論:
1.首先有空間,空間可以容納對象運動的。一種空間對應一類對象。
2.有一種空間叫線性空間,線性空間是容納向量對象運動的。
3.運動是瞬時的,因此也被稱為變換。
4.矩陣是線性空間中運動(變換)的描述。
5.矩陣與向量相乘,就是實施運動(變換)的過程。
6.同一個變換,在不同的坐标系下表現為不同的矩陣,但是它們的本質是一樣的,所以本征值(特征值)相同。
當然,同一個線性變換的不同矩陣描述,從實際運算性質來看并不是不分好環的。有些描述矩陣就比其他的矩陣性質好得多。這很容易理解,同一頭豬的照片也有
美醜之分嘛。所以矩陣的相似變換可以把一個比較醜的矩陣變成一個比較美的矩陣,而保證這兩個矩陣都是描述了同一個線性變換。這樣一來,矩陣作為線性變換描述的一面,基本上說清楚了。但是,事情沒有那麼簡單,或者說,線性代數還有比這更奇妙的性質,那就是,矩陣不僅可以作為線性變換的描述,而且可以作為一組基的描述。而作為變換的矩陣,不但可以把線性空間中的一個點給變換到另一個點去,而且也能夠把線性空間中的一個坐标系(基)表換到另一個坐标系(基)去。而且,變換點與變換坐标系,具有異曲同工的效果。線性代數裡最有趣的奧妙,就蘊含在其中。理解了這些内容,線性代數裡很多定理和規則會變得更加清晰、直覺。
下面讓我們把視力集中到一點以改變我們以往看待矩陣的方式。我們知道,線性空間裡的基本對象是向量。
向量是這麼表示的:[a1,a2,a3,...,an]。矩陣是這麼表示的:a11,a12,a13,...,a1n,a21,a22,a23,...,a2n,...,an1,an2,an3,...,ann
不用太聰明,我們就能看出來,矩陣是一組向量組成的。特别的,n維線性空間裡的方陣是由n個n維向量組成的。我們在這裡隻讨論這個n階的、非奇異的方陣,因為理解它就是理解矩陣的關鍵,它才是一般情況,而其他矩陣都是意外,都是不得不對付的讨厭狀況,大可以放在一邊。
這裡多一句嘴,學習東西要抓住主流,不要糾纏于旁支末節。很可惜我們的教材課本大多數都是把主線埋沒在細節中的,搞得大家還沒明白怎麼回事就先被灌暈了。
比如數學分析,明明最要緊的觀念是說,一個對象可以表達為無窮多個合理選擇的對象的線性和,這個概念是貫穿始終的,也是數學分析的精華。
但是課本裡自始至終不講這句話,反正就是讓你做吉米多維奇,掌握一大堆解偏題的技巧,記住各種特殊情況,
兩類間斷點,怪異的可微和可積條件(誰還記得柯西條件、迪裡赫萊條件...?),最後考試一過,一切忘光光。
要我說,還不如反複強調這一個事情,把它深深刻在腦子裡,别的東西忘了就忘了,真碰到問題了,再查數學手冊嘛,何必因小失大呢?
言歸正傳,如果一組向量是彼此線性無關的話,那麼它們就可以成為度量這個線性空間的一組基,從而事實上成為一個坐标系體系,其中每一個向量都躺在一根坐标軸上,并且成為那根坐标軸上的基本度量單位(長度1)。現在到了關鍵的一步。看上去矩陣就是由一組向量組成的,而且如果矩陣非奇異的話(我說了,隻考慮這種情況),那麼組成這個矩陣的那一組向量也就是線性無關的了,也就可以成為度量線性空間的一個坐标系。結論:矩陣描述了一個坐标系。“慢着!”,你嚷嚷起來了,“你這個騙子!你不是說過,矩陣就是運動嗎?怎麼這會矩陣又是坐标系了?”嗯,所以我說到了關鍵的一步。我并沒有騙人,之所以矩陣又是運動,又是坐标系,那是因為——“運動等價于坐标系變換”。對不起,這話其實不準确,我隻是想讓你印象深刻。準确的說法是:“對象的變換等價于坐标系的變換”。或者:“固定坐标系下一個對象的變換等價于固定對象所處的坐标系變換。”說白了就是:“運動是相對的。”
讓我們想想,達成同一個變換的結果,比如把點(1,1)變到點(2,3)去,你可以有兩種做法。第一,坐标系不動,點動,把(1,1)點挪到(2,3)去。第二,點不動,變坐标系,讓x軸的度量(單位向量)變成原來的1/2,讓y軸的度量(單位向量)變成原先的1/3,這樣點還是那個點,可是點的坐标就變成(2,3)了。方式不同,結果一樣。從第一個方式來看,那就是把矩陣看成是運動描述,矩陣與向量相乘就是使向量(點)運動的過程。在這個方式下,Ma=b的意思是:“向量a經過矩陣M所描述的變換,變成了向量b。”而從第二個方式來看,矩陣M描述了一個坐标系,姑且也稱之為M。那麼:Ma=b的意思是:“有一個向量,它在坐标系M的度量下得到的度量結果向量為a,那麼它在坐标系I的度量下,這個向量的度量結果是b。”這裡的I是指單位矩陣,就是主對角線是1,其他為零的矩陣。而這兩個方式本質上是等價的。我希望你務必理解這一點,因為這是本篇的關鍵。正因為是關鍵,所以我得再解釋一下。在M為坐标系的意義下,如果把M放在一個向量a的前面,形成Ma的樣式,我們可以認為這是對向量a的一個環境聲明。它相當于是說:“注意了!這裡有一個向量,它在坐标系M中度量,得到的度量結果可以表達為a。可是它在别的坐标系裡度量的話,就會得到不同的結果。為了明确,我把M放在前面,讓你明白,這是該向量在坐标系M中度量的結果。”
那麼我們再看孤零零的向量b:b多看幾遍,你沒看出來嗎?它其實不是b,它是:Ib也就是說:“在單位坐标系,也就是我們通常說的直角坐标系I中,有一個向量,度量的結果是b。”而Ma=Ib的意思就是說:“在M坐标系裡量出來的向量a,跟在I坐标系裡量出來的向量b,其實根本就是一個向量啊!”這哪裡是什麼乘法計算,根本就是身份識别嘛。
從這個意義上我們重新理解一下向量。向量這個東西客觀存在,但是要把它表示出來,就要把它放在一個坐标系中去度量它,然後把度量的結果(向量在各個坐标軸上的投影值)按一定順序列在一起,就成了我們平時所見的向量表示形式。你選擇的坐标系(基)不同,得出來的向量的表示就不同。向量還是那個向量,選擇的坐标系不同,其表示方式就不同。因此,按道理來說,每寫出一個向量的表示,都應該聲明一下這個表示是在哪個坐标系中度量出來的。表示的方式,就是Ma,也就是說,有一個向量,在M矩陣表示的坐标系中度量出來的結果為a。我們平時說一個向量是[2 3 5 7]T,隐含着是說,這個向量在 I 坐标系中的度量結果是[2 3 5 7]T,因此,這個形式反而是一種簡化了的特殊情況。
注意到,M矩陣表示出來的那個坐标系,由一組基組成,而那組基也是由向量組成的,同樣存在這組向量是在哪個坐标系下度量而成的問題。也就是說,表述一個矩陣的一般方法,也應該要指明其所處的基準坐标系。所謂M,其實是 IM,也就是說,M中那組基的度量是在 I 坐标系中得出的。從這個視角來看,M×N也不是什麼矩陣乘法了,而是聲明了一個在M坐标系中量出的另一個坐标系N,其中M本身是在I坐标系中度量出來的。回過頭來說變換的問題。我剛才說,“固定坐标系下一個對象的變換等價于固定對象所處的坐标系變換”,那個“固定對象”我們找到了,就是那個向量。但是坐标系的變換呢?我怎麼沒看見?請看:Ma = Ib 我現在要變M為I,怎麼變?對了,再前面乘以個M-1,也就是M的逆矩陣。換句話說,你不是有一個坐标系M嗎,現在我讓它乘以個M-1,變成I,這樣一來的話,原來M坐标系中的a在I中一量,就得到b了。我建議你此時此刻拿起紙筆,畫畫圖,求得對這件事情的理解。比如,你畫一個坐标系,x軸上的衡量單位是2,y軸上的衡量單位是3,在這樣一個坐标系裡,坐标為(1,1)的那一點,實際上就是笛卡爾坐标系裡的點(2, 3)。而讓它原形畢露的辦法,就是把原來那個坐标系:2 00 3的x方向度量縮小為原來的1/2,而y方向度量縮小為原來的1/3,這樣一來坐标系就變成單位坐标系I了。保持點不變,那個向量現在就變成了(2, 3)了。怎麼能夠讓“x方向度量縮小為原來的1/2,而y方向度量縮小為原來的1/3”呢?就是讓原坐标系:2 00 3被矩陣:1/2 00 1/3左乘。而這個矩陣就是原矩陣的逆矩陣。
下面我們得出一個重要的結論:“對坐标系施加變換的方法,就是讓表示那個坐标系的矩陣與表示那個變化的矩陣相乘。”
再一次的,矩陣的乘法變成了運動的施加。隻不過,被施加運動的不再是向量,而是另一個坐标系。
如果你覺得你還搞得清楚,請再想一下剛才已經提到的結論,矩陣MxN,一方面表明坐标系N在運動M下的變換結果,另一方面,把M當成N的前綴,當成N的環境描述,那麼就是說,在M坐标系度量下,有另一個坐标系N。這個坐标系N如果放在I坐标系中度量,其結果為坐标系MxN。
在這裡,我實際上已經回答了一般人在學習線性代數是最困惑的一個問題,那就是為什麼矩陣的乘法要規定成這樣。簡單地說,是因為:
1. 從變換的觀點看,對坐标系N施加M變換,就是把組成坐标系N的每一個向量施加M變換。
2. 從坐标系的觀點看,在M坐标系中表現為N的另一個坐标系,這也歸結為,對N坐标系基的每一個向量,把它在I坐标系中的坐标找出來,然後彙成一個新的矩陣。
3. 至于矩陣乘以向量為什麼要那樣規定,那是因為一個在M中度量為a的向量,如果想要恢複在I中的真像,就必須分别與M中的每一個向量進行內積運算。我把這個結論的推導留給感興趣的朋友吧。應該說,其實到了這一步,已經很容易了。
綜合以上1/2/3,矩陣的乘法就得那麼規定,一切有根有據,絕不是哪個神經病胡思亂想出來的。
我已經無法說得更多了。矩陣又是坐标系,又是變換。到底是坐标系,還是變換,已經說不清楚了,運動與實體在這裡統一了,物質與意識的界限已經消失了,一切歸于無法言說,無法定義了。道可道,非常道,名可名,非常名。矩陣是在是不可道之道,不可名之名的東西。到了這個時候,我們不得不承認,我們偉大的線性代數課本上說的矩陣定義,是無比正确的:“矩陣就是由m行n列數放在一起組成的數學對象。”
矩陣A
[a 11 ,a 12 ][a 21 ,a 22 ]
事實上由兩個向量[a 11 ,a 21 ] T 和[a 12 ,a 22 ] T (這裡的向量都是列向量)組成,它描述了一個平面(仿射)坐标系。換句話說,這兩個向量其實是這個坐标系的兩個基,而運算y=Ax 則是告訴我們,在A 這個坐标系下的x向量,在I 坐标系下是怎樣的。這裡的I 坐标系就是我們最常用的直角坐标系,也就是說,任何向量(包括矩陣裡邊的向量),隻要它前面沒有矩陣作用于它,那麼它都是在直角坐标系下度量出來的。(事實上,單位矩陣I是默認的直角坐标系,這一說法并非總是成立的,但是我們現在尋求直觀的理解方式,我們就用最簡單的東西來實行。)
太多的文字未必能夠把問題說清楚,我們需要一張圖來解釋一下:
圖上所用的矩陣A是[3,2][1,3]
這構成了一個仿射坐标系,在這個坐标系下,有一個向量x=[2,2] T ,它在直角坐标系下測得的坐标為[10,8] T ,現在我們不難發現,直接用矩陣乘法來計算,有
Ax=[3*2 2*2,1*2 3*2] T =[10,8] T正是我們所期待的,一個向量被它所在的坐标系左乘得到的就是這個向量在I坐标系下的表示形式。
為什麼會有這樣的特點?其實這源于我們對矩陣乘法的定義,反過來,如果我們用這樣的幾何方式來定義矩陣乘法,那麼我們也将得到在書本上了解到的矩陣乘法計算公式。更高階的矩陣也可以作同樣的類比。推導過程隻是一道很簡單的練習題,讀者不妨自己動筆嘗試一下?
現在我們又回到孟岩文章上的說法了,對于矩陣作用于一個向量(對應的一個點),我們既可以看作點沒有變,隻不過是坐标系從直角坐标系變換為仿射坐标系而已;另一方面,我們也可以看做矩陣把直角坐标系的一個A'點“運動”(變換)到了A點。這兩種說法都行,正如孟岩所說的“運動是相對的”。更正确地講,兩種說法都要同時被提及,才算是最好的理解。矩陣是一個點到另外一個點的變換,變換的方式就是坐标系的變換。
當然,上面隻讨論了矩陣乘以向量的乘法,那麼矩陣乘以矩陣呢?比如AB ,我們就可以看作是矩陣B 給出了一個坐标系,但是這個坐标系的各個分量是在A 坐标系下測量得到的,而A 是在直角坐标系下測量得到的,所以要把B 的各個分量(列向量)與矩陣A作乘法後,才得到了這個仿射坐标系在直角坐标系下的“像”。這很直接地導緻了矩陣乘以矩陣的計算公式,也很顯然地回答了“為什麼n階方陣隻有與n階方陣相乘才有意義”,因為兩者要在同一空間中測量,才能夠完整而唯一地把測量值确定下來。正如,在n 1維的空間中讨論n個n維向量是沒有意義的,因為在n 1維空間中的觀測者看來,它們隻不過是一個“面”,多出的一個維度可以随意變化;在n維空間中讨論n 1維向量就更沒有意義了,因為維度根本就不夠用。
有了這個直觀的幾何意義,很多問題看起來幾乎都是顯然的了,比如那些行列式問題,還有相似矩陣等等,這将在下回談到。
我們已經大概了解到,數字的有序組合産生了向量,向量的有序組合産生了矩陣。這樣兩個新構造出來的對象,作用一個比一個大。那麼有人會聯想到:矩陣的有序組合,就可以産生一個“立方陣”,它的功能會不會更加強大?更一般的,n維立方陣呢?這種聯想是有道理的,數學上也有這樣的研究對象,它就是張量。
最通俗的說法,n階張量就是一個n維立方陣,所以0階張量就對應一個數,向量、矩陣分别對應1階和2階張量,我們所說的三維立方陣,就是3階張量啦。當然,張量屬于很高深的數學理論,它的性質和作用不可能這麼簡單就說清楚了。回想當年,愛因斯坦就是用張量分析作為工具,建立起他那偉大的廣義相對論的。如果有機會的話,我們一定會重新造訪它。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!