“人機大戰”引思考:AI能推動對人腦的理解嗎

韓國棋手李世石(右)與人工智能AlphaGo對決中落下第一子。東方IC
本報首席記者姜澎
也許是有史以來最強大的人工智能“阿爾法圍棋”(AlphaGo)昨天戰勝了韓國圍棋高手李世石九段,成為學界熱議的焦點——人工智能(AI)專家們從中看到了具有深度學習功能的AI一日千里的進步;腦科學家們則在考慮當人類更深刻地理解大腦後,是否能製造出比AlphaGo更強的神經網絡。
贏在意料之中
上海紐約大學研究人工智能的教授張崢此前已經斷言,AlphaGo贏棋毫無懸念。“按照AlphaGo的學習和自學習規則,一日千里的行軍速度,不要説是在過去五個月中進步飛速,即便是把圍棋改成3D模式,它也一定會超過人類棋手。因為同一個棋盤,AlphaGo一天可以死上萬次,人一天才只能摔幾個跟頭而已。”
張崢稱,此前認為人工智能百分百會贏,是基於AlphaGo的技術細節。因為AlphaGo的卷積網絡從小局部開始總結,小局部的經驗可以自然遷移(和位置無關)。圍棋戰鬥中局部纏鬥居多,抖動全局的蝴蝶效應該有,但不多,這是AlphaGo佔便宜的另一個地方。也就是説,19×19的經驗可以挪用到20×20。所以,如果想勝,多造蝴蝶。
人和機器間的思維鴻溝在昨天的棋局中“一覽無遺”。他舉一個例子,在昨天的實戰評論中出現了“AlphaGo在這裡尖了一步”、“AlphaGo這裡一步是打劫”、“補了這裡”、“壓了那裏”……張崢説,“AlphaGo如果聽了這些評論簡直要笑死。不是因為它聽明白了,而是因為它根本聽不懂,也不會這麼去思考。”AlphaGo的策略就是,哪價值大就下哪,頭腦簡單而粗暴。事實上,“飛”“尖”“壓”這樣的標籤,對機器來説是個很難的分類任務:相對哪部分棋子是“飛”,為什麼不是對那部分的“尖”? 這是計算機視覺領域的一個傳統老問題:what-where。“打劫”這種時間序列上的標籤就更難了。AlphaGo根本就不理這種問題,要消化這類問題會難死它。
靠什麼一日千里
據上海紐約大學副校長、計算神經生物學教授汪小京介紹,AlphaGo的工作方式是經典的多層前饋卷積神經網絡。這類網絡的出現很大程度是受到神經科學的 啟發,其中尤其重要的是上世紀50年代諾貝爾獎獲得者胡貝爾和威塞爾對視覺皮層的工作。AlphaGo的進展很大程度上來源於谷歌強大的計算資源和工程師團隊以及對於若干經典算法的整合和改良。
所謂“深度學習”是植根於對大腦視覺系統的研究。視覺系統由很多“層”神經網絡組成,神經信號經第一層處理後送至第二層,經第二層進一步處理後送至第三層,以此類推。層與層之間的網絡連接是通過學習訓練而形成的。深度學習系統在完成某些任務上已接近人的能力。然而目前這個理論還有相當大的局限。例如,深度網絡模型通常只有“前饋”連接(從第一層到第二層、第二層到第三層,等等),而人腦的神經系統有很多“反饋”連接(從第三層回到第二層,等等),比如視覺注意力就來自於從高級“控制”腦區到初級視覺腦區的反饋信號。
簡單來説,AlphaGo有三套網絡,可以看作是兩個大腦,一套是走棋網絡和快速下棋網絡可以看作是一個大腦,還有一套估值網絡則是對大局進行判斷。
第一個神經網絡大腦是“監督學習的策略網絡”,也是落子選擇器,主要是觀察棋盤布局並預測每一個合法下一步的最佳概率,並找到這個下一步。“強化學習的策略網絡”則是更強的落子選擇器,這一策略網絡不是簡單審視單一棋盤位置,再提出從那個位置分析出來的落子。也不模擬任何未來的走法,而是分析最佳策略。這展示了簡單的深度神經網絡學習的力量。同時,還有快速落子選擇器,這個神經網絡觀察對手之前下的子和新下的子,觀察棋盤的局部,使得決策更快。
第二個大腦則是估值神經網絡大腦,也是棋局評估器。這個大腦並不猜測具體下一步,而是預測每一個棋手贏棋的可能。通過整體局面判斷來輔助落子選擇器。這個判斷僅僅是大概的,但對於閱讀速度提高很有幫助。通過分類潛在的未來局面的“好”與“壞”,AlphaGo能夠決定是否通過特殊變種去深入閱讀。如果局面評估器説這個特殊變種不行,那麼AI就取消這一思路上的任何落子。
在學界看來,AlphaGo這類AI可以説是目前類腦人工智能一個比較好的實現。那麼,當我們更深刻地理解大腦後,能夠製造出比AlphaGo更強的神經網絡,還是我們對類腦智能有了更好的研究後能推動對人腦的理解呢? 這在業界學者看來是一個目前令人困惑的問題。汪小京認為,發展腦科學基礎研究,將促進“深度學習”等類腦智能技術的蓬勃發展。而在張崢看來,類腦神經網絡中的估值判斷網絡就是由優美的數學算法來架構表達。這也使得一些頂尖的神經科學家和數學家在研究,目前這一數學算法是否可以推廣到對人類大腦神經網絡的研究中。
消滅機器和人類之間的理解鴻溝
每當AI取得進展都會引起爭議,有人認為AI是要超越人類,甚至威脅全人類了。AlphaGo贏棋也引起了這類爭論。
“AlphaGo也許會打破人類的心理安全底線,但是‘打不過,難道不是製造任何工具的目的?如果買來的錘子還沒你拳頭硬,那誰會買。日常生活中所有工具的存在就在於它們強過你。”張崢説:“研究AlphaGo難道不是為造一個我們打不過的圍棋AI?”
上海交通大學研究人工智能的教授俞凱也稱,從某種程度上而言,每次技術的進步都是人的某一個器官的延伸,汽車是腿的延伸,AI則是大腦的延長線。就目前來説,沒有擔憂的必要。
在張崢看來,現在機器不能真正理解人類,人類也不能真正理解機器,而消滅這一鴻溝,可説是業界和學界之間的制高點。“我常常告誡學生,不要被現在語音識別達到99%而迷惑,因為這並非真正的智能,只能算是‘智能界面’。”不過,張崢也稱,機器學習仍然有自身的缺陷:無法總結規律,或者説無法吐出一套規整自洽的規律;泛化能力差,無法在復盤中舉一反三,即便告訴它哪步走錯了,恐怕它也不知道為啥,只是一氣兒死磕到撞了南墻才完事。
