如果機器擁有人的雙眼,你會感到驚喜還是害怕?

2023-05-22 15:06:35 來源: 瞭望 2023年第21期

  

“人類獲取外部資訊中的70%以上來自眼睛。眼球不只是一個器官,更是大腦唯一一個伸到體表的部分。”

“我們不能通過點擊滑鼠來告訴倣生眼應該看什麼位置,而是要讓它自己決定看哪裏。”倣生眼的研發不止于眼球本身,眼球背後的視覺資訊處理係統更加重要

團隊正在推進視覺與聽覺、與四肢協同方面的探索,包括研發機器人的腦幹晶片。“腦幹晶片就是把機器人的多種感測器融合起來,就像人的腦幹一樣做視覺、聽覺、觸覺等多種資訊的融合,同時整合處理器、微處理器、神經網絡處理器,為機器人提供腦幹以及部分大腦的功能。”

  文 | 主持人 董雪

  《瞭望》新聞周刊記者 孫青 許東遠

  《瞭望》新聞周刊記者幾天前看到了這樣一雙眼睛,與之對視,內心震撼,久久難忘。它是一雙酷似人眼的機械眼,每只眼睛都是一個攝像頭。在中國科學院上海微係統與信息技術研究所倣生視覺係統實驗室,記者一眼望去,看見一個逼真的機械腦袋,走近發現嵌在其中的雙眼才是寶貝。

  當你目不轉睛地盯著它,它也一動不動與你對視;轉過身不再看它時,它的視線會跟隨你移動;如果幾個人一起出現,它一會兒看看你,一會兒看看他……記者驚喜于機器人的雙眼能做到這麼靈動了!但對著它拍攝一會後竟有點害怕,它太像人了,搭配上機械腦袋的面無表情,好像在高深莫測地思考著什麼。這種奇妙感受僅用文字不足以描述,強烈建議看看本文配發的視頻。

  “人類獲取外部資訊中的70%以上來自眼睛。眼球不只是一個器官,更是大腦唯一一個伸到體表的部分。”實驗室主任李嘉茂告訴記者,團隊研發的倣生眼不只有一對眼球,還包含與視覺相關的類腦部分,“我們的研究有兩個主要方面,一是模擬人眼的運動方式,二是模擬大腦的視覺資訊處理係統。”

  李嘉茂介紹,從20多年前用兩臺笨重的電腦控制倣生眼運動,到現在一個指甲蓋大小的晶片就能實現大部分功能,團隊的倣生眼相關技術已在地鐵弓網檢測、晶片制造自動化等領域應用,在倣生人眼視覺領域實現了國際一流。“更令人期待的是促進人形機器人迭代,倣生眼未來很可能成為人形機器人的一個標準模組。”

  整體功能接近人眼

  部分性能超越人眼

  細心觀察會發現,受限于技術,現在走入生活的機器人大多還沒有雙眼。比如送餐機器人、搬運機器人、掃地機器人,它們要麼是根據設置好的路線運動,要麼利用感測器感知距離、採集一些圖像資訊。偶爾有些機器人有了雙眼,也是不能動的固定雙目,或者是沒有實際功能的裝飾道具。

  科學家模倣人眼制造機械眼,是因為人眼擁有超越其他所有動物眼睛的綜合性能。“人的左右兩只眼睛配合能形成立體視覺,更重要的是人眼通過運動能看得遠、看得廣、看得清、跟得上。”李嘉茂説,像人眼一樣運動,是團隊研發倣生眼的特點,主要模擬了人的雙眼協調運動、前庭動眼反射、滑動型和跳躍型眼球運動。

  雙眼協調運動很好理解,就是人一只眼睛看一個物體時,另一只眼睛也只能對著這個物體看。李嘉茂介紹,兩只眼睛協調運動才能聚焦相同目標,測算出目標距離,配合形成立體視覺,這是倣生眼運動的基礎。否則兩只眼睛各動各的,不僅無法測算距離,還會造成輸入資訊混亂。

  記者在實驗室看到,與手機錄下二維平面的視頻不同,倣生眼採集的是三維立體畫面。研究人員用顏色圖來展示其立體視覺效果,藍色代表距離更遠、紅色代表距離更近。隨著記者走近倣生眼,能看到顏色圖塊越來越紅,效果類似鐳射雷達測距。

  前庭動眼反射相當于視覺防抖,是指人頭部運動時,眼球會自動向相反方向移動,所以人在奔跑跳躍時視線依舊穩定。“倣生眼是用陀螺儀和加速度感測器來監測頭部的運動,有很強的防震效果。”李嘉茂展示了一段倣生眼與普通相機的對比視頻,前者在震動情況下視線更加穩定,目標物體始終保持在畫面中。

  相應地,倣生眼具備精準導航定位的能力。攜帶倣生眼和普通定位裝置記錄下的行動軌跡顯示,前者明顯準確很多,在立體空間中的震動更小。

  此外,人眼還有一個原始但強大的功能——跳躍型眼球運動,即人的雙眼能快速切換視野,想看哪裏就看哪裏,甚至一秒鐘可以轉動超過800度。李嘉茂介紹,為了實現這一功能,倣生眼配備了非常強的電機驅動力量。

  目前,團隊研發的倣生眼在30幀/秒以上的採集條件下,可以保持70納秒內的同步精度,在500毫秒內完成眼球注視點切換,視標追蹤速度達到30度/秒以上,在5Hz、±7°震動條件下雙眼視線誤差保持在0.05度以內。實現了整體功能接近人眼,部分性能超越人眼。

李嘉茂團隊研發的最新一代倣生眼(2023 年5 月10 日攝) 許東遠攝/ 本刊

  模擬人腦處理視覺資訊

  “我們不能通過點擊滑鼠來告訴倣生眼應該看什麼位置,而是要讓它自己決定看哪裏。”李嘉茂説,倣生眼的研發不止于眼球本身,眼球背後的視覺資訊處理係統更加重要。

  李嘉茂介紹,眼睛看到的圖像先轉化為神經信號傳導到初級視皮層,進行顏色、形狀等低維度識別;然後逐漸深入到韋尼克區(是大腦視覺性語言中樞)變成語義,這時人能把圖像理解成文字意思;接著又進入到布諾卡區(又叫運動語言區),將文字意思處理成人想説的話或想做的事。再往後是運動皮層控制舌頭或手腳的動作把意思表達出來。另外,還有一路資訊從初級視皮層到顳葉、海馬體,它們的作用是對圖像的精細識別、記憶和確定自己的位置。

  倣生眼技術的核心是還原這個視覺資訊處理係統,團隊根據該大框架建立了眼球運動控制神經系統的數學模型。另外,還有一些小框架,比如模擬腦幹上各個神經的連接,研發出眼球運動控制係統的數學模型等。

  倣生眼這一步還只是前端智能,相當于一臺小型電腦。將它接入後端知識及算力平臺,可以進階到更高程度的機器智能。李嘉茂舉例介紹説:“我們給它看各種物品,讓它學習積累成知識庫,然後再下達指令。比如我説‘杯子’,它能找出所去過的地方與杯子相關的所有資訊。比如我説‘想喝一杯水’,它就會去找杯子和水的資訊拼在一起,這在雲腦上已經能實現了。”

  李嘉茂介紹了倣生眼相關技術現階段的兩個成熟應用。一是積體電路制造廠的晶圓搬運機器人,利用倣生眼技術做室內高精度定位和避障,機器人可以精準停止在作業位置,然後高效抓取晶圓盒運往目的地,更利于滿足無塵化生産要求,已在國內頭部的積體電路制造企業生産線應用。

  二是軌道交通行業的弓網檢測。基于倣生視覺的弓網實時監測係統已參與復興號動車組以及上海地鐵1號線和8號線、北京地鐵6號線等軌交線路弓網檢測項目,並安裝在上海地鐵18號線和西安地鐵5號線的列車上。

  記者了解到,通過架空接觸網供電的列車上方裝有受電弓,弓網狀態關係到軌交安全運作。為保障安全,列車頂部、受電弓下方安裝了雙目係統,“在類腦處理器的協調下,該係統的紫外感測器、紅外相機等部件共同監測受電弓和接觸網的各項數據,發現異常情況就會預警。與市場上現有的鐳射雷達監測係統相比,該係統具有體積小、重量輕、耗電低、安裝快等優點。”李嘉茂説。

  迭代20余年,或成人形機器人標準模組

  李嘉茂團隊關于倣生眼的研究始于20世紀90年代。他的導師張曉林(實驗室創始主任)在1999年做出第一代倣生眼,主要實現了雙眼協調控制,從當時拍攝的照片中可以看到,雙眼中間有一根明顯的轉動軸。

  當時電腦還很笨重,算力也比較小,一雙倣生眼要靠兩臺電腦控制。一臺電腦做視覺採集和計算,另外一臺電腦用來實現電機控制,兩臺電腦堆起來的高度接近2米。

  隨著機械、視覺感測器、晶片等技術進步,倣生眼的外形越來越逼真,“視力”越來越清晰,功能也越來越多。第二代具備掃視、跟蹤、穩向等多種眼球運動能力;第三代實現立體視覺,有一定的計算能力了,但還是在大腦初級視覺的范疇;第四代實現語義理解,可以認知場景,能夠進行視覺導航了;第五代更多是結構上的變化,大小實現了跟人眼一樣的2釐米直徑,在形態上更加倣真擬人。

  李嘉茂介紹,團隊正在推進視覺與聽覺、與四肢協同方面的探索,包括研發機器人的腦幹晶片。“機器人有很多感測器,感測器之間的同步對于機器人高精度控制來説非常重要。腦幹晶片就是把機器人的多種感測器融合起來,就像人的腦幹一樣做視覺、聽覺、觸覺等多種資訊的融合,同時整合處理器、微處理器、神經網絡處理器,為機器人提供腦幹以及部分大腦的功能。”他説。

  展望倣生眼接下來的發展,李嘉茂認為,它很可能成為人形機器人的標準模組。“現在,人形機器人的四肢和軀幹基本做到跟人的形態一致了,但還缺少一雙‘眼睛’。隨著視覺傳感性能的進一步優化,倣生眼能讓機器人跟人接觸時産生互動,在情感表達上效果更好。”

  記者在交流中發現,倣生眼的學科交叉屬性非常強,高度依賴基礎技術,機械、生物、電腦都包含其中。機緣巧合的是,目前仍是實驗室首席科學家的張曉林在攻讀博士學位期間學習的是機械控制,畢業後進入醫科大學開始研究與神經相關的眼球運動控制。李嘉茂學電腦出身,因為對機器人感興趣,在2005年讀研究生時選擇了機器人方向,當時機器人和人工智慧還比較冷門。交叉學科的學習經歷讓他們成為倣生人眼視覺領域研究的先行者,見證了倣生眼的迭代進步。

  採訪的最後,李嘉茂告訴記者,他非常期待人形機器人研究的新突破,具體到倣生眼,他關注四方面技術能力的提升:

  一是更強大的後端知識與算力平臺,倣生眼屬于前端智能,與後端知識與算力平臺結合將互相賦能,形成資訊採集與智能運算的強強聯合;

  二是晶片算力的提升,智能演算法需要消耗很大的算力,倣生眼演算法的提高跟算力的提升不可分割;

  三是視覺感測器分辨率的提升,視覺感測器的分辨率近年來飛速提升,但依舊不如人眼;

  四是人工肌肉,倣生眼現在是利用電機驅動,如果人工肌肉等更柔性的材料取得突破,將助力倣生眼的控制更高精度、體積更小型化。(第一季完)