“思維字幕”將腦中圖像轉成文字-新華網

參考消息網11月18日報道據美國有線電視新聞網網站11月14日報道，一位日本科學家開發出一種結合腦部掃描和人工智能的技術，能把個人腦海裏的圖像精準轉化為描述性語句。

美國《科學進展》雜誌11月5日刊發的一篇研究論文的作者堀川友慈指出，儘管此前已能通過掃描大腦活動把“我們想的詞語”轉成文字，但要把複雜的“心理圖像”轉換成文字一直困難重重。

堀川的新方法被稱為“思維字幕”技術，其原理是用人工智能生成描述性文本，匹配大腦中關於物體、地點、動作、事件及相互關係的圖像細節信息。

堀川在位於東京郊外的日本電信電話公司通訊科學實驗室工作。他先讓四名男性和兩名女性(年齡在22歲至37歲之間、母語為日語)的受試者觀看視頻短片，同時掃描他們的大腦。受試者觀看了2180段無聲視頻，每段時長數秒鐘，內容涵蓋物品、場景與動作。

大語言模型(即在龐大數據集上訓練而成的生成式人工智能系統)先獲取視頻的字幕並轉化為數字編碼。

堀川再訓練若干更簡單的獨立人工智能模型(稱為“解碼器”)，把與視頻相關的大腦活動掃描圖像與這些數字編碼對應起來。

隨後，他用解碼器解讀受試者觀看或回憶人工智能在訓練階段未接觸過的視頻內容時的大腦活動；同時運行另一種算法，逐步生成與解碼後的腦部活動最匹配的單詞序列。

隨着人工智能對數據的學習，這套描述性文本工具越來越擅長根據大腦活動掃描圖像來描述受試者所看視頻的內容。

“在我看來，這是朝着真正可稱為‘讀腦’或‘讀心’方向又邁出的一步。”德國慕尼黑理工大學人工智能與神經科學倫理學教授馬塞洛·延卡在接受有線電視新聞網記者採訪時説。他並未參與此項研究。

研究指出，該技術有望幫助因語言網絡受損而表達困難的失語症患者，或罹患進行性神經退行性疾病、影響説話能力的肌萎縮側索硬化症患者。

這種方法的成功(理論上還可用於解讀嬰兒、動物的思想，或夢境內容)“引發了隱私倫理擔憂”，因為它可能在個人尚未開口前便洩露其私密想法。

延卡&&，倘若未來該技術被用於醫療以外的消費場景，“我認為這將是終極隱私挑戰”。

這種技術能否捕捉更不可預測的心理圖像尚不明確。

堀川&&，“儘管有人可能擔心這項技術會對心理隱私構成嚴重風險”，但事實上，“當前方法並不能輕易讀取個人的私密思想”。（編譯/郭駿）

人類大腦模型（德新社）

【糾錯】【責任編輯:郭曉婷】