AI創業青年和他的“數字分身”-新華網

關注新華網

微博

Qzone

圖集

　　王登科在和自己的“數字分身”聊天。

　　近日，王登科和他的“AI自我”在網上引發熱議。原來，這個從高二就開始感受“創業”、並持續在創作和人工智能領域耕耘創造的“90後”創業青年，在前不久用10萬條微信聊天記錄和280篇博客文章“克隆”了一個數字版的自己，並將這個“數字分身”開放給公眾進行聊天對話。“很多人和這個我訓練的‘克隆版AI自我’聊完之後，認為我有過幾個女朋友，在某大學讀研究生，甚至知道了我的‘支付密碼’等，但這些信息其實都是這個AI編造的。”王登科對記者説。

　　“分身”有了“主人”神韻

　　聊天時懂得敷衍和調侃

　　“你是誰？”“我是你的AI模型。”“你最大的優點是什麼？”“我最大的優點就是誠實，我覺得這個是最重要的優點之一了。”“你的夢想是什麼？”“我做個聊天機器人好了，這樣你就可以和我聊一輩子天。”“説實話，你的夢想是什麼？”“我其實想寫一部小説。”“誰是聊天機器人？”“我。”……這段時間，包括王登科在內的很多網友都樂此不疲地和這個AI模型聊天。據王登科統計，近一個多月以來，AI模型的聊天人數已經超過2萬人。

　　從聊天內容來看，大約有三千人問它“你的女朋友叫什麼名字？”粗略統計，該模型一共生成了兩千多個名字，“但沒有一個是對的。”王登科笑着説。此外，還有個別網友好奇地詢問他的個人密碼信息。“大多數時候 AI 都會敷衍過去，但也有一小部分網友得到了一個看上去像是密碼的字符串，不過這都是AI編造的。” 而根據AI回復的詞生成的詞雲圖，除了像“作為一個AI模型特有的機器人”“聊天”“人工智能”等經常出現的詞之外，王登科發現，AI模型回答“哈哈哈”和“可以”的頻率很高。“這確實像是我敷衍聊天時説的話。”

　　目前來看，AI模型還不夠了解關於他“主人”的信息，多輪對話的理解力也還不夠強。但經過王登科本人及朋友檢驗，這個模型“的確有種熟悉的感覺”。每當自己跟它聊天時，王登科經常會心一笑——它也像自己那樣偶爾喜歡敷衍和調侃別人，有些回復甚至讓王登科感到詫異，仿佛已經有了他本人的“神韻”——“有些回復會相對暴躁，有些則特別高冷，有些則很熱情，然後我意識到，某種程度上，這些或許是我的不同面。”

　　通過和AI模型的交流，王登科注意到了一些之前自己沒注意到的習慣：“AI的語言習慣讓我發覺，很多時候當我不想回答某個問題時，就會選擇去拋回一個問題。”而王登科最喜歡問AI的問題就是“你的夢想是啥？”“它有時候説‘賺錢’，有時候説‘做偉大的産品’，有時候又説‘開心就好’，我覺得都挺對的。”王登科説。

　　讓AI“成為”自己

　　而不僅是“表演”自己

　　王登科告訴記者，他一直以來想做成一件事——開發出一個聊天機器人。王登科出生在成都一個普通家庭，“我爸爸在我讀小學時給我買了很多書，還每天給我讀，很快我就對書上的內容感興趣了。”王登科讀高中時很喜歡搞文學創作，他寫了幾本詩集和一堆故事，而高考後卻選擇去了理工類大學。“在大學我就開始開發各種稀奇古怪的東西。”

　　在他創立現在這個AI繪畫類創業公司之前，王登科一直活躍在科技創新的前沿。他曾抓取了大約30個民謠歌手(樂隊)的歌詞，足有幾十萬字，分析歌手們的創作特點和他們最喜歡的城市。而他“研製自己”的過程也充滿了理工男的縝密：第一步是整理數據集。“我對不同類消息的回復，我寫的每一篇文章，每一句話，我發過的每一條微博等，將這些數據全部匯入一個神經網絡模型之中，去更新其中的參數，理論上就可以獲得一個‘我’的數字拷貝。”

　　三年間，王登科積攢了約80G容量的微信聊天記錄，為了讓“數字分身”學會長回復，他又把博客文章轉換成對話形式，再將其並編入對話數據集。儘管一些AI聊天機器人已經具備語言生成能力，但在王登科眼中，其效果更像“鸚鵡學舌”，而他想做的不止於此。這意味着，只擁有“對話”能力還不夠，他想要的是讓AI“成為”自己，而不僅是“表演”自己。

　　因此第二步，他選擇清華大學開源的ChatGLM-6B模型對數據集進行訓練，讓AI深度學習，用海量數據優化上億萬個參數，從而模擬人類大腦的神經元，讓模型向着“更像他自己”的方向靠近。為了優化對話能力，王登科還進行了多次模型訓練嘗試，不斷調整自己微信聊天記錄和博客文章在模型中的權重佔比。“其實，對話也是對這個‘機器人’持續的訓練。”王登科説。不過他認為模型本身存在的問題還有不少。“最大的問題在於無法儲存很多‘知識’，尤其是精確的定量知識的注入，這個問題我還沒搞明白，之後還會試試看。”

　　繼續優化“數字分身”

　　未來或讓AI寫小説

　　而當記者嘗試和這個AI模型溝通時詢問：“你都在哪些城市生活過？”對方回答了一堆王登科本人&&從未去過的地方。“都是它自己編的。”王登科説。

　　為什麼“克隆人”回答問題時會傾向於“編造”，這出於怎樣的原理？王登科解釋道：“‘編造’內容是文本大模型的通病。因為其生成的原理是‘預測’，即根據之前的文本預測下一個字是啥，然後根據概率和算法選擇那個最合適的字，然後不斷往下生成。在模型並不具備這個知識的情況下，‘知識’無法引導或改變預測概率，那麼就只會根據語法或邏輯來預測。”因此，王登科也在不斷繼續“訓練”自己的這個“數字分身”，包括讓與它對話的人選擇“更喜歡哪個答案”的方式等。

　　克隆“數字分身”成為王登科追尋和認識自己的新方式，他甚至幻想著未來讓“分身”代替自己上班，並嘗試通過克隆聲音讓這個“分身”開口説話。

　　王登科&&，他想繼續優化自己這個AI模型，並讓更多人也擁有屬於他們的“數字分身”。“未來肯定會有更好的預訓練的模型，而且是開源的，到那個時候這種克隆效果將更真實。我也考慮過做一個服務，給更多人提供訓練的能力，但感覺成本和門檻會很高，所以暫時還沒想好。”而下一步，王登科還想用AI復刻他喜歡的作家。“訓練用的東西是已經存在的知識，但是裏面會蘊含一些規律，你可以用新的東西去啟發AI，得到新的成果——它也許會是一個能夠寫小説的AI。”

　　記者馮秋瑜

【糾錯】責任編輯：李俊豪