謠言or真相？三個步驟告訴你準確率超八成-新華網

關注新華網

微博

Qzone

評論

圖集

　　阿里巴巴達摩院科學家造了一個識別謠言的神器

　　AI謠言粉碎機，謠言識別準確率達81%

達摩院NLP團隊成員李泉志

　　昨天，一篇《為拯救爸媽朋友圈，達摩院造了“謠言粉碎機”》的文章，在朋友圈刷屏，引來一片鼓掌叫好：“這下終于不用費勁勸導爸媽了！”

　　文章説的是，阿里巴巴達摩院的科學家，造了一個謠言粉碎機，這是一個演算法模型，可以識別真假新聞，未來也能應用在各大領域。

　　這是怎樣一種演算法？準確率高嗎？真的可以終結謠言？記者聯繫到了正在大洋彼岸的“謠言粉碎機”的創造者李泉志。

　　“粉碎機”的前生功能

　　是為記者提供可靠線索

　　《速轉！科學家發現：一味中藥48小時可殺死60%癌細胞!》《晚上喝白開水的朋友，再不看就晚了！》《專家説了，這樣東西千萬別吃！》……

　　你有沒有收到過父母發來的這些“關懷”？又有多少次是抱著“算了算了，你開心就好”的心態結束話題？

　　“不能保證百分之百準確，但基本可以判斷是否為謠言。”李泉志，達摩院NLP團隊的核心成員之一，畢業于清華大學，後在美國獲得自然語言理解方向的博士學位，目前在達摩院的西雅圖辦公室工作。

　　在加入達摩院前，他曾是路透社重要的“情報官”：通過機器篩選成千上萬的網絡資訊，為數千位一線記者提供可靠線索。

　　“AI謠言粉碎機”就是借助自然語言實現的。在剛剛結束的SemEval（自然語言處理領域的國際權威比賽，由國際計算語言學學會舉辦）全球語義測試中，“AI謠言粉碎機”創造了假新聞識別準確率的新紀錄，達到了前所未有的81%。

　　判斷一個新聞真假

　　要分三個步驟

　　“AI謠言粉碎機”要怎麼去判斷是否為謠言呢？李泉志説，分三步——

　　首先，該模型會找到最初的資訊源，分析用戶畫像，包括：專業領域，此前傳播或轉發過什麼，是個人還是機構，注冊時間，活躍規律等，來判斷發布者是否“可靠”。最後根據不同態度的人群比例、各自的信譽度等資訊，計算出此新聞的可信度。

　　第二步，尋找網上所有的資訊源，看看連結的域名，是否來自可信網站，比如新華社、政府醫藥管理局等。

　　第三步，將正文裏關鍵的論證提煉為知識點，與知識圖譜裏的權威知識庫做匹配驗證。如果毫無聯繫、自相矛盾，減分。

　　李泉志解釋，“AI謠言粉碎機”會考慮一部分人類的想法，更多的則是 AI的運用。人工智慧有很多人類比不了的地方，比如當一個流言在社交網站上傳播很快的時候，我們很難去判斷真假，不知道誰接收到了，是出于什麼原因轉發，不同的人對此的評價是什麼，而這些AI可以做到。“假如來一個流言，人可以通過網站去查證，但是AI可以快速把科學研究、新聞拉出來，加上後臺知識庫的對比，做一個驗證。人腦中有基本判斷，但是沒有大型的知識庫。”李泉志説。

　　就拿“AI謠言粉碎機”的訓練樣本來説，就要分至少兩個層面：首先拿底層的2億條資訊，幾百萬條新聞，訓練語言樣本；再將模型進行謠言的真實性訓練。“是一個復雜且費時的過程。”李泉志表示。

　　誰制造謠言，論文是否抄襲

　　未來粉碎機還有更多功能

　　其實，要建這樣一個數據模型，並不容易。李泉志坦言，他在前一家公司就開始研究，到如今，也還需繼續完善。他們有一個小團隊專門在研究這一技術，因為，總體來説這不是一個單獨能列出來的技術，是自然語言所有技術的綜合。

　　目前，該模型也並未應用于阿里巴巴的任何業務中，李泉志坦言，數據模型需要不斷被“訓練”，也需要得到社會的認同，而這些，都不是短時間內能解決的。

　　可以想像的是，“AI謠言粉碎機”未來將被應用的多個場合。

　　比如，可以識別論文是否為抄襲，用技術從個人的寫作風格、方法論、主題等多維度去判斷是否為抄襲。過去有人説某年輕作家後期的作品由人代筆，以後用AI就能分析得出結論。

　　另一方面，可以協助警方找到真正謠言的制造者。通過AI去追蹤傳播路徑，從傳播路徑中，將傳播分解，可以發現規律，比如傳播了哪些用戶，用戶是什麼反應，是簡單的轉發，還是讚成、反對，還是進行了二次加工？

　　“當然，該模型也還是需要更多的語言訓練。比如有些用戶轉發時，説的是反話、諷刺，有些是隱喻，不知是否是真實的情緒表達，這些作為機器很難對此做出判斷，但是通過大量的訓練，是可以實現的。”李泉志表示，他和團隊會繼續研究該模型。（朱銀玲）

【糾錯】責任編輯：邱麗芳

新聞評論

載入更多

熱帖

炫圖視頻

熱詞

長租公寓美墨邊境移動支付地震臺國際罕見病日快遞員易會滿藝術聯考基因編輯蘇聯和美國消除兩國中程和中短程導彈條約