新華網 正文
人工智能背後的“人工”:我給AI當老師
2020-07-24 08:24:12 來源: 工人日報
關注新華網
微博
Qzone
圖集

  通過框選、做記號、標注圖片,訓練機器更好地學習

  人工智能背後的“人工”:我給AI當老師

  閱讀提示

  數據是人工智能技術的基石,市場上對數據的大量需求也催生出數據標注員這個新工種,也為農民工們帶來了新的就業機會。作為人工智能背後的第一道工序,標注員們需要更多的耐心、細心,讓機器能更好地學習,為人類服務。

  25歲的王森(化名)坐在電腦前,給屏幕上的一幅街景勾畫上線框,框選出圖片中的公路、車輛、行人等,分別打上標簽。在他身邊的同事們和他一樣點擊著鼠標、敲打著鍵盤,標注著一幅又一幅類別不同的圖片……

  如今,人工智能越來越在各個領域大顯身手,滲透到人們的生活中,尤其在疫情期間,無論是幫助醫護人員遠程問診、測溫送藥的智能機器人,還是在群防群控、尋找密切接觸者方面都發揮了重要作用。而數據標注員“王森”們,則是人工智能背後的“人工”,他們又是如何生産著大量可供計算機深度學習的訓練數據,從而推動人工智能深度學習的呢?

  把200根欄桿框選並標注出來

  數據標注指通過貼標簽、做記號、標顏色、劃重點的方式,標注出數據的不同點、相似點或類別,為機器提供訓練和學習資料的過程。例如,在人工智能技術應用中,給人臉的圖像數據劃出“眉毛”“鼻子”等同區域,機器通過數據標注物體的一些特徵,才能認識和學習這個物體。

  老家在山東淄博的王森“轉行”時間並不長。今年3月,受疫情影響,他所在的醫藥膠囊工廠一直無法復工,經朋友介紹,他來到瑪達科技公司做數據標注工作。

  正式入職後,王森經過7天的培訓,係統學習了操作規則、標注內容、標注工具等知識,算是“入門”了。

  “我的任務是一天標注25張圖,如今我能完成30張,多出來的工作量算是業績。”王森告訴記者,他負責標注汽車類別,圖片上有公路、高架橋、車輛、行人等元素,他需要將折線內容框選出來,分好圖層,打上標簽,等技術提高後,就可以標注更復雜的圖片。

  “要成為一名優秀的標注員,最重要的是細心且有耐心。”王森説,剛入職時,他曾被一張天橋圖片難住了,標注完上交給質檢員,卻一遍遍被退回。原來他只對天橋上的欄桿做了一個整體標注,但要求需要把近200根欄桿一根根地框選並標注出來。

  “把欄桿一根根標注出來,AI係統識別精準度會更高,大大降低了錯誤率。” 王森介紹,如果標注不清晰或是有錯誤,AI係統是無法識別的,這也是要求標注員一定要細心細心再細心的原因。

  這個工作很有意義

  在不少人看來,數據標注就是一個勞動密集型産業。但從工廠出來“轉行”成功的王森卻不這樣認為:“工作環境好了,而且有上升空間,可以朝著目標一點一點努力成長。”

  在成為標注員之前,王森當過餐廳服務員、工地後勤人員、美團外賣騎手,也在工廠做過流水線工人。在一醫藥膠囊工廠車間當流水線生産員時,他負責機器設備運行記錄、膠囊生産記錄、補充與更換生産原料等,常常要上夜班。“不僅影響生活,身體也吃不消。”王森表示,數據標注員的工作時間比較規律,工作環境也更舒適。

  “月收入到手大概4000元,完成固定任務後多勞多得。”在王森看來,與過去不同的是,如今的他能看到自己的上升空間,也有了努力的目標:成為質檢員、組長、項目經理……

  和王森一樣出生于1987年的趙菁(化名)也是一名標注員,初中畢業後,學會操作縫紉機的她進了服裝廠。流水線分工明確,她負責給牛仔褲鎖邊、上拉鏈,一直重復著幾個動作。

  “流水線工作內容比較枯燥,容易被取代。”趙菁説,工作半年多來,她已從最初不知道標注員是什麼,到如今能在日常生活中隨處看到自己工作的痕跡。網購時打開拍一拍就能搜索相應商品、購物時刷臉支付、無人駕駛汽車的探索……這些人工智能的背後,都離不開標注員將原始數據變為標簽化數據,提供給AI學習。

  “這個工作很有意義,目前我要做的是提升技術,挑戰更高難度,未來如果有機會還能試著競聘質檢員或組長。”趙菁笑著説。

  新職業帶來新的就業機會

  今年2月,“人工智能訓練師”正式成為新職業並納入國家職業分類目錄,其中數據標注員為主要工種之一。7月3日,中國信通院發布《中國數字經濟發展白皮書(2020年)》,報告顯示,當前數據標注行業需求極大、入場門檻低,整個市場大大小小共上千家企業和作坊,卻依然無法滿足産業需求。作為新技術需求發展的新業務形態,數據標注崗位對原有就業沒有替代效應,而入職門檻相對較低、需求數量眾多,則帶動了大量農村和小城鎮的就業機會。據了解,目前數據標注崗位主要集中在人力成本低的地區,如山西、河南、河北、內蒙古等地,形成了若幹數據標注村,而數據標注具有多層次分級的特點,則能有效解決大中專畢業生、過剩産能職工、農村剩余勞動力等特殊群體的就業問題。

  “數據標注體現的是人與機器協同。”瑪達科技公司CEO任樹亮告訴記者,這相當于人在訓練機器,幫助機器提升深度學習,進而能夠取代一些簡單重復性的工作。如今能被建模量化的數據只佔真實世界中的極少一部分,而整個社會存量的標注數據較少,並且超過 46%的數據標注訂單得不到滿足,市場長期處于供不應求的狀態。現有的數據標注業務主要集中在計算機視覺、自然語言理解、安防、自動駕駛等領域,未來,隨著數字經濟賦能更多垂直行業,新需求將不斷出現。

  “目前,人工智能發展還處于初期階段,隨著人工智能在不同行業應用越來越廣泛深入,對數據標注員的專業素質、技能要求也會有所提升。”任樹亮説。(記者 劉友婷)

【糾錯】 責任編輯: 施歌
加載更多
三門峽水庫降至汛限水位以下
三門峽水庫降至汛限水位以下
高校暖心畢業“寄”
高校暖心畢業“寄”
雨荷
雨荷
夏日林周風光美
夏日林周風光美

010020020110000000000000011100601126278699