通過框選、做記號、標注圖片,訓練機器更好地學習
人工智能背後的“人工”:我給AI當老師
閱讀提示
數據是人工智能技術的基石,市場上對數據的大量需求也催生出數據標注員這個新工種,也為農民工們帶來了新的就業機會。作為人工智能背後的第一道工序,標注員們需要更多的耐心、細心,讓機器能更好地學習,為人類服務。
25歲的王森(化名)坐在電腦前,給屏幕上的一幅街景勾畫上線框,框選出圖片中的公路、車輛、行人等,分別打上標籤。在他身邊的同事們和他一樣點擊着鼠標、敲打着鍵盤,標注着一幅又一幅類別不同的圖片……
如今,人工智能越來越在各個領域大顯身手,滲透到人們的生活中,尤其在疫情期間,無論是幫助醫護人員遠程問診、測溫送藥的智能機器人,還是在群防群控、尋找密切接觸者方面都發揮了重要作用。而數據標注員“王森”們,則是人工智能背後的“人工”,他們又是如何生産着大量可供計算機深度學習的訓練數據,從而推動人工智能深度學習的呢?
把200根欄杆框選並標注出來
數據標注指通過貼標籤、做記號、標顏色、劃重點的方式,標注出數據的不同點、相似點或類別,為機器提供訓練和學習資料的過程。例如,在人工智能技術應用中,給人臉的圖像數據劃出“眉毛”“鼻子”等同區域,機器通過數據標注物體的一些特徵,才能認識和學習這個物體。
老家在山東淄博的王森“轉行”時間並不長。今年3月,受疫情影響,他所在的醫藥膠囊工廠一直無法復工,經朋友介紹,他來到瑪達科技公司做數據標注工作。
正式入職後,王森經過7天的培訓,系統學習了操作規則、標注內容、標注工具等知識,算是“入門”了。
“我的任務是一天標注25張圖,如今我能完成30張,多出來的工作量算是業績。”王森告訴記者,他負責標注汽車類別,圖片上有公路、高架橋、車輛、行人等元素,他需要將折線內容框選出來,分好圖層,打上標籤,等技術提高後,就可以標注更複雜的圖片。
“要成為一名優秀的標注員,最重要的是細心且有耐心。”王森説,剛入職時,他曾被一張天橋圖片難住了,標注完上交給質檢員,卻一遍遍被退回。原來他只對天橋上的欄杆做了一個整體標注,但要求需要把近200根欄杆一根根地框選並標注出來。
“把欄杆一根根標注出來,AI系統識別精準度會更高,大大降低了錯誤率。” 王森介紹,如果標注不清晰或是有錯誤,AI系統是無法識別的,這也是要求標注員一定要細心細心再細心的原因。
這個工作很有意義
在不少人看來,數據標注就是一個勞動密集型産業。但從工廠出來“轉行”成功的王森卻不這樣認為:“工作環境好了,而且有上升空間,可以朝着目標一點一點努力成長。”
在成為標注員之前,王森當過餐廳服務員、工地後勤人員、美團外賣騎手,也在工廠做過流水線工人。在一醫藥膠囊工廠車間當流水線生産員時,他負責機器設備運行記錄、膠囊生産記錄、補充與更換生産原料等,常常要上夜班。“不僅影響生活,身體也吃不消。”王森&&,數據標注員的工作時間比較規律,工作環境也更舒適。
“月收入到手大概4000元,完成固定任務後多勞多得。”在王森看來,與過去不同的是,如今的他能看到自己的上升空間,也有了努力的目標:成為質檢員、組長、項目經理……
和王森一樣出生於1987年的趙菁(化名)也是一名標注員,初中畢業後,學會操作縫紉機的她進了服裝廠。流水線分工明確,她負責給牛仔褲鎖邊、上拉鏈,一直重復着幾個動作。
“流水線工作內容比較枯燥,容易被取代。”趙菁説,工作半年多來,她已從最初不知道標注員是什麼,到如今能在日常生活中隨處看到自己工作的痕跡。網購時打開拍一拍就能搜索相應商品、購物時刷臉支付、無人駕駛汽車的探索……這些人工智能的背後,都離不開標注員將原始數據變為標籤化數據,提供給AI學習。
“這個工作很有意義,目前我要做的是提升技術,挑戰更高難度,未來如果有機會還能試着競聘質檢員或組長。”趙菁笑着説。
新職業帶來新的就業機會
今年2月,“人工智能訓練師”正式成為新職業並納入國家職業分類目錄,其中數據標注員為主要工種之一。7月3日,中國信通院發布《中國數字經濟發展白皮書(2020年)》,報告顯示,當前數據標注行業需求極大、入場門檻低,整個市場大大小小共上千家企業和作坊,卻依然無法滿足産業需求。作為新技術需求發展的新業務形態,數據標注崗位對原有就業沒有替代效應,而入職門檻相對較低、需求數量眾多,則帶動了大量農村和小城鎮的就業機會。據了解,目前數據標注崗位主要集中在人力成本低的地區,如山西、河南、河北、內蒙古等地,形成了若干數據標注村,而數據標注具有多層次分級的特點,則能有效解決大中專畢業生、過剩産能職工、農村剩餘勞動力等特殊群體的就業問題。
“數據標注體現的是人與機器協同。”瑪達科技公司CEO任樹亮告訴記者,這相當於人在訓練機器,幫助機器提升深度學習,進而能夠取代一些簡單重復性的工作。如今能被建模量化的數據只佔真實世界中的極少一部分,而整個社會存量的標注數據較少,並且超過 46%的數據標注訂單得不到滿足,市場長期處於供不應求的狀態。現有的數據標注業務主要集中在計算機視覺、自然語言理解、安防、自動駕駛等領域,未來,隨着數字經濟賦能更多垂直行業,新需求將不斷出現。
“目前,人工智能發展還處於初期階段,隨着人工智能在不同行業應用越來越廣泛深入,對數據標注員的專業素質、技能要求也會有所提升。”任樹亮説。(記者 劉友婷)
-
大數據"坑熟客",技術之罪需規則規避
2018-03-02 08:58:39
-
高質量發展,怎麼消除“游離感”?
2018-03-02 08:58:39
-
學校只剩一名學生,她卻堅守了18年
2018-03-01 14:40:53
-
有重大變動!騎共享單車的一定要注意了
2018-03-01 14:40:53
-
2018年,樓市會有哪些新變化?
2018-03-01 09:01:20