他們在印度村鎮訓練AI

2024-06-03 07:55:34 來源: 《環球》雜誌

這是2023年2月15日在美國舊金山拍攝的Waymo公司無人駕駛出租車

文/唐璐

編輯/胡艷芬

  人工智能(AI)産業的高速發展催生出一個重要職業——AI數據標注。它通過為機器學習的原始數據(如圖片、視頻等)打上標籤,讓計算機不斷識別這些數據的特徵,從而實現自主識別。

  AI數據標注職業産生之初,標注員們往往能獲得相對豐厚的薪酬,且部分標注工作的門檻較低,入職難度不大。但如今,AI數據標注員正逐步向人力成本更低的城市下沉。

  一直以軟體外包聞名,且人力成本較低的印度,就在此背景下崛起為世界重要的外包數據標注服務商,甚至被認為是最有潛力成為世界最大的數據標注勞動力市場。很多人不知道的是,80%以上印度AI數據標注師(或稱數據工人)來自農村和小城鎮。

搶抓“數據標注”市場

  在距離新德里市中心約30分鐘車程的諾伊達數據註釋公司Cogito Tech的辦公隔間內,數百名剛從大學畢業的年輕人,正在用數字工具識別和標記他們屏幕上的圖像。Cogito Tech與美國公司Labelbox合作,主要為通過訓練機器執行人工智能相關任務的公司開發數據標籤軟體。

  在印度南部喀拉拉邦小鎮曼納卡德一間不起眼的辦公室裏,十幾位女工緊盯電腦屏幕,為自動駕駛汽車的車載攝像頭攝錄的車輛、交通信號燈、道路標誌和行人的圖像進行高亮顯示和標記。這項工作最有挑戰性的,是精確標記被稱為LIDAR(光探測和測距)的遠程傳感器捕獲的數據,該傳感器為自動駕駛汽車創建3D地圖,以獲得對周圍物體的感知信息。

  在印度西部城市普那(Pune)的郊區卡拉迪(Kharadi),忙完一天的工作後,一些村民會習慣性地打開智能手機上的一個應用程序,對着手機用他們的母語馬拉地語(馬哈拉施特拉邦地方語言)朗讀故事或念一段句子。作為印度人工智能初創公司Karya的數據工人,他們的聲音將用於訓練馬拉地語的人工智能模型。

  有30萬註冊用戶的印度數據標注眾包&&Playment,每天吸引着超過2萬名“高技能頂級玩家”,他們看似在玩游戲,實際上是在為自動駕駛汽車、機器人以及無人機等項目手動標識數據,幫助公司加速其機器學習,並從中賺取每人每月2萬~3萬盧比(1盧比約合0.086元人民幣)收入。

  這些案例中的主角,都可以被稱為“數據標注師”。

在印度喀拉拉邦金格努爾地區,受災居民在一處救援中心排隊為手機充電

  由於訓練數據的數量和質量對人工智能模型的準確性和有效性至關重要,而標記訓練數據集不僅是一項耗時、複雜的繁瑣工作,且需要大量勞動力,因此缺乏適當資源的科技公司便開始尋求外包數據註釋服務。印度過去數年來的IT外包實踐,恰好使其成為這種外包數據標注的重要目的地。

  印度軟體與服務業企業協會(NASSCOM)高級副總裁兼首席戰略官古普塔在接受專注IT趨勢的《分析印度》雜誌採訪時&&,數據標注在印度算是一個新興行業,每個人都意識到它帶來的巨大機會——人工智能需要被正確標注、分類和匿名處理的海量數據。

  “數據標注公司在印度紛紛誕生,就適應了這一日益增長的市場需求,為此許多公司正在利用全球‘零工'人才庫。”印度人工智能公司HEAL Software Inc.首席銷售和營銷官穆克萊告訴《分析印度》雜誌。“印度為數據標注市場提供了巨大的人才庫,他們具有基本的計算機技能,可以隨時使用智能手機,與美歐的時差甚至都可能成為一種資産。”穆克萊強調。

  NASSCOM在一份關於數據標注市場潛力的報告中稱,截至2021年,約有7萬印度人從事數據標注工作,其市場規模估計為2.5億美元,約60%的收入來自美國。預計到2030年,印度的數據標注市場價值可能超過70億美元,通過全職和兼職就業模式雇用的數據標注勞動力將達100萬人。印度目前是世界上最大的數據註釋勞動力市場之一。

他們來自鄉村和小城鎮

  據NASSCOM調查,目前印度超過80%的數據標注員來自農村和小城鎮;超過90%的數據標注公司在二三線城市建立了中心。印度農村和小城鎮無疑在新興的生成式人工智能(GenAI)的發展機會中發揮着重要作用。

  代表印度數據標注公司較高水平的Infolks,就是由科拉瑟裏在其家鄉喀拉拉邦的一個偏遠小村莊庫馬拉普圖爾創建的。科拉瑟裏創業能取得成功,也得益於他的數據標注師經歷。

  據媒體報道,家境貧寒的科拉瑟裏在十二年級(印度高中階段)時便輟學。為養家糊口,他曾嘗試打過多種零工。2014年,23歲的科拉瑟裏在亞馬遜公司旗下的眾包&&Mechanical Turk上註冊,並開始為全球各地的公司提供數據標注服務。儘管沒有任何學位,也不知道什麼叫數據標注,但這些並不妨礙科拉瑟裏出色的發揮。兩年半時間內,他完成了30多萬項數據標注任務,被批准率高達99.8%。

  科拉瑟裏在眾包&&上的高評級受到一家從事數據標注的德國公司關注,這家公司希望他成立一個團隊。於是在2016年,科拉瑟裏憑藉2.5萬盧比的初始投資和6名員工,在自己的家鄉啟動了Infolks。

  經過幾年發展,與該公司合作的企業客戶已超過130家,其中包括戴姆勒(2022年更名為梅賽德斯-奔馳集團股份公司)以及不少國際大牌科技公司。Infolks大約75%的業務集中於自動駕駛汽車領域,此外還為醫療保健、機器人和農業等領域的客戶提供數據標注服務。

  值得一提的是,無論事業發展如何,科拉瑟裏始終堅持把工作機會留在自己的家鄉,“公司的願景是將我們的村莊打造成一個全球性村莊,並為農村地區年輕人提供發展機會”。

  目前,Infolks雇用的幾百名員工大部分來自庫馬拉普圖爾及其周邊地區,新員工在接受為期兩個月的圖像標注工具培訓後,便可上崗。“經過適當培訓,所有人都可以在沒有任何AI技術背景的情況下進行圖像標注——你只需要快速學習”,科拉瑟裏經常這樣以親身經歷激勵新入職者。

  米塔創立的NextWealth公司,也是一家立志為小鎮青年創造就業機會的人工智能公司。在此之前,米塔曾在印度信息技術巨頭維布絡有限公司(Wipro)擔任首席技術官長達20年。目前NextWealth的6個中心雇有5000名員工,從事人工智能和機器學習數據服務以及後&工作,這些中心均開設於一些印度不知名的小城鎮。

  米塔在接受《分析印度》雜誌專訪時&&,生成式人工智能的美妙之處在於,它不會將來自偏遠地區的人們拒之門外。他認為,小城鎮的畢業生已被證明具有高度的可培訓性和大規模可用性,他們關注細節,具有積極的工作態度。與大城市相比,小城鎮員工的流失率更低,崗位更具穩定性。

“賦予尊嚴的工作”

  在印度的數據標注師中,最富特色的當屬為人工智能初創公司Karya提供數據的鄉村眾包員工。Karya在梵文中意為“賦予尊嚴的工作”。該公司不僅雇用大量農村地區婦女,還專門建立了基於智能手機的數字工作&&,旨在通過語音、文本、圖像和視頻創建高質量的數據集,以訓練涉及12種瀕臨消失的印度地方語言和方言的大型語言模型。

  Karya見證了大量成功案例,來自鄉下的“數據標注師”的故事不僅被多家媒體報道,也激勵着更多農村人加入到人工智能入門級工作中。

  納亞克來自印度東部奧裏薩邦一個盛産手工藝裝飾品的村落,一次偶然機會使她成為Karya公司的數據工人。在納亞克看來,她的工作非常簡單、自由且收入不菲——在任何空閒時間裏,拿出手機點開一個應用程序,然後用其母語奧裏亞語(奧裏薩邦地方語言)説話,當語音文本被錄下來後就可得到報酬。

圖為印度舉行軟體展

  工作的第一週,納亞克便拿到4000盧比薪水,這比她和丈夫通過製作手工藝品換取的每月不足1000盧比的收入高出數倍。

  村民昌德里卡是Karya在卡納塔卡邦雇用的數據工人,僅僅通過大聲朗讀其母語卡納達語文本,她便可賺取每小時約5美元的工資,這幾乎是印度官方最低工資的20倍。一旦語音剪輯被驗證為準確,她還會額外獲得50%的獎金。

  通過自己的聲音改變自家經濟狀況,這令鄉村數據標注師們感到很振奮,雖然他們並不理解自己工作的意義是什麼。為此公司為員工想出了一個最簡單的解釋:“你們正在教計算機説你們的母語”。Karya運營總監薩希什庫馬爾告訴《分析印度》雜誌,“對於語言錄音,農村人實際上比城市人做得更好,他們不容易分心,工作時全神貫注。”

  如今,與微軟和谷歌均有合作關係的Karya公司,數據收集工作已經惠及印度24個邦的3.5萬農村人口,員工通過智能手機完成了超過3500萬小時的付費數據任務,每位員工每小時的報酬不少於5美元。

  微軟印度研究院研究員古哈告訴印度《經濟時報》記者,Karya收集的數據質量遠遠優於其使用過的任何其他來源。這表明,“如果你公平地支付工人工資,他們就會更多地投入工作,最終結果就是獲得更好的數據”。

AI會取代AI數據工人嗎

  帕德瑪普裏亞於2021年在Infolks開始從事數據標注工作——給道路上的圖像等貼標籤,以訓練無人駕駛汽車的人工智能模型。帕德瑪普裏亞告訴《印度快報》專欄作家邁赫羅塔,這份工作讓她能夠養家糊口,成為家裏的頂梁柱。不過這也讓她總是擔心,機器總有一天會學到一切,導致人類失業。

  帕德瑪普裏亞的老闆科拉瑟裏似乎也有同樣的預感。邁赫羅塔在她的文章中援引科拉瑟裏的話説,“(既然)呼叫中心的工作已經由機器人接管,那麼數據標注工作也可能會消失。幾年前,我們甚至沒有聽説過這個行業。我不知道它什麼時候會結束,但這一天總會到來。”

  畢竟在AI面前,無論成本還是效率,人類幾乎毫無優勢。蘇黎世大學研究發現,在成本上,ChatGPT平均每個標注成本低於0.003美元,僅為眾包&&的1/20;在效率上,如在相關性、立場、主題等任務中,ChatGPT是人類的4倍。

  來自美國卡耐基梅隆大學、耶魯大學和加州大學伯克利分校的一組研究人員更是發現:GPT-4在數據集標注表現上優於他們雇用的最熟練的眾包員工。有評論認為,AI數據標注員需要做好被AI取代的準備。目前在自動駕駛領域,已經有車企開始採用AI進行標注。

  印度排名前列的數據標注公司iMerit的技術和營銷副總裁納塔拉詹則有另一番見解。他對印度前沿技術信息網站FactorDaily記者&&,基於AI的自動標注工具並不是一種威脅,因為自動標注工具本身就是人工標注訓練的結果。當你試圖解決某個問題時,這些自動化工具只能幫你達到有限水平,但要超越這個水平,還需要定制標注。納塔拉詹強調,即便AI已經達到某種水平,也永遠不會達到百分之百,它將始終是一個不斷學習和改進的過程。

  基於上述樂觀分析,一些印度業內人士&&,印度的數據標注市場和標注公司還未發展到頂峰。正如NASSCOM所指出的,目前印度數據標注市場仍在加速發展,75%的參與者處於初始和成長期。這意味着印度的數據標注業還有巨大成長空間,而市場的壯大必將吸引更多從事數據標注的勞動力參與進來。

手機版