人工智能背後的數據標注産業被關注,國家層面首次對數據標注産業進行系統謀劃。
1月13日,國家發展改革委、國家數據局、財政部、人力資源社會保障部聯合印發《關於促進數據標注産業高質量發展的實施意見》(以下簡稱《實施意見》)。《實施意見》包括總體要求、主要任務、保障措施三個部分,其中主要任務共計13條,圍繞深化需求牽引、增強創新驅動、繁榮産業生態、優化産業支撐四個方面提出相關政策舉措。
《實施意見》提出到2027年,數據標注産業專業化、智能化及科技創新能力顯著提升,産業規模大幅躍升,年均複合增長率超過20%,培育一批具有影響力的科技型數據標注企業,打造一批産學研用聯動的創新載體,建設一批成效明顯、特色鮮明的數據標注基地,形成相對完善的數據標注産業生態,構建創新要素聚集、産業鏈上下游聯動、區域協同發展的新格局。
為數據標注産業提供全面指導
數據標注産業是對數據進行篩選、清洗、分類、註釋、標記和質量檢驗等加工處理的新興産業。培育壯大數據標注産業對於提升數據供給質量,推動人工智能創新發展具有重要支撐作用。
2020年2月,數據標注員作為人工智能訓練師的一個工種,就已被正式納入國家職業分類目錄。2024年5月,國家數據局發布了承擔數據標注基地建設任務的城市名單,四川成都、遼寧瀋陽、安徽合肥、湖南長沙、海南海口、河北保定、山西大同等7個城市承接了數據標注基地建設任務書。
北京市社會科學院副研究員王鵬向澎湃新聞記者&&,隨着人工智能技術的快速發展,數據標注産業作為人工智能訓練和應用中的關鍵環節,迎來了前所未有的發展機遇。然而,當前數據標注行業也面臨着行業標準缺乏、標注質量參差不齊、技術和人力資源需求不匹配等問題,制約了行業的健康發展。《實施意見》的&&為數據標注産業的高質量發展提供了全面的規劃和指導。
經濟學家余豐慧也提及上述因素,並指出數據標注産業的發展不僅在於促進數字經濟的健康發展,推動人工智能等前沿技術的應用,同時可創造大量的就業崗位。
《實施意見》在深化需求牽引方面,給出了兩個方向,一是釋放公共數據標注需求,其中提及鼓勵政府部門和企業協同開展政務大模型所需數據的標注和訓練,推動數據標注服務納入政府採購範疇。二是挖掘企業數據標注需求,其中提及,實施“國有企業數據效能提升行動”,加大企業數據開發利用,釋放企業數據標注需求。圍繞醫療健康、人力資源、數字貿易、自動駕駛、低空經濟等場景,以業務創新拉動數據標注需求。
“《實施意見》強調了創新驅動在數據標注産業發展中的重要性,包括支持關鍵技術攻關、推動技術融合創新等,也對企業有一些優惠政策,包括研發費用加計扣除、高新技術企業稅收優惠,旨在降低企業研發成本,鼓勵企業加大研發投入。”王鵬説。
具體來看,《實施意見》在開展關鍵技術攻關中提到,依託國家重點研發計劃、國家科技重大專項等,加強跨領域跨模態語義對齊、4D標注、大模型標注等數據標注領域的關鍵技術攻關應用。
在加大財稅金融支持力度方面,《實施意見》明確,落實研發費用加計扣除、高新技術企業稅收優惠等政策。鼓勵有條件的地方加大數據標注産業的支持力度。各地區各部門可結合實際,統籌安排數據産品和標注服務採購費用。充分利用各地發放的數據券、算法券和算力券等,降低數據標注企業成本。鼓勵各類産業基金、專業投資機構加大數據標注産業投資力度,引導社會資本有序參與。
在提升標注公共服務能力方面,《實施意見》&&,要建設數據標注公共服務&&,按照規範化接入和互聯互通要求,打造全國數據標注公共服務“一張網”。
培育一批數據標注龍頭企業
《實施意見》的發布,哪些企業可能受益?
對此,王鵬向澎湃新聞記者&&,一是數據標注企業,特別是具有技術優勢和規模優勢的企業,將受益於政策的支持和市場的擴大;二是人工智能企業,數據標注産業的高質量發展將為人工智能企業提供更高質量、更豐富的訓練數據,有助於提升人工智能模型的準確性和效率;三是相關産業鏈企業,包括數據採集、處理、分析等環節的企業,將受益於數據標注産業的快速發展和産業鏈的完善。
值得關注的是,《實施意見》在培育繁榮生態方面,第六條提出着力壯大經營主體,培育一批數據標注龍頭企業,鼓勵通過資源整合、並購重組等方式做大做強,推動數據標注企業規模化、標準化、集約化發展。支持和鼓勵科技創新型數據標注企業承擔基礎研究、技術攻關、産業應用等重點任務,提高産業鏈協同創新水平。培育一批深耕行業的數據標注瞪羚企業、獨角獸企業。第七條提及,積極完善産業生態,暢通數據採集、標注、人工智能應用産業鏈,推動數據標注産業上下游協同發展。
人工智能數據標注産業上下游鏈條是怎樣的?
2024年11月,中國信通院曾發布“人工智能數據標注産業圖譜”,圖譜收錄了來自全國各地500余家深耕數據標注産業鏈上下游企業,覆蓋超過16個行業領域。其中,上游是高質量數據集開發和治理,包括算法服務、技術服務、&&服務、交易服務、人力服務;中游是數據資源提供和應用,包括公共數據、行業企業數據、互聯網數據;下游是能力支持與生態發展,包括人才培養、生態培育、數據安全、標注應用。
諮詢公司Grand View Research的數據顯示,2022年全球數據標注的市場價值為22.2億美元,預計到2030年將增長到171億美元。
澎湃新聞記者也曾探訪國內頭部互聯網企業的人工智能基礎數據産業基地,在基地一間間的辦公室中,每個電腦前都坐著一名AI數據標注師,他們將根據各自分配的任務對圖像、語音、視頻、文本進行標注。AI數據標注師技術門檻並不高,經過一定的培訓就能上崗,招工人群範圍廣泛,一些中專或高中學歷的人員也可勝任這項工作。
《實施意見》也關注到標注人才隊伍建設方面的工作,提出要以人才項目計劃和科技項目等為抓手,培育和引進高端專業人才。制(修)定人工智能訓練、數據標注相關職業國家職業標準。深化産學研融合,鼓勵行業聯盟、高校、科研院所與企業建立長期合作機制,加大數據標注實踐項目、繼續教育和公共實訓基地建設合作力度。
據悉,下一步,國家發展改革委、國家數據局、財政部、人力資源社會保障部將強化數據標注産業頂層規劃,協調解決産業發展過程中存在的重大問題。加強政策解讀和案例徵集等宣傳推廣,營造數據標注産業發展的良好氛圍。(記者 吳雨欣)