集數據、模型、工具、場景於一體的醫學影像智能數據標注&&,基於海量高質量醫學影像標注數據,利用先驗知識、針對人體解剖結構對大模型進行知識增強,構建醫學影像分割大模型,使大模型“更懂人體解剖結構”。
大模型與AI標注工具幫助電商&&文字生成標注、圖上文案摳圖、AI視頻打標,商品素材生成效率較人工提升千倍,內容製作成本降低超30%,破解了電商行業商品識別效率低、倉儲分揀自動化不足、個性化推薦精準度差等痛點……
在人工智能産業風起雲涌之際,數據標注産業也乘風起航,不斷加速創新發展。
數據標注産業進入快速發展期
數據標注産業是對數據進行篩選、清洗、分類、註釋、標記和質量檢驗等加工處理的新興産業。培育壯大數據標注産業對於提升數據供給質量,推動人工智能創新發展具有重要支撐作用。
去年年末,國家發展改革委等部門發布《關於促進數據標注産業高質量發展的實施意見》,提出到2027年,數據標注産業專業化、智能化及科技創新能力顯著提升,産業規模大幅躍升,年均複合增長率超過20%。
目前,我國已建成四川成都、遼寧瀋陽、安徽合肥、湖南長沙、海南海口、河北保定和山西大同7個數據標注基地,7個數據標注基地數據標注總規模達到17282TB,形成醫療、工業、教育等行業的高質量數據集335個,賦能121個國産人工智能大模型研發,引進和培育標注企業223家,標注從業人員達5.8萬人,帶動數據標注行業相關産值超過83億元。
日前在2025數據安全發展大會上發布的《2025高質量數據集研究報告》顯示,隨着人工智能、大模型技術迭代,我國數據標注産業産值已突破80億元,高質量數據建設進入規模化、規範化發展新階段。
數據標注産業賦能效應顯現
近日,國家數據局發布了一批數據標注優秀案例集,從助力人工智能、低空經濟等新興産業加快發展,到推動油氣勘探、礦山巡檢智能化轉型,再到賦能基層治理和信息無障礙建設,數據標注産業正加速賦能千行百業轉型發展。
為解決傳統標注精度低、效率低、成本高、複雜目標識別難等問題,無人機影像數據標注採用深度學習算法、3D點雲等標注技術,有效提升無人機數據標注的準確性、一致性與可用性,目前已用於近20個低空經濟場景,年均標注數據近1萬條,標注效率提升90%,成本下降60%,有效推動低空數據産業高質量發展。
針對礦山行業數據標注標準缺失、多模態數據標注成本高、海量數據價值釋放困難等困境,通過構建礦山行業知識標籤體系、多模態數據生成算法與合規校驗模型等,實現標注效率提升30%,跨模態語義一致性提升20%,高質量數據復用率提升50%,將行業人工智能應用研發周期由3個月縮短至3周,賦能礦山行業實現高質量發展。
通過對各級各類訴求渠道數據的歸口化管理,引入“數據清洗車間”“因果森林”等技術,解決傳統數據標注效率低、精準性差等問題。打造人機協同的訓練體系,日均處理數據6萬餘條,標注準確率達90%以上,人力成本降低30%,提升了基層治理的效率。
智能數據標注成為産業發展未來方向
人工智能作為新一輪科技革命和産業革命的核心驅動力,具有強大的“頭雁”效應,而高質量的數據集是人工智能發展的基石,數據標注則是構建高質量數據集的關鍵環節。
近年來,隨着人工智能技術的飛速發展,數據標注的需求也在不斷增長,從圖像到文本,從語音到視頻,數據標注的類型和任務劃分日益多樣化,對數據標注的質量和規模的要求也不斷提升。與此同時,數據存量小産量低、數據集質量良莠不齊、缺乏主流高價值數據引領、數據利用效率低等問題仍然存在。
日前,由清華大學數字政府與治理研究院聯合江蘇省數字化協會發布的《智能數據標注産業發展觀察報告》(以下簡稱“報告”)指出,數據標注産業涵蓋了從數據採集、標注到應用的全過程,數據標注是人工智能模型訓練的基礎,數據標注産業不僅關乎人工智能技術的進步,更對數字經濟、産業升級乃至社會生活的智能化轉型具有深遠意義。
數據標注産業通過標準化的數據處理流程,將原始數據轉換為可供機器學習的高質量訓練數據,其核心參與者包括數據標注企業、專業技術團隊以及經過系統培訓的標注人員,而人工智能技術的快速發展,讓數據標注産業逐步從勞動密集型向技術密集型轉型,人工標注與人工智能標注正在深度融合。
報告指出,隨着人工智能技術的不斷發展,智能標注將成為未來數據標注産業的重要發展方向。它不僅能夠滿足大模型數據標注的需求,還能為複雜的人工智能模型提供高質量的數據支持,推動人工智能技術在各個領域的廣泛應用和深度發展。(記者 蘇德悅)