貴陽大數據交易所發布939個高質量數據集
建好AI訓練“數據糧倉”
“這就像在沙漠裏尋找特定形狀的沙粒。”近日,面對大模型廠商提出的特殊需求,貴陽大數據交易所市場部産品總監李霖澤如此形容其難度。這項需求涉及100萬張叉車、集裝箱、包裹等物流園區對象圖像及名稱標注數據集,且對單場景目標物、複合目標物的形態比例有着嚴格限定。
為滿足大模型工業級應用需求,貴數所計劃聯合傳統物流企業與第三方專業數據治理機構協同攻關,希望通過對物流園區原始影像數據進行定向裁剪、深度加工和精細標記,致力於將原有模型對物流對象圖像類型的判斷準確度推向新高度。
大模型廠商主動尋求合作的背後,是貴數所高質量數據集專區構建的蓬勃生態與平台能力支撐。作為不到一年時間就已聚集46家生態夥伴、發布939個高質量數據集的專業化平台,在區域高質量數據集産業生態的發展起到了良好的帶頭示範作用。
貴數所高質量數據集專區廣泛覆蓋“數據要素×”金融服務、氣象服務、現代農業、工業製造、醫療健康、商貿流通等重點領域,猶如一個讓數據實現從“能用”到“好用”質變的“數據糧倉”。用戶只需輕點鼠標,即可按使用場景、獲取方式精準檢索所需的高質量數據集,徹底改變了以往大海撈針式的低效找尋模式。
去年底,國家發展改革委等部門聯合印發《關於促進數據産業高質量發展的指導意見》,首次提出“高質量數據集”概念。今年2月,國家數據局在北京召開高質量數據集建設工作啟動會,明確提出積極推進落實“人工智能+”行動,推動高質量數據集建設,高效賦能行業發展。在旺盛的市場需求與有力的政策推動雙重作用下,高質量數據集建設全速駛入快車道。
貴數所專區上架的高質量數據集,其價值不僅體現在數量優勢上,更在於多樣性與系統性——涵蓋文字、音頻、圖片、視頻等多種模態,以及TTS(文本轉語音)、OCR(光學字符識別)等跨模態數據。“多模態與跨模態數據的核心價值,在於打破信息孤島,讓AI實現更接近人類認知的綜合決策。”李霖澤解釋説,大模型訓練如同學生學習——單一模態數據好比只捧着課本死記硬背,而多模態數據則像同時打開了文字教材、音頻講解與視頻演示的多媒體課堂。
貴州中醫藥大學第一附屬醫院在貴數所上架的“CT影像+病理報告+基因數據”跨模態數據集,因其顯著價值獲得了“2024年度建設高質量數據集綜合排名前十市場主體”稱號,成為醫療數據要素價值化的標杆案例。
“傳統單一影像數據好比讓AI只看X光片,跨模態數據集突破了傳統局限,如同為AI診斷系統賦予‘望聞問切’的多維感知能力。”李霖澤説,這種融合使AI診斷系統可同步分析影像特徵、文本描述和分子標記,將病症早期篩查準確率顯著提升。
瞄準智慧醫療藍海,貴數所醫療數據專區計劃攜手中南大學湘雅醫院等區域頭部醫療機構,共同建立區域醫療行業可信數據空間,實現多模態醫療數據的跨機構安全流通、共享與交易,促進醫療數據要素高效配置與價值釋放。
同樣的賦能效應延伸至更廣泛領域。在工業場景中,“設備運行視頻+傳感器數據+維修日誌”的多模態融合,可助力預測性維護模型提前識別設備故障,降低停機損失;在農業領域,“土壤墑情+氣象數據+作物生長圖像”數據集可支撐智慧農場系統,實現農藥減量增效、畝産提升目標。
“我們計劃聯合無人機廠商及管控平台廠商等相關生態,開發低空經濟數據專區,登記上架低空經濟相關高質量數據集。”李霖澤&&,貴數所將聯合貴州大數據集團“數據開發利用加工基地”及第三方專業數據標注、治理機構,打造“高質量數據集産品化服務”,為數據提供商提供一站式數據處理服務,將原始數據加工打包成高質量數據集。(記者 李姍)

