?。–WW)在數(shù)字化轉型浪潮中,行業(yè)大模型被視為推動產業(yè)升級的核心引擎。但是,當前大多數(shù)行業(yè)大模型面臨著訓練數(shù)據(jù)的質量缺陷導致模型“邏輯混亂的偽推理”巨大挑戰(zhàn)。2025年4月30日全國數(shù)據(jù)標準化技術委員會秘書處發(fā)布了《高質量數(shù)據(jù)集建設指南(征求意見稿)》,對高質量數(shù)據(jù)集建設的全生命周期要求,包括數(shù)據(jù)需求、數(shù)據(jù)規(guī)劃、數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)標注、模型驗證等階段提出了建設指南,同時對高質量數(shù)據(jù)集分類、質量評測規(guī)范、面向數(shù)據(jù)流通的匿名化效果評估方法及處理實施、數(shù)據(jù)基礎設施的參考架構、互聯(lián)互通基本要求等都擬定了標準草案,標志著中國產業(yè)智能化將進入“數(shù)據(jù)精耕”時代。唯有持續(xù)完善數(shù)據(jù)的供給、標準、安全、價值多向發(fā)力,才能讓行業(yè)大模型真正成為驅動產業(yè)升級的“超級引擎”,在這場全球智能競賽中搶占制高點。
首先,數(shù)據(jù)供給不足。行業(yè)大模型對數(shù)據(jù)的需求多樣,不同行業(yè)部門對模型場景數(shù)據(jù)的需求各不相同,特別是在工業(yè)、醫(yī)療、金融、交通等垂直領域,公共數(shù)據(jù)來源顯著不足,難以滿足大模型訓練的需求。大型平臺或企業(yè)出于商業(yè)利益與知識產權的考慮,更傾向于獨享數(shù)據(jù)資源,常以保護信息、防范安全風險等理由拒絕共享數(shù)據(jù)。
其次,數(shù)據(jù)質量參差不齊。在行業(yè)大模型的實際建設中,對于構建和采買的數(shù)據(jù)沒有統(tǒng)一衡量標準,不同系統(tǒng)產生的數(shù)據(jù)格式多樣,行業(yè)數(shù)據(jù)集普遍存在分布偏差、顆粒度不一致、采集缺失甚至錯誤數(shù)據(jù)等問題,極大影響了大模型的訓練效果和預測準確性,造成訓練資源浪費。而且在數(shù)據(jù)標注智能化、專業(yè)化程度目前都比較初級,專業(yè)數(shù)據(jù)處理人員數(shù)量缺口較級新浪潮
這場由高質量數(shù)據(jù)集引發(fā)的“燃料革命”,正在重塑行業(yè)大模型的發(fā)展邏輯,數(shù)據(jù)質量決定模型智能上限、數(shù)據(jù)生態(tài)構建產業(yè)競爭壁壘。行業(yè)高質量數(shù)據(jù)集的加速匯聚共享,將為人工智能產業(yè)發(fā)展提供充足燃料,針對不同場景進行持續(xù)訓練優(yōu)化,推動行業(yè)大模型的落地應用,助力產業(yè)智能化升級。
高質量數(shù)據(jù)集可通過強化標準引領,建立標準化數(shù)據(jù)集體系,從通識數(shù)據(jù)集、行業(yè)通識數(shù)據(jù)集、行業(yè)專識數(shù)據(jù)集分類著手,按照高質量數(shù)據(jù)集的生命周期有序展開,包括數(shù)據(jù)需求、數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)管理、模型驗證等階段,各階段按順序逐步開展,并對其它階段有序進行反饋和迭代。
數(shù)據(jù)源充足的高質量數(shù)據(jù)集是行業(yè)大模型訓練的“營養(yǎng)基”,能夠顯著提升模型的準確性和泛化能力,加載更豐富的行業(yè)場景數(shù)據(jù),提升模型在特定領域的專業(yè)性和適配性。如上海中城交通達大模型,利用其積累多年的交通行業(yè)專用語料庫,整合了6大類30小類多模態(tài)數(shù)據(jù)集,超200萬份行業(yè)技術文檔、10萬公里道路設施數(shù)字檔案、5萬例管理場景案例,為大模型訓練和推理提供數(shù)據(jù)基礎,精準制定交通信號優(yōu)化方案,在試點城市讓路口的通行效率提升15%左右,推動行業(yè)發(fā)展與創(chuàng)新。
根據(jù)行業(yè)特點,對于數(shù)據(jù)的顆粒度,根據(jù)業(yè)務需求設定統(tǒng)一的規(guī)范,如數(shù)據(jù)來源、數(shù)據(jù)格式、數(shù)據(jù)質量、數(shù)據(jù)接口等,規(guī)范數(shù)據(jù)采集流程并做好數(shù)據(jù)挖掘、分析、應用和管理,由此形成的高質量數(shù)據(jù)集能夠為行業(yè)大模型提供精準、豐富的訓練素材,提升模型在特定領域的性能和適應性,行業(yè)大模型在更多領域的深度應用,加速行業(yè)的數(shù)字化轉型。如中國電子科技集團聯(lián)合國家能源集團構建了超10萬組高質量光譜煤質數(shù)據(jù)集,研發(fā)了“融合光譜煤質快檢技術”,大幅提升了檢測效能,檢測時間由8小時減至2分鐘,檢測能力由1克提升至1000千克以上,復雜煤種通過率從60%提升到100%。
國家提出了數(shù)場、數(shù)聯(lián)網(wǎng)、數(shù)據(jù)元件、數(shù)據(jù)空間、隱私計算和區(qū)塊鏈等六條技術路線,推動形成橫向聯(lián)通、縱向貫通、協(xié)調有力的國家數(shù)據(jù)基礎設施基本格局。高質量數(shù)據(jù)集的建設不僅可以提升數(shù)據(jù)的可用性,還通過數(shù)據(jù)流通基礎設施加速了數(shù)據(jù)的開放共享,充分釋放數(shù)據(jù)要素價值并構建完備的數(shù)據(jù)生態(tài),推動傳統(tǒng)行業(yè)的數(shù)字化升級。
高質量數(shù)據(jù)集結合大模型與智能體開發(fā)框架,可快速構建各類行業(yè)應用,賦能各行業(yè)的數(shù)智化轉型。如國家能源投資集團研發(fā)的煤炭工業(yè)設備綜合診斷運維大模型,覆蓋27類關鍵設備,實現(xiàn)故障預警準確率超90%、診斷準確率超85%,設備綜合壽命提升20%,年檢修成本降低15%,實現(xiàn)煤炭行業(yè)在減人、增安、提效等方面的智能化升級。彩神官網(wǎng) 彩神