色播熟女,自拍偷区亚洲综合激情,色噜AV,亚洲熟妇色l20p,九九在线视频

移動端


當(dāng)前位置:興旺寶>資訊首頁> 企業(yè)動態(tài)

高質(zhì)量數(shù)據(jù)集典型案例 | 石油化工領(lǐng)域高質(zhì)量數(shù)據(jù)集

2025-09-25 08:49:11來源:國家數(shù)據(jù)局 閱讀量:17773 評論

分享:

  中國石化積累了大量數(shù)據(jù)資源,但存在多模態(tài)異構(gòu)、標(biāo)注專業(yè)性強(qiáng)、數(shù)據(jù)分散等特點。本案例旨在進(jìn)一步整合內(nèi)外部數(shù)據(jù)資源,構(gòu)建一批多模態(tài)融合、行業(yè)代表性強(qiáng)的高質(zhì)量數(shù)據(jù)集,突破跨模態(tài)對齊、自動清洗標(biāo)注、動態(tài)質(zhì)量保障及安全合規(guī)共享等挑戰(zhàn),為行業(yè)大模型訓(xùn)練提供高精度標(biāo)注、多場景覆蓋的高質(zhì)量數(shù)據(jù)支撐,切實提升模型訓(xùn)練適配性與復(fù)雜場景泛化效能。
 
  方案和成效
 
  一是構(gòu)建1套行業(yè)級高質(zhì)量數(shù)據(jù)集建設(shè)標(biāo)準(zhǔn)化方法體系。在實踐基礎(chǔ)上,提煉并形成了涵蓋數(shù)據(jù)標(biāo)準(zhǔn)定義、質(zhì)量評估指標(biāo)、清洗標(biāo)注流程規(guī)范、安全管控要求等全環(huán)節(jié)的石化行業(yè)方法論體系。
 
  二是打造1組高質(zhì)量數(shù)據(jù)集全鏈路工具套件。創(chuàng)新融合大語言模型(LLM)、多模態(tài)大模型,以及各類經(jīng)訓(xùn)練微調(diào)的專業(yè)小模型與規(guī)則引擎,形成高質(zhì)量多模態(tài)數(shù)據(jù)集的大規(guī)模工程化生產(chǎn)流程,提升數(shù)據(jù)集建設(shè)效率,保障智能化建設(shè)過程中數(shù)據(jù)高質(zhì)、高效供給。
 
  三是產(chǎn)生1批行業(yè)多模態(tài)高質(zhì)量數(shù)據(jù)集。包括行業(yè)相關(guān)業(yè)務(wù)領(lǐng)域文件共近13萬冊,工業(yè)生產(chǎn)、安全等違章圖片200余萬張,廠區(qū)生產(chǎn)裝置、作業(yè)現(xiàn)場等監(jiān)控視頻超500TB;生成高質(zhì)量問答對超162萬條。
 
  四是支撐行業(yè)大模型訓(xùn)練和智能化應(yīng)用。行業(yè)大模型專業(yè)能力明顯提升?;谛袠I(yè)高質(zhì)量數(shù)據(jù)集,完成第一版長城行業(yè)大模型(70B、700B)訓(xùn)練和應(yīng)用,經(jīng)工信部信通院、泰爾實驗室評測,達(dá)到行業(yè)“引領(lǐng)級”;支撐分子理解、分子生成、不規(guī)范行為識別多模態(tài)、審計等專業(yè)大模型訓(xùn)練;大幅降低了從數(shù)據(jù)準(zhǔn)備到模型訓(xùn)練的門檻,支撐1600余個智能應(yīng)用在線開發(fā)。
 
  創(chuàng)新點
 
  一是自主研發(fā)智能化數(shù)據(jù)清洗標(biāo)注工具鏈,突破工業(yè)數(shù)據(jù)治理瓶頸。實現(xiàn)復(fù)雜表格識別準(zhǔn)確率85.71%,公式識別準(zhǔn)確率91.67%,化學(xué)結(jié)構(gòu)式識別準(zhǔn)確率67.7%,系統(tǒng)性地解決了石化行業(yè)數(shù)據(jù)多源異構(gòu)、專業(yè)性強(qiáng)、標(biāo)注成本高等痛點。
 
  二是首創(chuàng)“工具-數(shù)據(jù)集-場景”閉環(huán)賦能模式。打破數(shù)據(jù)建設(shè)與應(yīng)用脫節(jié)的常規(guī)路徑,創(chuàng)新性地建立了“工具建設(shè)-數(shù)據(jù)集生產(chǎn)-AI場景驗證-反哺工具/數(shù)據(jù)集優(yōu)化”的閉環(huán)賦能模式。
 
  三是打造開放協(xié)同的高質(zhì)量數(shù)據(jù)集共建共享生態(tài)。突破了傳統(tǒng)企業(yè)數(shù)據(jù)內(nèi)部封閉的局限,在保障數(shù)據(jù)主權(quán)與安全合規(guī)的前提下,創(chuàng)新性構(gòu)建了由企業(yè)、科研院所、技術(shù)服務(wù)商共同參與的數(shù)據(jù)生態(tài)體系。
版權(quán)與免責(zé)聲明:1.凡本網(wǎng)注明“來源:興旺寶裝備總站”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-興旺寶合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來源:興旺寶裝備總站”。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。 2.本網(wǎng)轉(zhuǎn)載并注明自其它來源(非興旺寶裝備總站)的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點或和對其真實性負(fù)責(zé),不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時,必須保留本網(wǎng)注明的作品第一來源,并自負(fù)版權(quán)等法律責(zé)任。 3.如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。
我來評論

昵稱 驗證碼

文明上網(wǎng),理性發(fā)言。(您還可以輸入200個字符)

所有評論僅代表網(wǎng)友意見,與本站立場無關(guān)

    相關(guān)新聞