針對(duì)教育數(shù)據(jù)“多模態(tài)對(duì)齊難、大規(guī)模標(biāo)注慢、高質(zhì)量評(píng)測(cè)難”等問(wèn)題,研發(fā)攻關(guān)多模態(tài)語(yǔ)義表征對(duì)齊、高效半自動(dòng)數(shù)據(jù)智能標(biāo)注、多維度數(shù)據(jù)集質(zhì)量評(píng)測(cè)等關(guān)鍵技術(shù)體系;建設(shè)教育行業(yè)分布式自動(dòng)采集、標(biāo)注工具及智能化生產(chǎn)平臺(tái);數(shù)據(jù)集構(gòu)建速度提升80%,標(biāo)注準(zhǔn)確率達(dá)到97%以上,整體效率提高60%~80%,降低人工智能數(shù)據(jù)“卡脖子”風(fēng)險(xiǎn),有效保障教育行業(yè)高質(zhì)量數(shù)據(jù)集自主供給能力,顯著促進(jìn)教育大模型開(kāi)發(fā)效率和應(yīng)用落地,推動(dòng)教育AI產(chǎn)業(yè)化發(fā)展。
方案和成效
一是關(guān)鍵技術(shù)攻關(guān),破解標(biāo)注難題。研發(fā)攻關(guān)多模態(tài)語(yǔ)義表征對(duì)齊技術(shù)、高效半自動(dòng)數(shù)據(jù)智能標(biāo)注技術(shù)、多維度數(shù)據(jù)集質(zhì)量評(píng)測(cè)技術(shù)等關(guān)鍵技術(shù)體系,破解“多模態(tài)對(duì)齊難、大規(guī)模標(biāo)注慢、高質(zhì)量評(píng)測(cè)難”等難題。“音-圖-文”達(dá)到億組級(jí)的對(duì)齊能力,標(biāo)注工具開(kāi)發(fā)效率提高80倍,整體標(biāo)注效率提高30%~40%,數(shù)據(jù)集多維度高質(zhì)量評(píng)測(cè)已成體系。
二是生產(chǎn)平臺(tái)研發(fā),全面智能標(biāo)注?;陉P(guān)鍵技術(shù),建設(shè)教育行業(yè)多模態(tài)數(shù)據(jù)集治理及質(zhì)量評(píng)測(cè)智能化平臺(tái),實(shí)現(xiàn)了多模態(tài)數(shù)據(jù)采集、存儲(chǔ)、清洗、標(biāo)準(zhǔn)化、標(biāo)注等流水化、智能化以及規(guī)?;卫砑皵?shù)據(jù)集質(zhì)量多維度評(píng)測(cè),智能化程度達(dá)80%。
三是核心數(shù)據(jù)構(gòu)建,加速模型研發(fā)。構(gòu)建教育行業(yè)文本/圖像/音頻/視頻多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)集、調(diào)教數(shù)據(jù)集、評(píng)測(cè)數(shù)據(jù)集。大規(guī)模高質(zhì)量多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)集幫助企業(yè)縮短模型開(kāi)發(fā)周期平均可達(dá)40%~50%,為企業(yè)節(jié)省模型研發(fā)成本20%~30%。
四是提升模型能力,助力應(yīng)用落地。經(jīng)過(guò)評(píng)測(cè)的多模態(tài)高質(zhì)量數(shù)據(jù)集,保障了極高的輸入精度,大大降低因數(shù)據(jù)誤差導(dǎo)致的模型偏差風(fēng)險(xiǎn),提升教育模型的安全性與可靠性等性能,助力教育AI應(yīng)用落地及產(chǎn)業(yè)化發(fā)展,已實(shí)現(xiàn)收入5000萬(wàn)元以上,未來(lái)收入規(guī)模巨大。
創(chuàng)新點(diǎn)
一是自動(dòng)化數(shù)據(jù)集構(gòu)建保障教育數(shù)據(jù)供給能力。流程化、工具化、自動(dòng)化數(shù)據(jù)采集、標(biāo)注平臺(tái),自動(dòng)化生產(chǎn)能力80%以上,吞吐量達(dá)15PB/年,保障了教育數(shù)據(jù)集的自主供給能力。
二是多維度評(píng)測(cè)體系確保數(shù)據(jù)集應(yīng)用效果。高質(zhì)量數(shù)據(jù)評(píng)測(cè)平臺(tái)通過(guò)探針自測(cè)、程序評(píng)測(cè)、人工校對(duì)等多維度質(zhì)量控制,數(shù)據(jù)集準(zhǔn)確率達(dá)99%以上,顯著提升教育類大模型精度,應(yīng)用效果極好。
三是全生態(tài)多模態(tài)數(shù)據(jù)集促進(jìn)教育AI產(chǎn)業(yè)化。數(shù)據(jù)集覆蓋小學(xué)、初中、高中、大學(xué)各階段中英文教材、資料、講座、培訓(xùn)、考題、競(jìng)賽、專利、論文、文獻(xiàn)、期刊、雜志等,包含文-圖-音-視等多模態(tài)的預(yù)訓(xùn)練數(shù)據(jù)集、調(diào)教數(shù)據(jù)集和評(píng)測(cè)數(shù)據(jù)集,內(nèi)容全面、模態(tài)豐富、種類齊全,高效賦能教育AI產(chǎn)業(yè)化發(fā)展。
昵稱 驗(yàn)證碼 請(qǐng)輸入正確驗(yàn)證碼
所有評(píng)論僅代表網(wǎng)友意見(jiàn),與本站立場(chǎng)無(wú)關(guān)