通信信令數(shù)據(jù)蘊含著大規(guī)模群體7×24小時連續(xù)的動態(tài)位置信息,在交通運輸?shù)阮I域具有重要應用價值。針對當前原始信令數(shù)據(jù)質量較低、質量評估不足、語義信息缺失、敏感等級較高的問題,本案例構建了“質量增強-質量評估-語義標注-管理運營”四位一體的數(shù)據(jù)治理技術體系,形成了一套高質量的人時空三元組數(shù)據(jù)集,并基于此數(shù)據(jù)集訓練形成了具備出行分析、區(qū)域洞察等能力的行業(yè)大模型,可支撐交通調(diào)查、客流預測等需求。
方案和成效
一是構建體系化數(shù)據(jù)質量增強技術,夯實高質量數(shù)據(jù)底座。針對原始信令數(shù)據(jù)質量較低的問題,從位置異常、數(shù)據(jù)缺失等層面,以多規(guī)則綜合判別與深度自監(jiān)督學習相結合的技術路線,提升數(shù)據(jù)準確性與完整性,形成超3000億條約50TB合格率達98%的高質量人時空三元組數(shù)據(jù)。
二是設計多元化數(shù)據(jù)質量評估體系,全方位評估數(shù)據(jù)質量。針對信令數(shù)據(jù)質量評估不足的問題,結合行業(yè)標準和數(shù)據(jù)特性,設計一套定制化指標和通用性指標相結合的多元化質量綜合評估體系,并開發(fā)2大類評測算子,實現(xiàn)對人時空三元組數(shù)據(jù)的全方位質量評估。
三是打造專業(yè)化時空信令標注工具,生成多維度數(shù)據(jù)標簽。針對信令數(shù)據(jù)語義信息缺失的問題,打造一款可視化、智能化標注平臺,支持對出行方式、職業(yè)畫像等信息的高效標注,自動化率達70%,輔助生成1套出行語義標注數(shù)據(jù)集,并聯(lián)合打造1個省級數(shù)據(jù)標注基地。
四是形成全周期數(shù)據(jù)管理運營機制,保障數(shù)據(jù)安全與流通。針對信令數(shù)據(jù)敏感等級較高的問題,建立覆蓋數(shù)據(jù)全生命周期的安全管理運營機制,形成從數(shù)據(jù)采集到智能處理再到場景化輸出的生態(tài)閉環(huán),賦能北京交通委、東莞交通局等10余家單位的出行調(diào)查、流量監(jiān)控、交通規(guī)劃等20多種業(yè)務場景。
創(chuàng)新點
一是技術創(chuàng)新驅動數(shù)據(jù)質量增強。首創(chuàng)基于深度自監(jiān)督學習的異常信令修復和軌跡路徑重構方法,實現(xiàn)對異常數(shù)據(jù)的修復、缺失數(shù)據(jù)的插補以及數(shù)據(jù)準確性的提升,將原始信令數(shù)據(jù)轉換為可準確反映群體出行特征及人地交互關系的高質量人時空三元組數(shù)據(jù)集。
二是工具打造賦能標注效率提升。打造專門面向時空信令數(shù)據(jù)的軌跡語義標注平臺,綜合考慮信令數(shù)據(jù)的時空動態(tài)性和專業(yè)性,以地理信息可視化結合交互式引導的方式,實現(xiàn)對信令數(shù)據(jù)背后所蘊含的活動語義的高效標注,降低標注難度和標注成本。
三是機制建設促進數(shù)據(jù)流通利用。構建數(shù)據(jù)安全合規(guī)審查體系和數(shù)據(jù)飛輪管理運營機制,并形成產(chǎn)業(yè)生態(tài)閉環(huán),實現(xiàn)數(shù)據(jù)全生命周期的安全合規(guī)、順暢流轉與價值釋放。
昵稱 驗證碼 請輸入正確驗證碼
所有評論僅代表網(wǎng)友意見,與本站立場無關