墨爾本2019年2月18日電 /美通社/ -- 2月15日,在澳大利亞墨爾本圓滿閉幕的第12屆網(wǎng)絡(luò)搜索與數(shù)據(jù)挖掘國際會議(WSDM 2019)上,臥龍大數(shù)據(jù)AI團隊陳維龍獲得 WSDM Cup 挑戰(zhàn)賽第一名的成績,這是中國企業(yè)參賽者首次在該賽事上取得的最高名次(去年WSDM 2018大賽上阿里AliOS 算法團隊獲得第二名)。
WSDM 被譽為信息檢索領(lǐng)域頂級的會議之一,會議的關(guān)注點為搜索、數(shù)據(jù)檢索、數(shù)據(jù)挖掘、算法設(shè)計、算法分析、經(jīng)濟影響方面的實際且嚴謹?shù)难芯?,以及對準確率和運行速度的深入實驗探究,今年已經(jīng)是 WSDM 的第十二屆會議。
本次 WSDM Cup 有來自全球 744 支隊伍參賽,論文接收率約為16%。此次比賽的賽題內(nèi)容是預(yù)測短視頻APP應(yīng)用在用戶快速增長階段中的用戶留存率,從而進一步挖掘提高用戶留存率及影響用戶留存的原因。
臥龍大數(shù)據(jù)陳維龍設(shè)計了一種實用的機器學習方法來應(yīng)對這樣的挑戰(zhàn),包括特征工程、Lightgbm、CatBoost等決策樹方法,RNN-ManyToMany等深度學習的方法,以及學習模型的堆疊。決策樹對于特征工程的挖掘具有非常好的效果體現(xiàn),而RNN-ManyToMany相對于傳統(tǒng)方式,不需要過多地處理輸入序列,可以直接輸入各種行為序列。通過余弦退火快照集成,從而以非常低的成本獲得大量不同的局部最優(yōu)值。通過多次優(yōu)化完善,陳維龍最終算法組件和可解釋性組件綜合得分第一,取得冠軍。
在此之前,臥龍大數(shù)據(jù)已經(jīng)深度研究過該類問題并制定了解決方案,去年臥龍大數(shù)據(jù)就已經(jīng)和本地運營商合作,建模研究運營商在網(wǎng)用戶的離網(wǎng)概率和離網(wǎng)原因,最終獲得了極高的準確率,并將之拓展應(yīng)用到運營商、金融等多個領(lǐng)域的用戶分析研究之中。