深圳2022年9月16日 /美通社/ -- 針對(duì)聯(lián)邦學(xué)習(xí)全局模型的版權(quán)保護(hù)問(wèn)題,微眾銀行AI團(tuán)隊(duì)聯(lián)合上海交通大學(xué)在人工智能學(xué)術(shù)期刊《IEEE模式分析與機(jī)器智能匯刊》(IEEE T-PAMI,IEEE Transactions on Pattern Analysis and Machine Intelligence,涉及人工智能、計(jì)算機(jī)視覺(jué)、模式識(shí)別等多個(gè)領(lǐng)域)上發(fā)表了題為“FedIPR: 聯(lián)邦深度神經(jīng)網(wǎng)絡(luò)模型的所屬權(quán)驗(yàn)證”(FedIPR: Ownership Verification for Federated Deep Neural Network Models)的論文。該論文從算法、協(xié)議、安全等多個(gè)角度出發(fā),就聯(lián)邦學(xué)習(xí)模型知識(shí)產(chǎn)權(quán)保護(hù)問(wèn)題,分享了他們對(duì)模型知識(shí)產(chǎn)權(quán)保護(hù)的思考和工作,提出了名為“FedIPR”的聯(lián)邦學(xué)習(xí)模型版權(quán)保護(hù)框架。
近年來(lái),深度神經(jīng)網(wǎng)絡(luò)(DNN)等機(jī)器學(xué)習(xí)技術(shù)在諸多領(lǐng)域取得了巨大成功,許多科技公司都將神經(jīng)網(wǎng)絡(luò)模型部署在商業(yè)產(chǎn)品中,提高效益。訓(xùn)練先進(jìn)的神經(jīng)網(wǎng)絡(luò)模型需要大規(guī)模數(shù)據(jù)集、龐大的計(jì)算資源和設(shè)計(jì)者的智慧,具體體現(xiàn)在如下三個(gè)領(lǐng)域:
一、深度學(xué)習(xí)模型應(yīng)用的訓(xùn)練模型規(guī)模巨大。以 GPT-3 為例,其預(yù)訓(xùn)練所用的數(shù)據(jù)量達(dá)到 45TB,訓(xùn)練費(fèi)用超過(guò) 1200 萬(wàn)美元,有著極高的經(jīng)濟(jì)成本。
二、深度學(xué)習(xí)模型在訓(xùn)練部署到工業(yè)應(yīng)用場(chǎng)景過(guò)程中需要引入相關(guān)領(lǐng)域的先驗(yàn)知識(shí)。例如,其在智慧金融、智慧醫(yī)療領(lǐng)域的應(yīng)用,需要引入金融、醫(yī)療等領(lǐng)域?qū)S邢闰?yàn)知識(shí)。因此,在模型設(shè)計(jì)過(guò)程,開發(fā)者需要引入專家的知識(shí)和經(jīng)驗(yàn)來(lái)訂制模型,這也體現(xiàn)了人腦力的知識(shí)產(chǎn)權(quán)。
三、深度學(xué)習(xí)模型的訓(xùn)練過(guò)程需要特定領(lǐng)域的海量數(shù)據(jù)作為訓(xùn)練資源,而數(shù)據(jù)本身具有價(jià)值和知識(shí)屬性。
以上屬性決定了經(jīng)過(guò)訓(xùn)練的深度學(xué)習(xí)模型具有很高的商業(yè)價(jià)值和知識(shí)屬性,必須將其納入合法所有者(即創(chuàng)建它的一方)的知識(shí)產(chǎn)權(quán)。因此,從技術(shù)層面,行業(yè)也面臨迫切保護(hù)深度神經(jīng)網(wǎng)絡(luò)(DNN)模型的知識(shí)產(chǎn)權(quán),以防止其被非法復(fù)制、重新分發(fā)或?yàn)E用。
針對(duì)昂貴的模型,攻擊者可以采用技術(shù)手段或者非技術(shù)手段進(jìn)行竊??;但要確認(rèn)盜用且聲明模型所有權(quán),則是完全從人工智能理論方法角度出發(fā),模型的所有權(quán)認(rèn)證技術(shù)需要保證不犧牲模型可用性前提下,提供可靠且穩(wěn)健的知識(shí)產(chǎn)權(quán)保護(hù)方法。
相比于中心化場(chǎng)景的模型訓(xùn)練,聯(lián)邦學(xué)習(xí)分布式訓(xùn)練涉及多個(gè)參與方,存在參與方被敵手攻擊或者模型搭便車的情況,因此有更大的人工智能模型泄露風(fēng)險(xiǎn),對(duì)聯(lián)邦學(xué)習(xí)模型的所屬權(quán)構(gòu)成了潛在的侵犯風(fēng)險(xiǎn)。
傳統(tǒng)的深度學(xué)習(xí)模型知識(shí)產(chǎn)權(quán)保護(hù)方法主要著眼于深度神經(jīng)網(wǎng)絡(luò)水印的算法實(shí)踐和穩(wěn)健性挑戰(zhàn),沒(méi)有把模型水印實(shí)踐到可信聯(lián)邦學(xué)習(xí)方向的研究。微眾銀行AI團(tuán)隊(duì)提出的FedIPR框架考慮一種不完全信任的聯(lián)邦學(xué)習(xí)系統(tǒng),假定聯(lián)邦學(xué)習(xí)各參與方能夠按照聯(lián)邦法則來(lái)進(jìn)行模型更新和協(xié)同訓(xùn)練,但彼此不泄露私有本地?cái)?shù)據(jù)和私密簽名。在這種設(shè)定下,F(xiàn)edIPR闡述了一種新穎的聯(lián)合深度神經(jīng)網(wǎng)絡(luò)(FedDNN)所有權(quán)驗(yàn)證方案(圖1[1]),該方案允許嵌入和驗(yàn)證所有權(quán)簽名,以聲明 FedDNN 模型的合法知識(shí)產(chǎn)權(quán)(IPR),以防模型被非法復(fù)制、重新分發(fā)或?yàn)E用。
微眾銀行AI團(tuán)隊(duì)提出黑盒與白盒兩階段驗(yàn)證聯(lián)邦學(xué)習(xí)模型所屬權(quán)的框架分為兩個(gè)階段(圖2) :
一、黑盒階段,不需要訪問(wèn)模型參數(shù)和內(nèi)部結(jié)構(gòu),只需輸入特定樣本進(jìn)入模型API, 根據(jù)模型輸出判定模型所屬權(quán),為模型所屬權(quán)提供初步依據(jù)。
二、白盒驗(yàn)證階段,執(zhí)法機(jī)關(guān)根據(jù)上一階段,打開模型參數(shù)和結(jié)構(gòu),驗(yàn)證模型參數(shù)中是否嵌入有實(shí)現(xiàn)給定的能證明所屬權(quán)的“水印”。
針對(duì)白盒模型驗(yàn)證場(chǎng)景,團(tuán)隊(duì)創(chuàng)新地提出了針對(duì) batch normalization 層(圖3)的仿射變換參數(shù),進(jìn)行水印嵌入,該嵌入方法具有強(qiáng)可用性和穩(wěn)健性。
FedIPR 框架創(chuàng)新性地解決了模型所有權(quán)驗(yàn)證在聯(lián)邦學(xué)習(xí)中的兩大挑戰(zhàn):
一、亟需解決多水印沖突問(wèn)題。特別是對(duì)于基于特征的水印,對(duì)于不同的客戶是否可以有一個(gè)通用的解決方案來(lái)嵌入他們的私人指定水印。如下圖4所示,當(dāng)不同客戶端希望各自嵌入水印進(jìn)全局聯(lián)邦學(xué)習(xí)模型當(dāng)中,多個(gè)水印可能彼此發(fā)生沖突。針對(duì)該挑戰(zhàn),F(xiàn)edIPR提出用秘密提取矩陣的方式,解決了多個(gè)水印在聯(lián)邦學(xué)習(xí)模型之中互相沖突的挑戰(zhàn)。
二、亟需解決性能問(wèn)題。水印的穩(wěn)健性表明模型水印是否能在聯(lián)邦學(xué)習(xí)模型各種訓(xùn)練策略中適用,以及是否能抵御各種去除水印的攻擊。FedIPR采用客戶端嵌入的方式在差分隱私、魯棒聚合、模型剪枝、微調(diào)等多種設(shè)定下進(jìn)行了實(shí)驗(yàn)。
該論文展示了相關(guān)實(shí)驗(yàn)結(jié)果,闡述了FedIPR在主任務(wù)可用性,水印顯著性以及穩(wěn)健性方面的性能,卓越的性能證明了基于后門和特征的水印都能提供良好的聯(lián)邦學(xué)習(xí)模型所有權(quán)驗(yàn)證。
Github 代碼鏈接:https://github.com/purp1eHaze/FedIPR
[1] 文章配圖均來(lái)自于論文FedIPR: Ownership Verification for Federated Deep Neural Network Models (https://ieeexplore.ieee.org/document/9847383/)