FedCG：利用條件生成對抗網(wǎng)絡(luò)在聯(lián)邦學(xué)習(xí)中保護(hù)隱私并保持模型性能

微眾銀行

2022-09-16 09:49 4868

深圳2022年9月15日 /美通社/ -- 聯(lián)邦學(xué)習(xí)（Federated Learning）旨在通過讓客戶端在不分享其私人數(shù)據(jù)，保護(hù)數(shù)據(jù)隱私的前提下協(xié)作建立機(jī)器學(xué)習(xí)模型。最近的一些研究證明了在聯(lián)邦學(xué)習(xí)過程中交換的信息會受到基于梯度的隱私攻擊，因此，各種隱私保護(hù)方法已被采用來阻止此類攻擊，保護(hù)數(shù)據(jù)隱私。然而，這些防御性方法要么引入數(shù)級更多的計(jì)算和通信開銷（例如，同態(tài)加密），要么在預(yù)測準(zhǔn)確性方面導(dǎo)致模型性能大幅下降（例如，使用差分隱私）。微眾銀行AI團(tuán)隊(duì)和中山大學(xué)合作發(fā)表的論文《FedCG：利用條件生成對抗網(wǎng)絡(luò)在聯(lián)邦學(xué)習(xí)中保護(hù)隱私并保持模型性能》提出了"FedCG"，將條件生成對抗網(wǎng)絡(luò)與分割學(xué)習(xí)相結(jié)合，實(shí)現(xiàn)對數(shù)據(jù)的有效隱私保護(hù)，同時(shí)保持有競爭力的模型性能。該論文已被國際人工智能頂級學(xué)術(shù)會議IJCAI 2022主會收錄。

論文信息

作者：Yuezhou Wu, Yan Kang, Jiahuan Luo, Yuanqin He, Lixin Fan, Rong Pan, Qiang Yang

標(biāo)題：FedCG: Leverage Conditional GAN for Protecting Privacy and Maintaining Competitive Performance in Federated Learning

論文全文鏈接：https://www.ijcai.org/proceedings/2022/324

FedCG將每個(gè)客戶端的本地網(wǎng)絡(luò)分解為私有特征提取器（extractor）和公共分類器（classifier），并將特征提取器保留在本地以保護(hù)隱私。每個(gè)客戶端用一個(gè)生成器（generator）來擬合特征提取器的輸出表征。FedCG的創(chuàng)新之處在于它與服務(wù)器共享客戶端的生成器而不是提取器，以聚合客戶端的共享知識，提高模型性能 (如圖1)。

圖1：FedCG 架構(gòu)概覽

這種策略有兩個(gè)直接的優(yōu)勢：首先，與服務(wù)器可以得到完整的客戶端模型的聯(lián)邦學(xué)習(xí)方法（例如，F(xiàn)edAvg 和 FedProx）相比，F(xiàn)edCG沒有暴露直接與原始數(shù)據(jù)接觸的模型 (也即，extractor)，因此客戶端數(shù)據(jù)泄露的可能性顯著降低。其次，服務(wù)器可以使用知識蒸餾（Hinton, Vinyals, and Dean 2015）聚合客戶端的生成器和分類器，而無需訪問任何公共數(shù)據(jù)。

一、FedCG訓(xùn)練步驟

FedCG的訓(xùn)練步驟分為兩階段客戶端更新（如圖2）和服務(wù)器端聚合（如圖3）。在兩階段客戶端更新中，首先利用從服務(wù)器下發(fā)的全局生成器來優(yōu)化分類網(wǎng)絡(luò)（包括特征提取器和分類器），然后再訓(xùn)練一個(gè)本地生成器來擬合特征提取器的輸出表征G(z,y)≈F(x|y），用這個(gè)本地生成器來代替特征提取器, 在服務(wù)器端聚合所有客戶端的知識同時(shí)保護(hù)數(shù)據(jù)隱私。

圖2：FedCG 客戶端訓(xùn)練示意圖

在服務(wù)器端聚合中，通過知識蒸餾的方式聚合一個(gè)公共分類器 C_g 和一個(gè)公共生成器 G_g。然后，服務(wù)器下發(fā)公共分類器和公共生成器給每個(gè)客戶端。

圖3：FedCG服務(wù)器端訓(xùn)練示意圖

二、FedCG實(shí)驗(yàn)結(jié)果

如表1所示，總體來說，F(xiàn)edCG 在4個(gè)數(shù)據(jù)集 (共6個(gè)數(shù)據(jù)集) 上取得最高準(zhǔn)確率. 在IID 場景 : 在 FMNIST 上達(dá)到最高準(zhǔn)確率。在Non-IID 場景: 在 3 個(gè)數(shù)據(jù)集上都達(dá)到最優(yōu)，特別是在 Office 數(shù)據(jù)集上，F(xiàn)edCG比第二高準(zhǔn)確率的 FedProx 高出 4.35% 。

表1：FedCG與基線在Top-1精度上的比較

注：粗體字表示最好的性能。*表示沒有測量結(jié)果。括號內(nèi)的數(shù)字表示客戶端數(shù)量。

IID 場景: 所有的FL方法在所有的客戶端上都以較大的優(yōu)勢超過了本地模型。在FMNIST數(shù)據(jù)集上，F(xiàn)edCG在所有客戶端的表現(xiàn)都是最好的（見圖4（a））。FedCG的表現(xiàn)與那些共享所有本地模型的FL方法相差不大（見圖4（b））。Non-IID 場景: 在所有3個(gè)Non-IID數(shù)據(jù)集中，沒有一種FL方法能在每個(gè)客戶上都擊敗本地模型（見圖4（c），圖4（d）和圖4（e））。 FedCG在最多的客戶端上取得了最好的效果。同時(shí)也是擊敗local最多的算法。

圖4：不同數(shù)據(jù)集實(shí)驗(yàn)結(jié)果對比

注：在5個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)中，在每個(gè)客戶端上FEDAVG、FEDPROX、FEDDF、FEDSPLIT和FEDCG（紅色）與LOCAL相比，都取得了精度提高?？v軸是準(zhǔn)確性方面的性能差異（%）。正的（負(fù)的）收益意味著FL方法比LOCAL方法取得了比LOCAL模型更好（更差）。

如表2所示，隱私分析的實(shí)驗(yàn)結(jié)果表明，使用FedAvg，隨著 DP 噪聲添加得越多，能更好的保護(hù)隱私，但會導(dǎo)致較大的準(zhǔn)確率損失；使用FedSplit，能保護(hù)隱私, 但有較大的準(zhǔn)確率損失；使用FedCG，能在保護(hù)隱私的條件下，取得一個(gè)較高的準(zhǔn)確率。

表2： FedAVG，F(xiàn)edSPLIT和FedCG的模型性能與隱私保護(hù)效果對比

三、總結(jié)

FedCG的目的是保護(hù)數(shù)據(jù)隱私，同時(shí)保持有競爭力的模型性能。FedCG將每個(gè)客戶的本地網(wǎng)絡(luò)分解為一個(gè)私有特征提取器和一個(gè)公共分類器，并將特征提取器保持在本地以保護(hù)隱私。它與服務(wù)器共享客戶端的生成器，以聚合共享知識，從而提高客戶端本地分類網(wǎng)絡(luò)的性能。實(shí)驗(yàn)表明 FedCG具有高水平的隱私保護(hù)能力，并且可以實(shí)現(xiàn)有競爭力的模型性能。

消息來源：微眾銀行