中新網(wǎng)北京1月26日電 (記者 孫自法)匿名數(shù)據(jù)一定匿名嗎?施普林格·自然旗下學(xué)術(shù)期刊《自然-通訊》最新發(fā)表一篇技術(shù)論文指出,匿名數(shù)據(jù)也不那么匿名——人際互動(dòng)數(shù)據(jù)或可長(zhǎng)期用來(lái)識(shí)別匿名數(shù)據(jù)集中個(gè)體的身份。
該論文稱,為了開(kāi)展服務(wù)或出于研究目的,短信應(yīng)用、手機(jī)運(yùn)營(yíng)商、社交媒體平臺(tái)和其他應(yīng)用都會(huì)收集細(xì)粒度的互動(dòng)數(shù)據(jù)。這些數(shù)據(jù)已被用來(lái)研究個(gè)體間的互動(dòng)模式,預(yù)測(cè)流行病的空間傳播,以及評(píng)估友情對(duì)政治動(dòng)員的影響。根據(jù)歐盟當(dāng)前的數(shù)據(jù)保護(hù)條例,這些數(shù)據(jù)無(wú)需征得用戶同意就能分享和出售,但前提是數(shù)據(jù)必須匿名。
論文通訊作者、英國(guó)倫敦帝國(guó)理工學(xué)院伊夫·亞歷山大·德蒙喬伊(Yves-Alexandre de Montjoye)和同事研究發(fā)現(xiàn),人們的互動(dòng)數(shù)據(jù)能保持長(zhǎng)期穩(wěn)定,這或許能用來(lái)識(shí)別匿名數(shù)據(jù)集中個(gè)體的身份。他們開(kāi)發(fā)出一款基于深度學(xué)習(xí)的模型,訓(xùn)練這個(gè)模型根據(jù)個(gè)體的互動(dòng)網(wǎng)絡(luò)來(lái)識(shí)別他們的身份,并應(yīng)用于一個(gè)在不同時(shí)期收集信息的逾4萬(wàn)人的數(shù)據(jù)集。該模型能基于個(gè)體的2級(jí)(2-hop)互動(dòng)網(wǎng)絡(luò)(與目標(biāo)個(gè)體相隔1人的個(gè)體互動(dòng))識(shí)別出52%的人,基于個(gè)體的直接(1級(jí))互動(dòng)網(wǎng)絡(luò)識(shí)別出15%的人。
由于這類互動(dòng)網(wǎng)絡(luò)能保持長(zhǎng)期穩(wěn)定,研究者在20周后還能用個(gè)體的2級(jí)互動(dòng)網(wǎng)絡(luò)識(shí)別出24%的人。當(dāng)研究者將該模型用于一個(gè)587人的藍(lán)牙近距離數(shù)據(jù)集時(shí),該模型可以識(shí)別出超過(guò)26%的人。但論文作者也指出,他們不認(rèn)為該模型適用于針對(duì)防疫的接觸者追蹤協(xié)議,比如谷歌和蘋果的暴露通知(Exposure Notification)。
論文作者認(rèn)為,這項(xiàng)研究結(jié)果表明,匿名化、非連接互動(dòng)數(shù)據(jù)或具有長(zhǎng)期可識(shí)別性,這可能對(duì)隱私保護(hù)條例的遵守具有啟示意義。他們認(rèn)為,接入控制和隱私增強(qiáng)系統(tǒng)這類安全措施或能防止這種個(gè)人身份被識(shí)別的情況發(fā)生。此外,該研究結(jié)果還顯示,處理這類數(shù)據(jù)的現(xiàn)行做法可能并不符合歐盟《通用數(shù)據(jù)保護(hù)條例》(GDPR)的匿名化標(biāo)準(zhǔn)。(完)