Wekelijkse sociale interacties vormen unieke handtekeningen waardoor mensen opvallen
Hoe je met een menigte omgaat, kan je helpen om eruit te springen, in ieder geval voor kunstmatige intelligentie.
Wanneer informatie wordt gegeven over de interacties met de mobiele telefoon van een doelpersoon, evenals de interacties van hun contacten, kan AI correct kies het doelwit uit meer dan 40.000 anonieme abonnees van mobiele telefonie meer dan de helft van de tijd, rapporteren onderzoekers 25 januari in Natuurcommunicatie. De bevindingen suggereren dat mensen socialiseren op manieren die kunnen worden gebruikt om ze uit datasets te halen die zogenaamd geanonimiseerd zijn.
Het is geen verrassing dat mensen de neiging hebben om binnen gevestigde sociale kringen te blijven en dat deze regelmatige interacties in de loop van de tijd een stabiel patroon vormen, zegt Jaideep Srivastava, een computerwetenschapper van de Universiteit van Minnesota in Minneapolis die niet bij het onderzoek betrokken was. “Maar het feit dat je dat patroon kunt gebruiken om het individu te identificeren, dat deel is verrassend.”
Volgens de Europese Unie Algemene verordening gegevensbescherming en de California Consumer Privacy Act, kunnen bedrijven die informatie verzamelen over de dagelijkse interacties van mensen deze gegevens delen of verkopen zonder toestemming van de gebruikers. Het addertje onder het gras is dat de gegevens geanonimiseerd moeten worden. Sommige organisaties gaan ervan uit dat ze aan deze norm kunnen voldoen door gebruikers pseudoniemen te geven, zegt Yves-Alexandre de Montjoye, een computerprivacyonderzoeker aan het Imperial College London. “Onze resultaten tonen aan dat dit niet waar is.”
de Montjoye en zijn collega’s veronderstelden dat het sociale gedrag van mensen zou kunnen worden gebruikt om ze uit datasets te halen die informatie bevatten over de interacties van anonieme gebruikers. Om hun hypothese te testen, leerden de onderzoekers een kunstmatig neuraal netwerk – een AI die de neurale circuits van een biologisch brein simuleert – om patronen te herkennen in de wekelijkse sociale interacties van gebruikers.
Voor één test trainden de onderzoekers het neurale netwerk met gegevens van een niet-geïdentificeerde mobiele telefoondienst die de interacties van 43.606 abonnees gedurende 14 weken gedetailleerd weergaf. Deze gegevens omvatten de datum, tijd, duur, type (oproep of sms) van elke interactie, de pseudoniemen van de betrokken partijen en wie de communicatie startte.
De interactiegegevens van elke gebruiker waren georganiseerd in webvormige gegevensstructuren bestaande uit knooppunten die de gebruiker en hun contacten vertegenwoordigen. Strings met interactiegegevens verbonden de knooppunten. De AI kreeg het interactieweb van een bekende persoon te zien en ging vervolgens los om in de geanonimiseerde gegevens te zoeken naar het web dat de meeste gelijkenis vertoonde.
Het neurale netwerk koppelde slechts 14,7 procent van de individuen aan hun geanonimiseerde zelf toen interactiewebs werden getoond met informatie over de telefooninteracties van een doelwit die plaatsvonden een week na de laatste records in de anonieme dataset. Maar het identificeerde 52,4 procent van de mensen wanneer ze niet alleen informatie kregen over de interacties van het doelwit, maar ook die van hun contacten. Toen de onderzoekers de AI de interactiegegevens van het doelwit en de contacten gaven die 20 weken na de anonieme dataset waren verzameld, identificeerde de AI de gebruikers nog steeds 24,3 procent van de tijd correct, wat suggereert dat sociaal gedrag gedurende lange tijd identificeerbaar blijft.
Om te zien of de AI sociaal gedrag elders kon profileren, testten de onderzoekers het op een dataset bestaande uit vier weken aan close-proximity-gegevens van de mobiele telefoons van 587 anonieme universiteitsstudenten, verzameld door onderzoekers in Kopenhagen. Dit omvatte interactiegegevens bestaande uit de pseudoniemen van studenten, ontmoetingstijden en de sterkte van het ontvangen signaal, wat indicatief was voor de nabijheid van andere studenten. Deze statistieken worden vaak verzameld door COVID-19-toepassingen voor het traceren van contacten. Gezien een doelwit en de interactiegegevens van hun contacten, identificeerde de AI 26,4 procent van de tijd correct studenten in de dataset.
De bevindingen, merken de onderzoekers op, zijn waarschijnlijk niet van toepassing op de protocollen voor het traceren van contacten van Google en het systeem voor blootstellingsmeldingen van Apple, dat de privacy van gebruikers beschermt door alle Bluetooth-metadata te versleutelen en het verzamelen van locatiegegevens te verbieden.
de Montjoye zegt te hopen dat het onderzoek beleidsmakers zal helpen strategieën te verbeteren om de identiteit van gebruikers te beschermen. Gegevensbeschermingswetten maken het delen van geanonimiseerde gegevens mogelijk om nuttig onderzoek te ondersteunen, zegt hij. “Echter, wat essentieel is om dit te laten werken, is ervoor te zorgen dat anonimisering de privacy van individuen daadwerkelijk beschermt.”