biznes technologie innowacje
technologiczna strona biznesu
biznes technologie innowacje
najważniejsze informacje zebrane w jednym miejscu

Premium

Materiał dostępny tylko dla Subskrybentów

Nie masz subskrypcji? Dołącz do grona Subskrybentów i korzystaj bez ograniczeń!

Jesteś Subskrybentem? Zaloguj się

X
Następny artykuł dla ciebie
Wyświetl >>
Zachowanie prywatności udostępnianych danych jest możliwe, ale...

Zachowanie prywatności udostępnianych danych jest możliwe, ale...

Istnieje sposób na efektywną ochronę danych osobowych podczas ich współdzielenia, jednak wymaga trochę zachodu i wiedzy specjalistycznej. Trzeba też pogodzić się z pewnymi kompromisami.

W miarę jak różne organizacje coraz częściej starają się przetwarzać dane, zarówno na użytek wewnętrzny, jak i w celu udostępniania ich partnerom w cyfrowych ekosystemach, pojawia się coraz więcej przepisów nakazujących wzmocnienie ochrony prywatności klientów. Niestety, tradycyjne sposoby zabezpieczania informacji poufnych mogą prowadzić do spektakularnych katastrof, narażając organizacje na procesy sądowe, kary administracyjne oraz ryzyko utraty reputacji.

Od lat 20. ubiegłego wieku statystycy opracowali wiele metod ochrony tożsamości i danych wrażliwych. Jednak ostatnie doświadczenia wskazują, że nawet po usunięciu nazwisk, numerów ubezpieczenia społecznego i innych szczegółów umożliwiających identyfikację, doświadczony haker może przejąć edytowane rejestry, połączyć je z publicznie dostępnymi informacjami i tym sposobem ponownie zidentyfikować ludzi stojących za poszczególnymi rekordami albo ujawnić poufne informacje, takie jak trasy podróży znanych osób lub urzędników państwowych. Im więcej informacji udostępnia organizacja, tym większe jest prawdopodobieństwo ujawnienia danych umożliwiających identyfikację osób, niezależnie od tego, jak dobrze chronione są zbiory.

Zbieranie szczegółowych, a co za tym idzie użytecznych danych, jest zatem z natury sprzeczne z ochroną prywatności.

Aby rozwiązać powyższy dylemat, informatycy opracowali matematyczną metodę nazwaną prywatnością różnicową (differential privacy – DP), której działanie opiera się kompromisowym podejściu: Aby zapewnić skuteczną ochronę prywatności, należy „odpuścić sobie”, oczywiście do pewnego momentu, dokładność danych. Co więcej, DP daje organizacjom możliwość pomiaru oraz kontroli takiego kompromisu. Wielu badaczy uważa obecnie DP za złoty standard, pozwalający użytkownikom na publikowanie statystyk albo tworzenie nowych zbiorów danych przy jednoczesnej kontroli stopnia, w jakim prywatność jest narażona na naruszenia.

Jak działa prywatność różnicowa

Wynaleziony w 2006 roku mechanizm DP działa poprzez dodawanie niewielkich błędów, zwanych szumem statystycznym, albo wprost do danych bazowych lub już do algorytmu służącego do obliczeń statystycznych. Ogólnie rzecz biorąc, im większy szum, tym lepsza ochrona prywatności, ale i mniej dokładny wynik. Choć szum statystyczny stosowany jest od dziesięcioleci, przełomowość technologii DP polega na tym, że nadaje ona wartość liczbową utracie prywatności, pojawiającej się za każdym razem, gdy informacje są udostępniane. Organizacje mogą kontrolować wielkość szumu statystycznego. Wiedzą więc, na ile wyniki statystyczne odbiegają od rzeczywistości, ale w zamian za to lepiej chronią prywatność dawców danychIndeks górny 1.

Biuro Spisu Powszechnego Stanów Zjednoczonych już w 2008 roku opracowało swój pierwszy produkt zawierający element prywatności różnicowej. OnTheMap dostarcza szczegółowych statystyk dotyczących wynagrodzeń oraz dojazdów do pracy w różnych obszarach geograficznych. Można go użyć na przykład do określenia, ile osób mieszkających w Montclair w stanie New Jersey dojeżdża do pracy na dolnym Manhattanie, wraz z uwzględnieniem ich średniego wieku, zarobków, przynależności etnicznej i branży, w której pracują. Aby zapobiec wykorzystaniu tych informacji do identyfikacji pojedynczej osoby dojeżdżającej do pracy, miejsca jej pracy i wysokości zarobków, DP dodaje szum do oryginalnych danych, zmieniając dla każdego modułu spisowego liczbę osób mieszkających i pracujących.

Ryzyko utraty prywatności można kontrolować, ale nie można go wyeliminować.

Od czasu wprowadzenia DP Biuro wykorzystało ten mechanizm do przeprowadzenia spisu powszechnego w 2020 roku, a Urząd Skarbowy i Departament Edukacji Stanów Zjednoczonych stosują go do publikowania statystyk dotyczących dochodów absolwentów szkół wyższych. Ponad 20 firm, w tym Apple, Google, Meta, Microsoft i Uber, poinformowało, że już wdrożyło albo rozważa zastosowanie DP.

Kontrowersje pojawiły się w zeszłym roku, gdy Biuro Spisu Powszechnego użyło DP do ochrony danych używanych przez władze stanowe do wyznaczania okręgów wyborczych. Wszystkie rejestry w tym pliku były syntetyczne, wygenerowane przez model statystyczny stworzony i zabezpieczony przy użyciu DP. Demografowie oraz badacze społeczni sprzeciwili się zastosowaniu DP, ostrzegając, iż szum statystyczny będzie tak duży, że wyniki mogą stać się bezużyteczne. Alabama wraz z 16 innymi stanami wniosła w kwietniu 2021 roku pozew o niedopuszczenie do wprowadzenia DP, twierdząc, że „uniemożliwiłoby to dokładne wyznaczanie okręgów wyborczych na szczeblu lokalnym”. Jednakże w czerwcu 2021 roku trzyosobowy zespół sędziowski odrzucił główne żądania pozwu, a Alabama wycofała go we wrześniu 2021 rokuIndeks górny 2.

Zdolność DP do dostosowania poziomu ochrony prywatności lub jej utraty jest zarówno jej mocną stroną, jak i słabością. Z jednej strony, po raz pierwszy osoby zajmujące się ochroną prywatności mają możliwość ilościowego określenia ryzyka związanego z ujawnieniem poufnych danych. Z drugiej natomiast zmusza to właścicieli danych do pogodzenia się z niewygodną prawdą, że ryzyko utraty prywatności można poddawać kontroli, ale nie można go wyeliminować.

Ta prawda była często ignorowana przez ustawodawców po obu stronach Oceanu Atlantyckiego. Przepisy dotyczące prywatności mają na celu ochronę informacji, które można zidentyfikować, czyli wszystkiego, co umożliwia poznanie szczegółów dotyczących życia konkretnej osoby – a ustawodawcy mają tendencję to pewnej dychotomii: informacje albo są bardzo chronione, albo wcale. Tymczasem możliwość zastosowania DP świadczy o tym, że ochrona prywatności danych nie jest zagadnieniem czarno‑białym.

Doświadczenie wskazuje, że wszelkie można połączyć konkretną osobę fizyczną z różnymi, teoretyczni anonimowymi śladami w sieci, jakie po sobie pozostawia, o ile tylko dobrze się poszuka. Na przykład badacze z Uniwersytetu w Teksasie zidentyfikowali abonentów Netflixa, łącząc oceny filmów z serwisu IMDB z „anonimową” listą filmów oglądanych i ocenianych przez abonentów, którą opublikował Netflix. Badacze wykazali, że poszczególne wpisy mogą być ponownie zidentyfikowane i powiązane z abonentem. Firma została pozwana na podstawie ustawy Video Privacy Protection Act i w wyniku zbiorowego pozwu wypłaciła odszkodowanie w wysokości 9 milionów dolarów.

Ustawa o ochronie prywatności musi być stosowana do wszystkich informacji, które są jakkolwiek związane z daną osobą, a nie tylko do tych, które umożliwiają jej identyfikację. Umożliwia to kontrolowanie, jak wiele danych jest udostępnianych oraz jak wiele prywatności podlega naruszeniu, na podstawie specyficznych potrzeby organizacji i tego, co uważa ona za swój próg ochrony prywatności.

Trzy różne strategie zastosowania DP

Badacze zajmujący się ochroną prywatności opracowali trzy różne modele korzystania z DP.

Model zaufanego kuratora. Organizacja korzystająca z poufnych danych dodaje szumy do wyników statystycznych, publikowanych dla szerszej grupy odbiorców. Jest to podejście stosowane przez Biuro Spisu Powszechnego do publikowania informacji z ochroną prywatności, takich jak te wykorzystywane przez produkt OnTheMap.

Model zaufanego kuratora może chronić zarówno dane, które zostały  już opublikowane, jak i te, które są wykorzystywane wewnątrz organizacji. W 2018 r. firma Uber stworzyła system DP na potrzeby wewnętrznych badań, który zawierał informacje o pasażerach oraz kierowcach, dzienniki podróży i dane, które firma gromadzi w celu poprawy doświadczeń klientów. DP umożliwiła analitykom Ubera ocenę wydajności jego systemów bez wglądu w szczegóły dotyczące poszczególnych klientów i ich przejazdów.

Syntetyczne mikrodane chronione przez DP. Jest to dodatkowa metoda, z której mogą korzystać organizacje stosujące model zaufanego kuratora. W takim przypadku organizacja tworzy statystyczny model danych oryginalnych, a następnie stosuje na nim DP  w celu utworzenia nowego modelu chronionego pod względem prywatności. Jest on następnie wykorzystany do utworzenia indywidualnych zapisów. Te mikrodane mogą zawierać informacje o wieku, poziomie wykształcenia oraz przychodach danej osoby, które po przeanalizowaniu dają podobne wyniki statystyczne, lecz nie odpowiadają dokładnie danym rzeczywistej osoby.

Zaletą mikrodanych jest to, że można je rozpowszechniać lub wielokrotnie analizować bez dodatkowej utraty prywatności. Trudno jest jednak stworzyć dokładne rejestry mikrodanych, zawierające więcej niż kilka kolumn, i nie da się ich łatwo połączyć z innymi zbiorami na poziomie rejestru, ponieważ chronione dane nie zawierają identyfikatorów, takich jak nazwiska albo numery ubezpieczenia społecznego.

PRZECZYTAJ TAKŻE:

Dane syntetyczne – duży potencjał dla biznesu 

Fernando Lucini

Dostęp do danych bywa niekiedy utrudniony. Czasem jednak, do uczenia modeli AI czy pozyskiwania wiedzy, można wykorzystywać dane syntetyczne – sztucznie wygenerowane, ale podobne do rzeczywistych.

Model lokalny. Szum statystyczny jest dodawany do każdego wpisu w rejestrze w podczas jego tworzenia i przed wysłaniem go do analityków (wewnętrznych albo zewnętrznych). Google stosował taką metodę do opracowywania statystyk dotyczących użytkowników swojej przeglądarki Chrome — w tym informacji o stronach domowych użytkowników, odwiedzanych witrynach i różnych procesach uruchamianych przez ich komputery — jako sposobu na zwiększenie możliwości blokowania złośliwego oprogramowania bez gromadzenia poufnych danych. Jednakże ostatecznie zrezygnowano z tego narzędzia, ponieważ „jest w nim po prostu za dużo szumu” – powiedział wówczas jeden z byłych badaczy Google. Zamiast tego firma zdecydowała się na bardziej skomplikowane podejście, łączące anonimowe mieszanie z modelem zaufanego kuratora.

Ogólnie rzecz biorąc, model zaufanego kuratora sprawdza się dobrze w przypadku organizacji takich jak Biuro Spisu Powszechnego, pracującymi z danymi, które już posiadają. Model lokalny natomiast jest atrakcyjny dla organizacji, które dotychczas wstrzymywały się z gromadzeniem danych ze względu na obawy o ochronę prywatności.

Na przykład Apple chcąc się dowiedzieć, jaki tekst ludzie wpisują, gdy używają emotek (np. wpisują „heart” czy „love”, by pojawił się symbol serca?) zastosowało model lokalny, by chronić prywatność użytkowników. Dzięki takiej metodzie organizacja może powiedzieć, że stosuje technologię chroniącą prywatność wobec danych, zanim jeszcze zostaną one zebrane.

Czy zatem DP jest wystarczająco dopracowanym narzędziem do prowadzenia biznesu?

Obecnie technologia DP jest jeszcze młoda i można stosować ją tylko w ograniczonych okolicznościach, głównie w przypadku statystyk liczbowych, opartych na poufnych danych, takich jak statystyki geograficzne wykorzystywane w aplikacji OnTheMap. DP nie działa jeszcze zbyt dobrze w przypadku ochrony tekstu, zdjęć, głosu lub materiałów wideo.

Ponieważ DP wymaga intensywnej nauki, osoby zainteresowane tą technologią powinny zacząć od małych, dobrze zdefiniowanych projektów pilotażowych. Lokalne przedsiębiorstwo użyteczności publicznej, poproszone o udostępnienie danych o zaległościach płatniczych klientów, może dostarczyć zestaw danych chronionych za pomocą DP, wskazując liczbę osób w każdym bloku, w przypadku których istnieje największe prawdopodobieństwo zaległości, bez identyfikacji poszczególnych gospodarstw domowych. Program pomocy w sytuacjach kryzysowych mógłby wówczas wykorzystać te dane, aby zawęzić zasięg pomocy do bloków o największym ryzyku zalegania z płatnościami, a nie do całego regionu.

DP można również wykorzystać do tworzenia mikrodanych chroniących prywatność, choć to podejście jest ograniczone do danych zawierających niewielką liczbę zmiennych. Na przykład Google zareagował na pandemię, publikując raporty o liczbie osób przemieszczających się codziennie pomiędzy domami, biurami, sklepami, stacjami tranzytowymi oraz innymi miejscami („Community Mobility Reports”). Mikrodane dotyczące poszczególnych lokalizacji w postaci współrzędnych długości i szerokości geograficznej (czyli rejestrów z dwiema wartościami) przekształcono na sześć ogólnych kategorii lokalizacji, a następnie zastosowano metodę DP, by ukryć liczbę osób w zawartą każdej z nich.

Firmy rozważające wprowadzenie DP powinny zacząć od konsultacji lub zatrudnienia eksperta z zaawansowanymi kwalifikacjami w dziedzinie informatyki lub podobnymi (LinkedIn zatrudnił ekspertów ds. prywatności ze stopniem doktora do opracowania swoich statystyk zaangażowania odbiorców). Najbardziej wiarygodne informacje na temat tej technologii można znaleźć w wysoce technicznych pracach akademickich, a niektóre oferty pracy odzwierciedlają ten fakt, wymagając od kandydatów opublikowania prac technicznych lub opracowania publicznie dostępnego kodu DP. Próba zastosowania DP teraz bez tego rodzaju wiedzy fachowej prawdopodobnie będzie prowadzić do błędów.

Mając do dyspozycji eksperta w dziedzinie DP, organizacja jest w stanie lepiej ocenić obecnie dostępne narzędzia, zarówno komercyjne, jak i open source, aby określić, które z nich najlepiej spełnią potrzeby w danym przypadku zastosowania. Firmy powinny zadać sobie pytania: czy technologia jest przeznaczona do ochrony danych, które są już dostępne, czy informacji, które są aktualnie zbierane? Jeśli chodzi o istniejące dane, czy ma ona chronić wyniki statystyczne lub mikrodane na poziomie rejestrów? Jakie szkolenia, materiały edukacyjne lub wsparcie zapewnia dostawca?

W najbliższym czasie technologia DP może nadal być zbyt skomplikowana dla większości organizacji. Mogą one jednak już dziś poprawić ochronę prywatności, przyjmując niektóre zasady leżące u jej podstaw, takie jak dodawanie szumu statystycznego do swoich produktów opartych na danych, nawet jeśli brakuje im możliwości dokładnego zmierzenia rzeczywistego kompromisu pomiędzy ochroną prywatności a dokładnością.

PRZYPISY:

1. C.M. Bowen i S. Garfinkel, The Philosophy of Differential Privacy, „Notices of the American Mathematical Society” 68, no. 10 (listopad 2021): 1727‑1739; oraz A. Wood, M. Altman, A. Bembenek, et al., Differential Privacy: A Primer for a Non‑Technical Audience „Vanderbilt Journal of Entertainment and Technology Law” 21, nr 1 (jesień 2018): 209‑276.

2. Więcej o kontrowersyjnym pomyśle wdrożenia DP przed spisem powszechnym w USA w 2020 r., S. Garfinkel, Differential Privacy and the 2020 U.S. Census, MIT Case Studies in Social and Ethical Responsibilities of Computing (zima 2022), mit‑serc.pubpub.org.

Simson L. Garfinkel

Starszy analityk danych w Biurze Dyrektora ds. Informatyki w Departamencie Bezpieczeństwa Wewnętrznego USA

Clair McKay Bowen

Naukowczyni z Urban Institute, zajmująca się kwestiami prywatności i poufności danych.