Reklama
OFERTA SPECJALNA na NAJWYŻSZY pakiet subskrypcji! Wersję Platinum - OFERTA LIMITOWANA
Analityka i Business Intelligence

Zachowanie prywatności udostępnianych danych jest możliwe, ale…

8 maja 2022 13 min czytania
Zdjęcie Simson L. Garfinkel - Starszy analityk danych w Biurze Dyrektora ds. Informatyki w Departamencie Bezpieczeństwa Wewnętrznego USA
Simson L. Garfinkel
Zdjęcie Clair McKay Bowen - Naukowczyni z Urban Institute, zajmująca się kwestiami prywatności i poufności danych.
Clair McKay Bowen
Zachowanie prywatności udostępnianych danych jest możliwe, ale...

Streszczenie: Współczesne metody ochrony prywatności podczas udostępniania danych są możliwe, ale wymagają specjalistycznej wiedzy i świadomości pewnych kompromisów. Tradycyjne techniki ochrony danych mogą nie być wystarczająco skuteczne, szczególnie w przypadku hakerów, którzy potrafią połączyć dane z publicznie dostępnymi informacjami, co prowadzi do ujawnienia wrażliwych danych. Prywatność różnicowa (DP) to technologia, która pozwala na balansowanie pomiędzy dokładnością danych a ich ochroną. Zamiast usuwania danych osobowych, DP wprowadza tzw. szum statystyczny, który umożliwia organizacjom kontrolowanie stopnia naruszenia prywatności w zamian za mniejszą precyzyjność danych. Przykładem zastosowania tej metody jest biuro Spisu Powszechnego w USA, które z powodzeniem wprowadziło DP do analizy danych geograficznych i demograficznych.

Pokaż więcej

Istnieje sposób na efektywną ochronę danych osobowych podczas ich współdzielenia, jednak wymaga trochę zachodu i wiedzy specjalistycznej. Trzeba też pogodzić się z pewnymi kompromisami.

W miarę jak różne organizacje coraz częściej starają się przetwarzać dane, zarówno na użytek wewnętrzny, jak i w celu udostępniania ich partnerom w cyfrowych ekosystemach, pojawia się coraz więcej przepisów nakazujących wzmocnienie ochrony prywatności klientów. Niestety tradycyjne sposoby zabezpieczania informacji poufnych mogą prowadzić do spektakularnych katastrof, narażając organizacje na procesy sądowe, kary administracyjne oraz ryzyko utraty reputacji.

Od lat 20. ubiegłego wieku statystycy opracowali wiele metod ochrony tożsamości i danych wrażliwych. Jednak ostatnie doświadczenia wskazują, że nawet po usunięciu nazwisk, numerów ubezpieczenia społecznego i innych szczegółów umożliwiających identyfikację, doświadczony haker może przejąć edytowane rejestry, połączyć je z publicznie dostępnymi informacjami i tym sposobem ponownie zidentyfikować ludzi stojących za poszczególnymi rekordami albo ujawnić poufne dane, takie jak trasy podróży znanych osób czy urzędników państwowych. Im więcej informacji udostępnia organizacja, tym większe jest prawdopodobieństwo ujawnienia danych umożliwiających identyfikację osób, niezależnie od tego, jak dobrze chronione są zbiory.

Zbieranie szczegółowych, a co za tym idzie – użytecznych danych, jest zatem z natury sprzeczne z ochroną prywatności.

Aby rozwiązać powyższy dylemat, informatycy opracowali matematyczną metodę nazwaną prywatnością różnicową (differential privacy – DP), której działanie opiera się na kompromisowym podejściu: Aby zapewnić skuteczną ochronę prywatności, należy „odpuścić sobie”, oczywiście do pewnego momentu, dokładność danych. Co więcej, DP daje organizacjom możliwość pomiaru oraz kontroli takiego kompromisu. Wielu badaczy uważa obecnie DP za złoty standard, pozwalający użytkownikom na publikowanie statystyk albo tworzenie nowych zbiorów danych przy jednoczesnej kontroli stopnia, w jakim prywatność jest narażona na naruszenia.

Jak działa prywatność różnicowa

Wynaleziony w 2006 roku mechanizm DP działa poprzez dodawanie niewielkich błędów, zwanych szumem statystycznym, albo wprost do danych bazowych, albo już do algorytmu służącego do obliczeń statystycznych. Ogólnie rzecz biorąc, im większy szum, tym lepsza ochrona prywatności, ale mniej dokładny wynik. Choć szum statystyczny stosowany jest od dziesięcioleci, przełomowość technologii DP polega na tym, że nadaje ona wartość liczbową utracie prywatności pojawiającej się za każdym razem, gdy informacje są udostępniane. Organizacje mogą kontrolować wielkość szumu statystycznego. Wiedzą zatem, na ile wyniki statystyczne odbiegają od rzeczywistości, ale w zamian za to lepiej chronią prywatność dawców danychIndeks górny 1.

Biuro Spisu Powszechnego Stanów Zjednoczonych już w 2008 roku opracowało swój pierwszy produkt zawierający element prywatności różnicowej. OnTheMap dostarcza szczegółowych statystyk dotyczących wynagrodzeń oraz dojazdów do pracy w różnych obszarach geograficznych. Można go użyć na przykład do określenia, ile osób mieszkających w Montclair w stanie New Jersey dojeżdża do pracy na dolnym Manhattanie, wraz z uwzględnieniem ich średniego wieku, zarobków, przynależności etnicznej i branży, w której pracują. Aby zapobiec wykorzystaniu tych informacji do identyfikacji pojedynczej osoby dojeżdżającej do pracy, miejsca jej pracy i wysokości zarobków, DP dodaje szum do oryginalnych danych, zmieniając dla każdego modułu spisowego liczbę osób mieszkających i pracujących.

Ryzyko utraty prywatności można kontrolować, ale nie można go wyeliminować.

Od czasu wprowadzenia DP Biuro wykorzystało ten mechanizm do przeprowadzenia spisu powszechnego w 2020 roku, a Urząd Skarbowy i Departament Edukacji Stanów Zjednoczonych stosują go do publikowania statystyk dotyczących dochodów absolwentów szkół wyższych. Ponad 20 firm, w tym Apple, Google, Meta, Microsoft i Uber, poinformowało, że już wdrożyło albo rozważa zastosowanie DP.

Kontrowersje pojawiły się w zeszłym roku, gdy Biuro Spisu Powszechnego użyło DP do ochrony danych używanych przez władze stanowe do wyznaczania okręgów wyborczych. Wszystkie rejestry w tym pliku były syntetyczne, wygenerowane przez model statystyczny stworzony i zabezpieczony przy użyciu DP. Demografowie oraz badacze społeczni sprzeciwili się zastosowaniu DP, ostrzegając, iż szum statystyczny będzie tak duży, że wyniki mogą stać się bezużyteczne. Alabama wraz z 16 innymi stanami wniosła w kwietniu 2021 roku pozew o niedopuszczenie do wprowadzenia DP, twierdząc, że „uniemożliwiłoby to dokładne wyznaczanie okręgów wyborczych na szczeblu lokalnym”. Jednakże w czerwcu 2021 roku trzyosobowy zespół sędziowski odrzucił główne żądania pozwu, a Alabama wycofała go we wrześniu 2021 rokuIndeks górny 2.

Zdolność DP do dostosowania poziomu ochrony prywatności lub jej utraty jest zarówno jej mocną stroną, jak i słabością. Z jednej strony, po raz pierwszy osoby zajmujące się ochroną prywatności mają możliwość ilościowego określenia ryzyka związanego z ujawnieniem poufnych danych. Z drugiej natomiast zmusza to właścicieli danych do pogodzenia się z niewygodną prawdą, że ryzyko utraty prywatności można poddawać kontroli, ale nie można go wyeliminować.

Ta prawda była często ignorowana przez ustawodawców po obu stronach Oceanu Atlantyckiego. Przepisy dotyczące prywatności mają na celu ochronę informacji, które można zidentyfikować, czyli wszystkiego, co umożliwia poznanie szczegółów dotyczących życia konkretnej osoby – a ustawodawcy mają tendencję to pewnej dychotomii: informacje albo są bardzo chronione, albo wcale. Tymczasem możliwość zastosowania DP świadczy o tym, że ochrona prywatności danych nie jest zagadnieniem czarno‑białym.

Doświadczenie wskazuje, że można połączyć konkretną osobę fizyczną z różnymi, teoretycznie anonimowymi śladami w sieci, jakie po sobie pozostawia, o ile tylko dobrze się poszuka. Na przykład badacze z Uniwersytetu w Teksasie zidentyfikowali abonentów Netflixa, łącząc oceny filmów z serwisu IMDB z „anonimową” listą filmów oglądanych i ocenianych przez abonentów, którą opublikował Netflix. Badacze wykazali, że poszczególne wpisy mogą być ponownie zidentyfikowane i powiązane z abonentem. Firma została pozwana na podstawie ustawy Video Privacy Protection Act i w wyniku zbiorowego pozwu wypłaciła odszkodowanie w wysokości 9 milionów dolarów.

Ustawa o ochronie prywatności musi być stosowana do wszystkich informacji, które są jakkolwiek związane z daną osobą, a nie tylko do tych, które umożliwiają jej identyfikację. Pozwala to kontrolować, jak wiele danych jest udostępnianych oraz jak wiele prywatności podlega naruszeniu, na podstawie specyficznych potrzeby organizacji i tego, co uważa ona za swój próg ochrony prywatności.

Trzy różne strategie zastosowania DP

Badacze zajmujący się ochroną prywatności opracowali trzy różne modele korzystania z DP.

Model zaufanego kuratora. Organizacja korzystająca z poufnych danych dodaje szumy do wyników statystycznych, publikowanych dla szerszej grupy odbiorców. Jest to podejście stosowane przez Biuro Spisu Powszechnego do publikowania informacji z ochroną prywatności, takich jak te wykorzystywane przez produkt OnTheMap.

Model zaufanego kuratora może chronić zarówno dane, które zostały już opublikowane, jak i te, które są wykorzystywane wewnątrz organizacji. W 2018 r. firma Uber stworzyła system DP na potrzeby wewnętrznych badań. Zawierał on informacje o pasażerach oraz kierowcach, dzienniki podróży i dane, które firma gromadzi w celu poprawy doświadczeń klientów. DP umożliwiła analitykom Ubera ocenę wydajności jego systemów bez wglądu w szczegóły dotyczące poszczególnych klientów i ich przejazdów.

Syntetyczne mikrodane chronione przez DP. Jest to dodatkowa metoda, z której mogą korzystać organizacje stosujące model zaufanego kuratora. W takim przypadku organizacja tworzy statystyczny model danych oryginalnych, a następnie stosuje na nim DP w celu utworzenia nowego modelu chronionego pod względem prywatności. Jest on dalej wykorzystany do utworzenia indywidualnych zapisów. Te mikrodane mogą zawierać informacje o wieku, poziomie wykształcenia oraz przychodach danej osoby, które po przeanalizowaniu dają podobne wyniki statystyczne, lecz nie odpowiadają dokładnie danym rzeczywistej osoby.

Zaletą mikrodanych jest to, że można je rozpowszechniać lub wielokrotnie analizować bez dodatkowej utraty prywatności. Trudno jest jednak stworzyć dokładne rejestry mikrodanych, zawierające więcej niż kilka kolumn, i nie da się ich łatwo połączyć z innymi zbiorami na poziomie rejestru, ponieważ chronione dane nie zawierają identyfikatorów, takich jak nazwiska albo numery ubezpieczenia społecznego.

PRZECZYTAJ TAKŻE

Model lokalny. Szum statystyczny jest dodawany do każdego wpisu w rejestrze podczas jego tworzenia i przed wysłaniem go do analityków (wewnętrznych albo zewnętrznych). Google stosował taką metodę do opracowywania statystyk dotyczących użytkowników swojej przeglądarki Chrome — w tym informacji o stronach domowych użytkowników, odwiedzanych witrynach i różnych procesach uruchamianych przez ich komputery — jako sposobu na zwiększenie możliwości blokowania złośliwego oprogramowania bez gromadzenia poufnych danych. Jednakże ostatecznie zrezygnowano z tego narzędzia, ponieważ „jest w nim po prostu za dużo szumu” – powiedział wówczas jeden z byłych badaczy Google. Zamiast tego firma zdecydowała się na bardziej skomplikowane podejście, łączące anonimowe mieszanie z modelem zaufanego kuratora.

Ogólnie rzecz biorąc, model zaufanego kuratora sprawdza się dobrze w przypadku organizacji takich jak Biuro Spisu Powszechnego, pracujących z danymi, które już posiadają. Model lokalny natomiast jest atrakcyjny dla organizacji, które dotychczas wstrzymywały się z gromadzeniem danych z obawy o ochronę prywatności.

Na przykład Apple, chcąc się dowiedzieć, jaki tekst ludzie wpisują, gdy używają emotek (np. wpisują „heart” czy „love”, by pojawił się symbol serca?) zastosowało model lokalny, by chronić prywatność użytkowników. Dzięki takiej metodzie organizacja może powiedzieć, że stosuje technologię chroniącą prywatność wobec danych, zanim jeszcze zostaną one zebrane.

Czy zatem DP jest wystarczająco dopracowanym narzędziem do prowadzenia biznesu?

Obecnie technologia DP jest jeszcze młoda i można stosować ją tylko w ograniczonych okolicznościach, głównie w przypadku statystyk liczbowych, opartych na poufnych danych, takich jak statystyki geograficzne wykorzystywane w aplikacji OnTheMap. DP nie działa jeszcze zbyt dobrze w przypadku ochrony tekstu, zdjęć, głosu lub materiałów wideo.

Ponieważ DP wymaga intensywnej nauki, osoby zainteresowane tą technologią powinny zacząć od małych, dobrze zdefiniowanych projektów pilotażowych. Lokalne przedsiębiorstwo użyteczności publicznej, poproszone o udostępnienie danych o zaległościach płatniczych klientów, może dostarczyć zestaw danych chronionych za pomocą DP, wskazując liczbę osób w każdym bloku, w przypadku których istnieje największe prawdopodobieństwo zaległości, bez identyfikacji poszczególnych gospodarstw domowych. Program pomocy w sytuacjach kryzysowych mógłby wówczas wykorzystać te dane, aby zawęzić zasięg pomocy do bloków o największym ryzyku zalegania z płatnościami, a nie do całego regionu.

DP można również wykorzystać do tworzenia mikrodanych chroniących prywatność, choć to podejście jest ograniczone do danych zawierających niewielką liczbę zmiennych. Na przykład Google zareagował na pandemię, publikując raporty o liczbie osób przemieszczających się codziennie pomiędzy domami, biurami, sklepami, stacjami tranzytowymi oraz innymi miejscami („Community Mobility Reports”). Mikrodane dotyczące poszczególnych lokalizacji w postaci współrzędnych długości i szerokości geograficznej (czyli rejestrów z dwiema wartościami) przekształcono na sześć ogólnych kategorii lokalizacji, a następnie zastosowano metodę DP, by ukryć liczbę osób zawartą w każdej z nich.

Firmy rozważające wprowadzenie DP powinny zacząć od konsultacji lub zatrudnienia eksperta z zaawansowanymi kwalifikacjami w dziedzinie informatyki bądź podobnymi (LinkedIn zatrudnił ekspertów ds. prywatności ze stopniem doktora do opracowania swoich statystyk zaangażowania odbiorców). Najbardziej wiarygodne informacje na temat tej technologii można znaleźć w wysoce technicznych pracach akademickich, a niektóre oferty pracy odzwierciedlają ten fakt, wymagając od kandydatów opublikowania prac technicznych lub opracowania publicznie dostępnego kodu DP. Próba zastosowania DP teraz, bez tego rodzaju wiedzy fachowej, prawdopodobnie będzie prowadzić do błędów.

Mając do dyspozycji eksperta w dziedzinie DP, organizacja jest w stanie lepiej ocenić obecnie dostępne narzędzia, zarówno komercyjne, jak i open source, aby określić, które z nich najlepiej spełnią potrzeby w danym przypadku. Firmy powinny zadać sobie pytania: czy technologia jest przeznaczona do ochrony danych, które są już dostępne, czy informacji, które są aktualnie zbierane? Jeśli chodzi o istniejące dane, czy ma ona chronić wyniki statystyczne lub mikrodane na poziomie rejestrów? Jakie szkolenia, materiały edukacyjne lub wsparcie zapewnia dostawca?

W najbliższym czasie technologia DP może nadal być zbyt skomplikowana dla większości organizacji. Mogą one jednak już dziś poprawić ochronę prywatności, przyjmując niektóre zasady leżące u jej podstaw, takie jak dodawanie szumu statystycznego do swoich produktów opartych na danych, nawet jeśli brakuje im możliwości dokładnego zmierzenia rzeczywistego kompromisu między ochroną prywatności a dokładnością.

PRZYPISY

1. C.M. Bowen i S. Garfinkel, The Philosophy of Differential Privacy, „Notices of the American Mathematical Society” 68, no. 10 (listopad 2021): 1727‑1739; oraz A. Wood, M. Altman, A. Bembenek, et al., Differential Privacy: A Primer for a Non‑Technical Audience, „Vanderbilt Journal of Entertainment and Technology Law” 21, nr 1 (jesień 2018): 209‑276.

2. Więcej o kontrowersyjnym pomyśle wdrożenia DP przed spisem powszechnym w USA w 2020 r., S. Garfinkel, Differential Privacy and the 2020 U.S. Census, MIT Case Studies in Social and Ethical Responsibilities of Computing (zima 2022), mit‑serc.pubpub.org.

O autorach
Tematy

Może Cię zainteresować

Magazyn
Premium
Dlaczego uważni liderzy lepiej zarządzają zmianą
Samoświadomi i opanowani menedżerowie skuteczniej przeprowadzają swoje zespoły przez okresy niepewności związanej ze zmianami kierunku działania organizacji. Wdrażanie strategicznych zmian ma ogromny wpływ na wyniki przedsiębiorstw. Niezależnie od tego, czy chodzi o zwinne wykorzystanie nowej szansy rynkowej, czy o budowanie długoterminowej odporności. Wielu liderom jest jednak trudno skutecznie przeprowadzić zespół przez ten proces. Takie inicjatywy […]
Premium
W erze cyfrowej zaangażowanie nabiera nowego znaczenia

Automatyzacja bez ludzi nie działa. W erze AI to zaangażowanie, odpowiedzialność i zaufanie stają się nową walutą innowacyjnych organizacji.

chiński e-commerce i social commerce
Premium
Superaplikacje, social commerce i AI, czyli chiński przepis na sukces w e-handlu

Superaplikacje, handel społecznościowy i sztuczna inteligencja tworzą w Chinach nowy model handlu. Ashley Dudarenok tłumaczy, dlaczego przyszłość e-commerce należy do zintegrowanych ekosystemów i inteligentnych agentów AI.

Premium
Zaangażowania można się nauczyć

Zaangażowanie to nie magia, lecz kompetencja. Można je trenować – tak jak empatię, odpowiedzialność czy współpracę – pod warunkiem, że liderzy stworzą ku temu właściwe warunki.

strategie ochrony innowacji
Premium
Jak chronić innowacje przed kopiowaniem

Jak skutecznie bronić innowacji przed kopiowaniem? Czasem wystarczy mądrze zaprojektować produkt – tak, by jego kluczowych elementów nie dało się łatwo odtworzyć ani wykorzystać.

Premium
Efekt domina w zarządzaniu dobrostanem

Kultura dobrostanu staje się nowym filarem przywództwa. Firmy, które inwestują w wellbeing liderów i zespołów, uruchamiają efekt domina – rozwijają kompetencje, wzmacniają kulturę organizacyjną i budują przewagę na rynku.

Wybieram MIT

Cyfrowa transformacja to dziś nie wybór, lecz konieczność. Jak pokazuje doświadczenie Grupy Symfonia, przemyślane inwestycje w technologie potrafią odmienić kierunek rozwoju firmy i stać się impulsem do trwałej przewagi konkurencyjnej.

Premium
Jak zautomatyzować operacje bez nadwyrężania budżetu

Automatyzacja nie musi oznaczać milionowych nakładów. Dzięki tanim i elastycznym technologiom nawet małe firmy mogą usprawnić procesy i zwiększyć produktywność.

środowiska wirtualne w procesie design thinking
Premium
Jak praca zdalna zmienia design thinking

Design thinking wkracza w nowy wymiar. Dzięki środowiskom wirtualnym zespoły mogą współtworzyć, testować i analizować pomysły w czasie rzeczywistym – niezależnie od miejsca i strefy czasowej. To nie tylko narzędzie pracy zdalnej, lecz także przestrzeń do pogłębionej empatii, eksperymentowania i szybszego wdrażania innowacji.

Premium
Strategia zakorzeniona w przyszłości firmy

Technologia bez wizji to tylko narzędzie. Aby automatyzacja miała sens, musi wynikać z celów, wartości i przywództwa – a nie z mody na cyfrowość.

Materiał dostępny tylko dla subskrybentów

Jeszcze nie masz subskrypcji? Dołącz do grona subskrybentów i korzystaj bez ograniczeń!

Subskrybuj

Newsletter

Otrzymuj najważniejsze artykuły biznesowe — zapisz się do newslettera!