Streszczenie: Od dziesięcioleci informatycy starają się nauczyć komputery myślenia na wzór ludzki. Dotychczasowe próby często kończyły się niepowodzeniem, ponieważ maszyny nie były w stanie proponować kreatywnych rozwiązań, które dla najlepszych naukowców, lekarzy czy inżynierów są naturalne. Tony Hey, wiceprezes Microsoft Research, twierdzi, że obecnie jesteśmy świadkami narodzin nowej generacji potężnych narzędzi komputerowych. Te zaawansowane systemy potrafią zestawiać ogromne ilości danych z różnych źródeł, analizować je i przyczyniać się do przełomowych odkryć naukowych.
GOŚĆ WĘDRUJĄCY dziś korytarzami siedziby Microsoft Research, oddziału badawczo‑rozwojowego koncernu Microsoft w Redmond w stanie Waszyngton, ma spore szanse podsłuchać rozmowy dotyczące nie tylko kwestii informatycznych, ale też innych zaskakująco zróżnicowanych tematów, takich jak kierunek obrotu galaktyk, nowa szczepionka na AIDS czy strategie zarządzania cennymi zasobami wody pitnej na naszej planecie.
Nowa rewolucja naukowa
Co je wszystkie łączy? I dlaczego zajmuje się nimi koncern Microsoft, który – jak powszechnie wiadomo – produkuje oprogramowanie? Prosta odpowiedź na to pytanie brzmi: we wszystkich wymienionych dziedzinach istnieją ogromne zasoby danych. Tak ogromne, że kiedy uruchamiamy programy analizujące niektóre bazy danych, temperatura w budynku, gdzie znajduje się 10 tysięcy mikroprocesorów, wzrasta nagle o kilka stopni. Nasi informatycy współpracują dziś z najlepszymi naukowcami reprezentującymi rozliczne dyscypliny – astronomię, biologię, chemię, hydrologię, oceanografię, fizykę, zoologię i jeszcze wiele innych – przyczyniając się walnie na przykład do opracowywania nowych leków, odkrywania alternatywnych źródeł energii czy ograniczania kosztów opieki zdrowotnej. Ale, oczywiście, realizują też komercyjne zamówienia na oprogramowanie komputerowe. My, pracownicy oddziału badawczo‑rozwojowego Microsoftu, wierzymy, że nowa generacja potężnych narzędzi programowych (software tools), które ułatwiają współpracę i eksplorację danych na bezprecedensową skalę, umożliwi wkrótce rewolucyjne odkrycia we wszystkich wymienionych dziedzinach.
Informatycy przez dziesiątki lat próbowali nauczyć komputery, by myślały jak ludzie. W tym celu wbudowywali w nie skomplikowane reguły lingwistyki i logiki. Jak dotąd większość tych wysiłków nie zbliżyła ich nawet o krok do stworzenia maszyn zdolnych proponować kreatywne rozwiązania i wyciągać twórcze wnioski, które tak naturalnie przychodzą do głowy najlepszym naukowcom, lekarzom, inżynierom i marketingowcom. Najbardziej utalentowani specjaliści nie tylko doskonale rozumieją dane, ale też potrafią czytać między kolumnami liczb; dostrzegają nieoczywiste, ale niezwykle istotne powiązania istniejące w obrębie jednej dziedziny nauki lub pomiędzy różnymi dziedzinami.
Dotarliśmy jednak do punktu, w którym nawet eksperci zaczynają tonąć w powodzi danych. Napływ informacji cyfrowych z rozmaitych czujników, przyrządów pomiarowych i symulatorów przekracza ludzkie zdolności do porządkowania, analizowania i przechowywania danych. Przez dziesiątki lat sprawdzało się prawo Moore’a, przewidujące, że liczba tranzystorów w układzie scalonym będzie się podwajać co dwa lata, przy czym do niedawna zmniejszaniu rozmiaru tranzystorów towarzyszył też wzrost wydajności mikroprocesorów. Dziś, aby zwiększać wydajność pracy komputerów, musimy zwielokrotniać liczbę procesorów wielordzeniowych działających wielozadaniowo (wielowątkowo) w jednym systemie. Wielordzeniowa rewolucja procesorów komputerowych (rewolucyjne mikroprocesory wielordzeniowe) pojawiła się dokładnie w chwili, kiedy stanęliśmy przed problemem lawinowego wzrostu obciążenia procesorów dużą ilością danych. Nie rozwiążemy go jednak, tworząc aktualizacje do programów lub ich lepsze wersje; musimy całkiem zrewidować swoje podejście do nauki dynamicznie przetwarzającej ogromne ilości danych (data‑intensive science). Właśnie dlatego kilka lat temu nasz współpracownik i zdobywca Nagrody TuringaIndeks górny 11, nieżyjący już Jim Gray, zaproponował „czwarty paradygmat nauki”, czyli czwartą metodę naukową. Gray uważał, że nowe, potężne narzędzia do analizowania, wizualizacji, eksplorowania i obróbki (manipulate) danych naukowych mogą okazać się jedynym systemowym rozwiązaniem niektórych najpoważniejszych bolączek całego świata.
Dwa pierwsze paradygmaty nauki – eksperyment i teoria – mają długą historię. Początki metody eksperymentalnej wywodzą się ze starożytnej Grecji i Chin, gdzie ludzie próbowali szukać dla swoich obserwacji przyczyn naturalnych, a nie nadprzyrodzonych. Nowoczesną naukę teoretyczną zapoczątkował w XVII wieku Isaac Newton. Kiedy w drugiej połowie XX wieku ludzie zaczęli budować wysoko wydajne komputery, laureat Nagrody Nobla Ken Wilson jako trzecią metodę naukową wskazał obliczenia i symulacje komputerowe (computation and simulation). Szczegółowe symulacje komputerowe umożliwiające rozwiązywanie ogromnych ilości równań pozwoliły naukowcom eksplorować dziedziny, których nie dało się badać przy użyciu eksperymentu i teorii – żeby wspomnieć tylko tworzenie modeli zmian klimatu czy powstawanie galaktyk.
Czwarty paradygmat także bazuje na mocy obliczeniowej komputerów. Tym razem jednak naukowcy nie budują programów opartych na znanych regułach, tylko zaczynają od danych. Wykorzystują programy do eksplorowania ogromnych baz danych i wyszukiwania w nich zależności oraz korelacji, czyli właściwie używają programów do odkrywania reguł. Naszym zdaniem, mnogość danych nie jest problemem, jest raczej częścią rozwiązania. Czwarty paradygmat nie zastąpi naukowców ani trzech pozostałych metod naukowych, wymaga natomiast innego zestawu kompetencji. Bez zdolności korzystania z zaawansowanych narzędzi komputerowych do obróbki danych nawet najlepiej wyszkolony ekspert nigdy nie zdołałby wysnuć wniosków, które zaczynają się dziś formułować.
„Systemy uczące się” z pomocą pacjentom
Zacznijmy od przykładu takiego rozumowania, które prowadzi do inicjowania badań nowego rodzaju. W latach osiemdziesiątych XX wieku mój współpracownik Eric Horvitz odbywał staż medyczny w szpitalu należącym do Veterans Health Administration (VHA) i zaobserwował tam niepokojące zjawisko. W okresie świątecznym szpital odnotowywał wzrost przyjęć pacjentów cierpiących na zastoinową niewydolność serca. Co roku osoby, które pomimo choroby serca były przeważnie w całkiem dobrej kondycji, wyraźnie podupadały na zdrowiu po słonym świątecznym obiedzie. Dodatkowa porcja soli powodowała, że ich organizmy zatrzymywały więcej płynów, co prowadziło do obrzęku płuc i trudności w oddychaniu – a w efekcie także do odwiedzenia izby przyjęć.
Zapaści po zjedzeniu pieczeni z indyka były bardzo kosztowne w każdym sensie tego słowa. W przypadku pewnych chorych kończyły się nawet zgonem, który czasami następował gwałtownie, a czasami po kilku dniach lub tygodniach stopniowego pogarszania się wydolności kolejnych układów fizjologicznych.
Nowa rewolucja naukowa
Stan tych pacjentów, którzy mieli więcej szczęścia, był stabilizowany, ale większość i tak musiała zostać na oddziale tydzień albo dłużej, co zazwyczaj kosztowało szpital należący do VHA 10 – 15 tysięcy dolarów od osoby. (Dzisiaj rachunki za ich leczenie byłyby dużo wyższe).
Ponad dwie dekady później Eric i jego współpracownicy z Microsoft Research opracowali narzędzie analityczne, które pozwala przewidzieć z imponującą dokładnością, czy wypisywany ze szpitala pacjent z zastoinową niewydolnością serca zostanie do niego ponownie przyjęty w ciągu kolejnych 30 dni. Chcąc dokonać takiego wyczynu, nie wystarczy zaprogramować komputer, by przeanalizował listę pytań zadanych przez diagnostyka oraz przeliczył chorych, którzy zazwyczaj wracają do szpitala. Skuteczność prognoz zawdzięczamy „systemom uczącym się” (machine learningIndeks górny 22). Chodzi o to, że informatycy zlecają programowi przestudiowanie ogromnej bazy danych – w tym przypadku setek tysięcy faktów dotyczących około 300 tysięcy chorych – pod kątem setek zmiennych. Komputer jest w stanie „nauczyć się” rozpoznawać profile pacjentów zagrożonych ponowną hospitalizacją, analizując różnice między historiami chorych, których dalsze losy są mu znane. Następnie lekarze mogą wprowadzać do programu dane wszystkich nowych pacjentów, aby sprawdzać, czy istnieje ryzyko, że wkrótce po wypisaniu wrócą oni do szpitala.
W pewnym sensie projekt ten jest dziełem specjalisty, który zauważył nieoczywistą zależność. Eric ma nie tylko dyplom lekarski, ale też doktorat z informatyki i dzięki temu dostrzegł, że do rozwiązania ważnego problemu medycznego można wykorzystać systemy uczące się, podobne do tych, które jego zespół zastosował do analizy wzorców ruchu ulicznego w Seattle. W 2003 roku współpracownicy Erica opracowali metody przewidywania korków ulicznych dzięki analizowaniu ogromnych ilości danych zawierających między innymi zbierane przez kilka lat raporty pogodowe, informacje o natężeniu ruchu na autostradach, o wypadkach i lokalnych imprezach oraz mnóstwo innych zmiennych. Nowy program, stworzony przez ten sam zespół, przeprowadził porównanie danych o pacjentach, którzy potrzebowali ponownej hospitalizacji, oraz o tych, którzy nie wrócili do szpitala, i odkrył zależności między pozornie mało istotnymi faktami w historiach chorób, wynikami testów diagnostycznych, a nawet czynnikami społeczno‑ekonomicznymi, jak choćby tym, czy pacjent mieszka sam. Sporządzenie takiego podsumowania nie było wcale łatwe: na przykład informacje o sytuacji mieszkaniowej pacjenta znajdują się przeważnie w raporcie pracownika opieki społecznej, a nie w karcie choroby. Jest więc mało prawdopodobne, by lekarz opiekujący się pacjentem zdołał przeanalizować taką ilość zmiennych, która pozwoliłaby trafnie snuć podobne prognozy.
Ekonomiczne konsekwencje używania takiego narzędzia mogą być ogromne. Jeśli lekarze lub szpitale wiedzą, że pacjent z dużym prawdopodobieństwem ponownie trafi na izbę przyjęć, mogą podjąć stosowne działania profilaktyczne. Jak tłumaczy Eric: „W przypadku przewlekłych schorzeń, takich jak zastoinowa niewydolność serca, możemy tworzyć dostosowane do konkretnych osób programy opieki poszpitalnej, które skutecznie łączą działania edukacyjne i monitoringowe. Ich celem jest skłonienie pacjentów do prowadzenia ustabilizowanego i bezpiecznego trybu życia. Programy takie mogą obejmować wizyty pielęgniarskie, kontrole telefoniczne lub swego rodzaju samokontrolę za pomocą konfrontowania wyników badań z wartościami pożądanymi, dzięki czemu można określić, kiedy zmiany w równowadze płynów ustrojowych pacjenta są niebezpieczne i poinformować o nich lekarza. Jeśli wydamy chociaż 500 do 1000 dolarów na monitorowanie tych pacjentów opuszczających szpital, u których ryzyko ponownej hospitalizacji jest najwyższe, zdołamy obniżyć odsetek powtórnych przyjęć, a równocześnie poprawić skuteczność leczenia i wypracować oszczędności”.
Nowe narzędzia do rejestracji obrazu wideo i obróbki danych pozwolą zwykłym ludziom obserwować przebieg procesów zachodzących w głębinach mórz, a nawet przeprowadzać własne doświadczenia. Trudno się dziwić, że zarówno firmy oferujące ubezpieczenia zdrowotne, jak i sieci szpitali ustawiają się w kolejce, aby poznać szczegóły tego rozwiązania. Nie trzeba też dużo wyobraźni, aby wymienić inne branże, które również mogą skorzystać na podobnych odkryciach wynikających z analizowania pokaźnych zbiorów danych (data‑intensive discovery).
Na Wall Street programy eksplorujące wielkie zasoby danych już dziś śledzą „ruchy sprzyjające” (sympathetic movements) i powiązane z nimi wzorce obrotu różnymi instrumentami inwestycyjnymi. Fundusze hedgingowe i duże instytucje zarządzające aktywami każdego dnia zawierają transakcje warte miliony dolarów, wykorzystując zależności wykrywane dzięki analizowaniu danych.
Możliwości stosowania podobnych narzędzi w działalności operacyjnej firm są nieskończone. Przedsiębiorstwa będą mogły przeprowadzać skomplikowane analizy klientów i szans biznesowych, korzystając z programów, które wytropią prawidłowości w cenach, zwyczajach zakupowych, regionach geograficznych, przychodach gospodarstw domowych i w wielu innych zmiennych. Ogrom dostępnych faktów na temat skuteczności reklamy, satysfakcji klientów, zatrzymywania tak klientów, jak i pracowników oraz zarządzania łańcuchem dostaw pozwoli trafnie przewidywać zachowania konkretnego klienta czy pracownika oraz prawdopodobieństwo przerw w usługach lub dostawach. Widzimy coraz więcej firm, które używają technik analizowania danych do wyszukiwania nieregularności w płatnościach i należnościach. Programy te potrafią na przykład przewidzieć, jakie przychody powinny wpłynąć z tytułu realizacji określonego pakietu usług. Pewna firma świadcząca usługi medyczne, z którą współpracowaliśmy w Nowym Meksyku, w ciągu pierwszych 6 miesięcy od wdrożenia narzędzi do eksplorowania danych odkryła 10 milionów zaległych płatności.
Jest taki stary dowcip: „Tylko połowa naszych wydatków na reklamę przynosi efekty, ale – niestety – nie wiemy, która”. Nowe narzędzia analityczne mogą sprawić, że straci on sens. Filipińska firma z branży rozrywki elektronicznej używa opracowanej przez Microsoft technologii eksplorowania danych, aby dostosowywać slogany reklamowe do poszczególnych klientów na podstawie szczegółowej analizy takich czynników, jak: wcześniejsze wzorce zakupowe, wiek, płeć, profil finansowy i lokalizacja.
Prawie natychmiast po wdrożeniu tej technologii przedsiębiorstwo odnotowało dwukrotny wzrost reakcji na swoje reklamy dzwonków do telefonów i innych produktów.
Niektórzy pytają, dlaczego – pomimo takiej mnogości szans biznesowych – Microsoft Research pracuje nad tak wieloma globalnymi projektami dotyczącymi służby zdrowia i ochrony środowiska. Czy finansowaniem tych inicjatyw nie może się zająć Fundacja Billa i Melindy Gatesów? Prawdopodobnie mogłaby. Kilkudziesięciu informatyków w Microsoft Research pracuje jednak nad tymi zagadnieniami, ponieważ są one związane z największymi zbiorami danych, jakie można sobie wyobrazić, a to bezcenne pole do prowadzenia badań. Musimy poszerzać swoje horyzonty myślowe i potencjał naszych narzędzi, pracując nad największymi istniejącymi problemami. A tak się składa, że są to równocześnie kwestie o ogromnym znaczeniu dla ludzkości. Ponadto praca nad nimi daje nam więcej możliwości współpracy i przeprowadzania eksperymentów. Kiedy eksperci z różnych dziedzin odczuwają silną motywację, by współpracować i dzielić się danymi w transparentnym otoczeniu, szanse na osiąganie szybkich postępów rosną. Jak zwykł mawiać Jim Gray, dane astronomiczne są cenne właśnie dlatego, że nie mają żadnej wartości komercyjnej.
Badanie oceanu metodą „podłącz i używaj”
Nowa rewolucja naukowa
Wśród projektów z zakresu ochrony środowiska jeden z ambitniejszych dotyczy badania oceanu i jest obecnie realizowany w chłodnych wodach Pacyfiku na zachód od wybrzeży stanu Waszyngton i Kolumbii Brytyjskiej. Nie sposób przecenić znaczenia oceanów, które pokrywają 70% powierzchni Ziemi i tworzą największy ekosystem naszej planety. Oceany sterują układem wiatrów na kuli ziemskiej; są źródłem potężnych, nadal w dużej mierze nieprzewidywalnych zagrożeń, takich jak tsunami i huragany; magazynują dużo więcej związków węgla niż atmosfera, rośliny oraz gleba i mają ogromne znaczenie jako źródło pożywienia.
A mimo to pod wieloma względami wiemy dużo więcej o powierzchni Marsa czy Wenus niż o dnie morskim. Woda jest nieprzenikalna dla promieniowania elektromagnetycznego, które umożliwia nam eksplorowanie kosmosu; dlatego prowadzenie badań oceanograficznych było dotąd możliwe tylko dzięki łodziom podwodnym, statkom i satelitom. Ale to się wkrótce zmieni. Oceanografowie uczestniczący w wartym 600 milionów dolarów projekcie Ocean Observatories Initiative (OOI), finansowanym przez Amerykańską Krajową Fundację Naukową (U.S. National Science Foundation), rozplanowali na fragmencie dna Oceanu Spokojnego sieć węzłów, która będzie stanowić – jak to żartobliwie ujął mój współpracownik Roger Barga – „oceaniczny port USB”. W ramach projektu położonych zostanie 1500 mil kabli przecinających ten obszar i łączących go z lądem, które doprowadzą energię oraz zapewnią łączność z internetem, umożliwią też rejestrowanie oraz dokładne umieszczanie w czasie zjawisk, które naukowcy będą badać przy użyciu rozmaitych urządzeń, począwszy od prostych czujników temperatury przez zdalnie sterowane roboty po zaawansowane technologicznie sekwencery genów.
Pomysłodawcy chcą zaangażować w ten projekt naukowców z całego świata. Nigdy wcześniej nie mieliśmy możliwości mierzenia i analizowania takich naturalnych procesów jak nawarstwianie się mułu lub zmiany w liczebności populacji mikroorganizmów. Jednak mnogość danych generowanych przez sieć OOI mogłaby zniwelować wysiłki badaczy, gdyby dane te nie były w mądry sposób porządkowane i przechowywane. Dlatego Roger i jego zespół używają technologii przepływu pracy do zarządzania zbieranymi informacjami i obmyślają, jak je przechowywać we wspólnej chmurze obliczeniowej, aby nie przeciążyły jednej instalacji i aby dostęp do nich mogli mieć naukowcy, studenci i wszyscy zainteresowani na całym świecie. Zespół opracowuje standardy obróbki danych, które umożliwią programom analitycznym łączenie ustaleń pochodzących z różnych eksperymentów w jedną większą analizę. Taka „interoperacyjność”Indeks górny 33 jest podstawowym warunkiem skuteczności aplikacji typu mashupIndeks górny 44. A naukowcy będą chcieli łączyć i porównywać informacje z położonej na dnie oceanu sieci OOI z danymi wygenerowanymi przez modele laboratoryjne oraz uzyskanymi z innych źródeł.
Jak zauważył Roger: „Filarami tej nowej ery nauki są liczne nowatorskie, konwergentne, gwałtownie ewoluujące technologie”. Głównym przedmiotem prac badawczych będzie szukanie zależności między zdarzeniami zachodzącymi w oceanie, które umożliwią nam lepsze zrozumienie – a może nawet przewidywanie – interakcji między lądami, oceanami i atmosferą. Naukowcy będą mogli obserwować prawidłowości w migracji fauny morskiej oraz sondować wcześniej niedostępne podwodne zjawiska, takie jak wybuchy wulkanów, trzęsienia ziemi i gigantyczne sztormy. Nowe narzędzia do rejestracji obrazu wideo i wizualizacji danych w czasie rzeczywistym pozwolą studentom, nauczycielom i pedagogom oraz wszystkim innym ludziom obserwować przebieg tych zdarzeń, a w niektórych przypadkach nawet przeprowadzać własne doświadczenia. Roger przewiduje, że „internet stanie się najpotężniejszym narzędziem do analizowania danych oceanograficznych na planecie”.
Projekt OOI pozwala na wyzwolenie kreatywności oceanografów na całym świecie. Opracowują oni nowe instrumenty, które można podłączyć do tego podwodnego laboratorium. Jednym z nich jest sekwencer DNA o rozmiarach zmywarki do naczyń, zaprojektowany tak, by działał bezobsługowo i w dodatku pod wodą. Urządzenie będzie filtrować wodę, wychwytywać z niej lokalne organizmy i pobierać z nich próbki DNA, a następnie przesyłać wyniki naukowcom na lądzie. Taki zakres funkcji robi wrażenie. Dołóżmy do niego jeszcze możliwość łączenia zebranych informacji genetycznych z gromadzonymi przez innych badaczy danymi na temat poziomu zanieczyszczenia, odczynu pH i temperatury wody oraz obecności gatunków wędrownych, które mogą oddziaływać na łańcuch żywieniowy – i narodziny nowej ery oceanografii stają się faktem.
Czy opisana inicjatywa przekłada się na jakieś szanse biznesowe? Wyobraźmy sobie na przykład, że chemik pracujący w firmie energetycznej nad technologią usuwania skutków wycieków ropy naftowej miałby dostęp do bazy danych DNA organizmów morskich.
Nowa rewolucja naukowa
Mógłby natychmiast sprawdzić profile genetyczne mikroorganizmów w wodach wokół wycieku i przewidzieć ich prawdopodobne interakcje z substancjami chemicznymi lub konsekwencje wdrożenia rozważanych działań zaradczych. Dziś naukowcy zmagający się z następstwami rozległego wycieku ropy w Zatoce Meksykańskiej nie mają kompleksowych mierników bazowych stanu fauny i flory oceanu i muszą polegać na wskaźnikach „wynikowych”, takich jak kondycja ryb. Inne interoperacyjne narzędzia udoskonalone w ramach OOI mogą zaowocować powstaniem bardziej prozaicznych, ale równie ważnych rozwiązań. Na przykład dyrektor marketingu sieci sprzedaży detalicznej mógłby dostawać na biurko dzienne raporty generowane przez program, który przeczesuje dane napływające w czasie rzeczywistym z terminali w punktach sprzedaży na całym świecie, oznacza anomalie we wzorcach sprzedaży i zysków i wyławia zależności, jakie większości detalistów nigdy nie przyszłyby do głowy.
Sposoby na chorobę i suszę
Nowa rewolucja naukowa
Czwarty paradygmat nauki umożliwia szybsze odkrywanie przełomowych rozwiązań między innymi dlatego, że pozwala wszystkim ludziom korzystać z baz danych i dzielić się wiedzą ułatwiającą dokonywanie odkryć. Na przykład w projekcie dotyczącym ruchu ulicznego w Seattle uczestniczyli ochotnicy, którzy mieli w autach zainstalowane nadajniki GPS i pomagali zbierać najważniejsze dane na temat dróg lokalnych, po prostu przemieszczając się po nich. Metody te zostały potem zastosowane przy przewidywaniu przepływu pojazdów na wszystkich ulicach wielkich metropolii i obecnie umożliwiają kierowanie ruchem zależnie od jego intensywności w 72 dużych miastach Ameryki Północnej, które obejmuje serwis internetowy Bing Maps. (Opis kolejnej inicjatywy związanej, dla odmiany, z astronomią można znaleźć w ramce Crowdsourcing w kosmosie). Wkrótce wszyscy naukowcy amatorzy zainteresowani różnymi dziedzinami nauki będą prawdopodobnie zbierać i analizować specjalistyczne informacje przy użyciu urządzeń tak prostych jak telefony komórkowe i laptopy.
Na przykład mój zespół badawczy prowadzi w Indiach projekt, który umożliwia nieposiadającym wykształcenia medycznego pracownikom w odległych rejonach diagnozowanie określonych chorób za pomocą telefonu komórkowego. Ludzie łączą się telefonicznie z ogromną bazą danych medycznych, udzielają odpowiedzi na serię pytań i natychmiast uzyskują cenną diagnozę. Systemu tego można będzie kiedyś używać do śledzenia i analizowania rozprzestrzeniania się chorób, szczególnie zakaźnych. Dzięki dużej liczbie pracowników stawiających szybkie diagnozy, które są wprowadzane do bazy danych, przedstawiciele administracji państwowej i służby zdrowia mogą obserwować, gdzie wybuchają epidemie, jak szybko się rozprzestrzeniają i jakie objawy im towarzyszą. Dzięki systemom uczącym się będzie można na bieżąco porównywać każdy nowy przypadek infekcji z zachorowaniami na tę samą przypadłość i na wszystkie inne choroby, a dzięki temu wyszukiwać prawidłowości, które ułatwią prowadzenie działań profilaktycznych.
W tak ambitnych projektach niezmiernie ważne są wszystkie aspekty nowoczesnych technologii: szybkość przetwarzania danych (processing power), specjaliści od programowania równoległego, przechowywanie, filtrowanie i selekcjonowanie (curation) oraz publikowanie danych. Jeśli, na przykład, filtrowanie i selekcjonowanie danych nie jest faktycznie wbudowane w strukturę projektu, uczestniczący w nim naukowcy podejmują doraźne próby porządkowania informacji, co prowadzi zazwyczaj do tworzenia nietrwałych, lokalnych rozwiązań, które nie nadają się do stosowania na większą skalę. Tymczasem naukowcy i ustawodawcy – postawieni w obliczu palących problemów, takich jak zmiany klimatu, niedobory wody lub przygotowania na wypadek huraganu czy tsunami – nie mogą sobie pozwolić na luksus oczekiwania na rozstrzygnięcie wszystkich niewiadomych, by dopiero potem przystąpić do koniecznych działań.
Spójrzmy na perypetie Kalifornii, której populacja według prognoz wzrośnie do 2040 roku z około 38 do ponad 50 milionów ludzi. Jak mówi Jeff Dozier, profesor z School of Environmental Science and Management na University of California w Santa Barbara: „Gospodarkę Kalifornii napędza dostępność wody. W przeszłości staraliśmy się zarządzać jej dostawami tak, by zaspokajać popyt. Wkrótce może się to okazać niemożliwe. Wszyscy marzą o niezawodnych, równomiernych dostawach wody, ale przyroda nam ich nie zapewnia. Będziemy potrzebować dużo lepszej technologii, by przewidywać ilość wody dostępną w konkretnym roku”.
Jak tłumaczy profesor Dozier, przewidywanie wielkości zapasów wody w pokrywie śnieżnej jest dużo trudniejsze, niż się wydaje. Satelity zbierają, co prawda, ogromne ilości danych na temat pokrywy śnieżnej, ale dotyczą one głównie powierzchni śniegu, co nie wystarcza do tworzenia prawidłowych szacunków. Aby zarządzać zasobami wody spływającej z zaśnieżonych gór, musimy znać „ekwiwalent wodny śniegu”, czyli wiedzieć, ile wody powstanie, kiedy śnieg się roztopi. Można to obliczyć na podstawie wagi śniegu, ale trudno ją ocenić w przypadku ogromnych połaci terenu o zróżnicowanej powierzchni. Naukowcy muszą więc wymyślić, jak połączyć dane z satelitów i wyniki pomiarów prowadzonych na powierzchni z informacjami o sytuacji ekonomicznej i politycznej, aby lepiej szacować, planować i kontrolować zasoby wody. W samej Kalifornii istnieje co najmniej 400 różnych agencji zarządzających zasobami wody. Firma Microsoft we współpracy z naukowcami z University of California w Berkeley oraz badaczami z Lawrence Berkeley National Laboratory stara się zdobyć i uporządkować historyczne dane hydrologiczne, aby po połączeniu ich z danymi napływającymi z nowych sieci czujników stworzyć skuteczniejsze modele prognostyczne.
Inną palącą kwestią zajmuje się David Heckerman z Microsoftu – kolejny lekarz z doktoratem z informatyki – który wykorzystuje do walki z wirusem HIV pokaźne zbiory danych uzyskanych w ramach odkryć naukowych. Jak tłumaczy: „Mutacje, jakim podlega wirus HIV w ciągu kilku lat w organizmie jednego pacjenta, można porównać do tych, którym uległ wirus grypy w całej historii tej choroby”. Dlatego tak trudno jest opracować szczepionkę, która mogłaby nas skutecznie chronić przed AIDS. Co więcej, mutacje wirusa HIV obserwowane u jednego pacjenta różnią się znacząco od mutacji zachodzących u innego chorego, a to ze względu na różnice w systemach immunologicznych poszczególnych osób.
Nowa rewolucja naukowa
David i jego zespół analizują dane na temat mutacji wirusa u tysięcy pacjentów i starają się wyodrębnić te elementy jego DNA, które są najbardziej podatne na atak ze strony ludzkiego układu odpornościowego. Badacze wierzą, że stworzą szczepionkę, która pobudzi system immunologiczny chorego do ataku na te właśnie elementy DNA i powstrzyma rozwój wirusa. David ma nadzieję, że razem z profesorem Bruce’em Walkerem z Harvard School of Public Health zacznie wkrótce testować pierwszy wariant opracowanej w ten sposób szczepionki.
Szybsze tempo i wyższe standardy działania
Takie przedsięwzięcia jak opracowywanie szczepionek lub rozszyfrowywanie ludzkiego genomu obejmują ograniczoną liczbę dziedzin, ale wykorzystują przeogromne zbiory niepowtarzalnych danych dotyczących każdej jednostki ludzkiej. Z kolei w projektach obliczonych na dokładniejsze opisanie zjawisk przyrodniczych, takich jak procesy zachodzące w głębinach oceanów lub zmiany klimatu, problemem jest zarówno ogrom danych dotyczących każdego czynnika, jak i przytłaczająca liczba powiązanych z tymi tematami dziedzin i źródeł informacji. Aby przeprowadzić wyczerpujące obliczenia na temat ocieplania się klimatu, trzeba uwzględnić między innymi: pomiary ciepła promieniowania odbitego przez biegunowe pokrywy lodowe; zanikanie lodowców szelfowych w wyniku niewielkiego wzrostu temperatury oceanów; stan lasów mangrowych w rejonach tropikalnych; globalne trendy rozrodcze owadów; zmiany klimatyczne zapisane w słojach rocznych przyrostów drzew czy poziomy CO2 zachowane w rdzeniach lodowych. W miarę jak naukowcy będą rozmieszczać coraz większe ilości czujników, coraz ważniejsze stanie się tworzenie standardów dotyczących zbierania, przechowywania i zestawiania (mashing) danych.
Co równie istotne, większość z nas uważa, że w przyszłości znacząco zmieni się charakter publikacji naukowych. Przewidujemy, że obecny produkt końcowy – czyli referat lub artykuł zawierający omówienie eksperymentu i wynikających z niego ustaleń oraz krótką wzmiankę o użytych danych – stanie się tylko załącznikiem do samych danych, udostępnianych bezpośrednio przez internet innym naukowcom, którzy będą mogli szukać w nich odpowiedzi na sformułowane przez siebie pytania, a nawet zestawiać je w twórczy sposób z własnymi zasobami informacji i w efekcie wyciągać wnioski, jakie nawet nie śniły się autorowi pierwotnego referatu. Jak to trafnie ujął Jim Gray, dążymy do „świata, w którym cała literatura naukowa jest dostępna online i ma charakter interoperacyjny”.
Realizacja tego celu przyniesie pozytywne zmiany dla społeczeństwa i planety, ale czwarty paradygmat nauki przełoży się też z pewnością na wiele wspaniałych szans biznesowych. Na przykład prowadzona przez Davida Heckermana analiza kodu genetycznego wirusa HIV to zaledwie mały element dużego programu medycyny personalizowanej. W przemyśle farmaceutycznym panuje przekonanie, że odkrycie, które specyfiki są najskuteczniejsze w przypadku pacjenta o określonym profilu genetycznym, wprowadzi w nowy wymiar prace nad projektowaniem leków. Jednostka Health Solutions Group firmy Microsoft pracuje już nad integracją rejestrów medycznych i badań obrazowych, co ma być pierwszym krokiem do stworzenia zestawu inteligentnych narzędzi, które pomogą branży farmaceutycznej urzeczywistnić tę wizję.
Wykorzystanie potencjału czwartego paradygmatu nauki dla rozwiązywania najważniejszych problemów ludzkości wymaga współpracy między przedstawicielami wszystkich dziedzin nauki, włącznie z informatyką. Odpowiedzi na najważniejsze pytania kryją się w olbrzymich zbiorach liczb – znalezienie tych odpowiedzi leży jednak w zasięgu naszych możliwości.
Nagroda Turinga to wyróżnienie przyznawane corocznie przez Association for Computing Machinery za wybitne osiągnięcia w dziedzinie informatyki.
Machine learning to analiza procesów uczenia się oraz tworzenie systemów, które doskonalą swoje działanie na podstawie doświadczeń z przeszłości. Innymi słowy, to systemy posiadające zdolność uczenia się i w rezultacie doskonalenia swojego działania.
Interoperacyjność to zdolność do współdziałania systemów informatycznych, polegająca na bezpiecznej wymianie danych o określonej strukturze i wzajemnym ich wykorzystywaniu.
Aplikacje typu mashup to aplikacje IT, które łączą dane i funkcje programów z wielu źródeł w spójne serwisy sieciowe dla użytkowników.

