Premium

Materiał dostępny tylko dla Subskrybentów

Nie masz subskrypcji? Dołącz do grona Subskrybentów i korzystaj bez ograniczeń!

Jesteś Subskrybentem? Zaloguj się

X
Następny artykuł dla ciebie
Wyświetl >>
Pierwszy polski język neuronowy

Na rynku pojawił się syntezator mowy, który brzmi w języku polskim tak naturalnie, że trudno go odróżnić od prawdziwego ludzkiego głosu.

Kiedy mowa o syntezatorach mowy, pierwszym skojarzeniem, które przychodzi wielu osobom na myśl, jest zapewne „głos” Stephena Hawkinga, a raczej sposób, w jaki się porozumiewał. Ten najbardziej znany fizyk współczesny chorował na stwardnienie zanikowe boczne, co spowodowało u niego paraliż, a także niezdolność do mówienia. Jednak dzięki zastosowaniu technologii TTS (Text‑to‑Speech) był w stanie komunikować się z otoczeniem. Hawking korzystał z syntezatora mowy DECtalk DTC01. Nie zmienił tego rozwiązania na brzmiące bardziej jak głos ludzki, nawet gdy takowe pojawiły się na rynku, twierdząc, że identyfikuje się z głosem z syntezatora i traktuje go jako własny. Co ciekawe, nawet po zmianie syntezatora (na VoiceText firmy NeoSpeech) pozostał przy brzmieniu oryginalnego DECtalk.

Decyzja Hawkinga nie była większym zaskoczeniem, bo prawdopodobnie, tak jak i on sam, większość ludzi utożsamiała go z mechanicznym głosem DECtalk. Dziś jednak tego typu głosy nie są pierwszym wyborem osób zainteresowanych wykorzystaniem tzw. języków neuronowych, czyli takich, które powstały za pomocą sieci neuronowych odzwierciedlających pracę ludzkiego mózgu. Współczesny użytkownik oczekuje bowiem, że np. voicebot (oprogramowanie, które potrafi komunikować się z człowiekiem przy użyciu mowy naturalnej) będzie brzmiał przyjaźnie, profesjonalnie i… zupełnie tak jak człowiek. Od niedawna właśnie takie rozwiązanie jest dostępne dla polskiego rynku. Nosi nazwę Ola i jest pierwszym polskim językiem neuronowym Text‑to‑Speech, który do złudzenia przypomina ludzki głos. Język można stosować zarówno w interaktywnych systemach, np. w call centers, jak i do tworzenia wersji audio treści pisanych. Jest jednym z głosów oferowanych przez Amazon Polly.

Polska stała się istotnym centrum nowoczesnych technologii dla Amazona. Będziemy dalej pracować nad rozwojem i dostarczaniem tych rozwiązań i technologii dla naszych klientów. Technologia AI wykorzystywana do stworzenia Polly nieustannie się zmienia, ulepsza, podążamy za coraz wyższymi oczekiwaniami klientów w zakresie jakości, naturalności oraz wszechstronności wykorzystania głosów AI.
– Tomasz Stachlewski, Head of Technology w AWS

Głos elementem identyfikacji marki

Amazon Polly to usługa w chmurze firmy Amazon Web Services (AWS), która zamienia tekst na mowę. Wykorzystuje w tym celu technologie głębokiego uczenia się (deep learning), dzięki której możliwe stało się m.in. oddzielenie języka od tożsamości mówcy. To z kolei pozwoliło na zachowanie płynności mowy zbliżonej do rodzimej, bez konieczności pozyskiwania wielojęzycznych danych od jednej osoby. Innymi słowy, wykorzystując nagranie jednego (istniejącego w rzeczywistości) głosu, AWS ma możliwość wymodelowania go w taki sposób, aby obsługiwał różne języki. Przykładowo „Pedro” mówiący po amerykańsku, „Daniel” mówiący po niemiecku, „Liam” mówiący po kanadyjsku i „Arthur” mówiący po brytyjsku zostali „stworzeni” na podstawie realnego głosu, którego właścicielem jest ten sam człowiek.

W przypadku sztucznej inteligencji proces nauki wygląda podobnie jak u człowieka, który najlepsze efekty osiąga poprzez obserwację innych osób, które już wiedzą, jak coś się robi. Nauka płynnego mówienia opiera się na analizie nagrań aktorów, którzy mają za zadanie „pokazanie” sztucznej inteligencji, jak czyta się różnego rodzaju teksty, słowa, zdania. Tego typu „pokaz idealny” stanowi dla sztucznej inteligencji najlepsze źródło nauki i pozwala odkryć niuanse mowy człowieka – tłumaczy Tomasz Stachlewski, Head of Technology w AWS.

Z perspektywy biznesowej posiadanie głosu brzmiącego identycznie w kilku krajach (lokalizacjach) uwalnia nie tylko potencjał rozwoju firmy, ale i pomaga zachować spójne doświadczenie klientów. Dodatkowo technologia ta może być wykorzystywana w tzw. Brand Voices. To unikalne głosy, dostosowane do danej marki, tworzone na życzenie klientów AWS. Jednym z pierwszych tego typu głosów, zbudowanych przez zespół Amazon Polly, jest południowoamerykańskie brzmienie kultowego pułkownika Sandersa z KFC Kanada. Z technologii tej korzysta również National Australia Bank (NAB), który wykorzystuje swój spersonalizowany głos na infolinii dla klientów.

Amazon Polly wykorzystuje technologię NTTS (Neural Text‑to‑speech) i techniki sztucznej inteligencji, aby nie tylko tworzyć głosy lepszej jakości, ale także stosować lub dopasowywać style mówienia osoby, którą chcemy odzwierciedlić w głosie. Ten model umożliwia pozyskiwanie wzorców intonacji z naturalnej mowy i odtwarzanie wypowiedzi w podobnym stylu lub tonie. Otwiera to szerokie możliwości tworzenia niestandardowych głosów z osobowością lub stylem mówienia, z którym identyfikuje się dana firma i marka – mówi Tomasz Stachlewski.

Warto dodać, że z Amazon Polly korzystają też m.in. autorzy i dostawcy treści, tacy jak „USA Today Network” czy „Washington Post”. Zdaniem redaktorki naczelnej drugiego z wymienionych tytułów nagrania audio artykułów angażują czytelników nawet trzy razy dłużej.

Ola to nowa IVONA

Bardzo długo czekaliśmy na syntezator mowy w języku polskim, który będzie brzmiał naturalnie. Być może ma to związek z tym, że język polski jest uznawany za jeden z najtrudniejszych języków na świecie. Na szczęście sztuczna inteligencja poradziła sobie z nauczeniem się go i zaczęła mówić rodzimym żeńskim, neuralnym głosem NTTS, nazwanym Ola. Co ciekawe, powstał on dzięki innemu polskiemu syntezatorowi mowy, IVONA Software (rozwiązania stosowane w IVONA stały się bowiem podstawą Amazon Polly), który w 2013 roku został wykupiony przez Amazona. Warto przy tym dodać, że IVONA (która powstała w 2005 roku) zdobyła wiele nagród za najbardziej naturalne odwzorowanie ludzkiego głosu w latach 2006–2009. Oferowała aż 44 głosy mówiące w 17 językach. Jak długo trwały prace nad stworzeniem polskiego języka neuronowego? Jak odpowiada Tomasz Stachlewski, niestety, oszacowanie czasu tworzenia takiego głosu nie jest proste, ponieważ składa się z wielu elementów – takich jak np. samo nagrywanie próbek głosu lektora lektora, które są później wykorzystywane do wytrenowania sieci neuronowych stanowiących „serce” tworzonego głosu.

Proces ten został znacznie przyśpieszony m.in. poprzez wykorzystanie nowych procesorów AWS Inferentia, które zostały zaprojektowane i stworzone, aby wspierać procesy uczenia maszynowego – komentuje Stachlewski.

Pierwszy polski neuronowy głos TTS Amazon Polly brzmi przyjaźnie, naturalnie i profesjonalnie, co sprawia, że można wykorzystać go na wiele sposobów, takich jak systemy interaktywnych odpowiedzi głosowych (Interactive Voice Response), artykuły i treści edukacyjne. Amazon Polly można bowiem połączyć z innym rozwiązaniem od AWS do budowy chatbotów – Amazon Lex. Jak podkreślają eksperci z AWS, udostępnienie tych usług w języku polskim może znacznie ułatwić tworzenie narzędzi konwersacyjnych opartych na sztucznej inteligencji i uczeniu maszynowym w Polsce.

Technologia Amazon Polly powstała w Polsce. Usługę tę wciąż rozwijamy w dużej mierze właśnie tutaj. Obecnie mamy trzy Centra Rozwoju Technologii: w Gdańsku, Krakowie i Warszawie, w których pracujemy nad nowymi technologiami, a także prowadzimy działalność badawczo‑naukową. To właśnie tutaj polscy inżynierowie tworzą i rozwijają te, ale również inne technologie, z których korzysta cały świat – podsumowuje Tomasz Stachlewski. •

Tomasz Stachlewski

CEE Senior Solutions Architecture Manager w Amazon Web Services (AWS)

Paulina Kostro

Redaktor "MIT Sloan Management Review Polska"

Polecane artykuły


Najpopularniejsze tematy