Hlavní informace

5Q pro Michala Hrabího, CEO Phonexia

5q-pro-michala-hrabiho-ceo-phonexia2

V sedmém díle 5Q České inovace nám CEO společnosti Phonexia Michal Hrabí představí, jak probíhá budování a zdokonalování komunikace člověka s technologiemi, v jakých oblastech má tato inovační činnost uplatnění, jakož i například to, co vše je možné z lidského hlasu rozklíčovat.

Technologie a v nich obsažený software v našich životech hrají stále důležitější roli, když nám pomáhají usnadňovat každodenní činnosti, kterými mohou být posílání zpráv, nakupování, vyhledávání cesty v terénu, organizování času a mnohé další. Aby tyto nástroje ovšem fungovaly opravdu efektivně, je třeba zajistit, aby nám, jakožto uživatelům, dobře rozuměly a dokázaly přesně zpracovat naše pokyny.

K manuálnímu ovládání přístrojů se v nedávné době přidala možnost jejich ovládání hlasem, a právě tento způsob komunikace "uživatel-technologie" představuje oblast zájmu společnosti Phonexia, která vyvíjí řečové technologie, podílí se na jejich zdokonalování a zabývá se též například identifikací mluvčího či analýzou řeči. Na podrobnější informace jsme se v rámci našeho seriálu 5Q přeptali CEO společnosti, pana Michala Hrabího:

O SPOLEČNOSTI


Podobně jako spousta lidí běžně hledá informace na internetu, Phonexia je vyhledává v lidském hlase. K hlasové biometrii, ale i k rozpoznání obsahu promluvy využívá nejmodernější přístupy strojového učení.

  • Identifikace mluvčího pomáhá předcházet mnohým nedostatkům. Ať už stojíte na straně zákazníka, který volá po zjednodušení procesů a kvalitnějších službách (například ve formě „hlas jako heslo") či na straně institucí, které potřebují jistotu, že hovoří opravdu s tím, za koho se dotyčný vydává, verifikace je základ úspěchu.
  • Dalším stavebním kamenem Phonexie je analýza řeči, jejímž prostřednictvím získává z řeči nejen kompletní informace o obsahu sdělení, ale i o dalších parametrech, kterými jsou například pohlaví, věková skupina mluvčího či jazyk. Technologie mohou být využívány k hlasovému ovládání různých zařízení nebo analýze obsahu rozhovoru v kontaktních centrech.

Phonexia je brněnská firma, jejíž počátky nalezneme na půdě Fakulty informačních technologií VUT, kde v roce 2006 došlo k přesahu od ryze výzkumného záměru ke sdílení technologií, a to se zákazníky, čímž vznikl nový koncept – využívání znalostí získaných výzkumem v divokých vodách soukromého sektoru. Snoubilo se tak to nejlepší ze zdánlivě protichůdných sfér a vznikla firma, za jejímiž reálně používanými produkty stojí nadšenci, kteří nikdy nepřestali být výzkumníky na řečovém poli.

Ve firmě si všichni tykají a společně se účastní zpravidla sportovních aktivit, čímž boří stereotypy o tom, že kdo dělá IT, sedí jen za počítačem. Více informací naleznete na webových stránkách nebo v e-mailové či jiné komunikaci.

phonexia4Majitelé společnosti Phonexia: zleva Lukáš Burget, Petr Schwarz, Pavel Matějka, Radim Kudla a Michal Hrabí

1) Phonexia je jeden z mála výrobců řečových technologií na světě. Co si laik může pod pojmem „řečová technologie" představit a kdy s ní může přijít do kontaktu?

  • V dnešní době chytrých telefonů není pro příklad běžné interakce s řečovými technologiemi vůbec třeba chodit daleko. Řada uživatelů chytrých telefonů se denně potkává s digitálními asistenty, jako je Siri, Cortana, Google Play či Alexa. U nich interakce začíná přepisem lidské řeči na text, což je jedna z technologií, které vyvíjí i Phonexia. Jde ale zároveň o základní kámen, na který navazují firmy zabývající se analytikou a pochopením obsahu textu. Naše technologie tak umožňuje interakci člověka s počítačem tím nejpřirozenějším způsobem, který pro komunikaci používáme – hlasem.

    Dnes už totiž takřka nevnímáme technologie jako jednotlivé nástroje, ale jako přirozenou kooperaci, součást každodenního života. Doba, kdy jsme za chůze potřebovali napsat textovou zprávu (a s narůstajícími rozměry mobilních telefonů se tento počin stává čím dál komplikovanějším), je pryč. Nyní je už běžné, že zprávu telefonu nadiktujete a jen ji odešlete. A podle statistik, které před rokem zveřejnila společnost Google, na zařízeních s operačním systémem Android v té době hlas k vyhledávání používalo 20 % uživatelů, přičemž tento počet dále roste.

    Naše technologie také nachází uplatnění tam, kde uživatel potřebuje pracovat s větším množstvím audia, které by manuálně zpracovával jen velmi těžko. Děje se tak například ve velkých kontaktních centrech nebo multimediálních archivech, kde je tak možné k požadovanému výsledku, tedy hledanému úseku v nahrávce, dojít velmi rychle. Člověk se pak do kontaktu s řečovými technologie může dostat, aniž by si to vůbec uvědomil.

    Pokud například při telefonátu na zákaznické centrum zaslechnete upozornění, že hovor může být monitorován, pak je zde pro usnadnění práce na zkvalitnění služeb využívána právě jedna z řečových technologií. Důvodem také může být hledisko bezpečnosti, kdy se na pozadí během hovoru ověřuje totožnost volajícího. Tyto technologie mohou najít hojné využití také v případě velkých českých pojišťoven, prodejců zájezdů, finančních institucí či záchranných služeb.

2) Co vše o člověku dokáže vzorek jeho řeči prozradit?

  • Pro někoho možná půjde o překvapivé zjištění, ale naše technologie je schopná o vás zjistit to samé, co by se o vás po telefonu dozvěděl jiný člověk. V takové situaci totiž není k dispozici řeč těla a další nonverbální způsoby komunikace, které by mohly prozradit více.

    Umělá inteligence, kterou vyvíjíme, je trénovaná pro úlohy jako je rozpoznání mluveného jazyka, určení pohlaví nebo odhad věku. Dokážeme také potvrdit shodu hlasu s jiným hlasem, podobně jako lze u otisku prstů prokázat, že jde o stejnou osobu. Řeč je také možné převést na text či v ní hledat klíčová slova, a to pro celou řadu nejen evropských, ale i exotických jazyků.

    Je ale třeba brát v potaz, že množství informací, které je z vzorku řeči možné získat, vždy závisí i na kvalitě nahrávky a množství rušivých elementů. Pokud je akustika špatná (hluk v místnosti, vypadávání slov vlivem špatného signálu apod.), tak samozřejmě dochází ke zhoršení celkového porozumění, podobně jako by tomu bylo ve stejném případě u dvou lidí, kteří si telefonují.

3) Jakou má Phonexia klientskou strukturu? Využívají jejích služeb a produktů krom podnikatelů a soukromníků též nějaké veřejné subjekty?

  • Phonexia je mezinárodní společnost a koncovými zákazníky našich technologií jsou tak firmy a instituce z celého světa. Aktuálně působíme ve více než 60 zemích. Našimi přímými zákazníky jsou ale většinou partneři, kteří naše technologie integrují do svých produktů a služeb, jelikož v nich vidí příležitost k odlišení se od konkurence. Až jejich produkty jsou poté obvykle využívány koncovými zákazníky, mezi které patří i veřejné složky.

    Naše technologie tak například pomáhají forenzním expertům při prokazování identity zadrženého podezřelého (porovnání hlasu podezřelého s nahrávkou pachatele) nebo ve fázi shromaždování důkazů v rámci korupčních kauz v celé řadě zemí. Velký nárůst ale pozorujeme zejména v zájmu zákaznických center, která si postupně uvědomují, že dokáží svým zákazníkům poskytnout lepší služby díky hovorům – dosud nahrávaným jen pro právní účely – přizpůsobeným požadavkům klientů ohledně nových produktů a služeb. Dalším velkým tématem je internet věcí (Internet of Things) a chytré domácnosti, kde by v budoucnu měly naše technologie umožňovat uživatelům ovládat hlasem celou domácnost.

4) Jak dlouhým vývojem musí řečová technologie projít, než generuje spolehlivá data a je schopna komerčního využití?

    • Na tuto otázku není snadná odpověď. Vývoj řečových technologií je velice závislý na aktuálním technologickém pokroku ve světě, znalostech našich lidí i na dostupnosti dat. Bez znalostí zpracování signálu, strojového učení, lingvistiky a celé řady dalších oblastí nikdy žádnou technologii tohoto typu vytvořit nelze. Stejně tak musíme mít dostatečné množství kvalitních dat, bez kterých se trénování umělé inteligence neobejde. A vytvoření takových dat mnohdy trvá déle než ostatní fáze vývoje produktu.

      Je také třeba si uvědomit, že není technologie jako technologie. Když potřebujete „jen" natrénovat rozpoznávání dalšího jazyka (řekněme třeba polštiny) pro již existující technologii přepisu řeči, bavíme se v takovém případě o několika měsících. Pokud ale jde o vytvoření úplně nové technologie, pohybujeme se již v řádech let. To proto, že v takovém případě bude třeba zkoumat nové cesty, kterými se dosud nikdo nevydal, a nejsou tedy zdokumentované a snadné k „opsání". Půjde v podstatě o aplikovaný výzkum – o posouvání hranic toho, co lze z řeči vydolovat.

phonexia3

  • Aktuálně pracujeme na novince – analýze sentimentu, tedy na detekci toho, jak moc je mluvčí pozitivně nebo negativně naladěn. Před rokem jsme začali s prvními pokusy, nyní máme „laboratorní" verzi, která dosahuje skvělých výsledků (nižší chybovost, než s jakou sentiment dokáže určit člověk) a která dobře funguje i na autentických nahrávkách. V produkční verzi a k dispozici zákazníkům ale nebude dříve než za další 4 měsíce. Zde tedy celkem bude třeba asi 1,5 roku od zahájení vývoje do okamžiku, kdy budeme schopni zákazníkovi dodat něco, na co se bude moci spolehnout. Takový vývoj také přijde na miliony korun. Při vývoji zcela nových technologií bychom se neobešli ani bez našeho dlouholetého partnera, kterým je výzkumná skupina Speech@FIT na VUT v Brně.

5) Organizuje Phonexia nějaké vlastní vedlejší projekty či eventy, díky kterým by se zájemci mohli s její činností a produkty blíže seznámit?

  • Účastníme se oborových akcí a veletrhů, ty se ale obvykle konají v zahraničí. Do bližšího kontaktu s naší činností se zájemci mohou dostat spíše na zvaných přednáškách, které se konají zejména v Brně – ať už na univerzitách, nebo v podnikatelských inovačních a coworkingových centrech.

    V rámci vzdělávání našich lidí pak pořádáme různé otevřené přednášky – například workshopy na téma strojového učení. Pro zájemce ze strany veřejnosti je tu možnost sledovat novinky na našich webových stránkách či našem facebookovém profilu.
 
Michal Hrabí
hrabiMou vášní bylo (a je) budovat a rozvíjet startupy, které se soustředí na nové technologie. Zároveň ale chci pracovat na něčem, co má budoucnost. Právě proto jsem si vybral Phonexii.
Díky studiu na Masarykově univerzitě v Brně mi v žilách koluje IT, nakonec se ze mě ale stal technologický poradce a podnikatel. Je povzbuzující pozorovat případy klientů, kteří se svým startupem začínali od nuly a nyní jejich obrat přesahuje 500 milionů amerických dolarů a podobně.

V tom, kde jiní vidí nemožné, vidím výzvu. Láká mě možnost posouvat hranice dále a nová zjištění sdílet s ostatními. Rozhodl jsem se totiž usilovat o ulehčení každodenního života pomocí automatizace. A toho se mi daří dosáhnout díky řečovým technologiím.