14. březen

Lidštější než člověk? Jak naši konverzační designéři učí voiceboty mluvit

Díky pokroku hlasových technologií se syntetický hlas voicebotů čím dál více přibližuje lidskému hlasu se všemi detaily a prvky, které dělají řeč člověka jedinečnou. Umělá inteligence vnesla do robotického hlasu schopnost učit se a zdokonalovat. Dnešní voiceboti umí pracovat s tempem řeči, tónem hlasu nebo dýchat na správných místech dialogu. A dokonce zvládají pracovat s emocemi. To vše díky konverzačním designérům.

Co musíme voicebota naučit

Aby dialog voicebota s člověkem byl co nejpřirozenější, musí se voicebot naučit porozumět mluvenému slovu a rychle i relevantně odpovědět. Umělá inteligence pomáhá voicebotům především s porozuměním lidské řeči. Jde o systémy rozpoznávání řeči (NLP/NLU = natural language processing / natural language understanding). Další používané technologie jsou STT (speech-to-text) a TTS (text-to-speech), které voicebotům pomáhají převést mluvené slovo na text a naopak.

Každá konverzace má ale vedle věcného obsahu také svoji emoční stránku. Nejde jen o to, co voicebot říká, ale také jak to říká. I to je úkolem konverzačních designérů, kteří se starají o polidšťování voicebotů a tvorbu konverzací s nimi podle zásad, které v lidské komunikaci bereme jako samozřejmost.

Největší výzvy konverzačního designu

Emoce volajících a práce se sentimentem

Na straně porozumění lidské řeči je největší výzvou schopnost číst emoce, tedy práce se sentimentem. Znamená to schopnost identifikovat například věk, náladu, naléhavost, postoje, zájem a další atributy na straně mluvícího nebo volajícího. Pokud například volá starší člověk nebo člověk ve stresové situaci, je úkolem voicebota tomu přizpůsobit nejen obsah sdělení, ale i tempo řeči a styl komunikace. Aby konverzace byla příjemná, přirozená a vedla k úspěšnému výsledku. Absolutní tolerance voicebota vůči stresové situaci však může být i výhodou. Tam, kde by lidský operátor, sebevíc vyškolený a trénovaný na zvládání nestandardních situací, mohl selhávat, voiceboti udrží emoce pod kontrolou. To má své uplatnění jak v komerční sféře, tak pro rozvoj hlasových asistentů v oblasti sociálních služeb, zdravotnictví a jiných oblastech, kde mohou hlasoví asistenti lidem pomáhat.

Polidštění voicebotů

Přimět voiceboty, aby zněli přirozeněji a lidštěji, byl a stále je náročný úkol. Postupně se podařilo voicebotům aplikovat přízvuk, výšky a zabarvení hlasu. Ve VOCALLS jsme jejich řeč doplnili o detaily, dynamiku řeči v podobě přemýšlení, například dech, lidské zvuky “hmmm”, nebo způsob, jakým hlas rezonuje ve svém prostředí. Hlas voicebotů umíme do určité míry upravit tak, aby ukazoval emoce, může například znít omluvně, nadšeně, přísně nebo naštvaně.

“Učit voicebota je výrazně složitější, než učit člověka. Zatímco lidské “mládě” velmi rychle pochopí chování dospělých a začne ho samo přirozeně napodobovat, voiceboti se neobejdou bez naší neustálé asistence. Jejich trénování vyžaduje hodně trpělivosti a odhodlání. Ale když to nevzdáte, voiceboti vás odmění projevem, který je někdy tak lidský, až vás to samotné zaskočí!”

Anna Ješátková, Conversation Designer

Osobnost voicebotů

Úkolem konverzačního designéra je také přizpůsobit řeč voicebota potřebám konkrétního klienta a pro konkrétní požadavek. Například v bankovnictví se jak obsah, tak styl komunikace budou lišit třeba od zábavního a spotřebitelského průmyslu. A i v oboru bankovnictví je rozdíl v komunikaci při vymáhání pohledávky nebo při informačním omluvném sdělení v důsledku výpadku systémů.

Konverzační designéři pracují s “personou” voicebota, podobně jako to dělají odborníci v marketingu. Definují tak vlastně lidské charakteristiky, které má voicebot a jeho hlas mít. Co vše musí zohlednit a promítnout do konverzace a hlasu voicebotů?

Vnější okolnosti a prostředí: obor činnosti, poslání a cíle firmy, ve které bude voicebot součástí týmu; identita a hodnoty firmy; kdo je cílový zákazník, jejich nejčastější požadavky; nejdůležitější informace poskytované zákazníkům.

Osobní identita voicebota: jakou roli ve vztahu k zákazníkovi bude mít (trenér, kouč, pečovatel, učitel); jméno, pohlaví a věk; vzhled, osobnost a povaha; osobní příběh; jazyk a dialekt.

Hlas a jeho doplňky: typ hlasu (generický hlas nebo klon skutečného lidského hlasu); tempo a rychlost, výšky a tóny, energie, styl a afekt, přízvuk, dech; různé citoslovce, zvuky a fráze typické pro daný obor, jazyk nebo prostředí.

Chybovat je “lidské” platí i pro voiceboty

Spojení všech prvků do výsledného hlasu voicebota je náročný úkol. Většina syntetických hlasů je stále příliš strojová a do určité míry monotónní, a to i přes zahrnutí různých emocionálních prvků. Část toho, co dělá lidský hlas tak lidským, je jeho nekonzistentnost, expresivita a schopnost podávat stejné sdělení ve zcela odlišných stylech v závislosti na kontextu. A to se zejména u delších sdělení ještě nepodařilo voiceboty zcela naučit. Práce na těchto jemných detailech je aktuálně největší výzvou pro konverzační designéry i umělou inteligenci. To potvrzuje i průzkum zaměřený na nejčastější chyby “botů”, které uvádějí společnosti využívající virtuální asistenty. Mezi prvními pěti najdeme nepochopení nuancí lidského dialogu nebo špatné porozumění přízvuku volajících.

Errors Organizations Have Encountered Using Intelligent Assistants or Chatbots in the Workplace

Among organizations currently using intelligent assistants or chatbots

Misunderstanding requests59%
Executing inaccurate commands59%
Executing inaccurate commands30%
Difficulty understanding accents29%
Inability to distinguish "owner's" voice23%
Providing inaccurate information23%
Setting off false emergency alarms1%
Using inappropriate / offensive language1%

Zdroj: REVE Chat

Ve VOCALLS chceme být ve vývoji stále o krok napřed. V týmu máme zkušené lingvisty i nadšené učitele, kteří založili speciální skupinu se zaměřením na „polidštění“ a emoce voicebotů. Navázali jsme spolupráci s předními světovými odborníky na hlasové technologie, probíhají workshopy s týmem konverzačních designérů. Zároveň zkoušíme a hledáme vlastní cesty, jak prolomit hlasové výzvy. Naklonovali jsme našeho kolegu Frantu a vytvořili jeho dvojníka FrantuBota, zkusili jsme voicebotům pořídit plíce a naučit je dýchat. Naši voiceboti dokonce zkoušeli zpívat koledy.

Poslechněte si jejich “snažení” na nahrávkách. A přihlaste se taky k odběru našeho newsletteru, aby vám další ukázky neunikly.

5násobný držitel ocenění Czech Contact Center Award

2019
2020
2021