Případová studie: Hlasová UI

Softwary pro rozpoznávání řeči jsou alternativou k psaní na klávesnici. Jednoduše řečeno, zatímco vy mluvíte s počítačem, vaše slova se objevují na obrazovce. Ačkoliv vývoj voice-recognition technologií začal již v 50. letech 20. století,[1] k rozšíření tzv. hlasového obchodu došlo až v posledních letech, přičemž prognózy odhadují, že do roku 2023 se stane byznysem v hodnotě 80 miliard dolarů.[2] O potenciálu hlasového obchodu svědčí např. skutečnost, že za čtyři roky existence Google Assistant[3] vzrostlo vyhledávání pomocí hlasových dotazů o 27 % a míra přesnosti dosáhla 95 %.[4] I když se jedná o impozantní číslo, vyvstává otázka: 95% míra přesnosti pro koho?

Řada výzkumů totiž odhalila, že softwary pro rozpoznávání řeči mají významné rasové a genderové předsudky. Stejně jako v případě rozpoznávání obličeje,[5] vyhledávání na webu[6] a dokonce i automatických dávkovačů mýdla,[7] se i u UI na rozpoznávání řeči ukazuje, že u žen a jiných než bílých lidí, vykazuje významně nepřesnější výsledky. Proč tomu tak je? Rozdíly existují kvůli způsobu, jakým je strukturována analýza dat a strojové učení. Databáze, na kterých jsou softwary UI založeny, totiž obsahují spoustu údajů o bílých mužích, ale jen malé množství dat o ženách a menšinách. Dle výzkumu dr. Rachael Tatman proto Google rozpoznání řeči u mužů funguje o 13 % přesněji než u žen[8] a u bílých lidí o 10 % přesněji než u osob jiné barvy pleti,[9] přičemž přesnost softwarů Bing, WIT či IBM je ještě nižší než u Googlu.[10]

Lidem žijícím v Česku se může zdát, že míra přesnosti těchto softwarů je banální záležitostí. V mnoha jiných zemích ale rozpoznávání řeči již dnes ovlivňuje řadu důležitých odvětví, včetně rozhodování o imigraci[11] či najímání nových zaměstnankyň a zaměstnanců.[12] Také automobilky už roky přiznávají, že rozpoznávání řeči u žen, menšin a osob s „nestandardním“ přízvukem nefunguje příliš dobře.[13] Tyto předsudky tak mají na lidské životy vážné důsledky, o čemž svědčí kupříkladu případ irské ženy, jíž nebylo dovoleno zůstat v Austrálii. Přestože byla rodilou mluvčí angličtiny s vysokoškolským vzděláním, zkouškou z anglického jazyka během testu pro prodloužení víza neprošla, jelikož počítač nerozuměl jejímu přízvuku.[14]

Navzdory tomu, že pokrok ve vývoji hlasové UI v posledních 30 měsících překonal vývoj v prvních třech dekádách její existence, je většina systémů pro rozpoznávání řeči stále nastavena tak, že dlouhodobě selhává.[15] Důvodem je strojové učení, jež opomíná obrovskou část společnosti. Stávající situace ovšem neznamená jen problém společenské nespravedlnosti, nýbrž i problém inovačního a ekonomického potenciálu technologických firem. Přesnost rozpoznávání řeči totiž ovlivňuje rozhodování zákaznic a zákazníků o nákupu. Budou-li společnosti i nadále vyvíjet softwary, které podstatné části jejich klientely nerozumí, nemají v dlouhodobém měřítku šanci na přežití.


[1] https://sonix.ai/history-of-speech-recognition#:~:text=While%20there%20have%20been%20a,over%20the%20last%2070%20years.

[2] https://hbr.org/2019/05/voice-recognition-still-has-significant-race-and-gender-biases

[3] https://www.pocket-lint.com/apps/news/google/137722-what-is-google-assistant-how-does-it-work-and-which-devices-offer-it

[4] https://review42.com/voice-search-stats/#:~:text=One%20billion%20voice%20searches%20were,devices%20more%20in%20the%20future.

[5] https://www.nytimes.com/2019/01/24/technology/amazon-facial-technology-study.html

[6] https://www.amazon.com/Algorithms-Oppression-Search-Engines-Reinforce/dp/1479837245

[7] https://gizmodo.com/why-cant-this-soap-dispenser-identify-dark-skin-1797931773

[8] ttp://www.ethicsinnlp.org/workshop/pdf/EthNLP06.pdf

[9] https://makingnoiseandhearingthings.com/2017/08/29/how-well-do-google-and-microsoft-and-recognize-speech-across-dialect-gender-and-race/

[10] https://hbr.org/2019/05/voice-recognition-still-has-significant-race-and-gender-biases

[11] https://www.theguardian.com/australia-news/2017/aug/08/computer-says-no-irish-vet-fails-oral-english-test-needed-to-stay-in-australia

[12] https://www.hirevue.com

[13] https://techland.time.com/2011/06/01/its-not-you-its-it-voice-recognition-doesnt-recognize-women/

[14] https://www.theguardian.com/australia-news/2017/aug/08/computer-says-no-irish-vet-fails-oral-english-test-needed-to-stay-in-australia

[15] https://sonix.ai/history-of-speech-recognition