Časopis Naše řeč
en cz

Výlet za hranice neurčitosti

Hynek Bořil

[Reviews and reports]

(pdf)

A trip across the borders of vagueness

Review of: Pavel Machač – Radek Skarnitzl: Fonetická segmentace hlásek. Praha: Nakladatelství Epocha, 2009. 152 s.

Pavel Machač – Radek Skarnitzl: Fonetická segmentace hlásek. Praha: Nakladatelství Epocha, 2009. 152 s.

 

Řeč představuje nejvyspělejší prostředek lidské komunikace. Snaha porozumět její struktuře často vyžaduje analýzu na úrovni elementárních jednotek. Tento požadavek může být společný řadě vědních oborů, jako jsou lingvistika, patologie řeči či kognitivní věda. Řeč coby pole výzkumu přitahuje v posledních desetiletích také technickou obec, díky jejímuž úsilí se hlasová komunikace s počítači, telefony a navigačními systémy v automobilech pomalu, ale jistě přesouvá ze stránek sci-fi románů do reality každodenního života. Jedním z klíčových požadavků pro reprodukovatelnou analýzu, úspěšné rozpoznávání a věrnou syntézu řeči je definice kompletního inventáře jejích zvukových jednotek a schopnost jejich jednoznačné identifikace v řečovém materiálu. Tento na pohled jednoduchý úkol je komplikován vysokou variabilitou řečové produkce a fenoménem zvaným koartikulace. Variabilita řečové produkce je dána unikátními fyziologickými vlastnostmi řečového ústrojí a způsobem výslovnosti, jaký, ať už vědomě či podvědomě, v daném řečovém aktu použijeme. Koartikulace představuje plynulé prolínání sousedních hlásek v důsledku spojitého pohybu mluvidel. V závislosti na fonetickém kontextu právě toto prolínání tvoří mnohdy největší překážku určení jednoznačných hranic hlásek při segmentaci řeči, neboť tyto hranice nemusejí v tradičním slova smyslu vždy existovat. Břímě volby hranic hlásek při zpracování řečových korpusů v takových situacích pak obvykle spočívá na anotátorovi a jeho rozhodnutích odvozených případ od případu, což v důsledku ohrožuje reprodukovatelnost celého procesu fonetické segmentace. Naději na výraznou změnu v této oblasti představuje nový knižní titul Fonetická segmentace hlásek autorů Pavla Machače a Radka Skarnitzla z Fonetického ústavu FF UK (nakladatelství Epocha, 2009, 152 stran), který přináší ve svém rozsahu a ucelenosti jedinečnou studii řečové produkce z pohledu artikulace a koartikulace hlásek a nabízí soubor pravidel pro replikovatelnou manuální segmentaci řečového signálu.

Úvod knihy vymezuje roli segmentace řeči ve fonetickém výzkumu a nastiňuje přehled současných metodických přístupů k určování hranic segmentů. Přestože se předkládaný text zaměřuje především na manuální segmentaci, autoři v přehledu neopomíjejí zmínit ani takzvanou segmentaci automatickou, kde jsou hranice hlásek hledány za pomoci počítačových algoritmů využívajících stochastické modely řečových jednotek. Automatická segmentace je oblíbeným nástrojem v technických aplikacích, jako je rozpoznávání mluvené řeči či identifikace řečníka, neboť je časově úsporná a nevyžaduje přímou účast anotátora. Její přesnost však navzdory ambicióznímu vývoji modelů řeči v posledních letech stále nedosahuje parametrů manuální segmentace, jak je také demonstrováno na názorném příkladu v úvodní kapitole. Následná diskuse problematiky věnovaná konzistentnosti a reprodukovatelnosti manuální segmentace řeči přináší ucelený obraz o vývoji tohoto odvětví v posledních dvou desetiletích a motivuje zaměření následujícího textu. Jak je [46]ukázáno na příkladu předchozích studií, manuální segmentace představuje silně subjektivní proces, a jako taková je zatížena častou variabilitou (neshodami) mezi anotátory. Tyto neshody jsou nadále umocněny vnitřní variabilitou na úrovni každého anotátora. Jak již bylo zmíněno, hranice hlásek jsou mnohdy nejasné a bez pevně stanovených pravidel může často týž anotátor učinit u podobných přechodů odlišná rozhodnutí. Velmi slibný nástin řešení tohoto problému přinesla již předchozí práce autorů zaměřená na segmentaci Pražského fonetického korpusu, kde zavedení souboru relativně jednoduchých anotačních pravidel pro přechody mezi širšími skupinami hlásek (zde se jednalo o intervokalické explozivy, frikativy a nazály) vedlo k výraznému zvýšení shody mezi anotátory a snížení odchylky mezi určenými segmenty (Volín et al., 2008). Úspěch tohoto přístupu motivoval autory k rozšíření pravidel pro další skupiny hlásek a vytvoření kompletního anotačního průvodce tak, jak je prezentován v následujícím textu.

Čtenář je nejprve seznámen s obecnými typy přechodů mezi zvukovými segmenty a intuitivními volbami odpovídajících hranic. Autoři posléze přicházejí s formálnějším popisem řečových segmentů a definují úvodní obecná pravidla pro vytyčování hranic na základě principu dominance. Dále je formulován metodologický soubor parametrů a pravidel, které budou používány po zbytek textu při analýze různých kombinací hlásek a volbě umístění hranic segmentů. Hlavním cílem tohoto souboru je omezení nejednoznačností v rozhodovacím procesu anotátorů na minimum a dosažení konzistentní a reprodukovatelné fonetické segmentace.

Zbytek knihy je věnován studiu jednotlivých skupin hlásek a jejich spojení. Kapitoly se postupně zabývají umisťováním hranic u intervokalických exploziv, frikativ, nazál, vibrant, aproximant, laterál, dále pak ve spojeních dvou obstruentů, obstruentu a likvidy, dvojice souhlásek se stejným způsobem artikulace a nakonec u rázu v podobě neznělé glotální explozivy a třepené fonace. Jednotlivé třídy hlásek jsou analyzovány z pohledu způsobu artikulace a odpovídajících akustických vlastností. Postupně jsou vybrány akustické příznaky, které jsou dané třídě vlastní a umožňují její jasné vymezení vůči okolí. Na základě těchto příznaků jsou pro jednotlivé třídy a jejich kombinace formulována pravidla segmentace. Každá kapitola je doplněna řadou grafických příkladů segmentace prováděné na skutečných řečových signálech, což čtenáři umožňuje snadné vstřebání nového materiálu. Skutečný přínos předkládané práce je demonstrován v závěrečné kapitole, kde autoři aplikují soubor nově navržených pravidel při segmentaci českých rozhlasových nahrávek. Jak je ukázáno, rozptyl umístění hranic segmentů mezi jednotlivými anotátory je zde nesrovnatelně nižší v porovnání se standardem definovaným předchozími, celosvětově uznávanými studiemi.

Obsah knihy je snadno přístupný čtenáři s hrubými znalostmi základů fonetiky, akustiky nebo číslicového zpracování signálů. Členění textu je intuitivní a rozsah a hloubka jednotlivých kapitol představují vyváženou kombinaci všeobecně uznávaných faktů a experimentálního materiálu, která umožňuje čtenáři snadno následovat autory v jejich myšlenkových pochodech. Je na místě zdůraznit, že doposud neexistoval jediný ucelený průvodce fonetickou segmentací řeči a Fonetická segmentace hlásek a její anglická mutace Principles of Phonetic Segmentation představují nejen v českém, ale i celosvětovém měřítku jedinečný počin, který má potenciál sjednotit metodologii vědeckých pracovišť doposud odkázaných na své zkušenosti a ad hoc vytvářená pravidla. Fonetická segmentace hlásek je hodnotná příručka pro každého, kdo se zabývá studiem a zpracováním mluvené řeči.

 

[47]LITERATURA

 

VOLÍN, J. – SKARNITZL, R. – MACHAČ, P. – JANOUŠKOVÁ, J. – VEROŇKOVÁ, J. (2008): Reliabilita a validita popisných kategorií v Pražském fonetickém korpusu. In: M. Kopřivová – M. Waclawičová (eds.), Čeština v mluveném korpusu. Praha: Nakladatelství Lidové noviny, s. 249–254.

Center for Robust Speech Systems
Erik Jonsson School of Engineering and Computer Science
The University of Texas at Dallas
800 West Campbell Road, ECSN 4.326, Richardson, TX 75080-3021
hynek@utdallas.edu

Naše řeč, volume 95 (2012), issue 1, pp. 45-47

Previous Magdalena Zíková, Jan Volín: Přízvučné a nepřízvučné ten při odkazování k vedlejším přívlastkovým větám

Next Robert Adam, Milan Harvalík, Ondřej Koupil, Vladimír Šmilauer, Irena Vaňková: Kruh přátel českého jazyka v akademickém roce 2010/2011