Časopis Naše řeč
en cz

Extrakce základní hlasové frekvence a intonační gravitace v češtině

Jan Volín

[Articles]

(pdf)

Fundamental frequency tracking and intonation downtrends in Czech

The article deals with the nature of current approaches to speech material and to instrumental analysis in research of prosodic phenomena. The relationship between intonation in the narrow sense of the word and frequency of the vocal folds vibration is described. One example probe is presented to demonstrate advantages and weaknesses of some modern methods. Attention is also paid to interesting intonational downtrends which have been neglected by intonologists and which, to date, have not been properly described in Czech.

Key words: fundamental frequency – F0, intonational downtrends, melody of speech, pitch
Klíčová slova: základní hlasová frekvence – F0, intonační gravitace, melodie řeči, výška tónu

Úvodní poznámky

Zvukový plán jazyka je při systematickém popisu tradičně rozdělován na segmentální, týkající se jednotek na úrovni hlásek, a suprasegmentální, který souvisí s prozodickými jevy. V minulosti nebylo zkoumání obou domén v rovnováze. Popisy segmentální roviny výrazně převažovaly až do 60. let 20. století. V tomto ohledu bývá z hlediska světové fonetiky za zlomový někdy považován 6. mezinárodní kongres fonetických věd uspořádaný v r. 1967 v Praze. V prvních pěti letech po kongresu bylo totiž publikováno více studií se suprasegmentální tematikou než během celých sedmdesáti let před ním! (Di Cristo in Rossi, 1997, s. 2) Nebyla to ovšem deštivá Praha v době konání kongresu, která podnítila do té doby nebývalý zájem o prozodii. Stále rostoucí povědomí o tom, že intonace, rytmus a změny tempa řeči nejsou pouhou okrasou lexikálních významů, a především rozvoj technických možností v oblasti zachycování parametrů řeči inspirovaly badatele k formulování stále většího počtu zajímavých hypotéz a jejich ověřování v nahrávkách různého typu.

Zhruba do této doby se prozodický výzkum opíral převážně o subjektivní představy autora o jevu, který popisoval. Technické zachycení korelátů melodie řeči nebo její temporální organizace bylo obtížné a velmi zdlouhavé, takže se omezovalo nanejvýše na ilustrace do publikací. Materiálem pro popis byly obvykle poznámky v notesu o zaslechnutých promluvách. Pokud neměl badatel po ruce tužku a papír, udělal si poznámku pouze mentální. Ačkoli i takto vznikly některé vynikající studie (např. Daneš, 1957; Kingdon, 1958), dosahovaná exaktnost výzkumu přestávala [228]lingvisty uspokojovat. Ví se totiž, že i sebelépe trénovaný fonetik je především uživatelem jazyka a že některé iluze, na nichž percepce řeči závisí, není možno vůlí neutralizovat.

Aby řeč fungovala tak efektivně a rychle, jak v posledních staletích, a možná tisíciletích funguje, musí být akustický signál na několika úrovních architektury mozku vnímatele transformován a mnoho jeho částí je před lingvistickým zpracováním eliminováno, zatímco jiné jsou přidány. Uvědomění jsou pak přístupny až mnohonásobně transformované obrazy. Jinými slovy, během raného dětství se naučíme neslyšet vše, co opravdu zní, a získáme trvalou schopnost „slyšet“ i takové prvky, které řečový signál ve skutečnosti neobsahuje. Pozdější výcvik sluchově analyzačních dovedností může fonetikovi pomoci vnímat přesněji, než jak vnímá průměrný člověk, ale objektivní posouzení zvukových vlastností promluv je i tak nemožné.

Zatímco tento problém je charakteristický právě pro řečovou komunikaci, je zde ještě jedna mnohem obecnější komplikace. Jakmile se člověk zaměří na prokázání určité hypotézy, pak přes všechnu snahu o nezaujatost silně vnímá a pamatuje si všechny důkazy v její prospěch. To, co by mluvilo proti dané hypotéze, mnohdy nevědomky ignoruje nebo rychle zapomíná. Nemá pak ani možnost objektivně posoudit sílu své hypotézy a skutečnou platnost jejího působení. To platí nejen pro lingvistiku.

Dnešní fonetika se proto neobejde bez důkladných záznamových zařízení, vytvářejících uchovatelné reprezentativní vzorky řečového materiálu, a bez analyzačních nástrojů, kterými je možno různá omezení lidských percepčních mechanismů obejít.

Plně si uvědomit dvě výše uvedené zásadní překážky výzkumu byli lingvisté donuceni především s rozvojem tzv. řečových technologií, tedy hlavně syntézy umělé řeči a automatického rozpoznávání řeči. Opakovaně docházelo k pro některé šokujícímu zjištění, že zdánlivě logické a příjemně systematické lingvistické popisy jsou nepoužitelné a realitě jazykové komunikace neodpovídající.

 

Melodie řeči versus frekvence F0

Pro výzkum melodie řeči (tj. intonace v užším slova smyslu) znamenal velký průlom nástup extraktorů základní hlasové frekvence (tj. extraktorů F0). Ty umožnily zjišťovat z nahrávek řeči bez zdlouhavých výpočtů rychlost kmitání hlasivek, které je základem zvuku lidského hlasu. Odpadly také chyby vzniklé ručním snímáním údajů z pracně získávaných kymografických záznamů.

Jedním z přínosů práce s extraktory bylo zaměření pozornosti intonologů i mimo tzv. intonační jádro výpovědi. Je sice zřejmé, že melodém jakožto funkční tónová konfigurace je tou nejdůležitější součástí intonační kontury, avšak přílišné zaujetí melodémem svádělo ke zjednodušené představě, že budeme-li správně modelovat

 

[229]

Obr. 1. Zobrazení frekvence základního hlasivkového tónu (F0) ve větě Třetího výbuch odhodil na větší vzdálenost.

 

závěrečné klesnutí nebo stoupnutí hlasem, máme vyhráno. Jenže soustředěnější pohled na intonační kontury ukázal, že mnoho zajímavého se děje i mimo melodém. Intonace před nástupem melodému není rovná a konfigurace, které vytváří, také mají své funkce. Jednou z nejzásadnějších je pomoci členit řečové kontinuum na takty a přes ně na slova. Dále je možno melodickým průběhem před melodémem modifikovat např. důraznost, naléhavost promluvy nebo signalizovat zaujetí sdělovanou skutečností či míru účasti na komunikačním aktu. Nadanější intonologové o tomto samozřejmě věděli již před nástupem extraktorů F0, avšak možnost trvalého záznamu a zobrazení studovaných jevů nesmírně usnadnily obracení pozornosti i mimo to nejnápadnější, tedy melodém.

Práce s extraktorem F0 s sebou ovšem přináší také dvě velké nevýhody. Tou první je jejich chybovost. Za několik desetiletí jejich vývoje se doposud nepodařilo sestrojit takový, který by občas nechyboval. Zdánlivě banální úkol, jakým je změření základní hlasové frekvence, je ve skutečnosti mnohem těžší než výpočet ostatních frekvencí přítomných v řečovém signálu. Na jednu stranu tedy můžeme pomocí přístroje získat průběhy F0 v rozsáhlém materiálu, na druhou stranu je nutno každou položku ještě sluchem překontrolovat a případně ručně opravit.

Druhým, ještě závažnějším problémem je samotný vztah F0 k intonaci. I když obecně platí, že čím rychleji hlasivky kmitají, tím vyšší tón člověk slyší, bylo by hrubou chybou vydávat konturu F0 za konturu intonační. Obě kontury spolu sice souvisejí, ale zatímco první z nich můžeme měřit technickými prostředky přímo z řečového signálu, tu druhou musíme odvozovat pomocí výpočtů, jejichž přesnost není dodnes zcela uspokojivá. Obrázek 1 ukazuje konturu F0 extrahovanou z věty Třetího výbuch odhodil na větší vzdálenost.

Chceme-li tuto konturu vztáhnout ke slyšené intonaci, musíme vzít v úvahu následující skutečnosti. Prvním nezbytným krokem je převedení údajů v hertzech (Hz – kmit za sekundu) na půltóny (ST z angl. semitone). Půltón je totiž vnímán [230]jako stejný výškový interval v celém rozsahu lidského hlasu, zatímco hertz reprezentuje tím menší výškový krok, čím vyšší hlas posloucháme. Praktický dopad této skutečnosti můžeme demonstrovat na materiálu čtených zpravodajství podrobněji popsaném níže. Dvě třetiny mluvních taktů v něm vykazují pro češtinu typické stoupnutí z přízvučné slabiky na popřízvučnou. Průměrný výškový krok mezi první a druhou slabikou byl v tomto vzorku přibližně 1,7 ST. (Pracovali jsme pouze s takty, v nichž popřízvučná slabika nebyla zároveň finální slabikou melodému.) Pokud bychom tento interval vyjádřili v hertzech, pak by pro hlubší polohu mužského hlasu odpovídal hodnotě asi 8 Hz, zatímco u vyšší polohy ženského hlasu by znamenal přibližně 35 Hz. Uvádění výškových rozdílů v hertzech tedy nemá potřebnou sdělnou hodnotu, neboť daný rozdíl je vnímán odlišně v různých výškových polohách. Uvedeme-li však výškový rozdíl v půltónech, můžeme se spolehnout na ekvivalentní vjem bez ohledu na frekvenční pásmo, v němž k výškovému kroku došlo. Průměrné stoupnutí z přízvučné slabiky na popřízvučnou uvedené v půltónech tedy platí, ať byl mluvní takt vysloven mužem, ženou nebo dítětem.

Experimenty v minulých desetiletích vedly k návrhům ještě dalších psychoakustických jednotek, které by technicky vyjádřenou základní frekvenci zvuku přibližovaly lidskému vnímání (např. mely, barky, erby). Zdá se však, že pro výzkum intonace řeči jsou půltóny stále nejvýhodnější (Nolan, 2003).

Zatímco převod hertzů na půltóny (Hz → ST) je jednoduchou záležitostí, další postup při převodu kontury F0 na konturu intonační je již mnohem komplikovanější. Je obecně přijímáno, že základem melodie řeči jsou změny vnímané výšky jednotlivých slabik v určité řečové jednotce (nejčastěji mluvním taktu, promluvovém úseku nebo promluvě). Klíčovým pojmem je zde vnímaná výška slabiky. Z obr. 1 je patrné, že základní frekvence (F0) v jednotlivých slabikách není statická: klesá, stoupá, nebo dokonce v rámci slabiky mění směr pohybu. Přesto posluchači obyčejně vnímají slabiku jako jeden tón. Výškový pohyb v ní registrují, pouze pokud je dostatečně dlouhá, což se stává na koncích promluvových úseků, kde máme tendenci zpomalovat, tj. poslední slabiku více nebo méně protahovat. (Toto závěrové zpomalování je ostatně nejspíše motivováno právě tím, že melodie v závěru úseku je z hlediska jazykových funkcí nejdůležitější a potřebuje prostor, aby mohla být účinně realizována.)

Co je ale tou jednou výškou, kterou posluchač pro danou běžnou slabiku registruje? Odráží nějaký průměr frekvencí, které se v rámci slabiky vyskytují? Nebo vychází z nejvyšší, případně nejnižší hodnoty ve slabice? Psychofonetické experimenty ukázaly, že vjem výšky slabiky běžné délky se vztahuje k frekvenci zhruba v polovině jejího jádra (Beckman, 1986, s. 111n.; Hermes, 2006, s. 43). Jádrem slabiky jsou téměř výhradně samohlásky, relativně řídce i sonorní souhlásky. V nich je třeba hledat hodnotu F0, ze které je možno odvodit, jak vysoko je daná slabika slyšena. Naopak hodnoty F0 v souhláskách okolo jádra jsou z hlediska intonace irele[231]vantní. Díky jejich artikulační podstatě (což platí zejména u obstruentů neboli souhlásek šumových) v nich základní frekvence silně fluktuuje a tyto fluktuace je obtížné ovládat. Lidé se tedy naučili poslouchat řeč tak, že F0 v souhláskách do intonace nezahrnují. Neznamená to ovšem, že by ji neslyšeli. Jednak je její přítomnost či nepřítomnost důležitá pro rozlišení znělých a neznělých souhlásek (např. Pražan × prašan, hloupěji × hlouběji), jednak se v poslední době potvrdilo, že prudké změny F0 kolem přechodů mezi samohláskami a souhláskami ještě dále usnadňují přesnější identifikaci souhlásek. Nedávný výzkum řečového rytmu naznačil existenci časovacího mechanismu, který z řečového signálu umožňuje vydělit zvlášť informace o hláskovém složení a zvlášť o prozodickém ztvárnění promluvy. Tyto informace jsou v mozku zpracovávány odděleně určitými dedikovanými svazky neuronů a později znovu integrovány před konečným přiřazením významu dané části promluvy.

Na tomto místě bychom se mohli ptát, k čemu je nám lingvistům dobré zabývat se neurofyziologickou podstatou vnímání řeči. Odpověď se skrývá v předchozích odstavcích. Je to třeba právě proto, abychom věděli, jak naložit s měřeními řečového signálu, která nám dnešní technika umožňuje. Umíme toho totiž měřit více, než dokážeme chápat. Mají-li nám naměřené hodnoty být nějak užitečné, musíme znát jejich percepční význam.

Grossbergův model neurálních rezonancí (Grossberg, 2003) pomáhá vysvětlit neustálé rychlé nevědomé pulzování pozornosti při vnímání a jeho relevanci pro řečovou komunikaci. Podstata funkce neuronů vyžaduje oddělení informace o souhláskovém řetězci, který je pro identitu lexikálních jednotek zásadní, od informací o prozodickém uspořádání, které nesou další pragmatické funkce promluvy. Proto jsou některé části kontury F0 (třeba té z obr. 1) využity pro percepci hlásek a jiné části pro percepci melodie řeči.

Přesné určení místa v jádru slabiky, v němž by F0 nejlépe odpovídala vnímané intonaci, se zatím nedaří. Četné experimenty přinášejí poněkud rozdílné výsledky. Úkol je přitom zdánlivě jednoduchý. Mělo by stačit sebrat vzorek různých průběhů základní frekvence jádrem slabiky a v poslechových testech určit, které místo v daném jádru slabiky odpovídá vjemům uváděným posluchači. Jenomže vjem výšky komplikují ještě další percepční zákonitosti. Tak např. vyšší hlasitost vzbuzuje iluzi vyššího tónu a jednotlivé slabiky v řeči se od sebe hlasitostí dosti liší. Do hry vstupuje i typ jazyka: fonotaktické uspořádání slabik nebo uplatnění tónu na lexikální úrovni ovlivňují způsob vnímání fyzické reality. Angličan slyší výšky slabiky jinak než Japonec nebo Číňan. A nakonec je zde otázka inherentního F0 a inherentní výšky.

Inherentní F0 souvisí s identitou samohlásky. Ukázalo se, že bez ohledu na jazyk, tedy nejspíše univerzálně, vykazují samohlásky i-ové a u-ové vyšší F0 než samohlásky a-ové v prozodicky srovnatelných pozicích. Samohlásky e-ové a o-ové jsou někde uprostřed. Zároveň ovšem víme, že by intonace neměla být na kvalitě samohlásky závislá. Proč by např. závěrečné stoupnutí u otázky zjišťovací mělo být snad[232]nější u /i:/ (např. A ty to všechno víš?) než u /a:/ (např. A ty to všechno znáš?)? Experimenty prokázaly fungování kompenzačního mechanismu, který byl nazván inherentní výška. Zjistilo se, že abychom vnímali např. slabiku /pa:/ stejně vysoko jako slabiku /pi:/, pak /pi:/ musí mít vyšší F0. A jak vyplývá z předchozího, to obvykle v přirozené řeči mívá.

I když tedy obecně platí, že vyšší frekvence vedou k vnímání větší výšky zvuku, u zvuků řečových je tato zákonitost modifikována segmentálním složením. Na základě zkušenosti s řečí se vlastně učíme slyšet neobjektivně, což ale umožňuje efektivnější využití jazykového kódu v komunikační praxi. (Jako by to nebylo málo, efekt inherentní výšky je ještě různě silný v různých prozodických pozicích. Funguje tedy jinak např. v rámci melodému, u prvního melodického vrcholu v promluvovém úseku nebo v jeho těle.)

Z předešlého by tedy mělo být jasné, že převod kontury F0 na konturu intonační je složitým a dodnes nedořešeným problémem. Některé výzkumné úkoly v současné době však umožňují na převody rezignovat. Chování účastníků komunikačních aktů v určitých situacích je možno vztahovat přímo k hodnotám F0. Tlak praxe způsobuje, že se spokojíme s popisem fyzikálních atributů řeči a jejich jazykový význam odhadneme. Jsou to opět řečové technologie (syntéza a automatické rozpoznávání řeči), které si žádají informace o řeči i za tu cenu, že nebudou zcela přesné a jejich význam pro jazyk bude zatím poněkud zamlžený. V žádném případě bychom však neměli vydávat F0 za intonaci a u každé studie bychom měli dát explicitně najevo, že jsme si rozdílu mezi nimi vědomi.

Ve zbývajících odstavcích tohoto článku bych rád představil jeden zajímavý intonační jev, který v češtině zatím nebyl důkladně prozkoumán. Budu se nejprve držet jeho projevů na úrovni základní hlasivkové frekvence. K jeho lingvističtější analýze bych se ovšem rád vrátil v některém z nejbližších čísel Naší řeči.

 

Spádové intonační jevy

Již mnoho desítek let existují u některých jazyků zmínky o postupném poklesu hodnot F0 u srovnatelných melodických událostí v rámci nějaké řečové nebo jazykové jednotky (promluvový úsek, promluva nebo věta). Určité intonační vrcholy nebo naopak intonační sedla mohou v průběhu dané jednotky vykazovat stále nižší hodnoty. Tento jev byl označován mnoha různými názvy a v šedesátých letech minulého století se ujal termín intonační deklinace navržený holandskými fonetiky. Terminologické zmatky však přetrvávaly ještě dlouho potom. Jednou z příčin bylo i to, že tento jev je vlastně skupinou příbuzných jevů vyskytujících se za různých podmínek a s různým funkčním zatížením. Název intonační deklinace je dnes používán pouze pro určitý typ poklesu hodnot, jiné typy mají odlišná pojmenování. Zastřešujícím názvem pro všechny spádové jevy je intonační gravitace.

 

[233]

Obr. 2. Kontura F0 v úseku Rozptylové podmínky budou zpočátku nepříznivé… se dvěma regresními přímkami zachycujícími gravitační trend. Přerušovaná čára se týká celé kontury, plná čára se vztahuje ke kontuře bez melodému realizovaného na slově nepříznivé.

 

V češtině byla intonační gravitace potvrzena dvěma drobnými sondami, z nichž jedna pracovala s laboratorním textem čteným studenty (Volín, 2004a) a druhá s rozhlasovými zpravodajstvími (Volín, 2004b). Řeč hlasatelů v rozhlasových zpravodajstvích je materiálem i v této studii, ovšem zde se budeme opírat o vzorek rozsáhlejší a homogennější (viz níže – oddíl Materiál studie).

Jedním z nejjednodušších způsobů ověření přítomnosti spádového trendu je sestrojení regresní přímky v kontuře F0 určité jednotky. Regresní přímka je obecně jakýmsi dynamickým dvourozměrným průměrem struktury dat. Podobně jako populární aritmetický průměr i regresní přímka zjednodušuje zkoumanou situaci. Matematicky transformuje data tak, aby vynikl převažující trend ve změnách jedné proměnné v závislosti na změnách druhé. V našem případě půjde o průměrné změny F0 v závislosti na toku času. (Čas zde pojímáme klasicky jako rovnoměrně plynoucí a termín přímka je vlastně synekdochou – zajímá nás pouze úsečka vymezená začátkem a koncem sledované jednotky.)

Na obr. 2 je zachycena kontura F0 nádechového úseku Rozptylové podmínky budou zpočátku nepříznivé. (Po slově nepříznivé pokračuje sdělení ještě dalším nádechovým úsekem.) Regresní přímky jsme sestrojili hned dvě. První z nich je zastoupena přerušovanou čarou a je vypočtena ze všech bodů kontury. Druhá je na obrázku reprezentována plnou čarou a týká se pouze kontury od jejího začátku po slovo mírně. Slovo nepříznivé již zahrnuto není, neboť je na něm realizován melodém neukončující stoupavý.

Vynechání melodému z analýzy trendu má své opodstatnění. Melodém je totiž relativně samostatným funkčním prvkem v prozodickém ztvárnění promluvy. U obec-

 

[234]

Obr. 3. Kontura F0 dvou nádechových úseků. V horní části s textem, v dolní se spádovými přímkami. Tenčí je počítána ze všech bodů kontury, silnější reprezentují trend v jednotlivých částech po odečtení vlivu melodémů.

 

ného spádového trendu se v definici mluví o postupném snižování hodnot ekvivalentních událostí v rámci jednotky. Je-li danou jednotkou např. jeden promluvový úsek, jako je tomu u výše uvedeného příkladu, pak realizace melodému nemá ekvivalent. Zcela namístě je potom i zkoumání celkového trendu po jeho odstranění.

Obrázek 3 demonstruje další skutečnost, se kterou je v základních analýzách třeba počítat. Celá syntaktická konstrukce, jejíž první část jsme zatím pozorovali, vypadá následovně: Rozptylové podmínky budou zpočátku nepříznivé, odpoledne převážně dobré. Z hlediska fyziologicko-artikulačního se jedná o dva nádechové úseky, z nichž každý je realizován jako promluvový úsek z hlediska prozodického. Kontura F0 tohoto celku je zachycena na obr. 3 hned dvakrát. V horní části je to pro názornost s textem, v dolní s přímkami intonačních spádových trendů. Důležité je nyní povšimnout si rozdílu mezi tenčí čarou procházející celkem a dvěma silnějšími čarami, které procházejí jeho jednotlivými částmi.

Není tedy lhostejné, v jakém úseku je spádový trend zjišťován. Směrnice regresní přímky procházející zobrazeným celkem je –1,4 ST/s. To znamená, že každou [235]sekundu klesne hodnota F0 v průměru o 1,4 půltónu. První i druhý nádechový úsek vykazují hodnotu –2,6 ST/s, pokud zahrneme realizaci melodému. Regresní přímky tohoto trendu na obrázku nejsou, neboť, jak je uvedeno výše, melodém je autonomním funkčním prvkem, který je vhodné z prozodické struktury vyčleňovat. Je však užitečné se zamyslet, proč jsou spády jednotlivých částí (–2,6 ST/s) větší než spád celku (–1,4 ST/s). Nehraje v tom jistě roli to, že první promluvový úsek je zakončen melodémem stoupavým (na slově nepříznivé), zatímco druhý melodémem ukončujícím klesavým (na slově dobré).

Je očividné, že spád v jedné jednotce zkrátka nepokračuje bez přerušení v jednotce následující. Začíná znovu a tomuto novému začátku se říká deklinační přenastavení. Existují studie, které dokumentují souvislost deklinačního přenastavení s prozodickými předěly, a experimenty s angličtinou ukázaly, že koheze prozodické jednotky nebo naopak prozodické členění je deklinačními poměry často signalizována lépe než např. závěrovým zpomalováním (Schuetze-Coburn et al., 1991, s. 217).

Obr. 3 demonstruje přenastavení na spádových přímkách počítaných s vyloučením melodémů. V prvním promluvovém úseku je zde trend –3,8 ST/s, ve druhém –5,3 ST/s. Srovnáme-li tyto hodnoty s původními –2,6 ST/s pro oba úseky, nelze přehlédnout, že čím je zkoumaný úsek kratší, tím větší vliv na situaci může zahrnutí melodému mít. Ve druhém promluvovém úseku je melodém realizován klesavou kadencí, která nastupuje výše než konec předchozího mluvního taktu. Po jejím odečtení vlastně zbývají jen dva takty (zde |odpoledne|převážně|). To je také minimum, ve kterém má ještě smysl intonační deklinaci hledat. V rámci jediného mluvního taktu bychom sice mohli také spekulovat o trendu ve slabikách jdoucích po sobě, avšak vzhledem k melodické výstavbě českého mluvního taktu by to bylo nerozumné.

V následující sondě se tedy podíváme, jaké jsou typické projevy intonační gravitace v konturách F0 v českých zpravodajských relacích čtených profesionálními hlasateli.

 

Materiál studie

Hlasatelé Českého rozhlasu byli tradičně považováni za mluvní vzory. Jak se vyvíjí prestiž jejich profese v dnešní době, není v tuto chvíli důležité. Jednoznačnou výhodou použití jejich mluvy je vcelku jasné prozodické členění: jak promluvové úseky, tak mluvní takty jsou obvykle zřetelné. Profesionálové také většinou „neklamou tělem“ a zvukové ztvárnění jejich promluv bývá v souladu se stavbou syntaktickou i sémantickými celky. Samozřejmě ani zde není o překvapení nouze. Zejména snaha o překotná tempa řeči občas způsobuje, že některé jednotky nejsou právě učebnicové, ale v případě Českého rozhlasu se stále ještě můžeme spolehnout, že na nás mluví hlasatel, kterému není jedno, zda se posluchač neúměrně namáhá nebo se námaze vyhýbá tím, že poslouchá jen „na půl ucha“.

[236]Ze šesti zpravodajství čtených třemi ženami a třemi muži jsme za účelem srovnatelnosti vybrali všechny nádechové úseky (NÚ) o šesti až devíti slovech. Z 307 nádechových úseků toto kritérium splnilo 131 NÚ, z nichž ale 6 muselo být vyřazeno kvůli hudbě podkreslující řeč.

Členění na nádechové úseky je výhodné pro svou relativní jednoznačnost. Proto je pro nás členěním primárním. Členění na věty či výpovědi již může přinést určité potíže a v této sondě není prozatím potřebné. Z prozodického hlediska nás naopak zajímá, jak jsou NÚ rozděleny na úseky promluvové (PÚ), tj. na řečové jednotky, které vykazují pevnou intonační kohezi. Ve vzorku 125 NÚ jich 18 bylo vysloveno jako jeden promluvový úsek, 65 se skládalo ze dvou PÚ, 34 obsahovalo tři PÚ, sedm sestávalo ze čtyř PÚ a jeden nádechový úsek byl hlasatelkou zvukově realizován jako pět PÚ. Pracovali jsme tedy s 283 promluvovými úseky.

Extrakce základní hlasové frekvence (F0) byla provedena autokorelační metodou s prahováním proti některým elementárním chybám (Boersma-Weenink, 2008). Výsledné kontury F0 byly ještě dále překontrolovány sluchem a případné chyby manuálně opraveny. Jednotlivé body kontury ve znělých částech promluv byly od sebe vzdáleny 10 ms, jak je v současné praxi zvykem.

 

Výsledky

Jak již bylo řečeno výše, v této sondě budeme zjišťovat pouze obecný gravitační trend F0, tedy směrnici regresní přímky procházející konturou F0. Nevýhodou tohoto postupu je, že nerozlišuje strukturu zkoumané jednotky, tedy především důležitost jednotlivých částí kontury F0. Výhodou je naopak rychlé zmapování situace a poskytnutí podkladů pro rozhodnutí o dalším výzkumu.

U našeho vzorku 125 nádechových úseků jsme nejprve vypočítali směrnice celých kontur, tj. včetně realizací melodémů a bez ohledu na vnitřní prozodické členění. Zjistili jsme, že pouze devět položek nemělo zápornou směrnici spádové přímky, která znamená klesání. Více než 90 % úseků tedy vykázalo obecný gravitační trend. Průměrný spád celých, nerozlišených kontur byl –1,4 ST/s. Je poučné porovnat tento průměr s průměrem všech nádechových úseků z daných šesti zpravodajských relací bez ohledu na jejich délku, tedy i těch, které měly méně než šest nebo více než devět slov. Zde se jednalo o hodnotu –1,2 ST/s. Jak mohlo přidání kratších a delších úseků snížit průměrný gravitační trend? To vyplývá z výše uvedených příkladů: u kratších se může jednat o příliš velký vliv melodému, který v nich zabírá relativně více místa, u delších jde často o vliv deklinačního přenastavení, neboť jsou složeny z více deklinačních úseků.

Pokud se tedy vrátíme k našemu původnímu výběru, můžeme spočítat spádové přímky pro ty NÚ, které byly realizovány jako jeden úsek promluvový, tj. bez vnitřních prozodických předělů. Na obr. 4 jsou tyto úseky označeny jako NÚ = PÚ. Ta-

 

[237]

Obr. 4. Krabicový graf průměrů, směrodatných chyb a směrodatných odchylek směrnic spádových přímek v promluvových úsecích s odečtením vlivu melodému. Význam značek viz text.

 

kových se našlo 18 a průměrný spád po odečtení melodému byl –3,1 ST/s. Co do variability, hodnoty čtrnácti z nich se pohybovaly v pásmu –1 až –5 ST/s. Variabilitu vyjádřenou směrodatnou chybou průměru a směrodatnou odchylkou je možno odečíst z obr. 4.

V ostatních položkách, které se skládaly z více promluvových úseků, jsme nejprve spočítali spádové přímky pro všechny první promluvové úseky, které po odečtení melodému trvaly alespoň jednu sekundu (na obr. 4 se značkou I.PÚ; u materiálu kratšího než 1 s nemá zjišťování trendu smysl). Zde byl průměrný sklon spádové přímky –2,1 ST/s. Podobný obrázek poskytly i promluvové úseky druhé v pořadí v rámci nádechových úseků. Ty, které po odečtení melodému trvaly alespoň jednu sekundu, vykázaly průměrný spád –1,7 ST/s. Variabilita hodnot byla srovnatelná s předešlými případy.

Promluvové úseky třetí v pořadí poskytly hodnotu –1,9 ST/s. Vzhledem k tomu, že po odečtení melodému jich zbylo pouze šest s trváním přes jednu sekundu, je směrodatná chyba průměru poměrně velká. To je pro hodnoty v malých skupinkách [238]typické. Mezi čtvrtými PÚ pak už byl jen jeden jediný delší než jedna sekunda. Měl spád –1,4 ST/s a na obr. 4 není zachycen.

Pokud shrneme předešlá zjištění, můžeme říci, že v českých čtených zpravodajstvích je zkoumání spádových intonačních jevů nadějné. Jejich přítomnost je indikována obecným gravitačním trendem v konturách průběhů F0. Podobně jako např. Shih a Kochanski (2003) u angličtiny nacházíme tento trend jak v promluvových úsecích, tak úsecích jim nadřazených (zde nádechových). V promluvových úsecích je intonační gravitace výraznější. Směrnice regresních přímek zde vykazují průměrné hodnoty kolem –2 ST/s. Toto klesání není způsobeno kadencemi, jimiž se realizují melodémy, neboť ty byly před měřením odečteny. Mimo to se ukázalo, že po odstranění realizací melodémů se klesání ve vlastním těle zkoumaného úseku lépe projevuje. V našem materiálu se sice kromě melodémů neukončujících stoupavých vyskytlo poměrně hodně melodémů ukončujících klesavých, avšak ty byly převážně realizovány kadencí stoupavě klesavou nebo se stoupnutím na přízvučnou slabiku z předešlé předpřízvučné. Gravitačnímu trendu by tak nijak zvláště nepomohly.

 

Diskuse

Ačkoli se intonační gravitace ve čtených zpravodajstvích projevila celkem přesvědčivě, rozptyl jednotlivých hodnot kolem průměrů není zanedbatelný a je potřeba nad ním zauvažovat. Mohl být způsoben vlastní metodikou sondy. Jak již bylo zmíněno výše, kontura F0 totiž obsahuje množství pro intonaci irelevantních informací a ty mohou zkoumanou situaci znepřehlednit. Na druhou stranu je ovšem také možné, že intonační poměry vně melodémů jsou inherentně variabilní, protože nejsou příliš funkčně zatíženy. Funkční kontrasty třeba nevytvářejí citlivé opozice. V takovém případě by pak nehrozilo, že lidé bez hudebního sluchu budou v komunikaci znevýhodněni. V této otázce však zatím také panuje mnoho nejasností. Je například překvapivé, kolik lidí (a často i povoláním lingvistů) komunikuje nepříliš efektivně a intonaci vnímá poměrně necitlivě.

Aby bylo možno se k variabilitě intonačních průběhů vně melodémů vyjadřovat zodpovědněji, je nutno provést další, tentokrát „lingvističtější“ analýzy. V některém z nejbližších čísel Naší řeči chceme proto přinést nejen podrobnější výklad pojmů, jako je intonační deklinace (v užším slova smyslu), katateze, komprese intonačního rozpětí nebo závěrový pokles, ale také znovu analyzovat současný materiál z hlediska intonačně relevantních výškových hodnot a s ohledem na strukturu jeho jazykových a řečových jednotek.

V budoucnu je pak ještě dále nutno ověřit případné nálezy v percepčních experimentech. Kvalita současné umělé řečové syntézy již umožňuje provedení velmi solidních poslechových testů. Bez nich totiž není žádný výzkum zvukové stránky řeči úplný. Dále by bylo vhodné zjistit, nakolik je současná rozhlasová řeč manýris[239]tická a nakolik je implicitním vzorem pro běžného uživatele. Každý může z vlastní zkušenosti potvrdit, že prozodie čtených zpravodajství je vskutku svébytná a dobře ji rozpoznáme třeba i při poslechu přes zeď, kdy nerozumíme jednotlivým slovům. Jaké její vlastnosti, nebo lépe jaká míra jejích vlastností přispívá k jejímu odlišení od ostatních mluvních stylů, však také není přesně popsáno. Je tedy zřejmé, že současný fonetický výzkum rozhodně nemá o úkoly nouzi.

 

LITERATURA

 

BECKMAN, M. E. (1986): Stress and non-stress accent. Dordrecht: Foris Publications.

BOERSMA, P. – WEENINK, D. (2008): Praat: doing phonetics by computer (Verze 5.0.27) [online]. Cit. 2008-7-11. < http://www.praat.org/ >.

DANEŠ, F. (1957): Intonace a věta ve spisovné češtině. Praha: Nakladatelství ČSAV.

DI CRISTO, A. (1975): Soixante et dix ans de recherche en prosodie. Aix-en-Provence: Éd. de l’Université de Provence.

GROSSBERG, S. (2003): Resonant neural dynamics of speech perception. Journal of Phonetics, 31, s. 423–445.

HERMES, D. J. (2006): Stylization of pitch contours. In: S. Sudhoff et al. (eds.), Methods in empirical prosody research. Berlin: Walter de Gruyter, s. 29–61.

KINGDON, R. (1958): The groundwork of English intonation. London: Longmans, Green & Co.

NOLAN, F. (2003): Intonational equivalence: an experimental evaluation of pitch scales. In: Proceedings of the 15th ICPhS, Vol. I. Barcelona: UAB a IPA, s. 771–774.

ROSSI, M. (1997): Intonation: past, present, future. In: A. Botinis – G. Kouroupetroglou – G. Carayiannis (eds.), Intonation: Theory, Models, Applications. Athens: ESCA, s. 1–10.

SHIH, CH. – KOCHANSKI, G. (2003): Modelling intonation: Asking for confirmation in English. In: Proceedings of the 15th ICPhS, Vol. I. Barcelona: UAB a IPA, s. 551–554.

SCHUETZE-COBURN, S. – SHAPLEY, M. – WEBER, E. G. (1991): Units of intonation in discourse: A comparison of acoustic and auditory analyses. Language and Speech, 34, s. 207–234.

VOLÍN, J. (2004a): Indicators of F0 declination in Czech read speech. In: R. Vích (ed.), Speech Processing – 14th Czech-German Workshop. Praha: ÚRE ČAV, s. 24–28.

VOLÍN, J. (2004b): F0 declination in Czech and English breath-groups. In: AUC Philologica – Phonetica Pragensia, X. Praha: Karolinum, s. 125–136.

Fonetický ústav FF UK
nám. Jana Palacha 2, 116 38 Praha 1
jan.volin@ff.cuni.cz

Naše řeč, volume 92 (2009), issue 5, pp. 227-239

Previous Jan Chromý: Empirické zkoumání v lingvistice. Slovo úvodem

Next Filip Smolík: Psycholingvistika a čeština: některá slibná témata