Časopis Naše řeč
en cz

Frekvence grafémů, tvarů a konstrukcí ve slovenštině

Helena Confortiová

[Posudky a zprávy]

(pdf)

-

Kniha Jozefa Mistríka Frekvencia tvarov a konštrukcií v slovenčině (Veda, Bratislava 1985, 319 s., zkr. FTK) bezprostředně navazuje na publikaci Frekvencia slov v slovenčině (zkr. FSS) a na Retrográdny slovník slovenčiny (zkr. RSS). Poslední dva jmenované slovníky[1] byly zpracovány většinou ručně, pouze některé statistické údaje a závěrečné výpočty se prováděly na počítačích, kdežto ve FTK se kromě toho pomocí moderní výpočetní techniky zpracovávaly grafémy.

Každý autor, když přistupuje k práci podobného typu, má právo definovat základní pojmy, kterých v publikaci užívá. Uvedeme příklady několika základních pojmů, které Mistrík vymezuje jinak, než je v českých frekvenčních slovnících[2] obvyklé.

Při statistickém zpracování jazyka je důležité stanovit, co pokládáme za slovní jednotku, tj. za jedno slovo. V českých frekvenčních slovnících se za jedno slovo pokládají např. složené tvary slovesné (tvar byl bych šel slovesa jít). Naproti tomu Mistrík počítá ve FSS jako samostatné slovo každou složku složeného slovesného tvaru (např. v tvaru bol by som šiel jsou 4 slova, přičemž 3 z nich řadí ke slovesu byť a 1 ke slovesu ísť); tím samozřejmě narůstá frekvence slovesa byť. Podobně počítá Mistrík jako zvláštní heslo i zvratné zájmeno sa jakožto součást zvratného slovesa nebo pasíva. — Ve FTK však už liší slovo a tvar slova (slovotvar — viz dále), protože při výzkumu zaměřeném na frekvenci tvarů by s dřívějším pojetím nevystačil. — Další odlišností je jeho pojetí relativní frekvence. Mistrík ji nechápe tak, jak je to obvyklé, tj. jako určité procento ze 100, ale pokládá ji za násobek frekvence slova a tzv. disperze (tento termín převzal Mistrík od A. Juillanda, který jej užívá ve svých frekvenčních slovnících z r. 1964, [146]1965 a 1970: disperze vyjadřuje zastoupení slova v různých oborech, popř. v textech a ukazuje, zda je toto zastoupení rovnoměrně rozloženo, či ne). Podle takto pojaté relativní frekvence[3] je řazen frekvenční seznam ve FSS a stejnou relativní, nikoli absolutní frekvencí jsou opatřena i slova v RSS. — Jinak také přistupuje Mistrík k faktu, že jednotlivé skupiny obsahují různý počet slov (zkoumaly se texty nestejné délky). Rozdílný počet slov vyrovnává Mistrík pomocí koeficientů. Jako základ si stanoví určité číslo a počet slov v jednotlivých skupinách násobí takovým číslem (koeficientem), aby se výsledek stanovenému číslu co nejvíce blížil. Ve FSS zvolil Mistrík jako základní tu skupinu, která měla nejvíce slov[4] (bylo jich 315 000), ve FTK naproti tomu stanovil zaokrouhlené číslo[5] (100 000). Dochází tak k pojmu teoretický reprezentativní soubor, který se značně liší od původního, reálného souboru. Výpočty, ke kterým pak dospívá, jsou tedy vzhledem k různým vyrovnávacím koeficientům poněkud odlišné od skutečnosti.

A nyní stručně k předcházejícím dvěma Mistríkovým publikacím. Frekvencia slov v slovenčině (SAV, Bratislava 1969, 728 s.) obsahuje frekvenční slovník slov (všechna slova seřazená podle klesající frekvence až po frekvenci 3) a abecední slovník (s údaji o frekvenci slov). Materiál byl získán z 60 textů o rozsahu 1 000 000 slov z pěti skupin textů, jsou to: /1/ dialogy (= divadelní hry), /2/ beletrie (včetně literatury pro mládež), /3/ poezie, /4/ publicistika, /5/ odborná literatura. Těchto pět oblastí pokládá Mistrík za dostatečně průkazné pro výzkum jazyka, a proto z nich vybírá texty i v RSS a FTK. FSS je uveden částí informační, v níž se píše o frekvenčních slovnících různých jazyků i o koncepci FSS, o výběru textů, třídění materiálu aj. Následuje část teoretická (o rozložení slov ve slovníku a v textu, o stylovém zabarvení slov a o délce slova) a část popisná (o distribuci slov ve FSS, o stylových vrstvách a o sémantice slov). Jádro FSS tvoří slovník frekvenční a abecední. Frekvenční slovník obsahuje 9568 nejfrekventovanějších slov, která jsou řazena podle relativní frekvence. Po každém desátém slovu jsou uvedeny dva relativní kumulativní údaje: první označuje součet všech předcházejících relativních frekvencí, druhý ukazuje v procentech, jakou část slovníku všechna předcházející slova pokrývají. Abecední seznam obsahuje 121 823 hesel, u každého hesla je 8 údajů týkajících se absolutní frekvence, disperze slova a relativní frekvence. Zajímavým doplňkem celého frekvenčního slovníku je seznam nejfrekventovanějších 500 slov v angličtině, češtině, francouzšti[147]ně, němčině, polštině, ruštině, španělštině a rumunštině, sestavený podle frekvenčních slovníků uvedených jazyků.

Retrográdny slovník slovenčiny (Univerzita Komenského, Bratislava 1976, 736 s.) obsahuje 134 000 slov abecedně uspořádaných podle pravé strany slov (tj. a tergo) s informacemi o jejich produktivnosti v textu, ve slovníku a s morfologickými charakteristikami. Je to první retrográdní slovenský slovník a svým zpracováním se liší od českých retrográdních slovníků.[6] Jako pramen sloužil Mistríkovi šestisvazkový Slovník slovenského jazyka (Bratislava 1959—1969) spolu se slovenským frekvenčním slovníkem (FSS) a dalšími doplňujícími publikacemi, zahrnujícími např. osobní jména, zeměpisné názvy apod. RSS obsahuje informační část (o historii, koncepcích a významu retrográdních slovníků a o koncepci slovenského retrográdního slovníku), teoretickou a popisnou část[7] (např. o homonymii a polysémii morfémů, o sekvenci písmen v opačném pořadí, tj. odzadu ap.) a samotný retrográdní slovník slovenštiny doplněný přehledem paradigmat, na která odkazuje číselný kód jednotlivých hesel. Retrográdní seznam slov má u každého hesla uvedeny tři číselné údaje: před heslem je frekvence slova,[8] za heslem je jeho slovnědruhová charakteristika (v případě homonym[9] jsou uvedeny dvě číslice oddělené čárkou, např. mať 1,5, kde 1 označuje podstatné jméno a 5 sloveso) a morfologická typologie slova (samozřejmě jen u slovních druhů skloňovaných a časovaných). V čele skupin slov stojí typ zakončení (graficky zdůrazněný) s trojčíslím označujícím produktivnost slov a slovotvorných modelů.

Vlastní recenzovaná publikace Frekvencia tvarov a konštrukcií v slovenčině tvoří s FSS a s RSS jeden celek a podává kompletní matematicko-statistický popis zákonitostí slovenštiny.

V první kapitole se pojednává o frekvenci grafémů (korpus má rozsah 1 000 000 grafémů, tj. přibližně 200 000 slov), o sekvenci grafémů (materiál poskytly slovní tvary obsahující 20 000 digramů, resp. trigramů, tzn. skupin dvou, resp. tří písmen následujících po sobě) a o slabikách (zkoumaly se na stejném materiále jako grafémy). Materiálem bylo 50 textů z výše uvedených 5 textových skupin. Výpočty byly prováděny na samočinných počítačích. — Frek[148]venci grafémů uvádí Mistrík jednak vcelku, jednak zvlášť pro samohlásky a zvlášť pro souhlásky. Nejfrekventovanější je ve slovenštině samohláska o, pak a a e.[10] Mistrík sleduje, které samohlásky jsou typické pro styly tzv. hovorového jazyka (tam řadí nejen divadelní hry, ale i prózu a poezii) a které pro odborné a publicistické texty. Souhlásky dělí na centrální a periferní. K centrálním patří nejfrekventovanější s, n, t, r, v, l, k,[11] k periferním např. dz, dž, f, g aj. Frekvence periferních grafémů, pokud mají velké frekvenční rozpětí, může být i jedním z parametrů stylu. — U sekvence grafémů, která se dosud nezkoumala v žádném jazyce,[12] sledoval Mistrík zákonitosti ve spojování dvojic a trojic grafémů (digramů a trigramů). Za důležité považuje nejen to, jaké kombinace se v jazyce vyskytly, ale také to, jaká je jejich frekvence a distribuce vzhledem k postavení ve slově. — V poslední části první kapitoly zkoumá slabiku. Mistrík zjistil, že nejvíce různých typů slabik se střídá v dvouslabičných slovech. Průměrná délka slabiky je v publicistice a odborné literatuře delší než v ostatních textových skupinách.

V druhé kapitole uvádí autor frekvenci a distribuci tvarů slov (materiál zahrnuje 610 124 slovotvarů[13] z 50 000 vět) doplněnou retrográdním seznamem slovotvarů (ten je doplňkem RSS, proto se zjišťoval ze stejně velkého korpusu slov — 134 000). V této kapitole definuje Mistrík pojmy: /1/ slovotvar, tj. tvar slova, což je slovo ve fonologickém smyslu, /2/ gramatický tvar, podle Mistríka „útvar“ (např. složený minulý čas, předložka se substantivem ap.) a dále /3/ syntaktickou konstrukci, tj. spojení slov, které je nositelem predikace, tedy věta jednoduchá nebo souvětí. Uvádí také pořadí slovních druhů podle frekvence a jejich dílčí kvantitativní charakteristiky (např. u podst. jm. zkoumá frekvenci rodu, frekvenci jmen vlastních a obecných). Zjišťuje, že nejvíce podst. jm., příd. jm. a číslovek se vyskytuje v odborných a publicistických textech, nejméně v dramatech. Zajímavé jsou údaje o výskytu plnovýznamových a neplnovýznamových sloves. Předkládané údaje jsou však ovlivněny různými koeficienty, s jejichž pomocí vyrovnává Mistrík nestejnou délku textů (viz výše). Tak např. podle absolutní frekvence (i podle frekvence relativní, kterou chápeme jako podíl ze 100 %) se nejvíce modálních a sponových sloves vyskytuje v publicistice a v odborném stylu. Převedeme-li údaje na teoretickou relativní frekvenci (zavedenou Mistríkem — viz pozn. 3), pak je nejvíce modálních a sponových sloves v dialozích, nejméně v odborných textech. Podobně největší počet adverbií nacházíme v odborných textech, podle teoretické frekvence však v dramatech, v próze a v publicistice.[14] Předložky nevyděluje Mistrík [149]jako zvláštní slovní druh, nýbrž jen jako složku neohebných a synsémantických slov. Je to zřejmě dáno tím, že spojení předložky s podst. jm. pokládá za jeden slovní tvar. Předložky se tedy objevují až v části o frekvenci a distribuci morfologických tvarů (v předložkových spojeních se substantivy). Pořadí předložkových pádů odpovídá češtině: nejfrekventovanější je 6. pád, následují pády 2., 4., 7. a 3.[15] Nejvíce předložek je v odborných textech, nejméně v dialozích. Dále Mistrík věnuje pozornost frekvenci komparativu a superlativu adjektiv a frekvenci slovesných tvarů (tj. v jeho pojetí fonologických slov, nikoli složených tvarů slovesných). Tato kapitola je zakončena retrográdně uspořádaným seznamem tvarů slov (nikoli lexémů) s uvedením frekvence. Retrográdní seznam zabírá zhruba polovinu publikace (160 stran). Aby výsledky retrográdního indexu slovních tvarů byly srovnatelné s výsledky RSS, mají obě práce stejný počet slovních jednotek. Je však škoda, že se v tomto retrográdním uspořádání nediferencují rozdíly mezi homonymy, že se anulují rozdíly mezi vlastními a obecnými jmény ap.

Třetí kapitola — frekvence a distribuce větných konstrukcí — má stejný materiál a rozsah (610 124 slov, 50 000 vět) jako frekvence a distribuce slovních tvarů. V této části zkoumá Mistrík délku věty podle počtu slov a délku věty podle počtu klauzí (tj. jednotlivých vět v souvětí). Dochází ke zjištění, že asi 50 % je vět jednoduchých (nejvíce je jich v dialozích) a 50 % je souvětí. Dále uvádí Mistrík údaje týkající se frekvence modálních typů vět. Věty oznamovací jsou nejvíce frekventované v textech odborných, naproti tomu v dialozích je vět oznamovacích nejméně, ale zato je tam mnoho vět zvolacích, žádacích a tázacích. Nakonec se uvádí frekvence klauzových konstrukcí, podává se rozbor větných členů v klauzi a stanoví se frekvenční typy.

Mistríkova práce o frekvenci grafémů, tvarů a konstrukcí je dílem, které dovršuje matematicko-statistický popis slovenštiny. I když můžeme některé způsoby zpracování materiálu považovat za diskusní, znamená jeho práce nesporný přínos pro výzkum jazyka po stránce kvantitativní. S použitím statistických metod prozkoumal Mistrík důkladně hlavní složky jazyka (tzn. hlásku, slovo a větu). Jeho výzkumy zahrnují různé jazykové styly, a to jak beletrii (včetně poezie), tak věcný styl (škoda, že v jeho rámci nevyděluje styl administrativní[16]) i složku hovorového jazyka (reprezentovanou dramaty). Tím, že zjišťuje frekvenci, distribuci a korelaci jazykových jedno[150]tek v souvislých textech, poskytuje svými exaktními údaji podklady pro další výzkum jazyka, zejm. v oblasti obecné jazykovědy a slovenské lexikologie, při stylistické analýze textu ap. Výsledků výzkumu lze účinně užívat i v praxi, a to nejen při aplikaci v didaktice (při přípravě učebnic), ale i ve výrobní praxi (při výrobě překládacích, tiskařských a jiných strojů). Mistríkova práce je tedy důležitým příspěvkem k úplnému popisu jazyka z hlediska kvantitativního.


[1] Vzhledem k tomu, že v NŘ nebyly tyto publikace recenzovány a také proto, že se recenzovaná kniha řídí metodami zavedenými a uplatňovanými v předcházejících dvou pracích, uvedeme stručně i jejich charakteristiku (viz dále).

[2] J. Jelínek — J. V. Bečka — M. Těšitelová, Frekvence slov, slovních druhů a tvarů v českém jazyce, Praha 1961; J. V. Bečka, Lexikální složení českých odborných textů technického zaměření I, II, Praha 1973, 1974; M. Těšitelová a kol., Frekvenční slovník češtiny věcného stylu, Praha 1983.

[3] Jestliže má Mistrík základ 1 000 000 slov a např. zájmeno on se vyskytlo 16 741×, pak jeho relativní frekvence je rovna 1,67 %. V pořadí nejfrekventovanějších slov by zájmeno on bylo na 6. místě. Mistríkem zavedená relativní frekvence činí 12 509 a řadí zájmeno on až za slovo následující, které se vyskytlo celkem 16 576×, ale teoretickou relativní frekvenci má 12 602. V jiných případech jsou rozdíly ještě markantnější.

[4] Koeficient dané skupiny činil tedy 1, koeficient pro ostatní skupiny se pohyboval od 1,044 do 2,993.

[5] Všechny skupiny, kromě jediné, toto číslo počtem slov přesahovaly; koeficienty se pohybovaly od 0,520 do 1,721.

[6] M. Slavíčková, Retrográdní morfematický slovník češtiny, Praha 1975; M. Těšitelová — J. Petr — J. Králík, Retrográdní slovník tvarů adjektiv v současné češtině, Praha 1985, zkr. RSTA; M. Těšitelová — J. Petr — J. Králík, Retrográdní slovník současné češtiny, Praha 1986, zkr. RSSČ; M. Těšitelová, K využití statistických metod v kombinaci s retrográdním uspořádáním jazykových jednotek, SaS 46, 1985, s. 109—118.

[7] Mistrík porovnává výsledky získané pro slovenštinu s výsledky jiných retrográdních slovníků, a to jak slovanských jazyků (ruština, polština, srbocharvátština, makedonština), tak neslovanských (angličtina, němčina a maďarština, u některých údajů i francouzština, novořečtina a portugalština).

[8] Zvláštností slovníku je, že uvádí frekvenci, která se neopírá z velké části o skutečný výskyt v textech. Frekvenci má totiž zjištěnu jen u hesel z FSS, u ostatních uvádí „teoretickou“ frekvenci 1. Takových slov je v RSS více než 112 000.

[9] Mistrík ovšem nerozlišuje homonyma stejného slovního druhu ani homonyma morfologická.

[10] Je zajímavé, že v češtině ve věcném stylu je nejfrekventovanější rovněž o; další dvě samohlásky mají pořadí opačné, tj. e, a, srov. J. Králík, Statistika českých grafémů s využitím moderní výpočetní techniky, SaS 44, 1983, s. 295—304.

[11] V češtině patří mezi nejfrekventovanější tytéž souhlásky, jenom pořadí je jiné: n, t, v, s, l, k, r, srov. J. Králík d. cit. v pozn. 10.

[12] J. Králík ve svém článku — srov. d. cit. v pozn. 10 — si všímá sekvence grafémů (digramů) jen na konci slova.

[13] Pomocí koeficientů získal teoretický korpus o rozsahu přibližně 500 000 slovotvarů.

[14] Výzkumy prováděné v ÚJČ na materiále věcného stylu ukazují shody se skutečnou, nikoli teoretickou frekvencí slovenského materiálu, srov. např. M. Těšitelová a kol., Kvantitativní charakteristiky současné češtiny, Praha 1985. Viz též recenzi J. Petra v NŘ 69, 1986, s. 29—32, studie Linguistica II, IV a XV, a stať M. Těšitelové O kvantitativní analýze češtiny s pomocí moderní výpočetní techniky, NŘ 67, 1984, s. 47—50.

[15] Srov. M. Těšitelová a kol., Kvantitativní charakteristiky gramatických jevů v češtině věcného stylu. Tabulky a přehledy, Praha 1984; H. Confortiová, Předložky, in: Kvantitativní charakteristiky současné češtiny, d. cit. v pozn. 14.

[16] O složkách věcného stylu srov. J. Mistrík, Štylistika slovenského jazyka, Bratislava 1970.

Naše řeč, ročník 71 (1988), číslo 3, s. 145-150

Předchozí František Štícha: Nová monografie o literárním překladu

Následující Otakar Šoltys: 55. a 56. svazek Spisů PF v Ostravě