Časopis Naše řeč
en cz

Podnětné dílo české kvantitativní lingvistiky

Lumír Klimeš

[Reviews and reports]

(pdf)

-

[1]Nová kniha Marie Těšitelové do jisté míry souvisí s jejími dvěma staršími pracemi týkajícími se kvantitativní lingvistiky, a to s Otázkami lexikální statistiky[2] a s Kvantitativní lingvistikou.[3] Obě tyto knihy znamenaly sice velký přínos pro naši kvantitativní lingvistiku, přesto však zůstala ještě řada problémů, jež bylo třeba vyřešit. Potřeba díla takového druhu byla tím naléhavější, že výsledky a metody našeho prvního vědeckého frekvenčního slovníku[4] už do značné míry zastaraly. Kromě toho stále více se rozvíjející [32]kvantitativní lingvistika dávala podnět k novým otázkám, jejichž zodpovězení bylo nutné pro spolehlivý kvantitativní popis jazyka.

Jedním z nejdůležitějších požadavků při kvantitativním rozboru je ujasnit si, co pokládáme za jednotku statistického souboru. Její nesprávné vymezení nebo nedůsledné uplatňování zvolených kritérií může ohrozit už v základech výsledky rozboru.

Pro morfologickou statistiku je takovou jednotkou lexikální slovo (např. přišli jsme je jedno slovo). Avšak z flexívní povahy češtiny vyplývá, že v jednom tvaru může být přítomno několik mluvnických významů (osoba, číslo atd.). Tím se nejednou výzkum komplikuje. Ještě složitější je stanovení jednotky statistického souboru ve skladbě. Ukazuje se, že nejvýhodnější je pokládat za jednotku predikační dvojici a jednočlennou větu. Ty pak mohou vytvářet vyšší celky, souvětí. Je ovšem třeba tyto jednotky nejen spočítat a zjistit počet slov v nich, nýbrž i povšimnout si jejich funkce (věta přívlastková, podmětná, předmětná atp.) a vyšších celků, jež vytvářejí (např. souvětí o dvou hlavních větách, o jedné hlavní větě a dvou vedlejších atp., jejich sledu atd.). Autorka se soustředila především na zkoumání délky jednoduché věty a vět v souvětí (souřadném a podřadném) a na počet vět v souvětích.

První otázka, kterou si položí každý, kdo se začne soustavněji zabývat kvantitativní lingvistikou, je, jak dlouhý má být rozbíraný text. Jestliže je text příliš krátký, výsledky jsou málo výstižné. Naproti tomu rozbor textu zbytečně dlouhého je neekonomický a při velké pracnosti kvantitativní metody odvrací od prací jiných. Proto je velmi záslužné, že autorka doporučuje téměř soustavně, jak má být rozbíraný text podle účelu rozboru dlouhý. Tak např. sledujeme-li zastoupení jednotlivých slovních druhů, stačí rozsah 500—1500 slov. „Při větším rozsahu materiálu se výsledky stávají přesnějšími…, zpřesnění takto získaných dat není úměrné námaze vynaložené na získání potřebných dat.“ (S. 37.) Jestliže sledujeme např. kategorie jmen a sloves, záleží mnoho na tom, kterou kategorii sledujeme a u kterého slovního druhu. Pro rod stačí obvykle ukázka 3000 slov, pro číslo může být v ukázce i menší počet slov. Mnoho záleží na tom, o který styl jde. Tak např. při sledování frekvence pádů v textech odborných dobře vystačíme s ukázkou mající 3000 slov, pro styl umělecký nejsou však výsledky získané rozborem takové ukázky zcela spolehlivé, nutno rozebrat ukázku delší, zejména jde-li o plurál. (S. 60—61.) U sloves jsou poměry ještě složitější.

Ani při studiu syntaxe nelze dát jednoznačnou odpověď na otázku, jak dlouhý má být zkoumaný text. Tak např. pro zjištění délky věty v souvětí podřadném v odborném textu stačí výběr 500 slov, v textu uměleckém nestačí však ani rozbor ukázky mající 3000 slov. (S. 141.) Chceme-li zjistit počet vět v souvětí podřadném, vystačíme při rozboru textu odborného již s ukázkou mající 500 slov, při rozboru textu uměleckého je třeba vyjít z ukázky dvojnásobné, tj. mající 1000 slov. (S. 146.) Obecně lze říci, že [33]rozborem ukázky mající 3000 slov můžeme jak v textu odborném, tak i uměleckém dobře vystihnout frekvenci téměř všech syntaktických jevů.

Odpověď na tyto otázky pokládáme za velký přínos knihy. Proto jsme zde uvedli i více příkladů, neboť mohou být užitečné těm, kdo knihu M. Těšitelové nemají právě k dispozici.

Nejdůležitější částí recenzované práce je však kapitola III, Morfologická statistika, a kapitola IV, Syntaktická statistika.

Úkol, jejž bylo třeba řešit, byl nemálo svízelný. Nešlo jen o to, že bylo nutno vypořádat se se základními otázkami metodologickými, jak jsme již naznačili výše, a že bylo třeba rozebrat velmi rozsáhlý a různorodý jazykový materiál. Řešení bylo podle našeho názoru komplikováno i různorodostí hledisk, z nichž bylo třeba materiál analyzovat. První z nich byl zřetel k stylu (styl odborný, styl umělecký). Druhým byla frekvence slovních druhů. Jenže zde už bylo nutno přihlížet nejen k stylu, ale bylo třeba zvolit i vhodnou délku textu. Pro zkoumání frekvence některých slovních druhů je třeba delšího textu, než jsme uvedli výše. U ohebných slovních druhů bylo nutno zabývat se i frekvencí mluvnických významů. Tato záležitost byla komplikována ještě tím, že mluvnické významy bývají soustředěny v jedné koncovce a že frekvence mluvnických významů soustředěných v jedné koncovce bývá různá.

Výsledky svého zkoumání autorka shrnuje ve 143 tabulkách a 24 grafech. Tabulky většinou zaznamenávají poměry procentuální, a kde je třeba, i frekvenci a aritmetický průměr. Uvádění dalších parametrů souboru (extrémní hodnoty, modus, medián aj.) by bylo při tak velkém množství tabulek znamenalo velké zatížení rozsahu. Kde je třeba, užívá autorka i jiných statistických metod, např. rozptylu (s. 44) nebo testu t (s. 51).

Práce M. Těšitelové se zabývá současnou češtinou. Otázky historického kvantitativního vývoje jsou již mimo rámec i možnosti této knihy.

Z tak velkého množství různých zjištění a fakt je těžko vybrat to, co by bylo možno označit jako nejdůležitější. Pokusme se proto — nevyhýbajíce se přitom určité subjektivnosti v takových případech nevyhnutelné — uvést některé výsledky spíše jako příklady.

1. V uměleckém stylu se nejvíce vyskytují slovesa (21,55 %), substantiv je o něco méně (20,65 %). V stylu odborném je substantiv 34,35 %, kdežto sloves pouze 18,15 %. S tím ovšem souvisí i to, že v stylu odborném je adjektiv (jakožto rozvíjejících členů substantiv) 13,5 %, kdežto ve stylu uměleckém jen 8,4 %. Naproti tomu je — a to souvisí s počtem sloves — v stylu uměleckém téměř dvojnásobek příslovcí (13,45 %) ve srovnání se stylem odborným (7,7 %). S. 17—18.

2. Frekvence pádů substantiv. V singuláru je nejfrekventovanějším pádem nominativ, v plurálu genitiv, nominativ a akuzativ. Zajímavé je autorčino zjištění, že v singuláru je nejfrekventovanějším pádem nominativ, u maskulin životných i nominativ plurálu. S. 60.

[34]3. U zájmena převládá v genitivu velmi výrazně tvar mne (88,5 %), kdežto v akuzativu se častěji vyskytuje (69,66 %) než mne (30,34 %). S. 80.

4. Počet číslovek v psaném projevu uměleckém (0,42—2,73 %) může být vyšší než v psaném projevu odborném (0,72—2,31 %). Nepřekvapuje, že nejčastěji se vyskytují číslovky základní. V uměleckém stylu je na prvním místě číslovka jeden, na druhém dva. V odborném stylu je to však obráceně. S. 96.

5. Slovesa. V odborných projevech převládá čas přítomný, v uměleckém minulý s výjimkou dramat. V odborných textech se pasívum vyskytuje mnohem častěji než v textech uměleckých. Celkově však aktivum velmi výrazně převládá nad pasívem (94,43 % : 5,57 %). S. 114, 118.

6. Věta má v uměleckém stylu průměrně 4,75 slov, v odborném 8,52. Jednoduchá věta 6,18 (11,69), věta v souvětí souřadném 5,73 (7,34), v podřadném 4,61 (8,0). V závorce uvádíme hodnoty pro styl odborný. S. 135 a násl.

7. Počet vět v souvětí. V souvětí souřadném připadá v uměleckém stylu na jedno souvětí souřadné průměrně 2,27 věty, ve stylu odborném asi 2 věty. Souvětí podřadné má v uměleckém stylu průměrně 2,72 věty, ve stylu odborném 2,31. S. 146—149.

Jak jsme již podotkli, kniha M. Těšitelové je zaměřena synchronicky. Výsledky, k nimž dospěla, jsou někdy shodné s výsledky prací zaměřených vývojově, a to buď na vývoj psaného jazykového projevu žáků, nebo na vývoj syntaxe v 17.—18. stol.[5] Zde se omezíme pouze na délku věty a počet vět v souvětí.

Průměrná délka věty v odborném textu, zjištěná M. Těšitelovou, tj. 8,52 slova, se příliš neliší od průměrné délky věty čtyř historických prací ze 17. a 18. stol.: 7,11; 7,00; 8,69; 8,70. Je pozoruhodné, že poslední dvě hodnoty jsou z textů z 18. stol. Rozdíl je jen 0,17 a 0,18 slova.

Autorčino zjištění, že „v obou textech je tedy věta jednoduchá (dvojčlenná) delší než věta v těchto textech“ (s. 139), platí v plném rozsahu i pro zkoumané historické texty ze 17. i 18. stol.

Zdá se tedy, že autorčiny výsledky — alespoň některé mají širší platnost a že se neomezují jen na současnou češtinu.

Kniha M. Těšitelové má skromný název Využití statistických metod v gramatice. Chtěli bychom dodat, že autorka nejen ukázala, jak je možno a v kterých směrech je zejména třeba těchto metod využít, ale dospěla též k důležitým kvantitativním výsledkům a metodologickým poznatkům, jež se v budoucnosti stanou nezbytnou srovnávací základnou a metodologickým východiskem nejen pro bádání synchronické, ale i historické a psycholingvistické, jak jsme to výše jen na několika příkladech ukázali.

Škoda, že rozsah knihy nedovolil, aby byly zpracovány ještě některé jiné [35]otázky souvisící s daným tématem, např. frekvence větných členů, členů holých, rozvitých a několikanásobných, poměr vedlejší věty spojkové k vztažné, typy souvětí aj.

Celkově bychom mohli novou knihu M. Těšitelové zhodnotit asi takto:

Práce přináší jasnou a tak potřebnou odpověď na otázku, jak dlouhý má být úsek, mají-li být výsledky jeho kvantitativního rozboru zobecnitelné. Odpověď nemůže být jednotná. Délka ukázky záleží na předmětu zkoumání a na stylu.

Velmi cenné a pro další zkoumání užitečné jsou výsledky, k nimž autorka dospěla. Opírají se o současný jazyk, v mnoha směrech přinášejí zjištění zcela nová, ve frekvenčním slovníku[6] nezachycená a ani nenaznačená. Výsledky někde přesahují rámec současné češtiny, neboť jich lze využít i jinde, zejména v historické syntaxi a do jisté míry v psycholingvistice.

Autorka píše — a to bychom chtěli zvláště zdůraznit — o obtížném tématu se vzácnou srozumitelností, zcela jasně (protože má jasno i v problematice), vyhýbá se módním, nejistým a nedomyšleným syntaktickým teoriím, nevymýšlí si žádné individualistické a špatně srozumitelné termíny a i tím si získává sympatie čtenářů. V knize je skryto více pracovní energie, než by se na první pohled snad mohlo zdát. Vždyť jenom výpočet a sestavení tak velkého množství tabulek a grafů si vyžádalo velkého úsilí a skrývá v sobě na malé ploše mnoho cenných poznatků.

Novou knihu M. Těšitelové možno označit jako dílo nemálo přínosné, v některých směrech zejména metodologicky novátorské a podnětné, vyplňující dlouhou dobu nepříjemně pociťovanou mezeru v naší kvantitativní lingvistice, velmi záslužné i tím, že dává bezpečnou a jasnou základnu pro budoucí výzkum v této oblasti.


[1] M. Těšitelová, Využití statistických metod v gramatice, Praha 1980, 220 s.

[2] M. Těšitelová, Otázky lexikální statistiky, Praha 1974.

[3] M. Těšitelová, Lingvistické příručky Kvantitivní lingvistika, Praha 1977. V. SaS 40, 1979, s. 74—75.

[4] J. Jelínek — J. V. Bečka — M. Těšitelová, Frekvence slov, slovnich druhů a tvarů v českém jazyce, Praha 1961.

[5] L. Klimeš, Pokus o statistický výklad vývoje věty a souvětí v české historické próze z let 1685—1758. In: Annali. Sezione Slava, 13, 1970, s. 105—134. Napoli 1970. — L. Klimeš, On some quantitative aspects of the Czech sentence in the 18th century. In: PSML, 6, 1978, s. 93—116. Praha 1978.

[6] Dílo cit. v pozn. 4.

Naše řeč, volume 65 (1982), issue 1, pp. 31-35

Previous Redakce: K 80. narozeninám Jaroslava Zimy

Next Josef Filipec: Kniha zahraničního bohemisty z dějin české botanické terminologie