en cz

Lexikální zásoba češtiny v číslech

Jarmila Panevová

[Posudky a zprávy]

Monografie M. Těšitelové,[1] věnovaná statistickému zpracování lexikální zásoby současného spisovného jazyka (jeho různých stylů) i vyhodnocení získaných údajů, představuje cenný přínos nejen pro kvantitativní lingvistiku, ale i pro bohemistiku (lexikologii, stylistiku ap.). Tato práce z pera autorky, která se po léta kvantitativními hledisky ve studiu jazyka zabývá a která se velkou měrou podílela na vzniku frekvenčního slovníku češtiny,[2] bude nepochybně východiskem jak pro každého badatele, který bude pro svou práci kvantitativní údaje o lexikální zásobě využívat,[3] tak i pro toho, kdo sám bude kvantitativní analýzu rozvíjet a prohlubovat. Konečně představuje tato monografie podle našeho soudu i pohled na strukturu lexika v českých textech různých stylů z nejrůznějších hledisek kvantitativních, zajímavý pro každého bohemistu, který se rozborem současného jazyka zabývá.

Výsledky kvantitativní analýzy jsou založeny na pracném a náročném kvantitativním rozboru výběrů z několika textů stylu uměleckého (figurují tu především díla Vančurova, Čapkova, Otčenáškova, Mařánkova, Markova) a stylu odborného a naukového (vedle technických textů Chocholových a textů E. Severina a V. Kasiky jsou tu zastoupeny texty Z. Nejedlého, V. Úlehly a O. Chlupa).

Na začátku se autorka zamýšlí nad obecnými zásadami a problémy statistické analýzy jazykových dat a navrhuje řešení, jak se s těmito problémy vyrovnat. Jde především o to, jak vymezit jednotku statistické analýzy, tj. co pokládat za „slovo“ (s. 13n.); autorka, vycházejíc z vlastností češtiny jako flexívního jazyka, rozlišuje slovní tvary a základní jednotky (nominativ u jména a infinitiv u slovesa), ty pak jsou v různých postupech statis[32]tickou jednotkou. Je si dobře vědoma úskalí při tomto vymezování, ale své zásady velmi jasně vytyčila: Složené tvary slovesné (psal jsem, budu psát) tvoří jednu jednotku, u stupňování se počítá zvlášť pozitiv, zatímco komparativ spolu se superlativem tvoří zvláštní jednotku. Ustálená slovní spojení typu křížem krážem, Karlovy Vary se počítají za jednu jednotku. Dublety typu pan/pán, velký/veliký, jenom/jen se rovněž počítají jako „slovo“ jedno. Není zcela jasné, jak se zachází s vidovými dvojicemi, kde jde o problematiku velmi ožehavou. Přihlíží se též k sémantické stránce; homonyma vlastní i nevlastní (tj. jak typ večer — subst., adv., tak typ kolej)[4] jsou při lexikální analýze respektována. Při statistické analýze jednotlivých slovních druhů se sleduje u jednotlivých lexikálních jednotek i počet významů, a to na základě Příručního slovníku jazyka českého.

Další závažnou otázkou je výběr materiálu a jeho rozsah. Pomocí řady experimentů s náhodným výběrem stránek a náhodným výběrem slov (pořizovaném na základě formulí matematické statistiky a tabulky náhodných čísel) a výběrem souvislých částí textu dospívá autorka k významným závěrům, které při aplikaci statistických metod na lexikální zásobu bude třeba respektovat. Některé z nich bylo možno předem očekávat, zde jsou však experimentálně prokázány a ověřeny. Patří k nim např. to, že náhodným výběrem stránek nepostihneme dobře lexikální strukturu textu jako celku (i když jednotlivé dílčí charakteristiky týkající se náhodného výběru stránek se mohou v některých případech krýt s charakteristikami textu). Ani náhodný výběr slov (způsob jeho pořízení je popsán na s. 26) neposkytuje dost uspokojivé výsledky pro obraz o lexikální struktuře textu. Lepší výsledky podává výběr souvislé části textu; u textů uměleckých nejvíce vyhovoval, tj. nejmenší odchylky jednotlivých podvýběrů od charakteristik FSČ, který pracuje většinou s celými texty, vykazoval výběr z absolutního začátku textu, kdežto u textů naučného stylu nezáleželo tolik na místě v textu (výběry ze začátku, středu a konce se lišily nevýznamně). Ani tento způsob není úplně ideální, jak autorka uvádí, má ovšem tu výhodu, že obráží dobře charakteristiku vybraných částí souvislého textu. Porovnáváním nárůstu nových slov v jednotlivých podvýběrech — postupně zvětšovaných — autorka zjistila, že pro účely lexikální statistiky stačí úsek textu o délce 3000 slovních výskytů, který reprezentuje 20—25 % slovníku textu, přičemž pro naučný styl může být dostačující i výběr o 2000 slovních tvarů. Jako optimální místo pro výběr doporučuje autorka začátek textu. Těmto základním předpokladům lexikální statistiky jsou věnovány první dvě kapitoly práce. Podstatné je (a je to charakteristické pro celou práci), že autorka [33]nejen předkládá kvantitativní (experimentálně zjištěné) údaje, ale také jejich citlivou jazykovou interpretaci, na jejímž základě vyvozuje některé závěry pro funkční styly, autorský slovník, bohatství slovníku (s. 60n.) ap. V tom ostatně autorka správně vidí hlavní smysl své práce (srov. závěry s. 180n.).

V kapitole III se autorčiny výsledky porovnávají se známými Zipfovými a Mandelbrotovými zákony.[5] Autorka se kriticky staví k tomu Zipfovu zákonu, který stanoví, že vztah mezi tzv. rankem slova a jeho frekvencí je konstantní; poukazuje na potřebu rozlišovat rank a pořadí (několik jednotek, které mají tutéž frekvenci, má různé pořadí, ale stejný rank). Autorka zjišťuje, že Zipfův zákon platí tam, kde se rank kryje s pořadím, proto navrhuje mluvit raději o frekvenční rovině slova, kde lze jistou zákonitost postihnout. Autorka vyčlenila a v rámci různých slovních tvarů i slovníku (různých slov) v rámci jednotlivých slovních druhů prozkoumala tři frekvenční pásma — (1) pásmo slov s nejvyšší frekvencí, tj. slova s pořadím 1—10 v seznamu podle frekvence, (2) pásmo slov se střední frekvencí, (3) pásmo slov s nejnižší frekvencí, tj. frekvencí 1—10. Zjistila, jaké procento textu[6] je postiženo jednotlivými pásmy, která slova se vyskytují u jednotlivých textů a autorů, a interpretovala faktory, jimiž je to dáno. Přínosné je zjištění, že plnovýznamová slova z pásma (3) pokrývají 90 % celého slovníku v textech uměleckých (v naučných o něco méně). Autorka navrhuje bohatství slovníku posuzovat i podle tohoto pásma, nejen podle vztahu délky textu a počtu různých slov. Dílčí charakteristiky, podle nichž je hodnocena komplexní lexikální struktura textu, tzv. bohatství slovníku, se opírají o tři pojmy: (a) rozsah slovníku, udaný vztahem délky textu a počtem různých slov slovníku, připadajících na tuto délku, (b) rozptýlení slovníku, tj. podíl pásma (3) na slovníku textu, (c) koncentrace slovníku, tj. podíl délky textu pokrytého slovy z pásma (1) na celkové délce textu.

Tyto charakteristiky se zjišťují pro výskyt lexikálních jednotek, pro zastoupení jednotlivých slovních tvarů (v kap. III), v kap. IV se pak zkoumají z těchto hledisek jednotlivé slovní druhy. Základní rozdělení z hlediska slovnědruhového je dělení na skupinu nominální (substantiva, adjektiva, předložky) a skupinu verbální (slovesa, zájmena, adverbia a spojky). Překvapuje poněkud, že zájmena se vyskytují ve skupině druhé, výskyt adverbií patří jistě primárně do této skupiny, ale sekundárně též do skupiny první. Autorka se tu však nechala vést kvantitativními údaji z FSČ. Najdeme tu nejednu zajímavou charakteristiku dokreslující funkční styly [34]i styl autorský i četná obecná zjištění (např. týkající se vztahu počtu významů a frekvence slova ap.).

Autorčiny výklady jsou doloženy kvantitativními údaji nejen v textu, ale též v příloze — 70 souhrnnými tabulkami a 42 grafy vyhodnocujícími zjištěné údaje jako funkce (nezávisle proměnnou je např. délka jednotlivých podvýběrů, závisle proměnnou je procentuální vyjádření této délky textu vzhledem k délce celého textu). Pracnost těchto zjištění i v době, kdy jsou už k dispozici samočinné počítače, které mohou uspořit mnoho lidské práce v této oblasti, je nasnadě.[7] Jde o dílo, které svými obecnými závěry i dílčími experimentálními výsledky znamená značné obohacení české kvantitativní lingvistiky pro oblast lexika. Bylo by účelné mít k dispozici obdobnou práci i o frekvenci gramatických kategorií.

[1] Otázky lexikální statistiky, Academia Praha 1974, s. 289.

[2] M. Jelínek — J. V. Bečka — M. Těšitelová, Frekvence slov, slovních druhů a tvarů v českém jazyce, Praha 1961.

[3] Její údaje mohou dobře sloužit jako vodítko např. při sestavování algoritmů pro automatický rozbor jazyka (např. u slov neplnovýznamových, spojek a předložek), při vytváření minimálních slovníků pro výuku cizinců apod.

[4] Srov. M. Těšitelová, O morfologické homonymii v češtině, Praha 1966, zejm. s. 8n.

[5] Srov. o nich kap. IV v P. Sgall a kol., Cesty moderní jazykovědy, Praha 1964, a též autorčino skriptum Kvantitativní lingvistika, (v tisku).

[6] Jako text se tu míní buď celková délka výběru udaná v počtu slovních tvarů, nebo (u jednotlivých slovních druhů) celkový počet slovních tvarů daného slovního druhu ve výběru.

[7] Je ovšem třeba konstatovat, že i zde se situace postupně zlepšuje; např. po důkladném zpracování morfologické analýzy z hlediska automatizace jsou už k dispozici algoritmy pro lemmatizaci, tj. automatické spojení tvarů slova v jednu základní jednotku (nom. sg. a infinitiv), srov. J. Weisheitelová, SaS 37, 1976, s. 340—343.

Naše řeč, ročník 60 (1977), číslo 1, s. 31-34

Předchozí Miloslava Knappová: Jazyková kultura a společenské fungování rodných jmen

Následující as (= Alexandr Stich): Olomoucký bohemistický sborník

Menu
Úvod
Archiv
O archivu
Hledání v archivu:
Autor