Časopis Naše řeč
en cz

Český frekvenční slovník

Alexandr Stich

[Reviews and reports]

(pdf)

-

Jak vnitřní rozvoj teoretické jazykovědy samé, tak naléhavé úkoly, které před jazykovědce postavila praxe, způsobily, že se vedle klasických jazykovědných metod uplatňují stále více i některé metody úplně nové nebo metody, které dříve stály na samém okraji zájmu teoretické jazykovědy. Jednou z těchto metod, o níž se někdy dokonce soudilo, že není schopna postihnout podstatné stránky ve stavbě jazyka, je zkoumání kvantitativních poměrů v jazyce. Teoretická mluvnice, lexikografie, stylistika i jiná jazykovědná odvětví sice přihlížely při popisu jazyka často i k této stránce, vycházely však většinou pouze z jazykového povědomí a odhadu jazykovědce a z pomocných statistických údajů, získaných z materiálu omezeného rozsahem a zpracovaného vždy pro každý jednotlivý problém zvlášť. Přibližné kvantitativní údaje se přitom chápaly jen jako pomocné a ilustrační doplnění rozboru kvalitativního.

Přes tento odmítavý postoj jazykovědné teorie a přes jisté pochybnosti o hodnotě kvantitativních rozborů samých vynutila si praxe už poměrně dávno kvantitativní zkoumání jazyka i u nás. Zkoumala se především zvuková stavba jazyka (a to jak z hlediska praktického, pro potřeby těsnopisné soustavy, tak z hlediska fonologického systému češtiny v pracích B. Trnky, J. Vachka a J. Krámského). Brzy byl vytyčen i požadavek zabývat se v tomto směru i slovní zásobou jazyka. Už r. 1940 byl v Kruhu přátel českého jazyka vypracován plán, jak zachytit frekvenci slov ve spisovné češtině, a tento program byl později doplněn a rozšířen, když se úkolu ujal Výzkumný ústav pedagogický. Sbírání a zpracování materiálu bylo v definitivní podobě ukončeno v roce 1953 a nedávno byly výsledky této práce knižně vydány v obsáhlé publikaci Jaroslava Jelínka, Josefa V. Bečky a Marie [81]Těšilové Frekvence slov, slovních druhů a tvarů v češtině (vydalo Státní pedagogické nakladatelství, Praha 1961, s. 587). Autoři se neomezili jen na slovní zásobu, ale pojali do své práce zároveň i soustavu ohebných tvarů (tvaroslovný plán jazyka) a soustavu slovních druhů. Už tím se stal náš první velký frekvenční slovník jedním ze závažných děl současné jazykovědy vůbec; zároveň svědčí toto stanovení úkolu o promyšlenosti celého programu vzhledem k vnitřní stavbě češtiny jako jazyka flektivního s bohatou a diferencovanou soustavou tvarů.

Autoři zpracovali materiál, který byl získán tabulováním 75 děl z let 1926 až 1950, přičemž převažují práce tištěné v druhé polovině třicátých let a v letech čtyřicátých. I když právě v tomto období prošel národní kolektiv (nositel jazyka) mnoha závažnými sociálními, politickými i kulturními změnami, které se odrazily i v slovní zásobě jazyka, je zkoumané období přece jen natolik časově omezeno, že je možno považovat údaje, které slovník předkládá, za rozbor kvantitativních poměrů v jazyce v jistém časovém okamžiku, aniž ovšem přihlížíme ke změnám, které se v jazyce udály. Excerpcí materiálu bylo získáno celkem 1 623 527 výpisků, tedy dostatečně průkazná a reprezentativní základna, v níž se projevují kvantitativní zákonitosti výskytu té části slovní zásoby, jejíž výskyt v textu není vázán především na téma jazykového projevu.

Při výběru textů pro excerpci se autoři řídili v prvé řadě funkčním slohovým rozvrstvením spisovného jazyka a toto funkční hledisko doplňovali zřetelem k jednotlivým druhům a žánrům. Výsledkem bylo roztřídění materiálu do osmi skupin: beletrie (A), poezie (B), literatura pro mládež (C), dramata (D), odborná literatura (E), žurnalistika (F), vědecká literatura (G) a mluvené projevy (H). Poslední skupina měla zachytit podle původního záměru mluvené projevy; z pochopitelných důvodů (obtíže při zaznamenávání bezprostředních mluvených projevů) bylo však od tabulace přímých zápisů upuštěno a byly sem zařazeny politické projevy, které byly sice určeny k hlasitému přednášení, byly však nejdříve napsány. Má tedy tato skupina svým publicistickým zaměřením velmi blízko ke skupině F (žurnalistika). Mluvené projevy, v nichž se využívá hovorového stylu spisovného jazyka, se v materiálu odrazily, podle zkušeností autorů, alespoň nepřímo ve skupině D (dramata). Je nesporné, že soudobá dramata, pečlivě předem volená právě jako reprezentant hovorového stylu, mohou být v tomto směru velmi cenným podkladem zkoumání, pokud nemáme možnost zachytit dostatečně rozsáhlý materiál přímo ze spontánních mluvených projevů. Potíž je však v tom, že skupina D má zároveň představovat současné drama jako celek, v jeho rozmanitosti jazykově slohové i žánrové, a proto plným právem obsahuje i texty [82]nehovorové a přímo archaické (např. Lomovo historické drama „Karel IV.“). Při dalších pracích podobného druhu by bylo tedy patrně výhodnější vedle skupiny dramatu, v níž by byl výběr textů podřízen hledisku žánrové úplnosti, stanovit zvláštní skupinu, v níž by byla dramata vybírána tak, aby představovala jedině mluvené hovorové dialogické projevy.

Vlastní jádro práce tvoří dvojí seznam slov; v prvním z nich jsou seřazena nejčastější česká slova podle frekvence (celkem 10 000 lexikálních jednotek), druhý obsahuje slova abecedně řazená s připojenými údaji o absolutní frekvenci každého z nich. V obou seznamech je slovo určeno především svou formou a svými mluvnickými významy, nikoli významem lexikálním; z toho pak například plyne, že i jasná homonyma jsou pojímána jako jedna heslová jednotka. Pouze tehdy, když se dvě slovní jednotky liší kromě významové stránky i svým slovnědruhovým zařazením a s tím spojeným rozdílem v platnosti, kterou mohou mít obě slova ve stavbě věty, rozlišují se i ve frekvenčním slovníku jako dvě samostatná hesla (tak např. se rozlišuje předložka místo od podstatného jména místo, životné a neživotné podstatné jméno druh, přídavné jméno lesní a podstatné jméno lesní, podstatné jméno a příslovce potřeba, podstatné jméno mužského a ženského rodu choť atd., neliší se však homonyma kolej, zámek, podstatné a přídavné jméno věřící atd.). Tento postup vyplynul ovšem spíše z možností, kterými byli autoři omezeni v době, kdy dílo vznikalo (nebyl např. dokončen Příruční slovník, takže nebylo oč opřít frekvenční zkoumání významů jednotlivých slov atd.); v tomto směru naznačuje dílo další úkoly, které bude pro úplné prozkoumání kvantitativních poměrů ve slovní zásobě nutno vykonat.

Velkým kladem slovníku je to, že se číselné údaje o frekvenci jednotlivých slov uvádějí nejen souhrnně, ale že se potom dále diferencují — u každého hesla se v abecedním seznamu uvádí nejdříve celkový počet výskytů, pak počet skupin (A—H) a počet děl, v nichž bylo slova užito.

Při řazení hesel v prvním seznamu rozhodovala na prvním místě absolutní frekvence slova, při stejné frekvenci se pak přihlíželo k počtu pramenů a nakonec k počtu skupin, v nichž se dané slovo vyskytlo. Jak však autoři v úvodu podrobně vyložili (s. 29n.), nelze chápat pořadí slova v prvním seznamu jako bezprostřední absolutní odraz skutečných frekvenčních poměrů v jazyce, nýbrž je zapotřebí údaje při používání slovníku dále interpretovat: skutečná hodnota může být zjištěna až po souhrnném zhodnocení všech tří uvedených údajů (uvádí se tu příklad [s. 29], jak hodnota frekvence slova motor se po interpretaci ukazuje jako menší než hodnota slova stavba, i když absolutní frekvenční údaj prvního slova je třiapůlkrát větší než údaj slova druhého).

[83]Kromě těchto dvou seznamů obsahuje práce i podrobný a mnohostranný rozbor kvantitativních vztahů v soustavě tvaroslovné a slovnědruhové. Pro přesný a výstižný obraz frekvence jednotlivých slovních druhů je velmi závažný pojem index opakování slov, kterého tu autoři používají. Tímto indexem se rozumí poměr mezi frekvencí všech slov v jistém projevu nebo souboru projevů na jedné straně a frekvencí hesel na straně druhé (heslem se rozumí slovo jako lexikální jednotka vymezená především znaky formálními, viz výše). Index opakování je dán zlomkem, v jehož čitateli je absolutní počet všech užitých slov nebo užitých slov jistého druhu (např. podstatných jmen) a ve jmenovateli je absolutní počet všech užitých hesel (nebo hesel jistého druhu). Čím větší je výsledný podíl, tím častěji se slova v projevu (v projevech) opakují. Index opakování vystihuje především některé základní kvantitativní vztahy mezi jednotlivými slovními druhy; tyto vztahy se pak zásadně liší, pozorujeme-li je uvnitř jazykové soustavy nebo uvnitř konkrétních jazykových promluv. Všechna slova jazyka se totiž z tohoto hlediska rozpadají na dvě výrazné skupiny: v první z nich jsou základní plnovýznamová slova, která v jazykové soustavě představují 96 % slovní zásoby, zatímco zájmena, číslovky, spojky, předložky a citoslovce jsou zastoupena jen 4 %. Tato druhá skupina má však vysoký index opakovatelnosti, takže jejich frekvenční podíl v jazykových promluvách je značný (30,81 %). K tomuto zásadnímu rozdílu mezi frekvencí slovních druhů v jazykové soustavě a v jazykových promluvách se pak v celé této části práce velmi pečlivě přihlíží. Kromě významu obecně jazykovědného je však index opakování slov poučný i pro zkoumání stylistická, a to jak při zaměření na funkční slohové vrstvy a žánry, tak při studiu individuálního stylu.

Touto metodou dospěli autoři k několika obecným závěrům: frekvence podstatných jmen a sloves, jakožto dvou základních významových prvků jazykového projevu, je v podstatě nepřímo úměrná. Ostatní slovní druhy se vzestupnou nebo sestupnou tendencí k těmto dvěma základním slovním druhům přimykají (přičemž číslovky a citoslovce jsou z tohoto hlediska neutrální). Skupinu podstatných jmen tvoří spolu s nimi ještě přídavná jména a předložky (zde tedy odpovídají kvantitativní údaje plně významovým a skladebným vlastnostem těchto slovních druhů); slovesnou skupinu tvoří kromě sloves samých ještě příslovce, spojky a zájmena. Tento poslední slovní druh, jak autoři konstatují, se řadí do slovesné skupiny především proto, že má frekvenčně protichůdnou tendenci vzhledem k podstatným jménům (a dodejme: i jménům přídavným); mezi těmito slovními druhy je tedy vztah, který bychom z hlediska frekvence mohli nazvat vztahem zastupitelnosti.

Z dalšího rozboru, který je věnován porovnání slovních druhů po[84]dle jednotlivých základních skupin (A až H), vyplývají závěry týkající se slohové diferenciace spisovného jazyka. Stojí tu proti sobě umělecká próza a literatura bez estetické funkce. Zásadní rozdíl v zaměření obou skupin se projevuje především v poměru, jak jsou zastoupena podstatná jména a slovesa. V první skupině je relativně silnější skupina slovesná (u dramat dokonce absolutně převládá — zde se právě odráží nepřímo i situace v mluvených projevech), ve druhé skupině převládají výrazně podstatná jména, přičemž nejvyšší frekvenci mají nikoli v odborném stylu, ale v projevech žurnalistických — tím se např. nepřímo potvrzuje základní slohová tendence ve vývoji publicistického slohu, v němž od dob obrozenských sílí tendence k jmennému vyjadřování.

Druhým rysem dělícím jednotlivé skupiny ve dva odlišné celky jsou poměry uvnitř jednotlivých skupin samých. V beletrii a dramatu jsou mezi jednotlivými prameny téže skupiny velmi značné individuální rozdíly, takže frekvenční údaje, které charakterizují jednotlivé skupiny jako celek, udávají jen základní všeobecnou tendenci, od níž se konkrétní realizace může velmi značně odchýlit. Ve skupině textů neuměleckých jsou individuální rozdíly mnohem menší a ve skupině F (žurnalistika) téměř úplně mizí (tím se i kvantitativně potvrzuje Havránkova teze o výrazové stereotypizaci jako jedné ze základních slohových vlastností moderní žurnalistiky).

V závěru úvodní části se probírá frekvence slovních tvarů; jsou podány výsledky kvantitativního šetření, které se týkalo jmenného rodu a skloňovacího typu u podstatných jmen, pádů u jmen obecně a frekvence slovesných tvarů. Zastoupení podle rodu a podle skloňovacího typu u podstatných jmen se počítalo podle hesel, v ostatních případech se vycházelo z údajů získaných u všech dokladů. Tento rozdílný postup je podmíněn tím, že frekvenční zákonitosti se v jazyce projevují výrazně buď spíše v jazykové soustavě (jde-li například o jmenný rod nebo o skloňovací typ), nebo v jazykových projevech (jde-li o mluvnické významy skladebné, jako je pád u podstatných jmen, osoba u sloves atd., a významy aktualizační, jako je slovesný čas). Frekvence jednotlivých pádů se zjišťovala odděleně pro číslo jednotné a množné, takže spolu s frekvenčním rozborem slovesných tvarů podává slovník nepřímo i obraz kvantitativního poměru mezi oběma čísly v češtině. Výsledkem statistického zpracování pádové soustavy je především zjištění častosti různých pádů ve spisovném jazyce obecně, zároveň se však opět neopomíjí vnitřní rozrůznění spisovného jazyka podle slohových vrstev (v umělecké próze je frekventovanější 1. a zvláště 4. pád — autoři vysvětlují tento fakt dynamičností umělecké prózy, která vede k většímu využití přechodných sloves —, pro odborný jazyk je charakteristický zvláště 2. pád, a to zřejmě přívlastkový 2. pád rozvíjející podstatné jméno).

[85]Cenné údaje přináší frekvenční slovník i o soustavě slovesných tvarů. Zjišťuje se, že tvary oznamovacího způsobu přítomného času a minulého času jakožto dvě základní tvarové soustavy slovesné jsou v úhrnu v jazykových projevech zastoupeny celkem stále stejně (okolo 70 %); poměr mezi oběma těmito soustavami je však již podmíněn příslušností projevu k některé z funkčních slohových vrstev jazyka, přičemž zastoupení jedné soustavy je vcelku nepřímo úměrné zastoupení soustavy druhé.

Pro formální rozbor jazyka mají dosah údaje o poměru mezi tvary jednotného a množného čísla u sloves; vcelku jsou tu poměry stejné jako u podstatných jmen (3 : 1) — v dramatech je výkyv ve prospěch jednotného čísla, v odborné literatuře naopak ve prospěch čísla množného. Potvrzují se poznatky známé i z jiných studií,[1] že využití slovesných osob je značně závislé na funkci projevu. Důležité by bylo zjistit frekvenční poměry u všech jazykových prostředků, které ať mluvnicky, nebo lexikálně obsahují poukaz k slovesné osobě. Zde však narážíme na potíže způsobené tím, že program excerpce dal v některých případech přednost hledisku slovníkovému a formálně tvaroslovnému před hlediskem funkčním. Nelze pak např. porovnat frekvenci slovesných tvarů podle různých slovesných osob s frekvencí osobních a přivlastňovacích zájmen (u zájmen, kde je protiklad mezi jednotným a množným číslem vyjádřen zvláštním slovem, jsou ve frekvenčním seznamu uvedena dvě zvláštní hesla — např. já : my; kde je však tento protiklad vyjádřen tvaroslovně, tj. ve třetí osobě u zájmena on, uvádí slovník frekvenci jen souhrnně, přičemž zahrnuje pod heslo on i přivlastňovací nesklonné zájmeno jeho, třebaže zájmena její a jejich jsou uvedena samostatně). Ukazuje se, že je v těchto případech zapotřebí jasně rozlišovat slovní jednotky, které jsou z hlediska současného jazyka rozdílné, i když jde z hlediska vývojového o tvary slova jednoho. Jen tak je možno zajistit, že bude možno studovat frekvenční poměry současného jazyka ve všech souvislostech.

Referát můžeme ukončit jednoznačným konstatováním, že dílo „Frekvence slov, slovních druhů a tvarů v českém jazyce“ je jedním z úspěšných velkých děl současné české jazykovědy. Přesto, že mezi dokončením práce a jejím vydáním je delší časové období (je třeba zdůraznit, že toto zdržení nebylo způsobeno autory), je frekvenční slovník dílo svrchovaně aktuální, dnes dokonce aktuálnější než dříve. Svým bohatým a pečlivě zpracovaným i zhodnoceným materiálem dává mnohé podněty celé jazykovědě právě nyní, kdy se studium kvanti[86]tativní stránky jazyka dostává stále více do popředí. Možnosti jeho využití, které naznačili autoři v závěru úvodní části (zvláště pro metodiku vyučování jazyka) a spoluautorka práce M. Těšitelová ve speciální studii[2] (pro nauku o slovní zásobě, tvarosloví a stylistiku), bude možno rozšířit i na větnou skladbu (využitím údajů o prostředcích, které slouží k vyjadřování vztahů mezi větami v souvětí a vztahů mezi několikanásobnými větnými členy) a v mnoha směrech nepřímo i na dějiny spisovného jazyka.


[1] Srov. např. údaje v článku D. Konečné Ukázka použití statistického zkoumání při přípravě strojové syntézy českého jednoduchého slovesného tvaru indikativního, Slovo a slovesnost 22, 1961, s. 268n.

[2] M. Těšitelová, K statistickému výzkumu slovní zásoby, Slovo a slovesnost 22, 1961, s. 171n.

Naše řeč, volume 46 (1963), issue 2, pp. 80-86

Previous Ivan Lutterer: Problémy marxistické jazykovědy

Next Milan Jelínek: Lexikologická a stylistická studie o expresivitě slova