Časopis Naše řeč
en cz

Kvantitativní hodnocení lexikálních prostředků a jejich stylistické využití

Marie Těšitelová

[Články]

(pdf)

-

Mezi kritérii, podle nichž se pořádá slovní zásoba, má významné postavení mimo jiné i častost výskytu (frekvence) slova, [145]slovních spojení, popř. jejich významů.[1] V našich stylistikách a slovnících[2] se údaje o tom zpravidla uvádějí značně přibližně, rozlišují se slova běžně užívaná, slova řidší a řídká, avšak bez přesnější kvantifikace. Číselné údaje o výskytu slov (dosud jen ojediněle o frekvenci slovních spojení, popř. významů) přinášejí speciální frekvenční slovníky;[3] vzájemná propojenost údajů kvalitativních a kvantitativních celkem však stále chybí.

Je to dáno zejména tím, že materiál, na němž se tato data zjišťují, je až dosud zpravidla značně odlišný, takže neposkytuje závěry reprezentativní zároveň pro obě stránky, kvalitativní i kvantitativní. V tomto krátkém příspěvku se pokusím ukázat na užitečnost přesné kvantifikace vrstev slovní zásoby, a to i se zřetelem k jednotlivým funkčním stylům (srov. d. cit. v pozn. 1, s. 72).

Při stanovení vrstev slovní zásoby z hlediska kvantitativního se až dosud rozlišovala zpravidla dvě pásma slov, slova s frekvencí nejvyšší, jejichž hranice byla kladena za první desítky, popř. stovky slov nejčastějších, tedy slova běžně užívaná, a slova s nejnižší frekvencí, slova řídká; jejich hranice byla vedena značně libovolně vzhledem k tomu, že se výskyt těchto slov považoval za zcela nahodilý, a tudíž za celkem zanedbatelný. Proto se tato slova z frekvenčních seznamů vypouštěla (často ovšem i z technických důvodů, bývá jich zpravidla velké množství) a pozornost se věnovala jen slovům s největší frekvencí, zvláště se zřetelem k praxi pedagogické, technické apod.

Podle našich dosavadních výzkumů v oblasti lexikální statistiky češtiny ukazuje se potřebné rozlišovat i z hlediska frekvenčního tři pásma, vrstvy slovní zásoby:[4] [1] slova s frekvencí nejvyšší (s pořadím[5] 1.—10., tj. prvních 10 nejfrekventovanějších slov, srov. výše), [2] slova s frekvencí střední (od pořadí 11. do frekvence 10), [3] slova s frekvencí nízkou a nejnižší (slova s frekvencí 10—1). Největším problémem je zejména vymezení hranic pásma slov s frekvencí střední [146]vzhledem k pásmu slov s frekvencí nejvyšší. Je to zvláštní problematika, kterou však v tomto příspěvku ponecháváme stranou (podrobnosti v d. cit. pozn. 4).

Pokud jde o prvních 10 nejfrekventovanějších slov, je obecně známo, že to bývají zpravidla slova gramatická, spojky, předložky, některá zájmena a pomocná slovesa (srov. FSČ a FSS). Vzhledem k vysoké frekvenci těchto slov, která ovšem nepřekvapuje, jsme ochotni chápat tato slova většinou jako slova, která nezávisí na povaze stylu. Avšak již prvním nejfrekventovanějším slovem se liší např. projev mluvený od projevu psaného; v projevech mluvených je to zpravidla ukazovací zájmeno ten, resp. tvar to,[6] v psaných projevech to bývá spojka a, jak ukazují FSČ i FSS. V obou frekvenčních slovnících má totiž spojka a relativně nejvyšší frekvenci v textech stylu uměleckého: ve FSČ připadá na ně 56,44 % z celkové frekvence spojky a (v 1,623.527 slovech), ve FSS 45,99 % (v 1,000.000 slov); nižší frekvenci má spojka a v textech odborných bez zřetele k jejich větší nebo menší specializaci (ve FSČ 21,86 %, ve FSS 32,75 %) a v žurnalistice (ve FSČ 8,17 %, ve FSS 13,28 %). V textech odborných vyskytuje se v některých případech relativně největší frekvence u pomocného slovesa být.

Podrobná analýza prvních 10 nejfrekventovanějších spojek ve vybraných textech stylu uměleckého a odborného v češtině (o. c. v pozn. 4) a srovnání s FSČ ukázaly významné kvantitativní rozdíly v užívání spojek v stylové oblasti umělecké a odborné, ale i rozdíly v rámci těchto oblastí. Projevila se např. speciální situace v užívání spojek v odborných textech technického zaměření a v textech matematických. Frekvence spojek v textech společenských věd stojí nejblíže frekvenci spojek v textech stylu uměleckého; ovšem i v rámci jednotlivých textů existují mezi jednotlivými autory rozdíly v užívání spojek.

Jako frekvenci spojky a mohli bychom hodnotit i frekvenci druhé nejčastější spojky v češtině i v slovenčině — spojky že. Má relativně nejvyšší frekvenci v textech uměleckého stylu (v češtině 50,48 % celkové frekvence, ve slovenštině nižší — 38,83 %) a v textech odborných (v češtině 23,81 %, v slovenštině vyšší 31,14 %), relativně nejnižší v textech žurnalistických (v češtině 7,50 %, ve slovenštině 14,72 %).

U spojek s pořadím 11. a vyšším, tedy hlásících se do pásma slov s frekvencí střední, rostou rozdíly v jejich frekvenci jak v jednotlivých [147]funkčních stylech, tak i v jednotlivých textech, a to v závislosti na autorovi, tematice textu apod. V textech stylu uměleckého v češtině to platí např. o spojkách však, neboť, protože apod., v textech odborných např. o spojkách buď, čili, když apod.

Pokud jde o spojky s frekvencí nejnižší (10—1), je jich v textech zpravidla málo (maximálně např. 3 % v textech stylu uměleckého i v textech odborných) a jejich užití je stylově příznakové. Např. v textech uměleckého stylu nacházíme relativně větší počet spojek s frekvencí 1 než v textech odborných. Jde většinou o spojky synonymní k běžným spojkám relativně hojně frekventovaným, např. takže, jestliže, ježto, jakmile, aniž apod.

Na příkladu spojek jsem se pokusila ukázat, jak i užívání relativně nejfrekventovanějších slov, gramatických nebo též formálních, je omezeno funkčním stylem, ale i individuálním stylem autora (příklady jich srov. dále), tematikou apod. Platí-li to o slovech převážně gramatických, platí to tím spíše o slovech plnovýznamových, zvláště o substantivech, adjektivech a slovesech. Všimněme si např. frekvence substantiv v textech stylu uměleckého a odborného.

Např. v uměleckém textu I. Kříže Úsek častých nehod připadá z tzv. délky textu N (tj. počtu všech slov v textu) = 21.963 slov na podstatná jména 4.832 slov. Z toho do pásma nejfrekventovanějších substantiv se hlásí 13,14 %, do pásma s frekvencí střední celkem 23,06 %, do pásma slov s frekvencí nízkou a nejnižší 76,94 %. V textu J. Otčenáška Kulhavý Orfeus o délce N = 30.281 slov je 7.553 substantiv, z toho v pásmu s frekvencí nejvyšší 3,25 %, v pásmu s frekvencí střední 23,38 % a v pásmu s frekvencí nejnižší 68,37 %. V odborném textu Průmyslová televize od Severina a Kasiky o délce N = 31.655 slov představují substantiva N = 11.724 slov, z toho podstatná jména s pořadím 1.—10. 19,04 %, substantiva s frekvencí střední 60,24 %, pásmo substantiv s frekvencí 10—1 celkem 20,72 %.

Z uvedeného přehledu je patrno, že v textech uměleckého stylu substantiva s pořadím 1.—10. pokrývají menší část textu, než je tomu v textu odborném, a naopak pásmo substantiv s frekvencí nejnižší je v textech uměleckého stylu podstatně silnější, než je tomu v textech odborných. Ovšem i substantiva hlásící se do pásma s frekvencí nejvyšší jsou do značné míry stylově příznaková.

Např. v textu Křížově je druhým nejfrekventovanějším substantivem, necháme-li stranou vlastní jméno Oldřich, substantivum chlapec, které má jednoznačně nejvyšší frekvenci v textech stylu uměleckého (srov. FSČ). Totéž platí o dalších relativně nejvíce frekventovaných substan[148]tivech muž, kluk, syn apod.; kromě toho je zřejmé, že se na těchto substantivech projevuje i tematika (události kolem narození syna). Ještě jasněji tuto závislost ukazují substantiva v textech odborných; stačí uvést prvních 10 nejfrekventovanějších substantiv v textu Průmyslová televize: napětí, elektronka, impuls, proud, kmitočet, obvod, odpor, signál, obraz, televize. Jde tedy převážně o termíny (srov. elektronka, impuls, kmitočet, signál, televize) a o terminologizované významy některých slov, které v daném kontextu (o průmyslové televizi) nepotřebují ani zvláštního označení (srov. napětí, proud, obvod, odpor, obraz).

S klesající frekvencí substantiv klesá v odborném textu počet termínů a stoupá počet terminologizovaných významů a zejména netermínů. Např. v pásmu středně frekventovaných substantiv nacházíme těchto posledních 10 substantiv s frekvencí 11: půlsnímek, soustava, úprava, uzavření, vinutí, vteřina, vytváření, zásada, ztráta, zvětšování. Všimněme si, že to jsou převážně podstatná jména slovesná (např. uzavření, vinutí apod.) nebo jiná substantiva dějová (srov. např. úprava, ztráta).

V pásmu substantiv s frekvencí nejnižší se tento charakter substantiv v odborných textech (tj. ubývání termínů a přibývání netermínů, popř. jen terminologizovaných významů) v podstatě udržuje: přibývá substantiv, jejichž závislost na textu a jeho tematice není vždy jednoznačná. Např. v třetí desítce substantiv s frekvencí 4 v textu Průmyslová televize zjišťujeme tato substantiva: náklad, nastavování, obtíž, odmocnina, ochrana, okolnost, otáčka, plášť, podrobnost, poškození, potřeba, substantiva s frekvencí 2 (v podstatě od týchž písmen v abecedě) jsou např. tato: následek, názornost, nečistota, norma, obnovování, obsah, ocel, oddělování, past, Petr, plamen, ploška apod.

Vraťme se ještě alespoň stručně k charakteristice substantiv v pásmu s frekvencí střední a s frekvencí nejnižší v textu stylu uměleckého, a to v zmíněném textu Křížově Úsek častých nehod.

V pásmu substantiv s frekvencí střední převládají substantiva relativně v uměleckém stylu hojně frekventovaná. Srovnejme např. 10 nejfrekventovanějších substantiv na začátku pásma se střední frekvencí (tj. substantiva s frekvencí 37—22) a posledních 10 substantiv na konci tohoto pásma (tj. substantiva s frekvencí 11, k tomu i výše příklad z odborného textu).

Substantiva s frekvencí 37—22 jsou tato: chvíle, pohled, hlava, lidé, místo, žena, chuť, matka, věc, kapsa; nejen substantiva lidé, hlava, [149]žena, místo, matka, ale i substantivum pohled patří podle FSČ k nejfrekventovanějším substantivům vůbec, substantiva kapsa a chuť mají frekvenci rovněž relativně velkou (srov. FSČ). — Pásmo substantiv se střední frekvencí uzavírají tato substantiva s frekvencí 11: dlaň, hra, jídlo, léto, Milada, mistr, otec, plavky, schod, síla. Srovnání s FSČ ukazuje, že s výjimkou substantiva plavky jde o slova relativně hojně frekventovaná, zejména v textech uměleckého stylu.

V pásmu substantiv s frekvencí nízkou a nejnižší nacházíme např. v třetí desítce substantiv s frekvencí 4 substantiva: Kuba, lump, lůžko, mlčení, nadšení, nákup, násilí, návštěva, neděle, nechuť. S výjimkou substantiva neděle jsou to slova málo frekventovaná, jak ukazuje srovnání s FSČ, jejichž výskyt zřejmě závisí na individuální volbě autora (srov. substantivum lump, nechuť), necháme-li stranou vlastní jména, která představují zvláštní problematiku. Jako tomu bylo v odborném textu (srov. výše), nacházíme i zde mezi méně frekventovanými substantivy podstatná jména slovesná, jako jsou mlčení, nadšení, a jiná jména dějová, nákup, návštěva. — Podívejme se ještě na substantiva s frekvencí 2 (opět zhruba od týchž písmen jako u příkladu uvedeného výše): loket, ložnice, majitel, malba, maminka, manžel, materiál, mávnutí, metr, … naděje, naháč, nahota. Střídají se tu slova podle FSČ relativně značně frekventovaná (srov. maminka, manžel, materiál apod.) se slovy málo frekventovanými (např. majitel, malba, mávnutí apod)., což ukazuje jednak na vliv tematiky, jednak na individuální volbu slov u autora.

V analyzovaných textech stylu uměleckého převládají tedy v pásmu slov s nejvyšší frekvencí substantiva podle FSČ sice relativně značně frekventovaná, necháme-li stranou vlastní jména, ale do velké míry závislá i na tématě textu. V pásmu slov se střední frekvencí udržují si v těchto textech převahu relativně frekventovaná substantiva (srov. FSČ), většinou bez výraznějšího vztahu k tematice, v pásmu substantiv s nejnižší frekvencí se tu střídají substantiva relativně více i méně frekventovaná (podle FSČ), jejichž výběr závisí zřejmě na volbě autora, popř. na tematice a jejím pojetí. V analyzovaných textech odborných převládají mezi substantivy s nejvyšší frekvencí termíny, popř. terminologizované významy frekventovaných slov závislých na tématě. S klesající frekvencí, tj. v pásmu slov s frekvencí střední a nejnižší, přibývá v analyzovaných odborných textech netermínů, ev. jen terminologizovaných významů slov.

Závěr. Při pořádání slovní zásoby vůbec i v jednotlivých textech [150]statistická data nejen umožňují přesnější třídění, ale i přinášejí nové poznatky z hlediska jednotlivých funkčních stylů. V prvém případě jde především o vymezení přesnějších hranic, pokud jde o slova s frekvencí nejvyšší, ale i s frekvencí střední a s frekvencí nízkou a nejnižší. V druhém případě jde např. o poznání úlohy slov formálních i plnovýznamových v rámci jednotlivých funkčních stylů i jejich vzájemné srovnání, jak jsme se pokusili ukázat na příkladě spojek a substantiv. Předpokladem pro to je ovšem i dostatek spolehlivých statistických dat, jejichž pramenem jsou frekvenční slovníky, na něž se i tím nároky stupňují.


[1] Srov. nejnověji Al. Jedlička a kol., Základy české stylistiky, Praha 1970, s. 54—82, zvl. 72—73.

[2] Srov. např. Slovník spisovného jazyka českého, Praha 1958—71, s. XI.

[3] Srov. např. pro češtinu J. Jelínek — J. V. Bečka — M. Těšitelová, Frekvence slov, slovních druhů a tvarů v českém jazyce (dále FSČ), Praha 1961, pro slovenštinu J. Mistrík, Frekvencia slov v slovenčině (dále FSS), Bratislava 1969.

[4] M. Těšitelová, K statistickému výzkumu slovní zásoby, SaS 22, 1961, s. 175, nejnověji Otázky lexikální statistiky (v tisku).

[5] Uspořádáme-li slova podle klesající frekvence, tj. od frekvence nejvyšší k nejnižší, a očíslujeme je od 1 do n, mluvíme o pořadí slov; každé slovo ve frekvenčním seznamu má tedy svou frekvenci a své pořadí.

[6] Srov. M. Těšitelová, On some questions of spoken scientific discourses of men and women, Travaux linguistiques de Prague 5 (v tisku).

Naše řeč, ročník 55 (1972), číslo 2-3, s. 144-150

Předchozí Přemysl Hauser: Složená slova s polo-, polou-, půl-

Následující Karel Hausenblas: Učební styl v soustavě stylů funkčních