Časopis Naše řeč
en cz

Několik kvantitativních charakteristik slovní zásoby Labyrintu světa a ráje srdce

Karel Kučera

[Articles]

(pdf)

-

Labyrint světa a ráj srdce nepochybně patří k nejznámějším a nejčtenějším dílům Jana Ámose Komenského. Přitažlivost tohoto spisu vyplývá do značné míry už ze samotného tématu, ale výrazně se na ní podílí i jeho vynalézavé ztvárnění, jež si mimo jiné vyžádalo využití mimořádně rozmanitého repertoáru jazykových prostředků, především lexikálních. Úmysl předložit čtenáři v alegorické formě kritický komentář k „celému světu“ se na slovní zásobě díla nevyhnutelně projevil ve dvou základních směrech: snaha o globálnost (tj. snaha obsáhnout v jediné vizi světa-labyrintu všechny typické životní situace, základní oblasti lidské činnosti i způsoby života dobové společnosti) vedla Komenského k využití – byť jen náznakovému – odborných a profesionálních výrazů z mnoha oborů; na druhé straně výrazná kritičnost, resp. sarkastičnost předkládané vize světa a současně silné kladné citové zaujetí při líčení „ráje srdce“ si vynutily užití široké škály kladně i záporně zabarvených expresivních prostředků. Nároky, které tu autor Labyrintu kladl na jazyk, byly tak značné, že soudobá kulturní čeština jim nebyla s to beze zbytku vyhovět. Komenský proto její slovní zásobu obohacoval z různých zdrojů, především z nářečí, resp. vůbec z dobového běžně mluveného jazyka; v nejednom případě k ní však přispěl, jak ukázal ve své srovnávací studii současný jubilant I. Němec[1], i vlastními neologismy. Vzhledem k tomuto mimořádnému rozpětí není divu, že slovní zásoba Komenského Labyrintu k sobě vždy poutala pozornost badatelů zabývajících se tzv. středním obdobím ve vývoji českého jazyka.

Labyrint světa a ráj srdce se stal jedním z prvních děl J. A. Komenského, které bylo jako celek převedeno do počítačově čitelné podoby, a v současné době tak můžeme dosavadní rozbory jeho slovníku dokreslit několika kvantitativními charakteristikami, které – jak věříme – nejsou zcela bez zajímavosti ani z obecného lexikálně statistického hlediska.

Souvislý text Labyrintu světa a ráje srdce (bez marginálií) obsahuje 43 595 slov, z toho 5 887 slov (lexémů) různých. Z těchto dvou údajů (první z nich se tradičně označuje jako délka textu N, druhý jako slovník V) lze podle rozmanitých vzorců zavedených jednotlivými autory (viz komentář k některým z nich u M. Těšitelové[2]) vypočítat různé charakteristiky umožňující kvantitativní srovnání slovní zásoby příslušného textu se slovníkem textů jiných. V současné době [154]bohužel nejsou ještě k dispozici dostatečně reprezentativní kvantitativní údaje o dílech Komenského současníků, a nejsme tedy s to porovnat jednotlivé kvantitativní charakteristiky Labyrintu s obdobnými charakteristikami dobového kontextu; můžeme se však pokusit alespoň o částečné srovnání mezi Labyrintem a některými díly novočeskými, jejichž charakteristiky jsou uvedeny v citované práci M. Těšitelové.[3]

Jen částečné bude toto srovnání proto, že M. Těšitelová při výpočtu jedné ze základních charakteristik (tzv. bohatství slovníku; v terminologii Těšitelové „rozsah slovníku“) užívá upraveného Guiraudova vzorce, který poskytuje hodnoty se zcela nepřijatelnými (nezřídka více než stoprocentními) výkyvy v závislosti na délce textu. Vzhledem k tomu, že délka Labyrintu se podstatně liší od délky novočeských textů, které zpracovala M. Těšitelová, užíváme k vyčíslení tzv. bohatosti slovníku jiného vzorce (R = logV/logN), navrženého G. Herdanem.[4] Třebaže ani Herdanova formule není zcela prosta závislosti na délce textu, podle našich orientačních zjištění se hodnoty podle ní vypočtené pro různě dlouhé vzorky téhož textu vzájemně liší nejvýše o 10 % (testováno na vzorcích v rozmezí délky od 3 000 do 40 000 slov). Vzhledem k volbě odlišného vzorce můžeme ovšem Labyrint srovnat jen s těmi novočeskými texty, u nichž Těšitelová uvádí nejen výslednou hodnotu R, ale i výchozí údaje V a N, z nichž lze vypočítat novou hodnotu R podle vzorce předloženého Herdanem. Jde celkem jen o tři prozaické texty: V. Vančura, Konec starých časů (N = 30 281, V = 5 469); J. Mařánek, Barbar Vok (N = 30 145, V = 6 498); J. Marek, Vesnice pod zemí (N = 31 195, V = 4 188).

Labyrint s uvedenými novočeskými texty porovnáváme celkem ve třech aspektech, které navrhla M. Těšitelová[5] jako součásti tzv. komplexní charakteristiky slovníku textu. Vedle zmíněného bohatství slovníku (R) vyčíslujeme rovněž rozptýlení slovníku (D) a koncentraci slovníku (K). Stručně lze spolu s M. Těšitelovou říci, že R představuje „globální charakteristiku opakování slov v textu“, zatímco D a K jsou charakteristiky dílčí: D charakterizuje zastoupení pásma slov s malou frekvencí a je dáno poměrem počtu plnovýznamových lexémů s frekvencí 1 – 10 k celkovému počtu lexémů (V) tvořících slovník příslušného díla; K naopak ukazuje, jaký podíl mají na délce textu nejfrekventovanější slova, a je dáno poměrem počtu výskytů deseti nejfrekventovanějších slov k délce celého textu (N). Rozptýlení slovníku [155]D a koncentraci slovníku K vyčíslujeme podle vzorců, které uvádí Těšitelová[6]; z grafických důvodů zde tyto vzorce nepřetiskujeme.

Srovnání Komenského Labyrintu s výše uvedenými novočeskými díly se v daných třech charakteristikách jeví takto:

Autor

R

D

K

Komenský

0,813

91,37

16,28

Marek

0,806

87,48

17,07

Mařánek

0,851

90,66

11,20

Vančura

0,834

90,88

13,04

Z tabulky je zřejmé, že pokud jde o kvantitativní využití slovní zásoby, Labyrint se nijak výrazně neliší od děl novočeských autorů. Jak naznačují uvedené hodnoty R, Komenský sice opakuje slova v průměru častěji než Vančura nebo Mařánek, ale méně často než Marek. Obdobně je z hodnoty K zřejmé, že deset nejfrekventovanějších slov v Labyrintu (dodejme, že jde o slova a, ten, býti, on, já, že, na, i, v/ve, jiný) pokrývá sice svými výskyty relativně vysoké procento textu (16,28 %), ale celkově jde opět o hodnotu nižší než u Marka. Pouze v případě tzv. rozptýlení slovníku D je hodnota zjištěná u Komenského vyšší než hodnoty u všech tří autorů novočeského období, ale rozdíl je tu jen malý, a to jak vzhledem k hodnotám uvedeným u Mařánka a Vančury, tak v porovnání s průměrnou hodnotou D, kterou uvádí Těšitelová[7] pro novočeskou prózu (D = 90).

Přesto jsou zjištěné kvantitativní charakteristiky slovní zásoby Labyrintu do jisté míry překvapivé. Především: vzhledem k výše zmíněnému tematickému i emocionálnímu rozpětí díla bychom očekávali, že „bohatství slovníku“ Labyrintu bude spíše při horní hranici hodnot zaznamenaných u uvedených novočeských autorů než při hranici dolní. Skutečnost, že v textu, jehož autor živě popisuje a komentuje dlouhý sled rozdílných prostředí, situací a událostí, se slova opakují prakticky stejně často jako v textu vybudovaném kolem relativně malého repertoáru situací i prostředí (Markova Vesnice pod zemí), vyžaduje bližší vysvětlení.

Je tu však ještě jiný poněkud neobvyklý jev. Uvedené tři kvantitativní charakteristiky R, D a K jsou zpravidla v jistém vzájemném vztahu: texty s menším [156]bohatstvím slovníku R (tj. texty, v nichž se častěji opakují slova) obvykle vykazují vyšší hodnoty K a menší hodnoty D. Tento vztah je pochopitelný, neboť narůstá-li délka textu ve zvýšené míře opakováním slov, vzrůstá i počet slov s vyšší frekvencí (což se obvykle odrazí na vyšší koncentraci slovníku K) a naopak klesá počet slov s nejnižší frekvencí, jejichž zastoupení vyjadřuje rozptýlení slovníku D. Koncentrace slovníku K a jeho rozptýlení D jsou tedy komplementární charakteristiky stojící zpravidla v opozici, snížená hodnota jedné z nich má obvykle protějšek ve zvýšené hodnotě druhé.[8] Ve výše uvedené tabulce si lze v této souvislosti všimnout např. toho, že Markův text s nejnižší hodnotou R vykazuje – zcela v souladu s právě popsaným vztahem – současně nejvyšší hodnotu K a nejnižší hodnotu D.

Charakteristiky Labyrintu se však od tohoto obvyklého vztahu odchylují. Faktu, že ve srovnání s Vančurovým a Mařánkovým textem vykazuje Komenského dílo nižší hodnotu R, sice zcela podle očekávání odpovídá vyšší hodnota K; překvapivě mu však odpovídá také neobyčejně vysoká hodnota D. Je tedy zřejmé, že relativně nižší „bohatství slovníku“ v případě Labyrintu nevyplývá jednoduše z častějšího opakování slov a z menšího zastoupení slov s malou frekvencí: ve srovnávané skupině textů je naopak právě Labyrint tím, v jehož slovníku mají slova s nejnižší frekvencí vůbec nejvyšší podíl.

Uvedené skutečnosti lze podle mého názoru nejprůkazněji vyložit jako projev podstatně vyšší polarity, která se v Labyrintu projevuje, pokud jde o kvantitativní využití slovní zásoby. Podrobněji řečeno: charakteristiky K (koncentrace slovníku) a D (rozptýlení slovníku) vycházejí pouze ze dvou protilehlých krajních oblastí ve slovní zásobě díla, zatímco bohatství slovníku R jakožto charakteristika globální zahrnuje slovník celý, tedy i rozsáhlou oblast slov se střední frekvencí, nereflektovanou ani v hodnotě K, ani v hodnotě D. V pozadí uvedených tří kvantitativních charakteristik vlastně stojí nevyslovený předpoklad, že oblast slov se střední frekvencí má sama o sobě vzhledem ke slovníku textu jen malou rozlišovací schopnost, a představuje tedy svého druhu konstantu, jejíž velikost se od textu k textu a od autora k autorovi výrazně nemění. Pokud však jde o srovnávání Labyrintu s uvedenými novočeskými texty, uvedený předpoklad zřejmě neplatí. V Labyrintu je relativně nízká hodnota R provázena relativně vysokou hodnotou K i D; jinak řečeno, jde o text s relativně silným zastoupením slov s vysokou frekvencí i slov s nízkou frekvencí, a proto nevyhnutelně se znatelně oslabeným zastoupením slov s frekvencí střední. Pokud jde o kvantitativní využití slovní zásoby, můžeme tedy Komenského Labyrint charakterizovat jako text výrazně polarizovaný na úkor středního frekvenčního pásma, ve prospěch slov s vysokou a s nízkou frekvencí. Ze tří novočeských textů, s nimiž jsme Labyrint srovnávali, zjevně žádný takto polarizován není.

[157]Zmíněnou polarizaci lze v textu Labyrintu sledovat např. na tom, že některé jeho části jsou lexikálně značně chudé (slova, několikaslovné výrazy i některé rozsáhlejší formulace se v nich často opakují), zatímco jiné části přinášejí stále nové lexikální prvky opakující se jen v relativně malé míře. V Labyrintu by bylo lze vyčlenit řadu rozmanitých částí, pásem či úseků, které jsou po lexikální stránce výrazně bohatější nebo naopak výrazně chudší než ostatní text; k tomu, abychom ukázali možné souvislosti, do nichž takové části textu vstupují, však postačí, povšimneme-li si jednoho, zřejmě nejvýrazněji lexikálně oslabeného pásma – pásma putování. Jde o pásmo, které představuje vlastně jen sérii nezbytných spojovacích článků mezi jednotlivými živými obrazy světa a jeho marnosti, o pásmo těch úseků první části Labyrintu světa a ráje srdce, které jsou tvořeny poutníkovým popisem samotné cesty od jednoho stavu, zaměstnání ap. k druhému a kritickým komentářem k tomu, čeho byl poutník na jednotlivých zastávkách své cesty svědkem.

Základní schéma, jehož v tomto pásmu Komenský opakovaně užívá, má jednoduchou podobu: poutník přichází na nové místo (do další ulice, síně, na další náměstí ap.), jeho průvodci mu v náznakové rozmluvě chválí lidské počínání, jemuž zde přihlížejí, zatímco poutník začíná pociťovat první pochybnosti; následuje živé vylíčení zbytečnosti příslušné lidské činnosti (to je vlastním jádrem příslušného textového úseku a patří ovšem do jiného pásma) a závěrečná náznaková rozmluva, v níž poutník shrne své kritické hodnocení a průvodci slibují, že ho zavedou na jiné, mnohem zajímavější místo. Je zřejmé, že Komenský v pásmu putování nijak neusiluje o větší rozmanitost výrazu, jednotlivé spojovací články jsou si mnohdy až fádně podobné a po lexikální stránce se vyznačují zejména velmi častým opakováním několika klíčových slov. Všimněme si např. výskytu slov vyjít, aj a spatřit v následujících případech (citáty z Labyrintu označujeme číslem kapitoly a číslem odstavce): Z těch šraňků já vyjda, spatřím, aj… (18:14); I vyjdeme opět na jiný plac, kdež, aj, novou věc spatřím (11:15); A vyjda, spatřím (17:2); Takž zase na plac Učených výjdeme; a aj… (10:10); I výjdeme odtud do vrchního palácu (…). A aj… (26:1); Vyjdouce odtud, jdeme hlouběji tam až na ryňk, kdež aj… (20:4). Velmi často se v podobných vyjádřeních opakovaně kombinují zejména různá slovesa zrakového vnímání, jako např. hledět, pohledět, pohlédnout, spatřit, vidět aj. – Srov. případy jako Hledím tedy sobě na ně ostřeji a spatřím… (7:3); hledím i já: a spatřím… (31:1) aj. Některá podobná vyjádření se opakují jen se zcela minimálními obměnami (např. Vtom pohledím a spatřím… 10:3; Vtom pohlédna spatřím… 22:1; hledím znovu a vidím… 7:4; Já pak hledě opět, vidím… 7:7; Hledě pak, vidím… 9:19) nebo i zcela bez obměny (I hledím a spatřím… 7:15; stejně 24:3). Někdy se podobná vyjádření vyskytují i velmi blízko sebe – srov. např. Hledě tedy já, vidím…; hledím na něj pilněji a vidím… (obojí 10:6); hledě já po některých [158](…) vidím…; hledím pilněji a vidím… (obojí 18:6). Vzhledem k těmto a podobným dalším případům jistě nepřekvapí, že při vyčíslení bohatosti slovníku „pásma putování“ (N = 11 605, V = 2 050) zjišťujeme znatelně nižší hodnotu (R = 0,814), než jakou lze zjistit v těch úsecích první části Labyrintu, v nichž se živě předvádějí zmatky světa a marnost veškerého lidského počínání (N = 20 497, V = 4 246, R = 0,841), nebo naopak v těch úsecích „ráje srdce“, v nichž se s neobyčejnou citovou intenzitou vyzvedá čistota a radost života pravého křesťana (N = 2 786, V = 821, R = 0,846).

Pojmenování bohatství slovníku a rozsah slovníku, kterých se užívá k označení charakteristiky R, by mohla při mechanickém chápání navozovat dojem jistého hodnocení. Spolu s M. Těšitelovou[9] je však třeba zdůraznit, že tato ryze kvantitativní charakteristika k němu sama o sobě není určena a že všestranné hodnocení slovní zásoby určitého díla nebo autora lze na výhradně kvantitativních parametrech stěží zakládat; je třeba vždy vidět, jak, s jakým cílem a jakým výsledkem je daného množství slov užito. Důležitost takového přístupu ke slovní zásobě textu vystupuje do popředí právě v souvislosti s lexikálně oslabeným „pásmem putování“ v Labyrintu: u tak vynikajícího stylisty i zasvěceného a náročného uživatele českého jazyka, jakým byl Komenský, lze totiž sotva uvažovat o možnosti, že uvedené pásmo zůstalo jen naznačeno v hrubých rysech a ne zcela propracováno po stránce synonymické, jinak u Komenského tak výrazně rozvinuté.

Při bližším pohledu na zmíněné pásmo se naopak jeví snížený rozsah jeho slovníku zřejmě jako autorský záměr: po úvodní expozici alegorie cesty skrze město-svět odsouvá totiž Komenský samotný motiv putování důsledně do pozadí a připomíná ho pouze v nezbytné míře, často jen jako téměř holý spojovací článek mezi jednotlivými živými obrazy marnosti světa. Důvody jsou snadno pochopitelné: tím hlavním, na co se snaží soustředit čtenářovu pozornost, je předváděná marnost světa, nikoli poněkud jednotvárná mechanika celé alegorie, tj. samo poutníkovo přecházení z místa na místo a jednoduché rozhovory s jeho průvodci. Tomu odpovídá i značně stereotypní a pozornost k sobě nepoutající vyjadřování ve většině tohoto textového pásma, oživované jen v některých případech (zejména v poutníkových uštěpačných poznámkách – a ovšem i na těch několika místech, kde se pásmo putování prolne se sledovanou realitou, tj. kde poutník vystupuje z role pouhého pozorovatele, vstupuje do „světa“ a sám se účastní činnosti, které dříve jen přihlížel). Tlumenost výrazu v pásmu putování dává ovšem o to více vyniknout lexikálně bohatějším a výrazově vypjatějším pásmům „marnosti světa“ a „ráje srdce“ a činí je o to působivějšími.

[159]Je tedy zřejmé, že nejen značná rozmanitost a bohatství slovníku, ale naopak i jeho redukovanost a omezené rozpětí může mít významnou úlohu v textu; nejen pestrost a živost výrazu, ale i jeho značná stereotypnost se může podílet na celkové působivosti díla. Obecně vzato, na širší využití této skutečnosti v textu lze poměrně spolehlivě usuzovat ze vzájemného poměru dvou z výše uvedených tří kvantitativních textových charakteristik: v případech, kdy vedle relativně vysoké hodnoty rozptýlení slovníku D je zjištěna i relativně vysoká hodnota koncentrace slovníku K, jde s velkou pravděpodobností o text polarizovaný podobným způsobem jako Labyrint, tj. o text složený z několika částí nebo pásem se značně rozdílnou bohatostí slovníku. Pokud však můžeme usuzovat z dostupných kvantitativních údajů o dílech některých našich starších i současných autorů, není taková polarizace v českých textech příliš obvyklá, alespoň ne v tak výrazné podobě, v jaké se s ní setkáváme u Komenského.

Závěrem je možno upozornit ještě na jednu poněkud paradoxní skutečnost: i lexikálně oslabené „pásmo putování“, které představuje nejnižší vrstvu metaforiky Labyrintu a které je na mnoha místech zredukováno na nezbytné minimum, ukazuje nakonec J. A. Komenského jako autora s velmi jemným jazykovým citem. Komenský totiž dokázal nejen toto pásmo na potřebných místech téměř zcela odsunout do pozadí pomocí opakovaného užívání řady jednoduchých zautomatizovaných vyjádření, jak bylo naznačeno; současně dokázal toto opakování a stereotyp začlenit do textu tak, že si ho čtenář při souvislém čtení Labyrintu buď vůbec neuvědomuje, nebo ho nevnímá rušivě. Lze dokonce říci, že svědectví, které o Komenského citu pro jazyk a výstavbu textu vydává při svém sníženém bohatství slovníku „pásmo putování“, je v jistém smyslu ještě přesvědčivější než to, které lze vyčíst z těch Komenského textů (popř. jejich částí), v jejichž bohaté lexikální náplni se věrně obráží vypjatá myšlenková či citová náročnost vyjadřovaných obsahů.


[1] I. Němec, Nová slova Husova a J. A. Komenského, SaS 31, 1970, s. 313–324.

[2] M. Těšitelová, Otázky lexikální statistiky, Academia, Praha 1974, s. 60n.

[3] Tamtéž, s. 71.

[4] Viz např. G. Herdan, The advanced theory of language as choice and chance, Berlin-Heidelberg-New York, Springer Verlag 1966, s. 75 a 77.

[5] Dílo cit. v pozn. 2, s. 71n.

[6] D. cit. v pozn. 2, s. 71 a 72.

[7] D. cit. v pozn. 2, s. 73.

[8] K tomu srov. d. cit. v pozn. 2, s. 71.

[9] D. cit. v pozn. 2, s. 61 aj.

Naše řeč, volume 77 (1994), issue 3, pp. 153-159

Previous Dušan Šlosar: Substantivní kompozita typu V-(K)-S v češtině

Next Renata Blatná: Česká morbidní slovní zásoba ve vztahu k expresivitě