Časopis Naše řeč
en cz

100 let od vydání prvního frekvenčního slovníku

Marie Těšitelová

[Články]

(pdf)

-

V tomto roce uplyne 100 let od vydání frekvenčního slovníku, který svým cílem, metodou i uspořádáním základních výsledků patří na první místo mezi frekvenčními slovníky 20. století. Je to německý frekvenční slovník F. W. Kädinga Häufigkeitswörterbuch der deutschen Sprache (Steglitz 1897, 643 s.). Podnět k němu dal pracovní výbor německých těsnopisců r. 1891. Přes speciální zaměření k úkolům těsnopiseckým byl slovník založen na promyšlených obecných zásadách, takže z nich později s užitkem vycházely mnohé frekvenční slovníky jiných jazyků i s odlišným zaměřením, zvláště v první polovině 20. století.[1] Kädingův slovník si tedy právem zaslouží, abychom po stu letech vzpomněli nejen jeho vzniku a některých jeho výsledků, ale i hlavních zásad, z nichž mnohé jsou živé podnes. To platí i v době plného využívání moderní výpočetní techniky, která kvantitativní lexikografii koncem 20. století samozřejmě ovládá, ačkoli Kädingův slovník sám byl vypracován ručně, bez pomoci jakékoli techniky.[2]

Kädingův frekvenční slovník se skládá ze dvou dílů: první uvádí data týkající se frekvence slov a slabik, druhý frekvenci písmen (Buchstabenzählungen), ve skutečnosti frekvenci hlásek (ve vztahu k slovu-lexému, tvaru slova a slabice).

V úvodu Kädingova slovníku se dobře předvídá, že zjišťování frekvence slov, slabik a hlásek má – i bude mít – důležitý význam nejen pro těsnopis, ale i „pro mnohé otázky jazykového bádání“. Vývoj 20. století dal této prognóze plně za pravdu: o frekvenční výzkum se opřela významná oblast lingvistiky – kvantitativní lingvistika, která zasáhla do výzkumu na všech základních jazykových rovinách (srov. pozn. 1 a 2).

Dále důraz na „zákon velkých čísel“ v Kädingově slovníku ukazuje, jaký význam má rozsah materiálu pro frekvenční slovník, aby výsledky kvantitativní analýzy byly reprezentativní, aby se eliminoval počet slov (jednotek) s nízkou frekvencí apod. Nadměrný výskyt některých slov při kvantitativní analýze je vykládán závislostí na tematice analyzovaných textů, což mimo jiné potvrdily i další kvantitativní výzkumy v tomto století. Tyto i některé další zásady byly zejména v kvantitativní lingvistice během 20. století propracovávány (srov. pozn. 1 a 2), pokud jde např. o stanovení jednotky kvantitativní analýzy (zvláště [191]slova, ale i jednotek nižších i vyšších než slovo) a volbu materiálu (analyzovaných textů) apod.

Jako jednotka textu se v Kädingově slovníku uvádí slovo, v podstatě tvar slova (slovoforma). Existencí členu roste v němčině počet slov formálních (Formwörter), která patří – jako ostatně ve většině jazyků – k nejčastějším slovům v jazyce vůbec, srov. u Kädinga: die, der, und, zu, in, ein, an, den, auf, das atd.

Mezi slova formální Käding řadí: a) zájmena (srov. např. nejč. sie, sich, er, es, ich, man, wir, ihm, diese, ihr aj.), b) adjektiva kvantitativní a číslovky (einzelnen, halb, zwei, einmal, beiden, drei aj.), c) člen (die, der, ein apod.), d) slovesa abstraktní (sic), tj. tzv. pomocná a modální (ist, war, werden, hat, sein, sind, haben, kann apod.), e) adverbia (tzv. nekvalitativní, neodvozená od adjektiv), srov. nicht, so, auch, her, noch, nur, recht apod., f) předložky (zu, in, an, auf, von, mit atd.), g) spojky (und, dass, als, wie, aber, wenn apod.), h) citoslovce (v Kädingově slovníku nejsou doložena).

Vedle slov formálních rozlišuje Kädingův frekvenční slovník tzv. slova plnovýznamová, řečeno pozdější terminologií lexikální statistiky, u Kädinga označována jako „Begriffswörter“ a „Stoffwörter“. Ta se pak dále třídí na a) substantiva (nejč. např. Zeit, Ordnung, Haupt, Herr, Lage atd.), b) kvalitativní adjektiva (weisse, grossen, liebe, gut, weiss atd.), c) konkrétní (sic) slovesa (nehmen, kommen, lassen, geben, halten, macht, sehen, stand atd.), d) kvalitativní adverbia (odvozená od adjektiv) (gut, weiss apod.).

Zřetel k slovním druhům je výrazným rysem třídění slov nejen v Kädingově slovníku, nýbrž i ve většině frekvenčních slovníků, které během tohoto století vznikaly. Vynutila si to v podstatě sémantická stránka slova, i když u většiny z nich byla stránka formální (vzhledem k počitatelnosti jednotek textu) základním východiskem.[3]

Zvláštní pozornosti si dále v Kädingově slovníku – i po stu letech – zaslouží výběr korpusu (materiálu), a to po stránce jak (1.) kvantitativní, tak i (2.) kvalitativní.

Ad 1: Při „ručním“ sběru materiálu budí úctu a obdiv jeho rozsah: 10 910 777 slov (slovoforem), z toho připadá 258 173 na různé tvary slov. Vzhledem k tomu, že šlo o frekvenční slovník určený pro práci stenografů, členila se slova především na slabiky (v daném korpusu je to asi 20 000 000 slabik), dále i na jednotky nižší (písmena, resp. hlásky). K těsnopisným účelům bylo třeba rozkládat slova i z hlediska morfematického, a to na předpony, kmeny (Wortstämme) a tzv. Nachsilben, tj. sufixy (Nebensilben) a koncovky (Endungen). Se zřetelem k zvláštnímu postavení a frekvenci složených slov v slovotvorbě němčiny stálo řešení této problematiky v Kädingově slovníku mnoho úsilí, a to po stránce jak [192]věcné, tak i technické. Např. oddělitelné předpony a části složených slov byly zapisovány na různě barevné lístky.

Z hlediska slovotvorného byl v Kädingově slovníku odlišován rozklad slov nesložených (jednoduchých) od složených. U slov jednoduchých byly oddělovány předpony od slov základových (např. ein- kaufen), ev. od kořenů a sufixů (např. Ein- käuf-er). U slov složených byly nejprve odděleny předpony a potom následovalo členění na kmeny, sufixy a koncovky (např. Ein- kauf-s-ab-teil-ung-en). Všechny slovotvorné prvky byly zaznamenávány zvlášť a potom řazeny podle frekvence, ev. podle abecedy. A tak vedle frekvence analyzovaných slov Kädingův slovník obsahuje velký počet seznamů předpon, sufixů a koncovek, výskyt samohlásek a souhlásek v předponách, kmenech, sufixech a v koncovkách apod. Stranou byla ponechána pouze slova s frekvencí 1–3, která jsou podle Kädinga pro těsnopisné účely irelevantní. V této souvislosti autor správně poznamenává, že pro některá jazyková studia mohou mít tato slova zvláštní význam (srov. pozn. 2).

Ad 2: Z hlediska kvalitativního zaslouží v Kädingově slovníku zvláštní pozornosti i výběr materiálu. Jde o souvislé texty z oborů, v nichž se nejčastěji – koncem minulého století – užívalo těsnopisných zápisů. K tomu účelu bylo vybráno celkem 16 tematických oblastí, např. právnická, obchodní (všeho druhu), náboženská, medicínská, historická, tzv. smíšená (časopisy a knihy, zřejmě nejen odborné), vojenská (i včetně dopisů s touto tematikou) apod. Do korpusu byly vybrány např. i soukromé dopisy, kniha o vynálezech, bible (100 000 slov), parlamentní řeči a literatura národohospodářská apod. O vhodnosti výběru většiny zvolených tematických oblastí textů nás přesvědčuje srovnání s výběrem českých textů pro těsnopisné účely, např. pro frekvenční výzkum poměrů v českém jazyce, který plánoval v letech 1940–1943 První pražský spolek stenografů za vedení B. Trnky,[4] a práce Státního ústavu těsnopisného v Praze v 60. letech.[5] Jde ovšem o práce rozsahem materiálu daleko skromnější, které se však s výběrem tematiky textů s Kädingovým slovníkem v základních rysech shodují.

Uvedené obecné principy, o něž se Kädingův frekvenční slovník němčiny opírá, staly se po celé 20. století významnou součástí zásad pro řadu prací z oblasti kvantitativní lingvistiky, a to nejen statistiky lexikální. Jde i o oblasti, které se konstituovaly během tohoto století, zejména statistika grafematická a fonologická, ale i gramatická, zvláště morfologická a slovotvorná (té bylo až dosud věnováno relativně málo pozornosti, srov. pozn. 1 a 2). Ve všech zmíněných oblastech [193]kvantitativní lingvistiky se inspirativně projevil vliv Kädingova frekvenčního slovníku nejen v jazyce německém, ale i v mnoha jiných jazycích podrobených kvantitativní analýze.

Pokud jde o vliv na studium jazyka německého, uplatnil se Kädingův slovník – zvláště začátkem tohoto století – při pedagogickém studiu jazyka německého, především jako jazyka cizího, ale i při studiu obecnělingvistickém (srov. dále).

Pro potřeby jazykového vyučování byl na základě Kädingova frekvenčního slovníku vypracován např. frekvenční slovník němčiny B. Q. Morgana.[6] Stalo se tak na půdě USA v období, kdy americká jazyková pedagogika opřela vyučování jazyku mateřskému, ale hlavně cizímu o studium frekvence slov, resp. jazykových jednotek, srov. frekvenční slovníky E. L. Thorndika[7] a práce na ně navazující (pozn. 2). Morgan však na rozdíl od Kädinga uvádí jen 2400 nejčastějších slov v němčině. Byl si vědom toho, že materiál Kädingova slovníku i přes svůj velký rozsah nese rysy svého původního určení (těsnopisný výzkum opírající se o jazyk spisovný), a proto ze seznamu slov uspořádaných podle klesající frekvence vypustil asi 320 slov nejčastějších u Kädinga. Tím se chtěl dostat k slovům, která pokládal za relativně více frekventovaná v němčině vůbec. Do svého slovníku Morgan nezařadil seznamy o frekvenci hlásek, některé údaje o tvoření slov v němčině apod. Lze ovšem chápat důraz na specifika jazykového vyučování, zvláště němčině jako jazyku cizímu, ale do značné míry subjektivní a mechanické zásahy do výsledků pořízených k jinému účelu nelze jednoznačně akceptovat.

Tomuto úskalí se chtěl vyhnout H. Bakonyi, který r. 1934 pro pedagogické účely vyšel zejména metodicky ze slovníku Kädingova a připravil slovník slov „nejužívanějších“.[8] Jeho slovník obsahuje 5874 slov, která jsou sem zařazena nejen na základě frekvence absolutní a relativní, ale i podle toho, jak jsou „známá“, resp. „nejznámější“. Tuto znalost slova se snažil zjistit na základě slovní zásoby dětského slovníku, jímž rozšířil materiál slovníku Kädingova. Svůj materiál utřídil Bakonyi do čtyř skupin podle stupně důležitosti; slova označená jako „nejužívanější slova (die gebräuchlichsten Wörter)“ byla tedy vybrána kombinací slov nejčastějších a nejznámějších. Nejčastější slovo – samo o sobě – nemusí být nejznámější (jako příklad uváděna slova jako Mund (‚ústa‘), Finger (‚prst‘) apod.).

Na základě kombinování slovníku Kädingova a Bakonyiho vypracoval u nás r. 1936 K. Kumprecht pomůcku pro vyučování němčině jako cizímu jazyku.[9]

[194]Ze slovníku Kädingova vyšla ještě déle než po půl století (r. 1964) obsáhlá dvoudílná práce H. Meiera,[10] kterou můžeme zařadit do druhé velké skupiny prací založených na Kädingově slovníku pro potřeby lingvistiky samé. V prvním díle se autor zabývá např. hodnocením textů z různých vědních oborů určených pro kvantitativní analýzu jazykových jevů jednotlivých jazykových rovin, zvláště gramatické (především morfologické), ale i stylistické. Pozornost věnuje i problematice statistiky hlásek a písmen i jejich praktickému využití.

Druhý díl Meierovy práce je v podstatě nově utříděným frekvenčním slovníkem Kädingovým. Část A obsahuje abecední seznam slov do frekvence 10, část B slova uspořádaná podle klesající frekvence, a to od nejvyšší (349 553) po nejnižší (1). Tato slova (v podstatě tvary slov, srov. výše) jsou utříděna do 12 frekvenčních stupňů (Häufigkeitsstufen), které jsou dány frekvenčními intervaly. Podle této stupnice autor stanoví tzv. spektra různých textů i jazykových jevů v nich. V části C je připojen frekvenční seznam 2240 slov plnovýznamových (Begriffswörter).

Meierova práce, vyznačující se „německou důkladností“, sice ukázala životnost Kädingova frekvenčního slovníku (jeho materiálu i jeho výsledků) a pokusila se o novou – z hlediska 60. let – interpretaci zjištěných kvantitativních dat, bohužel však způsobem často sporným a značně subjektivním. Přesto však dobře dokládá speciální poslání děl typu Kädingova frekvenčního slovníku, a to nejen v oblasti kvantitativní lingvistiky.

Kädingův frekvenční slovník německého jazyka je totiž příkladem toho, jak lingvisticky a metodologicky dobře založené a zpracované dílo může sloužit – s jistou nadsázkou řečeno – téměř po celé století. Po mnoha stránkách může být užitečné nejen pro obor, jemuž bylo původně určeno, ale může být i bohatým zdrojem inspirací pro jiné obory. Jde především o lingvistiku samou, ale i o jiné oblasti, např. o pedagogiku, resp. didaktiku vyučování jazyku mateřskému i cizímu, apod. V neposlední řadě má Kädingův frekvenční slovník důležitý význam pro kvantitativní lingvistiku, k jejímuž konstituování během 20. století nemálo přispěl. Zhodnocuje její výsledky zejména tím, že může fungovat jako „norma“ pro posouzení významnosti výsledků nových, vývoje jazykových jevů, jejich souvislostí apod. Podněcuje vznik nových prací v oblasti kvantitativní lingvistiky ve shodě s vývojem lingvistiky, popř. i jiných věd, zvl. tzv. interdisciplín, a s rozvojem moderní techniky, zvl. výpočetní. V tom všem spočívají charakteristické rysy frekvenčního slovníku ve vlastním slova smyslu.


[1] M. Těšitelová, Kvantitativní lingvistika, Lingvistické příručky UK, 1. vyd., SPN, Praha 1977, 2. vyd. 1987.

[2] M. Těšitelová, Quantitative Linguistics, Academia, Praha 1992.

[3] M. Těšitelová, Otázky lexikální statistiky, Academia, Praha 1974.

[4] M. Těšitelová, O historii české kvantitativní lingvistiky (Příspěvek k historii lingvistiky), Praha 1993 (rukopisná práce), zvl. s. 92n.

[5] J. Čáp – K. Matoušek – M. Matula – J. Petrásek, Frekvence slov v stenografické praxi, 1. vyd., Státní ústav těsnopisný, Praha 1961. O významu frekvenčních dat pro těsnopisné účely srov. u J. Krause, Vztah těsnopisu a jazykovědy, NŘ 55, 1972, s. 1–9, a u M. Matuly, Moderní těsnopis, SPN, Praha 1983.

[6] B. Q. Morgan, German Frequency Word Count, 1st Ed. New York 1928.

[7] Např. E. L. Thorndike, The Teacher’s Word Book, 1st Ed. New York 1921; A Teacher’ Word Book of Twenty Thousands Words, 1st Ed. New York 1931–1932 aj.

[8] H. Bakonyi, Die gebräuchlichsten Wörter der deutschen Sprache, 1. Aufl. München 1934.

[9] K. Kumprecht, Nejužívanější slova v němčině, 1. vyd., Praha 1936.

[10] H. Meier, Deutsche Sprachstatistik I/II, 1. Aufl. Hildesheim 1964; I. 406 S., II. 144 S.

Naše řeč, ročník 80 (1997), číslo 4, s. 190-194

Předchozí Jarmila Bachmannová: Mluva mládeže v Podkrkonoší

Následující Lucie Hašová: Romové, nebo Cikáni? — výsledky dotazníkového průzkumu