Časopis Naše řeč
en cz

Kvantitativní lingvistika a Marie Těšitelová

Vladimír Šmilauer

[Reviews and reports]

(pdf)

-

I.

1. Když jsme začátkem dubna oslavovali šedesátiny Marie Těšitelové, byl jsem dotázán, co to vlastně je lingvistika matematická a kvantitativní, co je to lexikální statistika a jaký je jejich vzájemný poměr. Tazatel není se svou nejistotou sám — vždyť jde o vědu mladou. Pokusíme se proto uvedené termíny vysvětlit a připojit stručný výklad o podílu M. Těšitelové na rozvoji tohoto oboru.

2. Vezmeme-li např. spojky protože a poněvadž, běžná kvalitativní lingvistika o nich řekne, že jsou to spojky podřadicí příčinné, a doloží to několika příklady. Naproti tomu kvantitativní lingvistika řekne: Spojka protože je v 1 623 527 dokladech, shromážděných pro dílo „Frekvence slov, slovních druhů a tvarů v českém jazyce“ 1961 (dále jen FSČ), zastoupena 1224 doklady, a to v 63 dílech (z možných 75) a ve všech stylových skupinách („funkčních stylech“); nejvíce dokladů má v beletrii (477), v literatuře pro mládež (263) a v dramatech (152); v pořadí slov podle jejich častosti je na místě 134. Naproti tomu spojka poněvadž má dokladů jen 374 v 19 dílech, a to zvláště v literatuře odborné (153) a vědecké (107); v básních není doložena vůbec (zatímco spojka protože se tam vyskytuje 489krát). Z toho poučení: protože je spojka běžná, poněvadž je především v próze naukové.

3. Matematická lingvistika je pojem širší. Patří do ní vedle kvantitativní lingvistiky také lingvistika někdy zvaná algebraická, užívající vyšší matematiky (teorie množin, automatů atd.) a pracující na překladech pomocí samočinných počítačů. Celá matematická lingvistika vychází z lingvistiky kvalitativní, a stále prohlubujíc své metody, jazykovou skutečnost nejen popisuje, nýbrž také vykládá, objevuje dosud nepovšimnuté vlastnosti jazyka, určuje vzájemné vztahy jevů a tím obohacuje lingvistiku kvalitativní.

41. Lexikální statistika je odvětvím kvantitativní lingvistiky nejstarším, nejznámějším a také nejvíce propracovaným. První se jí zabývali těsnopisci. Těm záleželo především na tom, aby zjistili slova v jazyku nejčastější (pro ty užívají zkratek, tzv. samoznaků). Toho původu je první velký slovník srovnávající slova podle častosti (F. W. Käding, Häufigkeitswörterbuch der deutschen Sprache, 1897, založený na excerpci jedenácti miliónů slov). U nás vznikaly takové seznamy mnohem skromnější (např. J. Sedláčka, 1924). Druhými velkými zájemci byli učitelé. Při vyučování pravopisu jim šlo o to, aby se žáci naučili správně psát především ta slova, kterých budou užívat (tedy ze slov, kde se po m píše y, musí žák znát slovo myš, nikoli však čmýří). Podobně učitelé cizích jazyků chtějí žáky naučit [196]především slovům nejběžnějším (tzv. slovníkovému minimu). I u nás máme řadu takových publikací. V letech třicátých a čtyřicátých vydal takové slovníky pro němčinu, francouzštinu a angličtinu K. Kumprecht (se spolupracovnicemi). Po válce sestavili takové slovníčky pro ruštinu A. Střížová (1948) a F. Malíř (1952).

42. Brzy však přerostly tyto praktické pomůcky v slovníky vědeckého zaměření. Průkopníkem tu byl prof. Václav Příhoda, který žádal velký slovník založený na exceprci 2 500 000 slov. První malou splátkou na to byl „Slovník našich novin“ manželů Korejsových (1938; zpracovali jedno číslo „Národního osvobození“ z r. 1928 o 45 424 slovech). Za války se do velkého slovníku pustil didaktický odbor Kruhu přátel českého jazyka, užívaje ochoty učitelstva z některých okresů. Podle pokynů pro tabulaci (jak se tenkráte říkalo) zapisovala se nejen slova, nýbrž se určovaly i slovní druhy a kategorie (rod, číslo, osoba atd.). Koncem roku 1945 odevzdal odbor Výzkumnému ústavu pedagogickému excerpci z 25 knih v počtu 936 000 lístků. Bohužel však nebylo možno této zásoby plně využít, jednak proto, že mezi dobrými excerpcemi byly také excerpce nespolehlivé, jednak, že vedením ústavu byli stanoveni autoři jiní. Oddělení českého jazyka, vedené bývalým jednatelem didaktického odboru, doc. dr. Jaroslavem Jelínkem, myšlenku slovníku realizovalo. Vydatnými pomocníky Jelínkovými byli M. Těšitelová a J. V. Bečka. V roce 1951 byl slovník, zpracovávající přes půldruhého miliónu slov z 75 děl osmi stylových skupin, úplně hotov. Ale — přes všechnu opatrnost — slovník nenašel pochopení u vedoucích lingvistů a zůstal ležet. Teprve když přišel do Prahy Jaromír Bělič, prosadil, že slovník r. 1961 vyšel. Tímto zdržením byla však ztracena priorita FSČ v tom, že se počítala nejen slova, nýbrž i všechny kategorie. R. 1953 vydal totiž v USA H. H. Josselson dílo „The Russian Word Count and Frequency Analysis of Grammatical Categories of Standard Literatury Russian“.

51. Sestavíme-li všechna slova podle počtu dokladů, vzniknou nám (jak určila M. Těšitelová) tři pásma. První, největší, tvoří prvních deset slov: v uměleckých textech jsou to slova formální (ve FSČ: a, býti, ten, v, on, na, že, s, z, který), v odborných textech též slova souvisící s tématem (v knize o motorech to bude zajisté slovo motor). Toto první pásmo obsahuje 18,5 % všech dokladů. Druhé, střední pásmo sahá od 11. místa v pořadí až k počtu 10 dokladů (ve FSČ 27 %). Třetí pásmo, nízké, se slovy o devíti až jednom dokladu (čím nižší pořadí, tím více slov; např. v Mařánkově Barbaru Vokovi je slov s třemi doklady 214, se dvěma 431, s jedním 1197) tvoří ve FSČ 54,5 %. Čím bohatší je pásmo první, tím je slovník knihy koncentrovanější, čím bohatší je pásmo třetí, tím je slovník rozptýlenější. To dává cenné poučení: učíme-li cizince česky, začneme knihami se slovníkem hodně koncentrovaným (bývají to texty odborné).

52. Velkou potíží při sestavování frekvenčního slovníku jsou slova tematická. Kdybychom posuzovali slovník některého jazyka jen podle jedné [197]knihy, dověděli bychom se např., že je velmi důležité slovo Eleonora nebo rakovina, protože naším pramenem byl román o Eleonoře nebo pojednání o rakovině. Tato potíž se omezuje tím, že se vychází z mnoha knih nejrůznějšího druhu: tím se vysoké zařazení tematických slov ruší. Dobré jsou slovníky speciální, jako je např. J. V. Bečky „Lexikální složení českých odborných textů technického zaměření“, 1973 nebo německé „Fachwortschatzy“ L. Hoffmanna pro lékařství, fyziku a chemii, 1970 a 1973. Velké frekvenční slovníky, založené na textech psaných, nemají plnou hodnotu např. pro turisty. Známým příkladem je slovo rohlík. Turista v cizí zemi je jistě potřebuje, ale ve FSČ má jen devět dokladů, stejně jako méně potřebné vychýlit se, zabouřit. Jinou nesnáz působí mnohoznačnost některých slov. Tak např. pod heslo hlava přijde nejen hlava lidská nebo rybí, ale také hlava ze spojení „v hlavách postele, ztrácet hlavu, hlava státu, hlava hřibu, kočičí hlavy, hlava šroubu, druhá hlava stanov“ atd. Tato závada se cítí obecně a byl už učiněn pokus o slovník sémantický (M. West, A General Service List of English Words with Semantic Frequencies, 1973, kde se v procentech udávají významy podle Oxfordského slovníku). Sémantický slovník je práce nesmírně obtížná, protože slovníky udávají u téhož slova různý počet významů (u hlava má Slovník spisovné češtiny sedm významů, kdežto Slovník spisovného jazyka českého čtrnáct), a protože, jak každý lexikograf ví, je mnoho případů (zvláště u sloves), kdy zařazení není dost jasné.

53. Lexikální statistika není zdaleka celá kvantitativní lingvistika. Velmi důležitá je např. i statistika tvaroslovná (morfologická), zvláště statistika slovních druhů. Ta nám např. ukáže, že podstatná a přídavná jména a slovesa tvoří 86,96 % slovní zásoby. Zajímavé jsou údaje o počtu různých kategorií. Nejdůležitější údaje lze nalézt v Nauce o českém jazyku, §§ 6-0, 6-1, 6-99. Např. v dramatě není přechodník minulý vůbec zastoupen, přechodník přítomný tvoří jen 0,4 %. Jiným zajímavým případem je rozvíjení přídavnými jmény; u Vančury je počet těchto případů 0,61 (tj. rozvito je asi každé třetí podstatné jméno), kdežto v Chocholově knize „Spalovací motory“ je to 0,903 (nerozvito zůstává až každé desáté jméno).

54. Skladební statistika měří délku věty (počtem slov), počet i umístění větných členů, složení souvětí. Některé ukázky:

(a) Jednoduchá věta má v průměru 4,97 slov, klauze (tj. věta v souvětí) 4,35 slov.

(b) Počet větných členů v jednoduché větě: přívlastků 32,96 %, příslovečných určení 21,80 %, prísudků 15,83 %, podmětů 13,34 %, předmětů 11,31 %, doplňků 0,40 %. V souvětí je více přísudků (21,48 %) a doplňků (0,86 %).

(c) Nejčastější typ souvětí se skládá ze dvou vět hlavních (30,76 %), následuje typ „věta hlavní + věta vedlejší“ (22,77 %), příznačný pro odbornou prózu (42,45 %). Třetím nejčastějším typem jsou tři věty hlavní (10,5 %). Ve všech případech jsou však velké výkyvy podle slohového dru[198]hu. Typ souvětí o dvou hlavních větách má v dramatě 63,41 %, v odborné próze 8,95 %. Přívlastků je v dramatě 11,24 %, v odborném jazyce 38,39 až 46 %. Souvětí je mezi větnými celky („od tečky k tečce“) v dramatě 4,36 %, v novinách 14,61 %, v odborné próze 18,87 % apod.

55. Počítat se ovšem dá i mnoho jevů jiných: hlásky (fonémy, nejvíce je samohlásek e, o, a), písmena, první hlásky ve slovech atd. Zajímavé je složení slabiky: nejčastější je typ „souhláska + samohláska (ja-) 59,16 %, souhláska + samohláska + souhláska (-pon-) 16,84 %, souhláska + souhláska + samohláska (-ský) 9,34 %. Na všechny ostatní možnosti zbývá tedy jen 14,66 %.

56. Ponecháme-li stranou některá užití zvláštní, jako je ilustrace jazykových typů (flexívní, aglutinační atd.), zjišťování příbuzenství mezi nářečími (např. indiánskými, kavkazskými) atd., zbývá nám zmínit se ještě o statistice slohové. Ta je jakýmsi souhrnem poměrů v jednotlivých rovinách jazyka. Dílo (ev. jeho autor) se charakterizuje zásobou slovní (mírou koncentrovanosti nebo rozptýlenosti), počtem slovních druhů (poměr druhů jmenných a slovesných), počtem předponových sloves (v odborné próze mnohem častější než jinde), délkou vět a souvětí, poměrem vět jednoduchých a souvětí atd. Ale najdou se ještě kritéria další; tak např. slovenský jazykovědec J. Mistrík počítal poměr sloves dokonavých a nedokonavých: sloh je tím dynamičtější, čím více je sloves dokonavých. Bohužel ještě žádný takový podrobný portrét nebyl vypracován. Pravé hodnoty pak nabude, až bude možno jej srovnávat s jinými.

6. Praktická hodnota kvantitativní lingvistiky je mnohostranná:

O významu pro těsnopisce a pro vyučování pravopisu jsme již mluvili.

Statistika pomáhá pochopit některé jevy jazykové. Dobrým příkladem je postupný přechod od vzoru „kost“ ke vzoru „píseň“. Nejprve přecházejí 3. a 6. pád množného čísla (hruď, myš), pak 7. pád množný (moc, noc), konečně pak ostatní pády množné a 2. pád jednotného čísla (ostatní pády byly se vzorem „píseň“ shodné od počátku). Vysvětlení je v tom, že 3. a 6. pád množný má frekvenci (v procentech) 1,03 a 2,37; 7. p. množný 2,22, kdežto 1. p. mn. 5,94, 4. p. mn. 4,87 a 2. p. jednotný 16,92. Čím častěji se totiž některého tvaru užívá, tím pevnější má postavení. Jména na -ost si uchovala původní skloňování, protože je velké množství podstatných jmen tvořených příponou -ost („Retrográdní morfematický slovník češtiny“ E. Slavíčkové jich uvádí asi 2300). O využití statistických metod v gramatice vydala nyní M. Těšitelová knihu.

Pro vyučování cizinců češtině by bylo možno sestavit katalog doporučených knih, které by byly srovnány podle míry koncentrovanosti slovníku. FSČ data pro jednotlivé autory neuvádí, ale připravovaný nový slovník by na to měl pamatovat.

Důležité je řešení tzv. sporného autorství frekvenčními daty. Každý autor [199]má jisté osobité znaky a je možno podle nich zjistit jeho autorství. Tak např. bylo shledáno, že ze 14 epištol připisovaných apoštolu Pavlovi jen čtyři jsou skutečně jeho, kdežto ostatní mají autory jiné. U nás tímto způsobem řešil P. Vašák otázku, pocházejí-li některé články od J. Nerudy, nebo od J. Baráka.

Zvláštní význam má (spíše: bude mít) kvantitativní lingvistika pro překladatele. Ti vědí, že nelze překládat slovo za slovem, tvar za tvarem, protože pak nevznikne text psaný češtinou, nýbrž „překladatelštinou“. Dosud jsou však odkázáni jen na vlastní jazykový cit. Až budou mít tabulky ukazující, že v tom onom jazyku jsou např. přechodníky, vedlejší věty mnohem častější než v češtině, bude jim práce ulehčena.

Důležitý je ovšem podíl kvantitativní lingvistiky v srovnání (konfrontaci) jednotlivých jazyků a jednotlivých funkčních stylů.

II.

7. PhDr. Marie Těšitelová, DrSc., se s kvantitativní lingvistikou seznámila, jak už bylo řečeno, ve Výzkumném ústavu pedagogickém při práci na FSČ. Tenkráte provedla velmi podrobný průzkum knihy K. Čapka „Život a dílo skladatele Foltýna“ (výsledky uveřejnila v Naší řeči 32, 1948, 126—130). Když roku 1956 přešla do Ústavu pro jazyk český, pracovala v různých odděleních a kvantitativní lingvistiku pěstovala spíše jen jako soukromého koníčka. Teprve r. 1965 přešla do oddělení matematické lingvistiky a r. 1967 se stala jeho vedoucí.

8. Úkol oddělení (tj. všestranná kvantitativní analýza současné spisovné češtiny) je nesmírně složitý a obtížný.

Rozmanitost jazyka podle tzv. funkčních stylů úkol velmi ztěžuje. FSČ jich rozlišoval osm, čtyři umělecké (beletrie, básně, literatura pro mládež, dramata), čtyři odborné (populárně vědecká literatura, noviny, vědecká literatura, řeči). Zastoupení bylo ovšem nestejné: beletrie měla 30 % dokladů, mluvené projevy jen 6 %. V novém frekvenčním slovníku bude spojena literatura vědecká a populárně vědecká (rozdíly nejsou velké); přibude však sloh administrativní; mluvený sloh bude rozdělen na sloh přednáškový a hovorový (jednak monologický, jednak dialogický). V každém stylu jsou rozdíly mezi autory a rozdíly i u téhož autora (beletrista má jiný jazyk, líčí-li, uvažuje-li, vypravuje-li klidně, nebo vzrušeně). V novém frekvenčním slovníku má být zastoupena umělecká literatura 50 % (FSČ 61 %), publicistická 15 (FSČ 8), po 5 % má být zastoupen sloh administrativní a hovorový. Knihy se nebudou excerpovat celé, nýbrž jen z každé 3000 slov, a to ze začátku knihy (sám bych byl pro výběr z celé knihy, tedy např. z každé desáté stránky; tím se spíše zachytí různé vrstvy; např. v Olbrachtově Nikolovi Šuhajovi je podstatný rozdíl mezi počáteční partií a dramatickým středem knihy).

Těžkosti jsou už s pojmem slovo. Nejpohodlnější by bylo (zvláště pro [200]samočinný počítač) počítat jen slova grafická (byl bych býval přišel — čtyři slova). Tím se však vzdáváme zjištění frekvence složených tvarů slovesných a posunujeme i pořadí (sloveso být v slovníku Mistríkově, který tak postupoval). A dále: jen pozorný pracovník (nikdy ne stroj) pozná, jde-li ve větě „Hoch byl dobře vychován“ o trpný rod (k činnému „dobře ho vychovali“) nebo jde-li o být + přídavné jméno (= způsobný). Je rozdíl mezi zvratným se v „učesala se“ a „ptala se“. Potíže dělají sdružená pojmenování. Kolik slov je vstávaje lehaje, vlčí mák, paví oko (motýl)? Pojem je to jeden, slova dvě. Spřežky pokládáme za slovo jedno, ať už píšeme bez pochyby nebo bezpochyby, bůh sám ví nebo bůhsámví (ale stroj to nepozná). Možno mít námitky proti praxi FSČ, že třetí stupeň přídavných jmen se počítá k stupni druhému, ač z hlediska slovotvorného není rozdílu mezi prastarý a nejstarší. Starosti jsou s číslovkami. Číslice se nevypisují, ale je přece možno touž číslovku vyjádřit slovně nebo číslicí. A když ji vypíšeme, kolik slov je pět tisíc dvě stě třicet jedna? Psaní dohromady platí jen pro poštu. S pojmem částice naše statistiky nepracují, protože do mluvnic vnikl dost pozdě a dlouho to byl pojem neurčitý (až Slovník spisovné češtiny v tom udělal pořádek). — Pro všechny takové případy stanovila M. Těšitelová jedině správnou zásadu: způsob jednou přijatý je třeba všemi a všude přísně dodržovat.

Velmi nepříznivé jsou poměry pro statistiku skladební. Naše mluvnice se neshodují v mnoha podstatných věcech: hranice mezi předmětem a příslovečným určením, šíře pojmu přístavek, počet vět v případech jako „Vítr dul a dul“ atd. — I zde platí zásada, že řešení jednou přijaté je nutno důsledně zachovávat.

9. K zvládání těchto nesmírně složitých a obtížných úkolů, k vnášení pořádku do zmatků mladé vědy má dr. Těšitelová dobré předpoklady.

Kvantitativní lingvistiku chápe v širokém, světovém rámci. Sleduje všechnu světovou literaturu, která může přinést poučení pro naši vědu (její disertační práce z r. 1951 uvádí v bibliografii 80 titulů, kdežto její skripta „Kvantitativní lingvistika“ z r. 1977 mají už 487 čísel). Velmi cenným plodem tohoto širokého zájmu byla bibliografie „Kvantitativní lingvistika“, která vycházela od r. 1965 až do r. 1972, kdy byla Státní knihovnou zastavena. Bibliografie, na jejímž zpracování se vedle redaktorky M. Těšitelové podílela řada spolupracovníků (ve všech svazcích to byli J. Kraus, M. Ludvíková, L. Uhlířová), přinášela v každém ročníku přes 200 záznamů, opatřených důkladnými anotacemi. Tato bibliografie bude nyní pokračovat.

Cizí podněty a pozorování se však přijímají velmi kriticky a střízlivě. Někteří cizí badatelé, okouzlení matematikou, se snažili vytvořit pro kvantitativní lingvistiku obecně platné zákony nebo formule, zapomínajíce, že jazyk jako jev společenský nemůže mít tak obecně platné zákony jako např. fyzika. M. Těšitelová vyvrátila tzv. Zipfovy zákony, tvrdící např., že násobek frekvence a tzv. ranku (tj. skupin slov se stejnou frekvencí) je konstantní, [201]a to ve všech jazycích („konstanta“ v druhém zákonu Zipfově je pro češtinu v rozmezí 2450 a 7740). Francouzský badatel F. Guiraud stanovil formuli, že poměr mezi slovy formálními a plnovýznamovými je 50:50. Pro češtinu však vypočítala naše badatelka, že formálních slov je 31 až 25 %, kdežto plnovýznamových 69 až 75 %.

A tak, vždy kritická a střízlivá, povznesla M. Těšitelová českou kvantitativní lingvistiku na velmi vysokou úroveň. Ta se uplatňuje v její publikační činnosti. Vedle početných studií v časopisech a sbornících, psaných česky, anglicky a německy, vydala řadu knih: Frekvence slov, slovních druhů a tvarů v českém jazyce (s J. Jelínkem a J. V. Bečkou), 1961, O morfologické homonymii v češtině, 1966, Otázky lexikální statistiky, 1974, Kvantitativní lingvistika, 1977, Využití statistických metod v gramatice, 1980.

Připojíme-li další rysy M. Těšitelové, neutuchající nadšení pro věc, neúmornou píli, statečnost tváří v tvář těžkým problémům, ať už vycházejí od lidí nebo z věcí, smysl pro výchovu mladých pracovníků (pořádá pro ně pravidelně semináře), vidíme, že je to „pravá žena na pravém místě“, které upřímně přejeme, aby ještě dlouho mohla pokračovat ve své plodné práci v dobré pohodě a dobrém zdraví.

Naše řeč, volume 64 (1981), issue 4, pp. 195-201

Previous Antonín Rubín: K dvěma výročím Ústavu pro jazyk český ČSAV

Next Věra Petráčková: K výročí Oldřicha Hujera (1880—1980)