Časopis Naše řeč
en cz

Průvodce kvantitativní lingvistikou

Věra Vlková

[Posudky a zprávy]

(pdf)

-

Anglicky psaná monografie Marie Těšitelové Quantitative Linguistics (Academia, Praha 1992, 253 s.) vydaná v koprodukci s holandským nakladatelstvím John Benjamins Publishing Company přináší podrobný a ucelený popis vývoje a výsledků kvantitativní lingvistiky jako součásti matematické lingvistiky od jejích počátků až do doby současné. Jádrem výkladů se přitom stává charakteristika posledního stadia vývoje kvantitativní lingvistiky a rozbor a perspektivy jejích přínosů především pro lingvistiku. Ve svých výkladech autorka sleduje dva základní cíle, které podává ve vzájemné propojenosti a syntéze.

První cíl se zaměřuje na teoretické a metodické otázky kvantitativní lingvistiky, především na problematiku terminologickou a na popis a fundovanou analýzu metod výzkumu a výběru materiálu v jednotlivých oblastech kvantitativní lingvistiky (ve statistice lexikální, morfologické, syntaktické a sémantické i v dalších oblastech, jako jsou statistika fonologická, grafematická, stylistická, typologická aj.). Druhým cílem monografie je podat vývoj a výsledky bádání v jednotlivých oblastech kvantitativní lingvistiky, včetně nejdůležitějších publikací českých i cizojazyčných. Kvantitativní lingvistika česká je tu zasazena do rámce kvantitativní lingvistiky světové.

Monografie představuje završení a zobecnění výsledků více než čtyřicetileté badatelské činnosti M. Těšitelové v oboru. Její práce je tu neodmyslitelně spjata s výzkumnou a vědeckou činností oddělení matematické lingvistiky Ústavu pro jazyk český ČSAV, v jehož čele stála téměř 20 let (1967–1985). V základních východiscích monografie se proto zcela přirozeně promítá jak osobní zaměření autorky a jeho dosavadní přínosy a výsledky publikované ve formě monografií, slovníků, i jednotlivých studií, článků, recenzí apod.,[1] tak i teoretické a praktické výsledky komplexního kvantitativního výzkumu současné psané a mluvené češtiny, který byl v sedmdesátých a osmdesátých letech zpracováván v oddělení matematické lingvistiky ÚJČ ČSAV.[2] Kolektivní monografie shrnující výsledky tohoto komplexního výzkumu – frekvenční slovníky současné české publicistiky, administrativy, odborné češtiny a věcného stylu a dále kvantitativní charakteristiky zkoumaných stylů při[216]nášející shrnutí, rozbor a bohatou interpretaci výsledků kvantitativní analýzy z oblasti slovní zásoby, morfologie a syntaxe současné češtiny[3] – vytvářejí spolu s vlastními výzkumnými výsledky M. Těšitelové spolehlivou bázi, o kterou se mohou autorčiny výklady opírat jak z hlediska metodologického, tak i z hlediska věcného. To jí dává příležitost nejen v co nejširším spektru představit naší i světové veřejnosti tradice a výsledky české kvantitativní lingvistiky v celém rozsahu a v celém průběhu vývoje této oblasti, ale také ukázat a ilustrovat na příkladech z českého jazyka obecnou problematiku současné kvantitativní lingvistiky.

Publikace je rozčleněna do sedmi, většinou poměrně rozsáhlých kapitol, z nichž každá podléhá ještě podrobnému vnitřnímu členění. Snaha o paralelní členění jednotlivých kapitol a podkapitol značně usnadňuje orientaci v textu a současně s tím plní i funci syntetickou. V tom se, stejně jako v jasném a přehledném uspořádání výkladu v jednotlivých kapitolách a podkapitolách, opatřených vždy závěrečným shrnutím, nesporně odrážejí autorčiny zkušenosti pedagogické i dlouholetá činnost redaktorská.

První kapitola, která nese název Kvantitativní lingvistika, se zaměřuje na vymezení oboru a na rozbor a výklad základních termínů, které s touto oblastí souvisejí (jak známo, jde především o lingvistiku matematickou, algebraickou a kvantitativní a jejich vzájemné vztahy a souvislosti, o kategorii kvality, kategorii kvantity a jejich vzájemné souvislosti, o kategorii rozsahu, vztah formy a významu, o vztah lingvistiky kvantitativní k lingvistice kvalitativní aj.).

Výklady v celé monografii vycházejí z pojetí matematické lingvistiky jako lingvistické disciplíny, která je založena na využití matematických, popř. i logických metod ke studiu jak přirozených, tak i umělých jazyků. Využívá při tom aplikací metod kvantitativních (jako např. statistika, matematická statistika, počet pravděpodobnosti) i metod nekvantitativních (jako jsou např. algebra, teorie grafů, teorie algoritmů, teorie jazyků, topologie, matematická logika aj.). O toto rozlišení kvantitativních a nekvantitativních metod se pak opírá – zejména v pojetí u nás vžitém – i rozdělení matematické lingvistiky do dvou podoblastí – lingvistiky kvantitativní (v užším smyslu statistické) a algebraické. Přitom je ovšem třeba zdůraznit, že toto rozdělení nelze chápat striktně a vyostřeně, neboť zejména v souvislosti s rostoucími požadavky komplexnosti výzkumu jazyka se obojí metody často doplňují a prolínají.

Kvantitativní analýza se zaměřuje na jazykové jevy všech jazykových rovin (lexikální, morfologické, syntaktické, fonologické, grafematické, slovotvorné atd.) a jejich vzájemné vztahy, přičemž kvantifikace jevů těchto rovin představuje vždy specifickou problematiku, a proto také vyžaduje specifické metody výzkumu. Je třeba podtrhnout, že kvantitativní analýza jazykových jevů vychází z výsledků analýzy kvalitativní, kterou přitom současně také ovlivňuje a obohacuje. O tom, jaký význam to má pro prohloubené poznání jazyka, nelze pochybovat. Kombinace kvalitativních a kvantitativních metod výzkumu jazyka tak nabízí možnost jeho komplexního popisu a charakteristiky, hlubší postižení fungování jednotlivých jazykových jevů v textu, v komunikaci.

[217]Druhá kapitola je věnována metodám výzkumu. Autorka v ní podrobně a přehledně probírá základní zásady a podmínky uplatnění kvantitativních metod. Zaměřuje se zejména na to, jak přesně a jednoznačně vymezit jednotku souboru v jednotlivých oblastech kvantitativní lingvistiky i na jednotlivých jazykových rovinách. Věnuje při tom pozornost nejen řešení těchto otázek pro češtinu, ale upozorňuje i na četné rozdíly mezi jednotlivými jazyky a na odlišné způsoby řešení, které z toho vyplývají. Srov. např. v lexikální statistice pojetí grafické jednotky, slovoformy jako jednotky souboru v jazycích s bohatou morfologií (např. ve slovanských jazycích) a jako lexému, lexikální jednotky v jazycích s relativně chudou morfologií (např. v jazycích germánských a románských). Na obecnější rovině se klade důraz především na to, že pro stanovení jednotky souboru pro statistickou analýzu na kterékoliv z jazykových rovin je nutné brát v úvahu především následující kritéria: jednotka souboru musí co nejlépe vyhovovat požadavkům konkrétní kvantitativní analýzy, musí být v souladu s uspořádáním daného jazykového systému a dále musí být jasně a přesně definována. V průběhu práce je třeba jednotku a její vymezení důsledně zachovávat, aby byla zaručena maximální homogennost analyzovaného souboru.

Dále se autorka zaměřuje na problematiku výběru materiálu. Pokud jde o hledisko kvalitativní, klade důraz především na kritérium lingvistické (jde tu hlavně o charakteristiku jazyka vůbec, o jazyk jednotlivých funkčních stylů, jednotlivých autorů i jednotlivých děl), psychologické (např. v souvislosti se stanovením tzv. lexikálního nebo gramatického minima pro didaktické účely, a to i ve vztahu k jednotlivým věkovým kategoriím), sociologické (např. pro sestavování korpusu, pro stanovení proporcí pro výzkum materiálu z jednotlivých funkčních stylů, pro orientaci na výzkum jazyka mužů a žen apod.) i hlediska další, jako např. forma textu (psaná, mluvená) aj. Tato kritéria se vzájemně doplňují a prolínají. Obecně se přitom ukazuje, že výběr materiálu z hlediska kvalitativního představuje záležitost vyžadující interdisciplinární přístup.

Pokud jde o výběr materiálu z hlediska kvantitativního, zaměřují se výklady na způsob a využití výběru systematického, výběru náhodného a na výběr souvislých částí textu.

V další části této kapitoly se pak věnuje pozornost základním statistickým a jiným charakteristikám, s nimiž kvantitativní lingvistika běžně pracuje a s nimiž se v pracích z tohoto oboru nejčastěji setkáváme. Jsou to především: frekvence, rank, pořadí slova, Zipfovy zákony, aritmetický a vážený průměr, disperze, frekvenční rozložení, koeficient disperze, korelační koeficient a dále entropie a redundance.

Zatímco první a druhá kapitola představují teoretické jádro výkladů, následující dvě kapitoly se věnují charakteristice jednotlivých oblastí kvantitativní lingvistiky, a to jak z hlediska teoretického a metodologického, tak i z hlediska výsledků, k nimž se v těchto oblastech dospělo v kvantitativní lingvistice české i světové.

Kapitola třetí se soustřeďuje na tři základní oblasti aplikace kvantitativních metod na jazykové jevy – na statistiku lexikální, gramatickou (morfologickou a syntaktickou) a sémantickou. Paralelní uspořádání všech tří podkapitol je čtenářsky velmi dobře přístupné a navíc usnadňuje porovnávání jednotlivých oblastí a jejich charakteristik. Vychází se vždy od předmětu zkoumání v dané oblasti a popisu a rozboru příslušných metod zkoumání. Dále se pak věnuje pozornost základním výsledkům zkoumání v dané oblasti, a to jak pokud jde o češtinu, tak i pokud jde o ostatní jazyky a jazykové skupiny. Spolu s tím je představena nejdůležitější literatura domácí i světová. [218]Důležitým přínosem je to, že se vždy věnuje systematická pozornost pracím od počátků bádání v dané oblasti a v daném jazyce až do současnosti, takže čtenáři se dostává relativně ucelený a také maximálně aktuální obraz působení a výsledků kvantitativní lingvistiky v jejích jednotlivých oblastech.

Tato kapitola přináší řadu nových poznatků o kvantitativní lingvistice a jejím uplatnění, a to zejména pokud jde o oblast zabývající se slovními i mluvnickými významy. Zatímco pro statistiku lexikální a gramatickou již byly vytvořeny a také dostatečně ověřeny spolehlivé teoretické a metodické základy (a která také v češtině má svou tradici, z níž je možné vycházet a na kterou je možno navazovat) – srov. též monografie M. Těšitelové citované v pozn. 1 –, sémantická statistika patří k relativně nejmladším oblastem kvantitativní lingvistiky a její pojetí, pokud jde jak o stanovení jejího předmětu, tak o vymezení jednotky a výběr vhodných metod, se dosud propracovává. S rozvojem této disciplíny lze postupně sledovat posun od kvantifikace lexikálního významu jako jednotky souboru ke kvantifikaci významu v kontextu na základě syntakticko-sémantické jednotky. Sémantická analýza tohoto typu byla prováděna v oddělení matematické lingvistiky ÚJČ ČSAV v letech 1980–1985. Její výsledky jsou v publikaci představeny.

Vzhledem ke komplexnímu pojetí jednotky souboru potřebného ke kvantifikaci sémantiky slova v kontextu je třeba, aby se shromáždil materiál vyhovující danému účelu. V souvislosti s tímto požadavkem se potřeba širokého využití nejmodernější výpočetní techniky projevuje mnohem výrazněji než v jiných oblastech.

Čtvrtá kapitola je věnována ostatním oblastem kvantitativní lingvistiky a jejich charakteristice. Uspořádání celé kapitoly i jednotlivých podkapitol je stejné jako v kapitole předchozí. Postupně se takto věnuje pozornost problematice statistiky fonologické, grafematické, stylistické, typologické, statistice týkající se vývoje jazyka a statistice týkající se tvoření slov, jejich vývojovým proměnám, teoretickým i praktickým přínosům a oblastem aplikace.

Kapitola pátá se zabývá využitím výsledků kvantitativní lingvistiky. Vedle oblastí tradičních, k nimž patří především lingvistika sama, dále jazykové vyučování, ať už jde o jazyk mateřský, nebo o jazyky cizí, dále pak těsnopis, psychologie, medicína a další, se v souvislosti s dalším rozvojem kvantitativní lingvistiky otevírají i nové oblasti interdisciplinárního využití výsledků kvantitativní lingvistiky. Sem se řadí především psycholingvistika, sociolingvistika, teorie informace, neurolingvistika. Ukazuje se přitom, že uplatňování kvantitativní lingvistiky v těchto oblastech výrazně obohacuje jejich možnosti a současně s tím vede i k dalšímu rozvoji a obohacování kvantitativní lingvistiky samé.

Kapitola šestá je věnována vztahům kvantitativní lingvistiky a výpočetní techniky. Sledují se v ní způsoby využití výpočetní techniky od šedesátých let až do současnosti a jejich vývojové proměny jsou prezentovány na pozadí práce oddělení matematické lingvistiky ÚJČ ČSAV.

Sedmá kapitola se zaměřuje na perspektivy kvantitativní lingvistiky jako celku i jejích jednotlivých oblastí. Autorka v ní poukazuje na další cíle v oblasti teoretické a metodologické i na další možnosti vývoje a uplatnění oboru. Klade důraz na systematický a univerzální kvantitativní výzkum jazyka, který by umožňoval popsat jazyk co možná nejkomplexněji, a to nejen jazyk jako takový, ale i jazyk v komunikaci. Cesta k tomuto cíli vede od kvantitativního výzkumu dílčích jevů na jednotlivých jazykových rovinách k je[219]jich vzájemné konfrontaci a syntéze. Předpokladem pro naplnění tohoto cíle je týmová práce a široké využití moderní výpočetní techniky.

Tato kapitola se tak vlastně stává na jedné straně závěrečným obecným shrnutím dané problematiky, na druhé straně pak do jisté míry i autorčiným osobním vyznáním.

Publikace je doplněna rozsáhlým a maximálně aktualizovaným seznamem literatury a bohatým jmenným a věcným rejstříkem.

Jedním z výrazných rysů monografie je to, že problematika kvantitativní lingvistiky se v ní podává co nejobecněji a co nejpřístupněji. To jí dává možnost oslovit poměrně široké spektrum čtenářů – od těch, kteří souborné poučení o kvantitativní lingvistice teprve hledají, až k zasvěceným znalcům této problematiky. Ocenění zaslouží fakt, že je tu česká kvantitativní lingvistika představena v rámci kvantitativní lingvistiky světové.


[1] Srov. především J. Jelínek – J. V. Bečka – M. Těšitelová, Frekvence slov, slovních druhů a tvarů v českém jazyce, SPN, Praha 1961; M. Těšitelová, O morfologické homonymii, Academia, Praha 1966; M. Těšitelová, Otázky lexikální statistiky, Academia, Praha 1974; M. Těšitelová, Využití statistických metod v gramatice, Academia, Praha 1980; M. Těšitelová, Kvantitativní lingvistika, SPN Praha 1977, 2., upravené vyd. 1987; M. Těšitelová – J. Petr – J. Králík, Retrográdní slovník tvarů adjektiv v současné češtině, ÚJČ ČSAV 1985; M. Těšitelová – J. Petr – J. Králík, Retrográdní slovník současné češtiny, Academia, Praha 1986.

[2] Tento výzkum se opíral o rozsáhlý korpus tzv. věcného stylu (tj. stylu odborného, publicistického a administrativního) – celkem 540 000 slov. Z toho 56 % (tj. 300 000 slov) připadalo na funkční styl odborný, 33 % (tj. 180 000 slov) na styl publicistický a 11 % (tj. 60 000 slov) na styl administrativní. Materiálovou jednotku představoval text, tj. 3 000 slov souvislého textu. Důležitým přínosem bylo i to, že vedle projevů psaných (75 %) byla věnována pozornost i projevům mluveným (25 %).

[3] Srov. především řada Linguistica vydávaná jako interní tisk ÚJČ ČSAV, dále M. Těšitelová a kol., Kvantitativní charakteristiky současné češtiny, Academia, Praha 1985; M. Těšitelová a kol., O češtině v číslech, Academia, Praha 1987, a dále práce vycházející v Prague Studies in Mathematical Linguistics a The Prague Bulletin of Mathematical Linguistics i v dalších časopisech.

Naše řeč, ročník 76 (1993), číslo 4, s. 215-219

Předchozí Lumír Klimeš: Příprava obrany ČSR v letech 1933—1938 a její odraz v soustavě sdružených pojmenování

Následující Eva Schneiderová: II. kolokvium mladých jazykovědců