Časopis Naše řeč
en cz

O kvantitativní analýze češtiny s pomocí moderní výpočetní techniky

Marie Těšitelová

[Reviews and reports]

(pdf)

-

Když se v šedesátých letech tohoto století dostaly do popředí zájmů lingvistiky tzv. nové metody, využívající zejména postupů z oblasti matematiky a logiky, ale i moderní výpočetní techniky[1] a respektující interdisciplinární vztahy, zejména k psychologii a sociologii, i vhodné aplikace v praxi, bylo v Ústavu pro jazyk český (dále ÚJČ) ČSAV založeno r. 1961 oddělení matematické a aplikované lingvistiky. Po krátkém hledání pracovního zaměření ustálil se vzhledem k pracovním plánům ÚJČ jako hlavní úkol tohoto oddělení všestranný kvantitativní výzkum současné spisovné češtiny. Byl to úkol, který v některých oblastech mohl navázat na tradici statistických metod užívaných v naší lingvistice již v období pražské školy[2] a v letech padesátých.[3] Oddělení matematické a aplikované lingvistiky ÚJČ (později přejmenované na oddělení matematické lingvistiky, od r. 1978 oddělení matematické lingvistiky a fonetiky, dnes úsek matematické lingvistiky) se stalo záhy centrem kvantitativní lingvistiky[4] v oblasti češtiny vůbec.

Po založení oddělení matematické lingvistiky studovala se nejprve frekvence grafémů a fonémů v češtině s využitím některých pojmů C. Shannona z teorie informace, jako je entropie a redundance.[5] Sepětím kvantitativního výzkumu se studiem českého jazyka se později v rámci státního plánu soustředil výzkum na kvantitativní analýzu v rovině lexikální a gramatické (morfologické a syntaktické). Přitom se pozornost zaměřila nejen na texty psané, ale i mluvené (srov. dále). Zásadní novinkou — proti dosavadním výzkumům — bylo soustavné využívání moderní výpočetní techniky, systematická kvantitativní analýza jazyka prováděná s pomocí samočinného počítače.

V 70. letech byl v oddělení matematické lingvistiky vypracován projekt komplexní kvantitativní analýzy současné spisovné češtiny z hlediska kvantitativního i kvalitativního. Měl se opírat o korpus 1 200 000 slov, 55 % z ja[48]zyka stylu uměleckého, 45 % z jazyka stylu věcného (publicistiky, administrativy a odborné literatury). Z celého korpusu připadá 75 % na texty, resp. projevy psané a 25 % na projevy mluvené (jako první systematické studium českých mluvených projevů z hlediska kvantitativního).

Vzhledem k významu věcného stylu v období vědeckotechnického rozvoje soustředil se soustavný kvantitativní výzkum právě na tuto oblast, a to jak na její složky, tak i na její charakteristiky jako celku. Prováděla se lexikální a gramatická (morfologická a syntaktická) analýza korpusu o rozsahu 540 000 slov, která byla získána ze 180 textu, z nichž každý měl délku 3000 slov (na základě experimentálně ověřeného výběru souvislých částí textu).[6] Do korpusu věcného stylu bylo pojalo:

/1/ 180 000 slov ze současné české publicistiky, a to ze 60 textů (52 psaných: z novin centrálních, krajových a oborových a z časopisů; 8 mluvených: ze žurnalistických útvarů rozhlasových a televizních);

/2/ 300 000 slov ze současné odborné češtiny, a to ze 100 textů (68 psaných a 32 mluvených) z 25 oborů: a) společenských věd, b) přírodních věd a techniky (reprezentativnost výběru oboru byla zajištěna z hlediska sociolingvistického, podle zastoupení oborů v národních knihovnách a jejich katalozích);

/3/ 60 000 slov ze současné české administrativy, a to z 20 textů (15 psaných: vyhlášek, smluv, oběžníků, hlášení, zpráv, obchodních dopisů, zápisů z porad, pracovních návodů a pokynů; 5 mluvených: různých hlášení v rozhlase a televizi, hlášení VB, zpráv o počasí apod.). — Všechny texty pocházejí z poměrně krátkého časového období, z let 1972—1975.

Lexikální a gramatickou (morfologickou a syntaktickou) analýzu všech 180 textů provedli a její výsledky vyhodnotili vědečtí a odborní pracovníci (interní i externí) oddělení matematické lingvistiky ÚJČ. Pomocí děrných štítků byl materiál uložen na magnetickou pásku samočinného počítače Tesla 200 a automaticky dále zpracováván ve výpočetních střediscích ČSAV.

Protože se ukázalo z technických důvodů nemožným publikovat cenné výsledky z analýzy uvedeného korpusu jako celek a hrozilo nebezpečí, že dlouholetá práce početného kolektivu zůstane uložena jen v archívu prací oddělení, přistoupilo se k publikování formou tisků pro interní potřebu ÚJČ. Ty se týkají analýzy I. jevů lexikálních, II. jevů gramatických, III. jevů ostatních.

I. Kvantitativní charakteristiky současné slovní zásoby věcného stylu vyšly jako

dílčí frekvenční slovníky jednotlivých složek věcného stylu: Frekvenční slovník současné české publicistiky, Praha 1980, 189 s.; Frekvenční slovník současné administrativy, Praha 1980, 86 s.; Frekvenční slovník současné od[49]borné češtiny, Praha 1982, 229 s.; Frekvenční slovník češtiny věcného stylu, Praha 1983, 329 s., tj. svodný frekvenční slovník pro celý korpus.

II. Kvantitativní charakteristiky týkající se převážně jevů gramatických, morfologických a syntaktických, ale i lexikálních a jejich interpretace:

Jde především o kvantitativní charakteristiku jazyka současné české publicistiky. Tato charakteristika byla uveřejněna v řadě Linguistica,[7] vydávané pro interní potřebu ÚJČ: Kvantitativní charakteristiky současné české publicistiky. (In: Linguistica II, Praha 1982, 82 s.)

Jako frekvenční slovník tvoří nezbytný pramen pro poznávání a srovnávání, jak se slovní zásoby využívá v určitém funkčním stylu, tak soubor tabulek a grafů vytváří totéž pro jevy gramatické. A proto v řadě Linguistica byly publikovány i Kvantitativní charakteristiky současné české publicistiky. Tabulky a grafy. (In: Linguistica III, Praha 1982, 101 s.)

Pro kvantitativní studium mluvnických jevu v jazyce současné české administrativy byl publikován obdobným způsobem — co do metody zpracování, nikoli však v řadě Linguistica, nýbrž rozmnožením rovněž pro interní potřebu ÚJČ — soubor tabulek: Kvantitativní charakteristiky gramatických jevů v současné administrativě. Tabulky. (Praha 1983, 83 s.) — Protože však stejný soubor tabulek i grafů byl pořízen při kvantitativní analýze korpusu věcného stylu i pro jazyk současné odborné češtiny, byl rovněž publikován pro interní potřebu ÚJČ jako Kvantitativní charakteristiky současné odborné češtiny (v rámci věcného stylu). Tabulky a přehledy. (In: Linguistica VII, Praha 1983, 111 s.)

Interpretace získaných kvantitativních dat, která je hlavním smyslem kvantitativní analýzy z hlediska lingvistického, vede k publikování dílčích statí. Pokud jde o jazyk současné publicistiky z hlediska kvantitativního, byly kromě souboru v Linguistica II dílčí výsledky publikovány v jazyce anglickém a ruském ve sborníku Prague Studies in Mathematical Linguistics 7, Praha 1981 a v časopise The Prague Bulletin of Mathematical Linguistics, č. 31 a 32, Praha 1979. — Stručná charakteristika jazyka věcného stylu byla rovněž připravena ve formě studií a statí a je otištěna v anglickém znění v Prague Studies in Mathematical Linguistics 8, Praha 1983.

V řadě Linguistica (IV) dále vyšel soubor Psaná a mluvená odborná čeština z kvantitativního hlediska (v rámci věcného stylu), Praha 1983, 146 s. Tabulky a přehledy (in: Linguistica VII) tvoří součást této publikace. Jde o první soustavný rozbor některých lexikálních i gramatických jevů současné mluvené češtiny z hlediska kvantitativního.

Bohatých výsledků z kvantitativní analýzy jazyka věcného stylu v současné češtině bylo v různé míře využito i při přípravě kolektivní monografie [50]Kvantitativní charakteristiky současné češtiny (300 rkp. s., v tisku). Je třeba podtrhnout, že tato monografie shrnuje nejdůležitější výsledky dosavadní kvantitativní analýzy současné češtiny za posledních zhruba dvacet let, a to ve všech jazykových rovinách. Češtině se tak dostává — jako prvnímu jazyku vůbec — relativně úplného kvantitativního popisu.

III. Nashromážděného korpusu 540 000 slov se v současné době dále využívá k přípravě dvou významných prací:

1. Sémantického frekvenčního slovníku češtiny, pro nějž byla vypracována originální koncepce na základě syntakticko-lexikální, popř. morfologické kvantitativní analýzy; koncepce byla kladně přijata i na mezinárodním fóru COLING 82.[8]

2. Retrográdní slovník současné češtiny (na základě věcného stylu), který — na rozdíl od slovníků tohoto druhu — bude jako novum obsahovat mimo jiné seznam tvarů slov, vedle seznamu základních podob, lexémů.

Obě tyto práce znamenají významný pokrok v kvantitativní lingvistice, a to kvantifikací v oblasti jak sémantiky, dosud z tohoto hlediska minimálně zpracované, tak struktury slova, zejména v kontextu. Na základě velkého bohatství materiálu, lexikálního, gramatického i jiného, které bylo nashromážděno v korpusu jazyka věcného stylu a které bylo a je možno jen s pomocí samočinného počítače získávat v potřebných relacích a kombinacích, mohou vzniknout nejen obě uvedené obsáhlé práce, ale i řada dílčích prací a studií ze všech jazykových rovin. Uveřejněné frekvenční slovníky, ale i jednotlivé soubory tabulek a grafů týkajících se gramatickýh jevů vytvářejí pro to vhodné podmínky. Uvedené důležité prameny dalších prací s velkou pílí a v širokém spektru shromáždil kolektiv vědeckých a odborných pracovníků oddělení matematické lingvistiky ÚJČ ČSAV, který se po letech hledání a střídání zájmů u jednotlivců ustálil v době výše uvedených studií v tomto složení: PhDr. Ludmila Uhlířová, CSc., Marie Ludvíková, PhDr. Iva Nebeská, RNDr. Jan Králík, PhDr. Helena Confortiová, CSc., odborné asistentky Helena Jelenová a Eva Bálková za vedení PhDr. Marie Těšitelové, DrSc.

Tento kolektiv sleduje v plné šíři i bibliografii kvantitativní lingvistiky pro potřeby vlastní i oboru vůbec a vydával ji tiskem od r. 1962 do r. 1971; po přerušení v l. 1972—1978 pokračuje — formou kolektivního závazku — v jejím vydávání. V posledních letech vyšly pro interní potřebu ÚJČ svazky anotované bibliografie Kvantitativní lingvistiky za l. 1972—1973 (Praha 1979, 97 s.), za l. 1974—1975 (Praha 1981, 72 s.), za r. 1976 (Praha 1982, 63 s.), za l. 1977—1978 (Praha 1983, 60 s.).


[1] O. S. Achmanovová a kol., O točnych metodach issledovanija jazyka, Moskva 1961; P. Sgall a kol., Cesty moderní jazykovědy, Praha 1964.

[2] U základů pražské jazykovědné školy, vyd. J. Vachek, Praha 1970.

[3] J. Jelínek, J. V. Bečka, M. Těšitelová, Frekvence slov, slovních druhů a tvarů v českém jazyce, Praha 1961.

[4] M. Těšitelová, Kvantitativní lingvistika, Lingvistické příručky UK, Praha 1977.

[5] C. Shannon, Prediction and Entropy of Printed English, Bell System Technical Journal 30, 1951, s. 50—64, český překlad, in: Teorie informace a jazykověda, Praha 1964, s. 75—88.

[6] M. Těšitelová, Využití statistických metod v gramatice, Praha 1980.

[7] J. Petr, O jazyce současné české publicistiky v číslech, NŘ 65, 1982, s. 248—253.

[8] M. Těšitelová, Quantification of Meaning and the Computer, in: COLING 82, Proceedings of the Ninth International Conference on Computational Linguistics, Prague, July 5—10, 1982, vyd. J. Horecký, Amsterdam — New York — Oxford 1982, s. 377—382.

Naše řeč, volume 67 (1984), issue 1, pp. 47-50

Previous Edvard Lotko: K životnímu jubileu Miroslava Komárka

Next Jan Petr: Český překlad sovětské práce o sociolingvistice