Časopis Naše řeč
en cz

Novinky z české matematické lingvistiky

Jiří Kraus, Pavel Vašák

[Posudky a zprávy]

(pdf)

-

Uplatňování matematických metod v jazykovědě již ztratilo svou jistou počáteční výlučnost a postupně také ubývá hlasů vystupujících proti oprávněnosti a vhodnosti matematických modelů využívajících statistiky, teorie pravděpodobnosti, teorie informace, logiky a algebry. Matematická lingvistika se dělí, jak známo, na dílčí oblasti jednak podle předmětu bádání (pak mluvíme o užití matematických metod ve fonologii, gramatice, stylistice), jednak podle povahy metod na lingvistiku kvantitativní a algebraickou. Pro nejnovější vývoj jazykovědy u nás i ve světě je podle našeho názoru charakteristické spíše prohlubování rozdílů mezi zastánci různých typů matematických modelů; přesto však jsme přesvědčeni, že správná cesta spočívá naopak ve spojení jednotlivých matematických i nematematických přístupů, které podle svých možností budou sloužit hlavnímu cíli výzkumu.

V tomto stručném přehledu posledních prací z matematické lingvistiky, které vyšly u nás a které považujeme za nejvýznamnější, si všimneme podrobně alespoň těch, které mají bližší vztah k tematice našeho časopisu. Významné místo tu zaujímá především sborník Prague Studies in Mathematical Linguistics 1 (Praha, Academia, 1966, 240 s.), který má vycházet každé dva roky (druhý díl je již v sazbě) a klade si za cíl seznamovat mezinárodní jazykovědnou veřejnost se stavem matematické lingvistiky u nás. Sborník přináší příspěvky 16 jazykovědců a 4 matematiků, od představitelů starší generace až po autory, kteří zde tisknou své první práce. Příspěvky jsou rozděleny do tří oddílů: jazykověda statistická (10 prací), algebraická (6 prací) a strojový překlad (3 práce). V našem přehledu se přidržíme dělení podle předmětu studia.

Hláskosloví a grafematika. Rozložením dlouhých samohlásek v textu se zabývá B. Trnka (The Distribution of Vowel Length and its Frequency in Czech — Rozložení samohláskové délky a její četnost v češtině, s. 11n.). Ve spisovné češtině rozeznává tři samohláskové dvojice vlastní, zapojené do soustavy protikladů — i / í, u / ú a a / á, a dvě nevlastní — e / é a o / ó. Dlouhé é se podle autora pociťuje jako archaismus spisovné češtiny (např. ve slovech péci, milé, holé, kamének) nebo jako příznak cizosti, popř. citového zabarvení slova. Podobnou povahu má i ó (s nepatrnou četností), zařazené do soustavy hláskových vztahů jenom na základě obdoby [24]krátká : dlouhá samohláska. Odtud vyplývá i kolísání ve výslovnosti těchto obou hlásek (pero péro, dešť déšť, lože lóže atd.). Pokud jde o pravidla spojování (distribuci) dlouhých samohlásek, liší se od rozložení samohlásek krátkých jen některými výjimkami. Obvykle se nevyskytují dvě dlouhé kmenové samohlásky za sebou; druhá délka označuje koncovku (láká, péčí, opásá), tři délky za sebou kmen, odvozovací příponu a koncovku (hádání, vídává, svítání). — Zajímavým podkladem pro porovnávání jazyků založené na výskytu samohlásek v textu je studie J. Krámského (The Frequency of Occurrence of Vowel Phonemes in Languages Possessing Vowel Systems of Identical Structure — Četnost výskytu samohlásek v jazycích se stejnou samohláskovou strukturou, s. 17n.), zkoumající 29 jazyků s obdobnou samohláskovou soustavou (i : e : a : o : u). — L. Doležel a J. Průcha (A Statistical Law of Grapheme Combinations — Statistický zákon kombinací písmen, s. 33n.) si ve své stati všímají schopností jednotlivých písmen v textu vytvářet kombinace, které nazývají valenčním polem, a dospívají pro češtinu k závěru, že čím četnější je písmeno, tím větší je jeho kombinatorická schopnost. Po nejčetnějších písmenech e, o, a mohou následovat všechna ostatní, naopak nejméně častá — g, x, ó, w — omezují možnost výskytu následujícího písmene. — J. Horecký (Trechčlennyje gruppy soglasnych v načale slova v slovackom jazyke — Tříčlenné souhláskové skupiny na začátku slova ve slovenštině, s. 45n.) zkoumá, které skupiny hlásek z celkového počtu možných trojic se uskutečňují ve slovenštině na začátku slova. Užívá k tomu míry neurčitosti — entropie — vypočítávané na základě pravděpodobnosti jednotlivých skupin. — Z obecných kombinačních vlastností vychází i K. Buzássyová (An Attempt at a Calculus of Distribution of the Phonological System of Slovak — Pokus o výpočet distribuce fonologického systému slovenštiny, s. 53n.) a stanoví na jejich základě výchozí soustavu slovenských hlásek, jichž je podle výsledné tabulky celkem 43, a to 14 samohlásek a 29 souhlásek.

Tvarosloví a skladba. Mluvnickou homonymií podstatných jmen se zabývá stať M. Těšitelové (Ob ekonomii vyskazyvanija na materiale omonimii slovoform imen suščestvitel’nych v češskom jazyke — O ekonomii výpovědi na materiálu podstatných jmen v češtině, s. 65n.). Dokládá, že mluvnická homonymie je v daleko větší míře než homonymie slovníková projevem ekonomie jazyka, který má pro vyjádření nekonečného množství významů jen omezený počet prostředků. Ve stati se ukazuje na to, že poměrně častý výskyt tvarové homonymie v kontextu nikterak nesnižuje jednoznačnost výpovědi, protože homonymní tvary bývají zpravidla určeny předcházejícími nebo následujícími slovy.[1] — Slovosledu jsou ve sborníku věnovány tři stati, které osvětlují zkoumanou problematiku z různých hle[25]disek. K. Pala (O nekotorych problemach aktual’nogo členenija — O některých otázkách aktuálního členění, s. 81n.) se zabývá vztahem významových a skladebních činitelů ovlivňujících pořádek slov v české větě. — J. Průcha (Contextual Constraints and the Choice of Semantic Lexical Units — Kontextová omezení a výběr sémantických lexikálních jednotek, s. 93n.) zkoumá vliv předcházejícího textu na volbu následujících významových jednotek. Přitom se zde využívá některých poznatků nově se rozvíjející „pomezní“ jazykovědné oblasti — psycholingvistiky, která zkoumá nejenom soustavu jazykových prostředků, ale především projev osobnosti mluvčího v jazyce pomocí experimentálních psychologických metod.[2] — L. Uhlířová (Some Aspects of Word Order in Categorial and Transformational Grammars — Některá hlediska pořádku slov v kategoriální a transformační gramatice, s. 159n.) zjišťuje, jaké prostředky poskytují kategoriální a transformační gramatiky[3] pro popis jazyka s volným slovosledem. — Různým stupněm vyjadřování přísudkového vztahu v češtině, angličtině a v japonštině se zabývá J. Jelínek (Construct Classes — Třídy konstruktů, s. 167n.). Sleduje zde plynulý přechod od úplné konstrukce (Mlynář často loví ryby), která rozlišuje všechny slovesné způsoby, časy a vidy, přes vyjadřování v jistém smyslu neúplná (vedlejší věty nerozlišují všechny slovesné způsoby: …, že mlynář často loví ryby; přechodníkové vazby nerozeznávají osoby: …, naloviv ryby…, slovesně jmenná spojení rozlišují pouze vid: lovení (nalovení) ryb až po složené vazby jmenné (rybolov), ve kterých slovesné kategorie chybějí úplně.

Oddíl věnovaný strojovému překladu je uveden informativní statí D. Konečné, P. Nováka, P. Sgalla (Machine Translation in Prague — Strojový překlad v Praze, s. 185n.) sledující vývoj pokusů u nás od roku 1959, kdy byla založena skupina strojového překladu při filosofické fakultě Karlovy university, která se později rozdělila na lingvistickou skupinu při Centru numerické matematiky matematicko-fyzikální fakulty v Praze a na oddělení algebraické lingvistiky při katedře lingvistiky a fonetiky na filosofické fakultě Karlovy university. Autoři zde dále rozebírají některé vlastnosti mluvnického popisu potřebné pro uskutečnění strojového překladu a zabývají se převodním jazykem, který slouží jednak jako prostředník při překladu z jednoho jazyka do druhého, jednak jako logický model sloužící hlubšímu poznání přirozených jazyků. Obtížnost nároků na popis mluvnické soustavy ilustrují i studie P. Piťhy (On the Problem of Co-ordinate Conjunctions in the Analysis of Czech — Problém souřadných spojek při rozboru češtiny, s. 195n.), zabývající se tříděním souřadných spojek v českých [26]matematických textech, a J. Panevové (Nesoglasovannoje opredelenije s točki zrenija analiza dlja mašinnogo perevoda — Neshodný přívlastek z hlediska rozboru pro strojový překlad, s. 219n.) zkoumající různé prostředky vyjádření neshodného přívlastku v českých matematických a elektronických textech.

Od roku 1964 vydává oddělení algebraické lingvistiky při katedře lingvistiky a fonetiky dvakrát do roka cyklostylovaný časopis The Prague Bulletin of Mathematical Linguistics. Časopis vychází ve světových jazycích, obsahuje práce původní, shrnutí některých česky již publikovaných statí i recenze a zprávy o významných pracích z oboru. Je zaměřen především na lingvistiku algebraickou a na strojový překlad, a to především na jejich teoretické základy, které jsou přípravou k aplikacím. Uveďme alespoň úvodní široce pojatou stať B. Palka, P. Piťhy, P. Sgalla (Mathematical Linguistics in Czechoslovakia — Matematická lingvistika v Československu, č. 1, s. 9n.), která shrnuje dosavadní výsledky z matematické lingvistiky zhruba do poloviny r. 1964.

Jednotlivé příspěvky z matematické lingvistiky jsou obsaženy v tematickém sborníku Kybernetika a její využití (Praha 1965), který shrnuje referáty přednesené na I. kybernetické konferenci, která se konala v listopadu 1962 v Praze. Sborník obsahuje příspěvky zabývající se jak obecnými otázkami kybernetických metod, tak aplikacemi v různých vědeckých oborech (biologie, fyziologie, neurologie, psychiatrie, psychologie, pedagogika, filosofie, ekonomika, jazykověda, historiografie, vojenství a vědy právní). Jazykověda je v tomto sborníku zastoupena velmi hojně, neboť v té době se snažila využít kybernetické metodologie pro řešení problémů jazykovědných. Upozorňujeme tu zejména na stať P. Sgalla (Perspektivy matematické a aplikované lingvistiky, s. 263n.), která je právě zaměřena na možnosti využití kybernetických postupů v jazykovědě; na ni pak navazuje K. Čulík (Některé problémy teorie jazyků, s. 276n.) rozborem matematických aspektů teorie gramatiky. Vzájemným vlivem kybernetiky a jazykovědy i vztahem modelů algebraických a statistických se zabývá L. Doležel (Ke vztahu kybernetiky a jazykovědy, s. 291n.). Ze speciálně zaměřených příspěvků připomeňme stať M. Těšitelové (K entropii jazyka z hlediska frekvence slov, s. 302n.), kde autorka řeší vztah mezi frekvencí slova a frekvencí prvního písmena ve slově, k němuž je třeba přihlédnout při hodnocení entropie textu. Úsilím o přesné vymezení pojmů je charakteristický příspěvek L. Nebeského (K pojmu věty smysluplné a věty gramaticky správné, s. 296n.). K. Korvasová seznamuje čtenáře s použitou analýzou vstupního textu při strojovém překladu odborného anglického textu do češtiny (Analýza vstupního textu při strojovém překladu, s. 299n.); J. Štindlová pojednává o přípravě jazykovědného materiálu pro strojové zpracování (Třídění a klasifikace jazykových jevů pro strojová zpracování, s. 309n.). J. Horecký poukázal na slovenském ma[27]teriále na možnost užití matematické teorie grafů při studiu morfologické struktury (Morfematická štruktúra slovenčiny, s. 313n.).

Sborník původních prací Problémy kybernetiky (Praha, 1965) obsahuje pouze jediný jazykovědný příspěvek, ve kterém E. Slavíčková (Rozbor a kvantitativní hodnocení českých kořenových morfémů, s. 360n.) pomocí četnosti výskytu hodnotí vybraný soubor kořenových morfémů.

S třetím kybernetickým sborníkem, který u nás minulého roku vyšel, seznámila čtenáře Naší řeči už M. Königová.[4]

Z jazykovědných časopisů věnuje nejvíce místa matematické lingvistice Slovo a slovesnost; připomeňme alespoň stať shrnující nejnovější vývoj transformační gramatiky od významného představitele tohoto směru P. M. Postala (SaS 26, 1965, s. 1n.), článek L. Doležela navrhující pravděpodobnostní model stylistického rozboru (s. 223n.) a metodologický příspěvek L. Nebeského a P. Sgalla, který zpřesňuje pojmy relace a operace v syntaxi. Matematická lingvistika je v tomto časopise dále zastoupena řadou recenzí a zpráv.

Též časopis Česká literatura přinesl v poslední době několik příspěvků, které využívají poznatků matematické lingvistiky. Jde především o teorii verše; např. J. Klimentová (Modelování rytmické výstavby verše markovskými procesy, Česká literatura 13, 1956, s. 69n.) vyšetřuje pomocí aparátu stochastických procesů čtyřstopý trochej u J. Vrchlického (Satanela) a čtyřstopý jamb u V. Hálka (V přírodě). Základy výzkumu verše pomocí matematické statistiky a teorie informace podává J. Levý (Matematický a experimentální rozbor verše, Česká literatura 12, 1964, s. 181n.).[5] M. Červenka (Nový projekt statistického rozboru verše, Česká literatura 13, 1965, s. 541n.) píše o zahájení práce na statistickém výzkumu českého sylabotonického verše v Ústavu pro českou literaturu ČSAV. V prvním stadiu jde o verš autorů z druhé poloviny 19. století (Neruda, Hálek, Heyduk aj.), v další fázi i o verš dvacátého století a verš obrozenský. Z dalších příspěvků připomeňme ještě pokus J. Jařaba (Překlad jako převod informace, Česká literatura 14, 1966, s. 141n.) o kvantitativní hodnocení překladu knihy Johna dos Pasose „USA“ od A. J. Šťastného a příspěvek L. Doležela (Pražská škola a statistická teorie básnického jazyka, Česká literatura 13, 1965, s. 101n.).

Cyklostylovaný Informační bulletin pro otázky jazykovědné č. 6, který vychází při Československo-polské jazykovědné komisi při ČSAV a PAN, shrnuje práce, které převážně vznikly v oddělení matematické lingvistiky Ústavu pro jazyk český a nebyly publikovány jinde. [28]Bulletin je uveden informativními statěmi J. Krause Tři roky oddělení matematické a aplikované lingvistiky Ústavu pro jazyk český, s. 2n. a J. Horeckého Matematická jazykoveda na Slovensku, s. 7n.. Tři příspěvky jsou věnovány problematice entropie (M. Königová, Odhad entropie vyšších řádů, s. 17n.; P. Vašák, Shannonův horní a dolní odhad entropie, s. 24n.; M. Těšitelová, O entropii počátečních písmen v češtině, s. 31n.). Možnostmi uplatňování tzv. nových metod v jazykovědě se podrobně zabývá M. Těšitelová (K některým otázkám kvantitativní lingvistiky, s. 9n.) a vyvozuje některé obecně platné závěry. J. Kraus podává kvantitativní rozbor stylu pracovních návodů.[6] O využití kvantitativních údajů jazyka a stylu v teorii masové komunikace pojednává J. Průcha, možnosti mechanizace jazykovědné práce rozebírá J. Štindlová. Sborník obsahuje i zprávy o kvantitativní lingvistice na některých zahraničních pracovištích a je uzavřen přehledem československých prací z kvantitativní lingvistiky od r. 1907 (počínajíc studií V. Mathesia, Studie k dějinám anglického slovosledu) do konce října 1965.

Péčí oddělení matematické lingvistiky v Ústavu pro jazyk český vydává Státní knihovna ČSSR referátovou bibliografii světové kvantitativní lingvistiky. Dosud vyšel přehled za rok 1962, 1963 (jako příloha je uveden Informativní přehled prací o generativních gramatikách 1955—1964) a 1964.

Z uvedeného stručného přehledu je vidět, že algebraická i kvantitativní lingvistika v ČSSR, navazujíc na tzv. pražskou školu let třicátých, využívá v současné době i nejnovějších metodologických postupů a pokračuje tak svým způsobem v tradicích exaktního přístupu k jazyku.


[1] Uvedená studie je součástí většího autorčina výzkumu, který je shrnut a publikován v knize O morfologické homonymii v češtině, Rozpravy ČSAV, Praha 1966.

[2] Přehledné poučení viz v čl. J. Průchy O psycholingvistice, Slovo a slovesnost 26, 1965, s. 67n.

[3] Poučení o těchto typech gramatik podává P. Sgall a kol. v knize Cesty moderní jazykovědy, Praha 1964, s. 76n.

[4] Kybernetika a jazykověda, Naše řeč 48, 1965, s. 242n.

[5] Viz též J. Levý, Předběžné poznámky k informační analýze verše, Slovenská literatúra 9, 1964, s. 23n.

[6] Viz jeho články v Naší řeči 48, 1965, s. 193n., a 49, 1966, s. 193n.

Naše řeč, ročník 50 (1967), číslo 1, s. 23-28

Předchozí Miloslava Knappová: Začleňování cizojazyčných názvů ulic a náměstí do českých textů

Následující Alois Jedlička: O překládání ze slovenštiny — tentokrát kriticky