Časopis Naše řeč
en cz

Publikace o strojové lingvistice

Jiří Nekvapil

[Posudky a zprávy]

(pdf)

-

Kniha P. Sgalla, E. Hajičové a P. Piťhy Učíme stroje česky (Praha 1982, 295 s.) je populárně naučnou příručkou, která může být užitečná nejen širším vrstvám čtenářů, zájemcům o jazyk a o jeho počítačové zpracování, ale i odborníkům v jiných oborech. Je třeba s uznáním říci, že tato dvojúrovňová popularizace je v knize vcelku dobře zvládnuta. Čtenáři jistě také ocení, že jim není většinou předkládán pouze repertoár hotových poznatků, nýbrž že mají možnost nahlédnout do „kuchyně“ strojové lingvistiky, kde řada věcí zůstává dosud nejasná, rychle se vyvíjí, někdy v překotných obratech, což jistě souvisí i s interdisciplinárním charakterem tohoto oboru. Příležitostí k problémovému výkladu měli autoři příručky opravdu dost. Tento výkladový způsob vystupuje v knize zřetelně také proto, že jednotlivé kapitoly jsou často komponovány tak, aby vystoupilo do popředí srovnání přístupů a výsledků Sgallova týmu[1] s pracemi zahraničními. Autoři referují o zahraničních výzkumech poměrně často, avšak těžiště příručky zůstává v předvedení vlastních výzkumů a koncepcí.

První kapitola recenzované publikace je věnována rozdílným aspektům [208]přirozených a umělých jazyků a zároveň se naznačují některé nevýhody přirozených jazyků pro zpracování na počítačích. Podrobně jsou probrány tři typické vlastnosti přirozených jazyků, tj. jejich univerzálnost, rozrůzněnost a nepravidelnost. Podrobně je nastíněna i konstrukce formálních jazyků (různé druhy generativních a rekognoskativních procedur a gramatik).

Ve druhé kapitole se čtenář seznámí se zásadami tvorby počítačových programů, na jejichž základě počítač vytváří české věty. Jsou tu předvedeny některé problémy vznikající při formulování takové gramatiky češtiny, která by byla vhodná pro počítačové aplikace. Důkladně je probrán zejména zápis významu věty. Jak už je známo z jiných prací této skupiny, snášejí autoři argumenty pro zachycování aktuálního členění věty v jejím významovém zápisu. Významový zápis věty postihuje i některé další pragmatické jevy (např. slovesné časy).

Od třetí kapitoly začínají autoři probírat hlavní oblasti, v nichž už počítače zpracovávají, byť jen experimentálně, údaje zformulované v přirozeném jazyce. Jde především o automatické vyhledávání bibliografických údajů. V centru pozornosti je zejména automatický rešeršní systém Mozaika a automatické vytváření rejstříků. Ty představují poměrně jednoduché automatické zpracování textu, vyžadující jen dílčí gramatickou (např. tvaroslovnou) analýzu.

K nejzajímavějším a informačně nejzávažnějším částem knihy patří kapitola čtvrtá, nazvaná Automatické zodpovídání otázek a modely porozumění textu. Zejména u této kapitoly si čtenář — znalý např. publikace Cesty moderní jazykovědy[2] — může uvědomit, o co se za necelých dvacet let posunula strojová a vůbec moderní lingvistika (často v součinnosti s psychologií) kupředu. Kapitola začíná popisem jednodušších systémů, k nimž náleží automatické zodpovídání dotazů na základě bází dat, tj. souborů dat z určité oblasti (např. podniku). Tyto systémy automaticky vyhledávají odpověď např. na otázky (pokyny): „Sděl průměrný plat.“; „Kolik pracovníků starších 40 let má plat nižší než průměrný?“, apod. Pro takové systémy musí být data ukládána do počítače specialisty, avšak běžný uživatel už může s daným systémem komunikovat v přirozeném (svém) jazyce. Složitější systémy vyžadují nejen analýzu všech rovin jazykového systému, ale také rozbor některých aspektů mimojazykové skutečnosti. Využívá se při tom mj. tzv. rámců, tj. zobrazování výseků objektivní reality např. pomocí predikátu a jeho možných (typických) doplnění. Systém se pokouší na základě informací, které přijímá, zaplňovat volná místa u příslušného predikátu, tj. identifikovat všechny relevantní prvky příslušné situace. Tím je dána komunikační strategie mezi systémem a uživatelem. Jiné systémy mimojazykovou skutečnost zachycují pomocí tzv. kognitivních sítí, jež jsou určeny k uložení zásoby znalostí o příslušném výseku objektivní reality a zároveň [209]vystihují vztahy mezi prvky zásoby znalostí. Autoři příručky vystupují jako obhájci badatelského proudu, který při reprezentaci znalostí zdůrazňuje úzkou návaznost na výsledky větné sémantiky. K nejsložitějším systémům patří tzv. automatické encyklopedie, z nichž se autoři podrobně zabývají projektem TIBAQ. Tyto systémy simulují i operace logické, vyvozování důsledků plynoucích z nějakého tvrzení. Před badateli zde tedy vyvstává nelehký úkol — tvorba tzv. inferenčních pravidel. Komunikace mezi automatickými informačními systémy typu TIBAQ a uživateli by se měla odehrávat zcela v jazyce uživatele.

Pátá kapitola je věnována strojovému překládání. Je zde nastíněn vývoj strojového překládání ve světě i v ČSSR a ukázán současný stav výzkumu.

V samém závěru se autoři zamýšlejí nad možnostmi strojové lingvistiky v ČSSR: „Nejsou-li dnes u nás nejvýhodnější podmínky pro vývoj počítačové techniky samotné, můžeme to vyvážit přípravou promyšlených soustav sémantických a kognitivních, které budou užitečné pro všestranné uplatnění počítačů dalších generací“ (s. 282n).

Knihu uzavírá výběrová bibliografie, k níž bychom dnes doplnili alespoň rozsáhlou publikaci I. M. Havla.[3]

Velmi krátce jsme se zmínili o obsahu jednotlivých kapitol, aniž jsme tím ovšem vyčerpali myšlenkové bohatství recenzované knihy. Autorský výklad příručky totiž často osciluje mezi dosti detailním popisem jednotlivých systémů a úvahami velmi obecnými, až filozofickými. Řada těchto úvah se týká postavení jazykovědy mezi jinými vědami, jejího předmětu i metod. Sympatický je střízlivý postoj, který autoři zaujímají i k samé strojové lingvistice: „Každý lidský jazyk je systém velmi komplikovaný a žádná metoda, žádný lingvistický přístup nás nezbaví nutnosti postupně zpracovávat stovky a tisíce gramatických jevů, tisíce a desetitisíce slov, velké množství terminologických a jiných slovních spojení (včetně spojení idiomatických), dlouhou řadu nejrůznějších nepravidelností aj.“ (s. 279n.). Důraz na empirii vede autory k střízlivému postoji k současným možnostem formalizace jazyka a tudíž k možnostem jeho počítačového zpracování (srov. např. s. 272). Zůstává ovšem nesporné, že strojová lingvistika pronikavě ovlivňuje současné jazykovědné bádání. Její vliv je patrný v řadě jazykovědných disciplín; autoři např. ukazují, jak různé systémy předpokládají dobré zpracování problematiky textu (viz např. s. 134); pozoruhodný je také jejich výklad směřující k tomu, že strojová lingvistika klade nové cíle i před teorii jazykové kultury (viz s. 281), např. pokud jde o standardizaci odborných textů.[4]


[1] Z poslední doby viz např. P. Sgall, E. Hajičová, E. Buráňová, Aktuální členění věty v češtině, Praha 1980, a J. Panevová, Formy a funkce ve stavbě české věty, Praha 1980.

[2] P. Sgall a kol., Cesty moderní jazykovědy, Praha 1964.

[3] Robotika. Úvod do teorie kognitivních robotů, Praha 1980.

[4] K tomuto tématu míří i příručka J. Krause Stylistika pro informační pracovníky, Praha 1982 (2. vyd.). — (K 1. vyd. srov. v našem časopise recenzi M. Ludvíkové, L. Uhlířové Lingvistika a informatika, NŘ 61, 1978, s. 160—162.)

Naše řeč, ročník 67 (1984), číslo 4, s. 207-209

Předchozí Miloslav Sedláček: Jazykové zkratky v češtině

Následující Ludmila Uhlířová: Bulharská příručka jazykové kultury