Časopis Naše řeč
en cz

Ke zkoumání češtiny z hlediska strojového překladu

Dana Konečná

[Články]

(pdf)

-

Ačkoli zahraniční sborníky a časopisy věnované problematice strojového překladu nejsou u nás příliš známy, zájem o tuto problematiku v posledních letech v ČSR vzrůstá. Byly již publikovány dva velmi obsažné články,[1] které informují o rozvoji práce na strojovém překladu v SSSR a které čtenáři přibližují hlavně sovětskou literaturu z tohoto oboru. K rozvoji práce na strojovém překladu máme v ČSR dobré podmínky: máme vyspělou techniku, které vděčíme mimo jiné za zkonstruování československého samočinného počítače SAPO, jehož lze používat nejen k složitým matematickým výpočtům, ale i k dílčím pokusům strojového překladu,[2] a technický výzkum vytváří další předpoklady pro budoucí uvedení strojového překladu do praxe. Vyspělá československá lingvistika je s to zajistit rozvoj [157]nových lingvistických metod, které práce na přípravě strojového překladu vyžaduje. Jde nyní o to, aby práce v novém oboru odpovídala rozvoji bádání v jiných zemích i rozvoji naší techniky. Vzdálenost, která nás dosud dělí od výsledků práce v USA a v SSSR, je dosti značná.

První pokusy v zahraničí i u nás byly zaměřeny zpravidla na vymezený úsek cizojazyčného textu, který měl být rozebrán a zpracován pro strojový překlad do mateřského jazyka experimentátorů. Byla tedy sestavena pravidla pro daný úsek textu a jen pro překlad z jednoho jazyka do druhého. Dnes vystupuje do popředí výzkum možností překládat pomocí tzv. převodního jazyka do několika desítek jazyků a z několika desítek jazyků. V tomto směru pokročilo hlavně bádání sovětských pracovišť.[3] K vytvoření převodního jazyka je třeba především podrobných rozborů jednotlivých jazyků z nového hlediska (což vyžaduje použití nových lingvistických metod). Na základě podrobného rozboru daného jazyka je pak možno vytvořit tzv. úplné nezávislé algoritmy[4] jednotlivých jazyků, tj. soubor jednoznačných „pravidel“ opírajících se pouze o jazykovou formu a použitelných ve všech možných případech, a formulovat je tak, aby umožňovala sestavení programu pro samočinný počítač[5] (bez ohledu na to, zda program bude pak sestavovat matematik, nebo zda si ho samočinný počítač sestaví sám). Přitom „pravidla“ popisují jazyk buď jako jazyk vstupní, jazyk, z něhož se překládá (pravidla analýzy), nebo jako jazyk výstupní, jazyk, do něhož se má překládat (pravidla syntézy). Pravidla analýzy přitom slouží k tomu, aby [158]z textu daného jazyka byly získány veškeré nenadbytečné informace potřebné k vyjádření obsahu v kterémkoli jiném jazyce. Pravidla syntézy slouží naopak k tomu, aby z informací (dostatečně úplných) mohl být vytvořen text s daným obsahem v mezích normy daného jazyka.

Zkoumání jazyka pro potřeby strojového překladu se tedy dělí na dvě části: příprava strojové analýzy a příprava strojové syntézy. V každé z nich je třeba věnovat pozornost jak mluvnici, tak slovníku.

Zpracování jazyka k účelům strojového překladu postupuje různými cestami podle toho, jaké jsou hlavní typologické rysy daného jazyka. Pro češtinu jako jazyk flexívní je charakteristická především poměrně velká samostatnost slova ve větě; ohebné slovo samo svým tvarem informuje o svém slovním druhu, o svých mluvnických kategoriích a někdy přímo o své syntaktické funkci (např. určitý tvar slovesný). Nejdůležitějším pramenem mluvnické informace jsou tu koncovky, a na rozbor soustavy koncovek se proto musí soustředit pozornost nejdříve; komplikace tu působí různost koncovek téhož pádu nebo téže osoby (a naopak různý význam koncovek stejné podoby) u slov různých vzorů, dále střídání hlásek v kmeni před určitou koncovkou atd. S flexívní povahou češtiny jsou spjaty i takové prostředky vyjádření syntaktických vztahů jako shoda a řízenost (rekce). Teprve v druhé řadě přichází v úvahu zjišťování údajů daných slovosledem. Naproti tomu např. v angličtině, kde je slovo ve větě daleko více závislé na svém okolí (kontextu), získáme rozborem koncovek jen poměrně málo informací a musíme se opírat hlavně o slovosled a rozbor pomocných slov.

Mohl by vzniknout dojem, že zkoumání se rozpadá na několik úseků: zkoumání flexe, zkoumání řízenosti a shody, zkoumání slovosledu atd. Ve skutečnosti řešení jakékoli dílčí otázky přechází z jednoho jazykového plánu do druhého, využívá se skoro vždy všech druhů formálních prostředků daného jazyka, zejména při přípravě analýzy. Pro přípravu syntézy je možno do jisté míry použít popisů, které nacházíme v dosavadních českých mluvnicích, přistupujících skoro vždy k jazykovému jevu z hlediska syntézy formy (odpovídají na otázku, jak se ta či ona forma tvoří) a jen ve výjimečných [159]případech z hlediska analýzy (jak se pozná, že daná forma má ten či onen význam). Pravidla o tvoření českých flexívních tvarů, jak je uvádějí české mluvnice, je třeba pro přípravu syntézy jen doplnit tak, aby popisovala všechny možné případy přesně, a zaznamenat pak tato pravidla co nejúsporněji.

Např. podle poučky v mluvnicích se číslovka kolik skloňuje stejně jako mnoho; pro stroj je třeba počítat s dvěma různými „vzory“, poněvadž proti zakončení -a v nepřímých pádech je v jednom případě v 1. a 4. pádě -Ø, v druhém -o. Podobně místo vzoru žena je třeba do stroje uložit několik „vzorů“: sestra, ruka, noha, žena, rosa aj.[6]

Na druhé straně je možno si dovolit jisté zjednodušení, není třeba do stroje ukládat dublety typu souvisí a souvisejí, je ovšem třeba počítat s dvěma tvary tam, kde se v určitých spojeních může vyskytovat jen jeden z nich (např. 2. pád roka vedle roku, srov. půl roku, do konce roku, ale do roka). Otázkou dublet se v poslední době naše bohemistika dosti zabývala, např. při přípravě nových Pravidel českého pravopisu. Mnoho je tedy zpracováno, ale zdaleka ne vše; další zkoumání této otázky musí být založeno na rozsáhlém materiálu a mimo jiné musí užívat statistických metod. Je zřejmé, že výsledky této práce poslouží bohemistice vůbec, nejen přípravě strojového překladu.

I popisy řízenosti a shody, a hlavně popis výstavby české věty je třeba zpřesnit. Také dosavadní neobyčejně cenné práce o aktuálním členění si nečiní nárok na úplnost; avšak jedině úplný popis (typů, ne jednotlivostí) může zaručit úspěch strojového překladu.

Zatímco při přípravě syntézy jde hlavně o využití, doplnění a úpravu již existujících popisů, příprava analýzy postupuje způsobem, který v naší jazykovědě tradici nemá; téměř pro každý jazykový jev je tu třeba pracně získávat podklady a vypracovat řešení vhodné pro strojový překlad. Z nových českých jazykovědných prací mají k této problematice blízko zejména podnětné práce [160]M. Dokulila, Fr. Daneše a K. Hausenblase,[7] ani zde ovšem není úplné řešení otázek analýzy, protože cíle autorů byly jiné. Konkrétnější poučení nám přinášejí publikované i dosud nepublikované výsledky zkoumání ruštiny z hlediska strojového překladu, k nimž se dospělo v SSSR. Poněvadž je ruština po stránce typologické češtině velmi podobná, lze některých závěrů z ruského materiálu po ověření použít i pro češtinu.

Jedním z nejdůležitějších problémů strojové analýzy je vyřešení otázek mnohovýznamovosti.[8] Mnohovýznamovostí můžeme konečně nazvat i to, co působí obtíže v rovině syntaxe, skladby (např. užívání souřadicí spojky v platnosti spojky členské i spojky větné).

K jednoznačnému určení významu mnohovýznamové formy v jistém konkrétním případě lze dospět jen rozborem kontextu (celé věty, popř. i vět sousedních) na základě znalosti systému jazyka, přičemž je možno dosáhnout toho, aby to, co je nakonec jednoznačné pro člověka, bylo jednoznačné i pro stroj.

Uveďme několik příkladů, abychom naznačili, pomocí jakých pravidel může stroj identifikovat daný prvek české věty:

1. Ve větě Navrhl řešení jsou podmínkou správného rozboru pravidla o skloňování slova řešení, o vazbě slovesa navrhnout a o shodě podmětu s přísudkem; pravidlo o shodě rozhodne o tom, že řešení je 4. pád. Izolovaná věta Řešení navrhuje je dvojznačná pro stroj právě tak jako pro člověka (musíme znát kontext). K správné identifikaci věty Obtíže činí některé rovnice nepomůže žádné mluvnické pravidlo, tu je třeba formulovat pravidla zachycující vztahy ve slovní zásobě.[9]

2. Jak jsme už řekli, jen málokdy vystačíme se známými pravidly. Ve větě Navrhl řešení rovnice je mimo jiné podmínkou správné identifikace tvaru rovnice pravidlo: „Každé podstatné jméno bezprostředně následující za jiným podstatným jménem, může-li být podle svého tvaru 2. pádem, budeme pokládat za 2. pád.“ Výjimek z tohoto pravidla je v odborném textu necelé 1 % (statistické zkou[161]mání jevu je zde neobyčejně důležité!) a lze je popsat dalšími pravidly.

3. Vedle homonymních slovních tvarů (např. rovnice — 1. a 2. pád jedn. čísla a 1. a 4. pád množ. čísla) je třeba se zabývat také homonymními koncovkami. Tvar vytkni je jednoznačný, jeho koncovka sama o sobě však nikoli. Podmínkou správné identifikace nejednoznačné slovesné koncovky -i je pravidlo, že koncovka -i je koncovkou 2. os. jedn. čísla rozkaz. způsobu tehdy, nejde-li o slova jsi, chci a o slova, kde před -i předchází -j- nebo písmeno s háčkem s výjimkou ř (srov. hraji, píši × zemři). Při identifikaci homonymního tvaru je tedy třeba přihlížet ke kontextu, kdežto u homonymních koncovek zpravidla stačí přihlížet k podobě slova.

V současné době nám chybí jak soustavné statistické zpracování jevů tvaroslovných a skladebních (syntaktických), tak podrobný popis vyjadřování syntaktických vztahů.

K přípravě strojového překladu přispívají práce toho typu, jako je citovaná Hausenblasova stať „Syntaktická závislost, způsoby a prostředky jejího vyjadřování“, i práce na ně navazující, věnované konkrétnímu zkoumání, např. otázce, jak lze zjistit, zda daný předložkový pád závisí na slovese, nebo na podstatném jménu; je třeba také zkoumat, v jakém okolí se vyskytují tzv. větná příslovce, u kterých sloves v jakém okolí se vždy vyskytuje na tomto slovese závislý nepřímý pád, kdy dva (a které) nepřímé pády atd. K. Hausenblas ve své práci dospívá např. k závěru: „Větněčlenskou platnost infinitivu nepoznáme z jeho charakteristiky gramatické, ale vlastně z gramatické charakteristiky okolí, z místa, které zaujímá v syntaktické konstrukci“.[10] Zatímco v Hausenblasově neobyčejně cenné práci, kladoucí si za cíl osvětlit způsoby a prostředky vyjadřování syntaktických vztahů z teoretického hlediska, je citovaná věta závěrem, pro [162]toho, kdo připravuje strojový překlad, je citovaná věta východiskem; jeho úkolem je pak popsat okolí, v němž je infinitiv podmětem, přívlastkem, předmětem, doplňkem, příslovečným určením, jakož i okolí, v němž je součástí tvaru budoucího času (kdybychom chtěli zůstat v rovině syntaktické, museli bychom říci: okolí, v němž infinitiv sám o sobě není větným členem; ale nám ve skutečnosti nejde o to, kdy infinitiv sám není větným členem, nýbrž o to, jak se pozná, že infinitiv patří k budoucímu tvaru slovesa být a že s ním tvoří tvar budoucího času daného slovesa).

Přitom při zkoumání jazykových jevů z hlediska strojového překladu platí zásada: nevychází se z toho, co je v jazyce možné, ale z toho, co se ve zkoumaných textech skutečně vyskytuje; stanoví se frekvence jednotlivých jevů a k ní se pak při sestavování algoritmu přihlíží stejně jako k charakteru jevu. Nelze ovšem jednoznačně říci, že v algoritmu může být vždy to, co je frekventovanější, zařazeno dřív, nebo že např. rozbor morfologický může jednoznačně předcházet před rozborem syntaktickým. Někdy syntax pomáhá určit tvar, někdy tvar pomáhá určit syntaktický vztah a frekvence se využívá tam, kde je to možné — tedy zároveň se uplatňuje zřetel k povaze i k frekvenci jevu.

Zároveň několik poznámek o nynějším stavu práce: Příprava strojového překladu v SSSR i u nás se v současné době zaměřuje výhradně na odborné texty, kde je možnost praktického využití strojového překladu nejreálnější. Zde je totiž poměrně ustálená terminologie (ve srovnání s daleko bohatší a složitější slovní zásobou textů jiných) a také problematika syntaktická, frazeologická a stylistická je tu jednodušší. Pro překládání z češtiny a do češtiny se nyní zpracovávají texty elektrotechnické a matematické (v experimentální laboratoři strojového překladu leningradské university a v oddělení pro teorii strojového překladu na filosofické fakultě Karlovy university). Značně už pokročil rozbor mluvnický, připravuje se zpracování otázek slovní zásoby (a také zpracování alespoň některých otázek stylistických) a za několik let bude už možno výsledků této práce prakticky využít. V začátcích budou asi překlady obsahovat určité procento chyb, ty však nebude těžké při redakci překladu odstranit. Po zkušenostech s těmito překlady a po vyřešení technických [163]problémů budou vypracovány dokonalejší algoritmy, které by tyto chyby vyloučily. Těžko dnes předvídat, kde bude konečná hranice uplatnění strojového překladu.


[1] I. A. Meľčuk, K otázkám strojového překladu v Moskvě, Slovo a slovesnost 20, 1959, s. 285; B. Palek, Strojový překlad v SSSR, Slovo a slovesnost 20, 1959, s. 277.

[2] Zpráva o prvním pokusu na tomto stroji byla uveřejněna v předchozím čísle Naší řeči.

[3] Přitom se v SSSR objevují dvě pojetí převodního jazyka: I. A. Meľčuk a jeho spolupracovníci v Institutu jazykoznanija AV SSSR v Moskvě konstruují převodní jazyk jako abstraktní systém vztahů mezi různými jazyky, tj. mezi jejich slovními zásobami a mezi odpovídajícími si jevy syntaktickými; naproti tomu skupina N. D. Andrejeva v experimentální laboratoři strojového překladu na leningradské universitě chápe sestavení převodního jazyka jako sestavení systému majícího jak vlastní slovní zásobu a syntax, tak i vlastní morfologii. K prvnímu pojetí srov. např. I. A. Meľčuk, Raboty po mašinnomu perevodu v SSSR, Vestnik AN SSSR 1959, č. 2, s. 43n., k druhému např. N. D. Andrejev, Osnovnyje problemy prikladnoj lingvistiky, Voprosy jazykoznanija 1959, č. 4, s. 3.

[4] Algoritmus strojového překladu je systém formálních pravidel popisujících jevy ve slovní zásobě a mluvnické stavbě tak, aby automatický postup podle těchto pravidel vedl k požadovanému určení nebo utvoření jazykových jevů.

[5] Program strojového překladu je algoritmus uvedený do takové podoby, v které může být dán do stroje.

[6] Vycházíme zde z psané podoby jazyka, je tedy třeba vedle střídání sestra - sestře, ruka - ruce, noha - noze mít na zřeteli také rozdíl mezi žena - ženě, rosa - rose.

[7] Srov. např. M. Dokulil a F. Daneš, K tzv. významové a mluvnické výstavbě věty, sb. O vědeckém poznání soudobých jazyků, Praha 1959, s. 231n.; K. Hausenblas, Syntaktická závislost, způsoby a prostředky jejího vyjadřování, Bulletin VŠRJL II, Praha 1958, s. 23n.

[8] Pro jednoduchost nerozlišujeme zde mezi mnohovýznamovostí (polysémií) a vlastní homonymií; v otázkách mluvnických, kterými se zde zabýváme, nemá toto rozlišení takový dosah jako v lexikologii.

[9] Zde máme na mysli vymezení jednotlivých významových oblastí slovní zásoby s přihlédnutím k tomu, v jakých větných dvojicích se slova vyskytují, např. slova rovnice a obtíže nepatří do jedné skupiny, poněvadž nebývají rozvíjena stejnými přídavnými jmény (diferenciální rovnice × velké obtíže), nevyskytují se v textech jako předmět téhož slovesa atd.

[10] Srov. cit. práce, s. 43.

Naše řeč, ročník 43 (1960), číslo 5-6, s. 156-163

Předchozí František Daneš: Hutní — hutnický

Následující Karel Hausenblas: Kopečného Základy české skladby