en cz

Problémy automatické morfologické disambiguace češtiny

Vladimír Petkevič

[Články]

Problems of automatic morphological disambiguation of Czech

The article focuses on some of the main problems in the current automatic morphological disambiguation of Czech. Following a description of the disambiguation methods used for disambiguating Czech texts and of their accuracy, the author discusses the main reasons why the correct morphological disambiguation of Czech texts contained in the corpora of the SYN series of the Czech National Corpus project is very difficult to achieve, and why, notwithstanding can improvement in disambiguation (e.g. the SYN2013PUB corpus is tagged in a better way than the SYN2000 corpus), there is still a lot of work to be accomplished. The author concentrates exclusively on the problems of rule-based disambiguation rather than on the stochastic one, trying to identify areas where disambiguation could be improved in the future. The necessity of a reliable disambiguation of Czech texts as a key prerequisite for their successful subsequent syntactic analysis is also stressed.

Key words: automatic morphological disambiguation, corpora of the SYN series, improvement in tagging, rule-based and stochastic disambiguation
Klíčová slova: automatická morfologická disambiguace, korpusy řady SYN, zlepšení značkování, disambiguace pomocí pravidel a disambiguace stochastická

[1]1 Úvod

Tento příspěvek představuje čtenáři problematiku automatické morfologické disambiguace českých korpusů řady SYN projektu Český národní korpus. Nejprve ozřejmí, čemu značkování a konkrétně disambiguace slouží; poté představí metodu užívanou k disambiguaci (odst. 2.1); uvede, nakolik je značkování spolehlivé (odst. 2.2); v hlavní části (odst. 3) se bude podrobněji zabývat některými současnými problémy disambiguace; v odst. 4 pak zdůrazní význam co nejsprávnější disambiguace pro kvalitní syntaktickou analýzu.

Lingvistické značkování korpusů současné (zvláště psané) češtiny, které patří do řady SYN projektu Český národní korpus (srov. Český národní korpus – SYN2005; Český národní korpus – SYN) se dosud omezuje pouze na značkování morfologické (syntaktické se připravuje). Toto značkování přiřazuje slovnímu tvaru v textu následující údaje:

• slovní druh a další morfologické vlastnosti;

• lemma jakožto reprezentant příslušného lexému.

[195]Tyto údaje se však slovnímu tvaru přiřadí teprve poté, co je příslušný slovní tvar jako takový rozpoznán v rámci věty. Tato identifikace probíhá v předchozích fázích zpracování textu, kterými jsou především

• větná segmentace, kdy se vstupní text – obvykle již členěný do odstavců – rozdělí na věty;

• tokenizace, kdy se identifikují jednotlivé řetězce znaků mezi mezerami jakožto tzv. tokeny (= korpusové pozice či výskyty slovních tvarů).

Poté je text zpracován dvěma softwarovými systémy: morfologickou analýzou a morfologickou disambiguací. Nejprve morfologická analýza přiřadí každému tokenu včetně interpunkce[2] dvojici

(lemma, morfologické_vlastnosti),

přičemž slovní druh je zahrnut mezi morfologické vlastnosti, které jsou vyjádřeny v podobě značky (např. tokenu chlapec je přiřazena značka NNMS1—A—, kde N na první pozici ve značce znamená slovní druh substantivum, druhé N: poddruh substantiva, M: jmenný rod maskulinum animatum, S: číslo singulár, 1: pád nominativ, A: kladnou polaritu); je-li tvar homonymní, přiřadí mu analýza více takových dvojic. Poté morfologická disambiguace vybere ze všech interpretací poskytnutých morfologickou analýzou jedinou, kterou pokládá za náležitou v kontextu, v němž se daný token nalézá.

Smyslem disambiguace je umožnit uživateli na základě jednoznačných údajů o morfologických vlastnostech a lemmatu přiřazených každému slovnímu tvaru včetně homonym a homograf efektivně vyhledávat v korpusech

• podle lexémů reprezentovaných lemmaty, nikoli jen podle jednotlivých tvarů paradigmat lexémů

• různé gramatické struktury (včetně slovosledu) a relace mezi slovními tvary a lexémy podle kombinací tvarů, lemmat a/nebo morfologických značek

• syntaktické a slovosledné kontexty lexémů a tvarů dané jejich morfologickými vlastnostmi

a také mj. zjišťovat statistické údaje o morfologicky interpretovaných tvarech, lexémech a jejich kombinacích. Je tedy zřejmé, že morfologické značkování není pouhým předstupněm značkování syntaktického, ale samo představuje pro uživatele přidanou hodnotu a mj. značně usnadňuje získávání informací z korpusů.

Morfologická analýza češtiny je sice úkol nelehký (čeština je morfologicky velmi složitá), ale automatická morfologická disambiguace češtiny je nesrovnatelně obtížnější. V dalších odstavcích

• se zaměříme na to, jak se v současnosti realizuje,

• stručně uvedeme, jak je spolehlivá,

[196]• specifikujeme hlavní důvody, proč je obtížná,

• naznačíme možnosti, jak dosavadní stav zlepšit,

• a zdůrazníme význam správné disambiguace pro kvalitní syntaktickou analýzu.

2 Jak se morfologicky disambiguují české korpusy řady SYN?

2.1 Metoda zpracování

Obecně lze texty morfologicky disambiguovat těmito metodami:

(i)	statisticky/stochasticky – na základě strojového učení (srov. např. Hajič, 2004),
(ii)	lingvistickými pravidly, a to buď
	1.	pravidly automaticky vyvozovanými z textů (srov. např. Brill, 1992), nebo
	2.	ručně psanými pravidly,
(iii)	spoluprací metod typu (i) a (ii), označovanou jako hybridní metoda.

Pro disambiguaci češtiny byla zvolena hybridní metoda (iii), konkrétně (i) a (ii.2). Spočívá ve spolupráci těchto disambiguačních systémů:

(a)	Disambiguační systém (tagger) LanGr (Petkevič, 2006; Květoň, 2006; Jelínek, 2008; Jelínek et al., 2011) založený na metodě (ii.2). Tento systém obsahuje cca 2600 ručně psaných pravidel.
(b)	Statistický tagger MorČe (Votrubec, 2005) užívající trénovacího korpusu o cca 2 000 000 tokenech (je trénován na datech Pražského závislostního korpusu, srov. Bejček et al., 2012).
(c)	Kolokační/frazémový modul Phras (srov. Hnátková, 2002), který identifikuje frazémy a kolokace a disambiguuje jejich členy.

Všechny tři komponenty se snaží přiřadit každému tokenu náležitou interpretaci v podobě dvojice (lemma, morfologická_značka) v závislosti na kontextu. Ideální by bylo, kdyby celý disambiguační systém přiřazoval každému tokenu právě tolik interpretací, kolik jich daný token v příslušném kontextu má, tj. nehomonymním tokenům a homonymním tokenům v nehomonymní struktuře jedinou, homonymním tokenům v homonymních strukturách/větách pak různé interpretace pro každé z homonymních čtení. V současnosti je však výsledkem činnosti celého disambiguačního systému vždy jediná značka přiřazená každému tokenu ve vstupním textu.

Hlavní tíha značkování spočívá na lingvistických pravidlech. Pravidla se vytvářejí dvěma způsoby. Jejich autoři

(i) je formulují na základě své introspekce a prověřují na korpusových datech;

(ii) je (neautomaticky) vyvozují z korpusových dat.

V obou případech vycházejí ze znalosti systému (langue) současné češtiny (zvláště jeho syntaktického komponentu) i její parole obrážející se v korpusech.

[197]Pro disambiguaci tokenu tok pravidla využívají mimo jeho vlastní formu, morfologické značky a lemma(ta) také forem, značek a lemmat okolních tokenů v rámci věty. Pravidla jsou psána ve speciálním programovacím jazyce LanGr (= Language Grammar, srov. Květoň, 2006), přičemž každé pravidlo je formalizovaným zápisem nějakého lingvistického (zejména syntaktického, ale i fonetického, morfologického či sémantického) faktu platného v češtině. Jsou to např. tato fakta z různých rovin jazykového popisu (některá neplatí bezvýhradně):

• po vokalizované předložce nestojí slovo začínající na samohlásku;

• po předložce bezprostředně nestojí slovesný tvar;

• po předložce nepojící se s nominativem se bezprostředně nenachází slovní tvar v nominativu;

• adjektivum rozvíjející své řídící substantivum se s ním shoduje ve jmenném rodě, čísle a pádě.

Stručně nyní popíšeme fungování celého disambiguačního systému založeného na hybridní metodě. Zpracování vstupní věty probíhá ve dvou hlavních fázích: fázi 1 a fázi 2.

Fáze 1

Nejprve je aktivován systém LanGr založený na pravidlech. Ten obdrží ke zpracování výstup z morfologické analýzy, který se vyznačuje těmito vlastnostmi:

• Díky velkému morfologického slovníku (obsahuje na 800 000 lemmat, z toho cca 200 000 propriálních) rozpozná automatická morfologická analýza téměř 100 % vstupních slovních tvarů (přesněji 99,25 % výskytů slovních tvarů, tj. tokenů; tento údaj byl zjištěn při testování analýzy na testovacích datech z Pražského závislostního korpusu, podrobněji srov. Skoumalová, 2011, s. 206). Znamená to, že rozpoznaný slovní tvar má mimo případná další lemmata a značky přiřazena ta lemmata a značky, které jsou v daném kontextu správné.

• Každému morfologicky (i lemmaticky) homonymnímu tokenu, jemuž jsou přiřazeny všechny v daném kontextu správné morfologické interpretace a lemmata, je zároveň přiřazeno maximální množství těch morfologických značek a/nebo lemmat, jež jsou v daném kontextu nesprávné.

• Neznámým tokenům přiřadí morfologická analýza značku neznámé slovo.

Tabulka 1 (převzatá ze Skoumalová, tamtéž) obsahuje údaje o tom, kolik morfologických interpretací přiřadí morfologická analýza průměrně jednotlivým tokenům a kolik tokenů je morfologicky jednoznačných.

Vidíme tedy, že morfologická analýza v průměru přiřadí jednotlivým tokenům velké množství značek (průměrně 12,81 značky; vezmeme-li v úvahu jen morfologicky nejednoznačné tokeny, je to dokonce 19,6 značky!), což spolu s údajem o počtu jednoznačných tokenů v češtině (36,53 % včetně interpunkce,

[198]tag/token	12,81
tag/token pro nejednoznačné	19,60
tokeny s 1 značkou	36,53 %

Tab. 1 Počet značek průměrně přiřazených morfologickou analýzou

která představuje cca 1/6 tokenů v českých textech) vystihuje míru výskytu částečné a paradigmatické homonymie v současných českých textech. Morfologický popis češtiny vyjádřený množinou značek (srov. http://ucnk.ff.cuni.cz/bonito/znacky.php) je velmi podrobný: značek je teoreticky okolo 5 000, reálně užitých jich je cca 1 500.

Pravidla postupně odstraňují u tokenů jednotlivé značky a lemmata ve snaze:

(a)	neodstraňovat správné (v daném kontextu) morfologické značky a lemmata, a zároveň
(b)	odstraňovat u těch tokenů, kde uchovají správnou značku, co nejvíce těch značek a lemmat, jež jsou v daném kontextu nesprávné.

Pravidla tak činí, dokud je co odstraňovat a než vyčerpají svůj potenciál (přesněji viz níže).

Oba požadavky jsou odlišné, neboť:

• čím budou pravidla neopatrnější či bezohlednější, tím sice odstraní více značek, ale mezi odstraněnými značkami mohou být i ty správné;

• čím budou pravidla naopak opatrnější či ohleduplnější, tím sice odstraní méně správných značek, ale zároveň i málo značek nesprávných.

Ideálem je v co nejvyšší míře splnit oba požadavky, tj. ponechat u každého slova právě ty značky, které jsou správné, a žádné jiné.

Disambiguační pravidla v systému LanGr jsou podle spolehlivosti rozdělena do těchto skupin:

(i) bezpečná pravidla

(ii) heuristická pravidla

a navíc spolupracují s kolokačním modulem Phras, který má za úkol identifikovat frazémy a kolokace a disambiguovat jejich členy. Tento modul je do disambiguace zapojen mezi aktivaci pravidel bezpečných a pravidel heuristických. Pravidla v obou skupinách jsou hierarchicky rozdělena do podskupin a ty zase do svých podskupin atd., přičemž nejníže se nacházejí podskupiny obsahující pouze pravidla. Skupiny pravidel jsou v dané nadskupině uspořádány a podobně ve skupinách obsahujících pravidla jsou pravidla rovněž uspořádána, a to tak, že nejprve se aplikují pravidla specifičtější a poté obecnější. Skupina bezpečných a heuristických pravidel a modul Phras konkrétně spolupracují takto:

Vstupní věta se nejprve postupně disambiguuje pouze bezpečnými pravidly, dokud není disambiguace hotova, tj. kdy má v ideálním případě každý token přiřazeno jediné správné lemma a jedinou správnou značku, nebo dokud pravidla [199]nevyčerpají svůj disambiguační potenciál. Jakmile vyčerpají svůj potenciál, tj. žádné bezpečné pravidlo již není schopno odstranit nějakou značku či lemma a věta dosud není plně disambiguována, přichází ke slovu modul Phras, který rozpoznává kolokace a disambiguuje jejich členy. Poté se na výstup modulu Phras opět spustí bezpečná disambiguační pravidla. Jakmile už nedokážou disambiguovat ani jediné slovo ve větě, krůček po krůčku se aplikují pravidla heuristická: jakmile nějaké heuristické pravidlo v datech něco změní, tj. odstraní nějakou značku/lemma u nějakého tokenu, opět se spustí celý podsystém bezpečných pravidel. Když už tento podsystém bezpečných pravidel nedokáže nic disambiguovat, opět se spouštějí jedno za druhým heuristická pravidla a tak se to opakuje, dokud celý systém pravidel nevyčerpá svůj disambiguační potenciál. Tímto způsobem se maximálně využijí bezpečná pravidla systému.

Výsledkem této spolupráce bezpečných pravidel, heuristických pravidel a modulu Phras může být úplná výsledná disambiguace věty, tj. stav, kdy každému jejímu tokenu je přiřazena jediná značka a jediné lemma. V tomto případě celá disambiguace končí. Pokud tomu tak není, nastává druhá fáze zpracování.

Fáze 2

V této fázi se aktivuje stochastický disambiguátor MorČe (Morfologie Češtiny; srov. Votrubec, 2005), který zpracuje slova, jež dosud nebyla plně disambiguována, a zajistí, že každé slovo bude mít po zpracování přiřazenu jedinou značku a jediné lemma (pokud je daná věta/struktura homonymní, homonymie se nezachytí). Po této fázi zpracování se morfologické značky u slovesných tokenů ještě obohatí o údaj o vidu a celý výstup je ještě upraven speciálními moduly ve fázi tzv. postprocessingu.

2.2 Spolehlivost morfologické analýzy a disambiguace

H. Skoumalová otestovala na testovacích datech z Pražského závislostního korpusu (Skoumalová, 2011) celý systém morfologické analýzy a disambiguace založené na pravidlech a zjistila, že systém chybně odstraní správnou značku u cca 118 tokenů z 10 000 (tj. v 1,18 % případů), přičemž u těch tokenů, kde uchová správnou značku, odstraní cca 70 % nesprávných značek (podrobně srov. Skoumalová, 2011, s. 206).

Poté, co celou disambiguaci dokončí stochastický tagger MorČe, je výsledná spolehlivost cca 95 %, tj. celý hybridní systém spolu s morfologickou analýzou se dopouští chyby ve značkování přibližně u každého 20. slova v textu.

3 Hlavní problémy disambiguace pomocí pravidel

Pokusme se nyní na základě své dosavadní zkušenosti s tvorbou disambiguačního systému založeného na pravidlech stanovit nejzávažnější problémy při [200]disambiguaci českých textů touto metodou. Snahou dnešních autorů z Ústavu teoretické a komputační lingvistiky FF UK (T. Jelínek, autor článku a zčásti i M. Hnátková) obecně je především odstranit více nesprávných chybných značek u tokenů a přitom u nich uchovat správnou značku. Chtějí tak ponechat co nejméně prostoru pro činnost stochastického modulu MorČe, a to:

• zpřesněním/opravou dosavadních bezpečných i heuristických pravidel;

• formulací dalších, především bezpečných pravidel;

• formulací dalších, mnohem opatrnějších heuristických pravidel.

Za tímto účelem bylo nutno analyzovat nedostatky disambiguace založené na pravidlech. Rozborem kvality dosavadní disambiguace byly stanoveny tyto hlavní okruhy disambiguačních problémů, které je třeba řešit v prvé řadě:

• disambiguace paradigmatické homonymie – pádový synkretismus;

• velká částečná homonymie mezi lexémy patřícími k různým slovním druhům i mezi lexémy téhož slovního druhu;

• problémy spjaté s volným slovosledem české věty;

• identifikace klauzí a stanovení jejich hranic, určení těch částí souvětí, které tvoří touž klauzi;

• disambiguace složitých souvětí a dlouhých vět;

• disambiguace založená na vztazích slov nacházejících se v různých klauzích;

• disambiguace ve větách s velkým množstvím interpunkce (čárky, tečky, závorky, …);

• disambiguace struktur s nedostačujícím kontextem, např. krátkých vět;

• dosud nedostatečné využití valenčních vlastností lexémů, zvláště slovesných;

• dosud relativně malý počet zpracovávaných kolokací;

• dosud jen malý počet sémantických disambiguačních pravidel a pravidel využívajících znalosti světa;

• zpracování nekvalitních textů, tj. textů, jež jsou z hlediska preskriptivní gramatiky, z níž autoři při tvorbě pravidel vycházejí, a českého pravopisu nesprávné.

V tomto článku nelze podrobněji charakterizovat jednotlivé problémy a témata, které spolu ovšem často úzce souvisí; většina z nich by si zasloužila samostatnou studii. Některé problémy jsou dány specifiky češtiny, jiné představují obecnější problémy disambiguace. Zaměřme se tedy alespoň na některé z nejzávažnějších problémů.

3.1 Disambiguace paradigmatické homonymie – pádový synkretismus

Přestože v deklinačním systému češtiny je sedm pádů, každé paradigma vykazuje nějakou morfonologickou homonymii, a to jak pro singulár, tak plurál: týž [201]morf vyjadřuje – v kombinaci s číslem a jmenným rodem – několik pádů. Tvarově nejbohatší jsou substantivní vzory žena a předseda a i ty vykazují homonymii jak v singuláru, tak v plurálu (ženě: Dsg = Lsg, ženy: Npl = Apl = Vpl, navíc Gsg = Npl = Apl = Vpl; předsedovi: Dsg = Lsg, předsedové: Npl = Vpl, předsedy: Apl = Ipl, navíc Gsg = Apl = Ipl). Obzvláštní problémy působí tvarová identita nominativu a akuzativu u několika vzorů maskulin a feminin; u feminin v plurálu vždy platí Npl = Apl = Vpl; u neuter platí vždy Nsg = Asg = Vsg, Npl = Apl = Vpl s výjimkou osobního zájmena ono (Asg = Apl = je). Klasické případy typu

(1)	Lvíče snědlo sele.
(2)	Rozsudek vynesl soud.

se dají disambiguovat jen na základě jemně zpracované sémantiky; taková velmi obtížně konstruovatelná pravidla v systému zatím nejsou. Obtíže však nejsou dány jen sémantikou, ale například i tím, že věta má složitou strukturu třeba s vnořeným rozvitým důsledkovým větným členem:

(3)	Podle nových řádů budou mít zámky v dubnu a v říjnu, tedy v prvním a zároveň posledním měsíci zámecké sezony, otevřeno od 9 do 16 hodin.

Proč je tu tvar zámky podmětem v nominativu a proč to není naopak akuzativní předmět slovesa mít při lexikálně nevyjádřeném podmětu? Je to proto, že věta obsahuje rezultativní konstrukci mít otevřeno, která vylučuje, aby tvar zámky měl funkci akuzativního předmětu. Ovšem rozpoznat, že jde o tuto konstrukci, je při velké vzdálenosti jednotlivých součástí konstrukce, tedy mít a otevřeno, nesmírně obtížné: aby se tato konstrukce správně disambiguovala aspoň ve větším počtu případů, je třeba vyvinout pravidla pro velké množství konfigurací slov nacházejících se mezi oběma součástmi konstrukce. Nutné je tu rozpoznat, že úsek

tedy v prvním a zároveň posledním měsíci zámecké sezony

tvoří syntaktický celek, který je možno dočasně vypustit ze zpracování a přiblížit tak slova mít a otevřeno k sobě, aby se jejich kontext dal snáze disambiguovat. Pro syntaktickou strukturu a slovosled uvedeného úseku lze jistě napsat syntaktické pravidlo, které jeho jednotlivé členy disambiguuje a celý úsek identifikuje jako celek, ale obdobné úseky mohou mít obecně velice rozmanitou strukturu a slovosled a postihnout je menším počtem obecných pravidel je prakticky vyloučeno.

Často se homonymní slova a slovní spojení vyskytují jako těsně ohraničená interpunkcí, nejčastěji čárkami, jež jsou bohužel také homonymní: vyjadřují předěl mezi klauzemi, mezi větnými členy, pauzu apod. Jen velmi široký kontext umožní takové struktury správně disambiguovat, např. syntagma sociálně-environmentální souvislosti (Npl, ~~Gsg~~, ~~Dsg~~, ~~Lsg~~, ~~Apl~~, ~~Vpl~~) jakožto člen nominativní koordinované konstrukce ve větě (vedlejší věta uvozená spojkou aby je navíc defektní, neobsahujíc finitní sloveso):

[202](4)

Zasadí se o to, aby cíle Strategie OECD v oblasti životního prostředí, kterými jsou zachování integrity ekosystémů prostřednictvím efektivního hospodaření s přírodními zdroji (v oblasti klimatu, sladké vody a biodiversity), oddělení negativních tlaků na životní prostředí od ekonomického růstu (v oblasti zemědělství, dopravy a energetiky), zlepšení informovanosti při rozhodování, měření pokroku pomocí ukazatelů, sociálně-environmentální souvislosti, zvýšení kvality života, vzájemná globální environmentální závislost, zlepšení řízení a spolupráce.

Problém je tu dán jak složitostí (nesprávné) větné struktury, tak velkým pádovým synkretismem vzoru kost, podle něhož se skloňuje lexém souvislost, a též úplným pádovým synkretismem měkkých adjektiv ve femininu singuláru (sociálně-environmentální). Navíc takové věty nejsou výjimečné; uvažme přitom, že česká věta má v průměru cca 15 slov.

3.2 Velká částečná homonymie mezi lexémy patřícími k různým slovním druhům i mezi lexémy téhož slovního druhu

Než nastala éra počítačové lingvistiky, nebylo jasné, jak velkou částečnou homonymii čeština vykazuje. Díky morfologické analýze češtiny a možnosti vytvářet morfologicky analyzované korpusy (tj. ve fázi před následnou disambiguací) si lze učinit představu o typologické šíři tohoto druhu homonymie. Ukazuje se, že existují stovky různých typů částečné homonymie zastoupené tu tisíci tvary, tu stovkami tvarů, desítkami tvarů či tvarem jediným. Autor je dokonce přesvědčen, že homonymii některých tvarů si dosud nikdo nikdy neuvědomil. Pro ilustraci uvedeme několik typů:

a) slovesa v 1. os. sg. prézentu a zároveň substantiva-feminina v dativu plurálu

Do této skupiny pořízené na základě morfologicky analyzovaného korpusu SYN2010 (100 mil. slovních tvarů) a SYN2013PUB (přes 900 000 000 slovních tvarů) patří tvary jako holím, kárám, nedělím, obtížím, pídím, smlouvám, solím, tuším a desítky dalších.

b) slovesa v imperativu 2. os. sg. a zároveň substantiva-feminina v genitivu plurálu

Do této skupiny patří například tyto tvary hub, chval, obrub, poprav, trav, trub a stovky dalších.

c) předložky homonymní se substantivem

Do této skupiny patří hlavně předložky, které vznikly slovnědruhovou konverzí ze substantiv jako během, dík(y), mezi, pomocí, stran, vzdor, ale i jiné, např. bez.

Autor zpracoval – zejména pro účely disambiguace – klasifikovaný soupis jednotlivých homonymních typů/tříd, a to na základě:

• staršího ručně pořízeného soupisu Karla Olivy (z roku cca 2000), který pak ještě zpřesnil Pavel Květoň a nezávisle doplňoval autor tohoto příspěvku,

[203]• morfologicky analyzovaných korpusů SYN2010 a SYN2013PUB,

• dat morfologického slovníku užívaného automatickou morfologickou analýzou – vzhledem k tomu, že analýza přegenerovává, bylo třeba manuálně probrat její výsledky a do disambiguačního systému zapojit odstranění zcela nesmyslných, velmi nereálných či zastaralých morfologických interpretací u kvazihomonymních slovních tvarů.

Ukazuje se, že pro zlepšení disambiguace je nutno zpracovat všechny tvary všech tříd částečné homonymie, tj. tisíce tvarů! Výhodou je, že existuje hodně tříd obsahujících slovní tvary, jejichž jednotlivé morfologické interpretace mají velmi odlišnou syntaktickou distribuci (např. obtížím, pídím, smlouvám).

3.3 Identifikace klauzí a stanovení jejich hranic

Automaticky identifikovat klauze a stanovit hranice mezi nimi, natožpak určit, že nějaký úsek věty tvoří spolu s jiným jednu a touž klauzi, je v řadě případů nesmírně obtížné. Je to dáno všudypřítomným problémem automatické lingvistické analýzy – homonymií, zde konkrétně homonymií oddělovačů klauzí, tedy interpunkčních znamének (ve větě zejména čárek) a spojek. Tokeny, které mohou být oddělovači klauzí, mohou být totiž také oddělovači členů v koordinovaných strukturách, příp. mohou mít zcela jiný význam: čárka či spojka a může oddělovat klauze nebo členy jmenné, adjektivní či jiné skupiny. Jediná čárka může navíc ukončit více klauzí do sebe postupně zanořených, takže nemusí být jasné, které všechny klauze vlastně ukončuje. Zvláště u složitých souvětí je nadmíru obtížné rozpoznat jen na syntaktickém základě jejich strukturu. Například větu:

(5)	Před třemi roky oznámil Jan Vik, historicky první český poslanec, který přišel o imunitu, založení nové politické strany Republikáni.

si čtenář znalý i mimojazykového kontextu snadno rozebere a pochopí, není však snadné zformulovat pravidlo, které stanoví, že valenční požadavek slovesa oznámit naplňuje jako jeho objekt právě substantivum založení, které se navíc jako takové musí také disambiguovat (založení může být totiž i tvarem adjektivním). Navíc typů souvětí z hlediska vzájemných vztahů jejich klauzí je velké množství a pro každý z nich by bylo zapotřebí napsat desítky pravidel.

Některé typy souvětí je ovšem možné zpracovat na základě jednoduchých úvah, např. ve větě:

(6)	Voda naopak ředí trávicí enzymy a střeva potravu hůře stráví.

spojka a spojuje dvě klauze, nikoli dvě substantivní skupiny trávicí enzymy a střeva. Kdyby spojka koordinovala uvedené substantivní skupiny, pak by v téže klauzi (zde větě) byla dvě finitní slovesa ředí a stráví, což je až na výjimky (obvykle vsuvky) v psaném textu nesprávné (disambiguační pravidla se řídí preskriptivními pravopisnými pravidly o kladení čárek). Problematičtější je věta:

[204](7)

Přitom objekt má církev v pronájmu od města za symbolickou korunu a město financuje většinu oprav.

Zde spojka a rovněž koordinuje dvě klauze, ale ty se jako takové musí rozpoznat a to může být obtížné – slovo má může totiž být i zájmeno. Pokud mu přisoudíme zájmennou interpretaci, pak není na základě pouhé syntaxe (sémantických pravidel je zatím k dispozici minimum) jasné, zda a opravdu nemůže koordinovat dvě substantivní skupiny symbolickou korunu a město řízené předložkou za. Pokud ano, pak ve větě je jediný slovesný tvar financuje (pomineme-li potenciální imperativ tvaru oprav), jehož akuzativní předmětová valence je uspokojena tvarem většinu. Pak ovšem není jasné, jaké postavení ve větě bude mít tvar objekt.[3]

Obecně lze tedy říci, že disambiguace tvarů ve složitých souvětích je velice obtížná, zvláště u tvarů, které souvisejí s jinými tvary přes hranice klauze.

3.4 Dosud nedostatečné využití valenčních vlastností lexémů, zvláště slovesných

Mezi dosavadními pravidly jsou samozřejmě i pravidla, která využívají valenčních vlastností jednotlivých lexémů, je jich však zatím nedostatek. Tato pravidla pracují v systému LanGr se soupisy lexémů spjatých nějakou valenční vlastností. Existují tedy soupisy slovesných lexémů s obligatorní/fakultativní nominativní, genitivní, dativní a akuzativní valencí, slovesa reflexiva tantum typu se i si, soupisy deverbativních i dalších adjektiv s příslušnou valencí. Těchto soupisů pravidla využívají v pozitivním i negativním smyslu: buď stanoví, že to či ono substantivum/zájmeno naplňuje příslušný valenční požadavek řídícího lexému (= pozitivní stanovení příslušné vlastnosti závislého lexému), nebo pravidlo naopak vyloučí morfologicky potenciální interpretaci (= negativní určení nějaké správné vlastnosti: tato vlastnost je určena vyloučením vlastností nesprávných). Například ve větě

(8)	Firma se teď obává přerušení výroby kvůli hrozící stávce v největší dodavatelské firmě Delfi.

pravidlo pozitivně využívající genitivní valence slovesa obávat se určí pád substantiva přerušení jako genitiv singuláru nebo plurálu (kontext věty neumožňuje spolehlivě určit číslo, heuristicky pravidla předpokládají singulár). Negativní stanovení pádu předveďme na větě:

(9)	Ve čtvrtek neodolal nadšení devatenáctky přítomných a k Bachovi, Henzemu, Barriosovi, Tarregovi a Brouerovi připojil s úsměvem ještě přídavek.

[205]Dativní pádovou interpretaci substantiva nadšení může nějaké pravidlo stanovit pozitivně, neboť toto slovo naplňuje valenční požadavek slovesa odolat, ale i negativně: těsné sousedství slovesa valenčně vyžadujícího dativ a jména (substantiva, adjektiva, zájmena, číslovky) v akuzativu (nebo i genitivu) představuje takzvaný negativní bigram:

sloveso s dativní valencí, slovní tvar v akuzativu,

čili syntakticky nemožnou konfiguraci, a proto pravidlo odstraní příslušné akuzativní čtení u daného slovního tvaru.[4]

Problém tu spočívá nejen v tom, že je nutno mít k dispozici co nejpreciznější soupisy lexémů s příslušnými valenčními vlastnostmi, ale také umět těchto významných syntaktických faktů využívat. Vzhledem k volnému slovosledu české věty nemusí doplnění řídícího lexému naplňujícího jeho valenci stát slovosledně těsně u tohoto lexému, jak to bývá v jazycích s pevnějším slovosledem. Úkolem pravidel je tak nalézt mezi slovy v klauzi tvar, který naplňuje příslušnou valenci řídícího lexému. Takových slov může být ovšem více a navíc mohou být tato slova podobně jako řídící lexém sama homonymní. Formulace co nejpřesnějších valenčních disambiguačních pravidel tedy vyžaduje zevrubné studium povrchové i hloubkové syntaxe české věty opřené navíc o reálný korpusový materiál. Autor nicméně právě v jemnějším zpracování valence (zahrnující mimo slovesa a adjektiva i substantiva a adverbia) spatřuje naději na výraznější zlepšení disambiguace založené na pravidlech.

3.5 Disambiguace struktur s nedostačujícím kontextem a sémantická disambiguace

V textech se často vyskytují krátké věty či nominální skupiny jako nadpisy, titulky, výzvy či upoutávky. V tomto případě není k dispozici větší kontext a potenciální využití předchozí či následující věty příliš nepomůže. Jako příklad uveďme zajímavou větu:[5]

(10)	Dlužte a splácejte!

Chudičký obsah výzvy ostře kontrastuje s morfologickou zajímavostí použitých sloves: tvar dlužte je homonymní – je to 2. os. imp. pl. slovesa dlužit i dloužit; tvar splácejte je také homonymní – je to 2. os. imp. pl. slovesa splácet, ale i splácat! Význam věty (10) je jasný: čtenář větu snadno disambiguuje a ani ho nenapadnou všechny morfologicky potenciální interpretace obou sloves. Nesémanticky založená disambiguační pravidla však takové věty nedokážou správně zpracovat.

[206]Pravidla se snaží vydobýt maximum z jazykové formy a disambiguovat na základě syntaxe a nižších (bližších formě) rovin lingvistického popisu. Sémantika a znalost světa jsou v disambiguačním systému přítomny jen ve skupinách lexémů kolokujících s nějakým lexémem či tvarem (takovou skupinu tvoří třeba adjektiva rozvíjející (v prepozici) substantivní tvar při: soudní, civilní, vleklý, …) a hlavně v kolokacích, jež zpracovává především modul Phras. Třebaže databáze kolokací, s nimiž tento modul pracuje, obsahuje desítky tisíc záznamů, je to stále ještě málo na to, aby disambiguace kolokací dokázala celkovou disambiguaci výrazněji zlepšit.

4 Správná disambiguace jako předpoklad kvalitní syntaktické analýzy

Morfologické značkování českých textů je užitečné nejen samo o sobě, ale představuje i nutný předpoklad kvalitního značkování syntaktického (výzkumný tým v Ústavu teoretické a komputační lingvistiky FF UK, jehož je autor členem, má v plánu syntakticky označkovat některé korpusy řady SYN). Syntaktické značkování je obtížnější než morfologická disambiguace, neboť syntakticky homonymních struktur bývá mnohem více: je velmi obtížné určit, na jakém slově ve větě dané slovo sl bezprostředně závisí (např. v závislostní syntaxi) a jakou má syntaktickou funkci (správně identifikovat řídící slovo daného slova sl se daří se spolehlivostí cca 86 %, správně identifikovat řídící slovo slova sl a nadto přiřadit slovu sl náležitou syntaktickou funkci se daří v cca 81 % případů). Navíc je toto značkování z povahy věci zatíženo chybami v předchozím morfologickém značkování (cca 95% spolehlivost). Co nejlepší morfologická disambiguace má proto na kvalitu syntaktického značkování zásadní vliv: pokud se v textu např. nesprávně určí pád substantiva – a právě určit správně pády je, jak jsme konstatovali výše, velice obtížné –, je vysoce pravděpodobné, že syntaktická analýza nedokáže daný úsek věty správně analyzovat a celá věta tak bude analyzována nesprávně.

5 Závěr

Autor v příspěvku nejprve stručně představil systém morfologické disambiguace založený na lingvistických pravidlech a užívaný k morfologickému značkování textů v korpusech současné češtiny i dalších textů, například textů k trénování a testování stochastických parserů. Poté se zaměřil na hlavní problémy disambiguace, které se projevují v její pouze přibližně 95% spolehlivosti. Několik největších problémů pak rozebral podrobněji a ukázal, že přes velké množství již vykonané práce je v oblasti disambiguace nutno ještě mnohé vykonat mj. i v zájmu kvalitní syntaktické analýzy.

[207]LITERATURA

BEJČEK, E. et al. (2012): Prague Dependency Treebank 2.5 [online]. Praha: Ústav formální a aplikované lingvistiky MFF UK. <http://ufal.mff.cuni.cz/pdt2.5>.

BRILL, E. (1992): A Simple Rule-Based Part-of-Speech Tagger. In: Proceedings of the Third Conference on Applied Natural Language Processing. Trento.

Český národní korpus – SYN2005, SYN2006PUB, SYN2009PUB, SYN2010, SYN2013PUB (2005/2006/2010/2010/2013) [online]. Praha: Ústav Českého národního korpusu FF UK. <http://www.korpus.cz>.

Český národní korpus – SYN (2010–2013) [online]. Praha: Ústav Českého národního korpusu FF UK. Cit. 2014-04-26. <http://www.korpus.cz>.

HAJIČ, J. (2000): Popis morfologických značek – poziční systém [online]. <http://www.korpus.cz/bonito/znacky.php>.

HAJIČ, J. (2004): Disambiguation of Rich Inflection. Praha: Karolinum.

HNÁTKOVÁ, M. (2002): Značkování frazémů a idiomů v Českém národním korpusu s pomocí Slovníku české frazeologie a idiomatiky. Slovo a slovesnost, 63, s. 117–126.

JELÍNEK, T. (2008): Nové značkování v Českém národním korpusu. Naše řeč, 91, s. 13–20.

JELÍNEK, T. – PETKEVIČ, V. (2011): Systém jazykového značkování současné psané češtiny. In: V. Petkevič, A. Rosen (eds.), Korpusová lingvistika Praha 2011, sv. 3: Gramatika a značkování korpusů. Praha: Nakladatelství Lidové noviny – Ústav Českého národního korpusu, s. 154–170.

KVĚTOŇ, P. (2006): Rule-based Morphological Disambiguation. Disertační práce. Praha: Matematicko-fyzikální fakulta UK.

PETKEVIČ, V. (2006): Reliable Morphological Disambiguation of Czech: Rule-Based Approach is Necessary. In: M. Šimková (ed.), Insight into the Slovak and Czech Corpus Linguistics. Bratislava: Veda, s. 26–44.

SKOUMALOVÁ, H. (2011): Porovnání úspěšnosti tagování korpusu. In: V. Petkevič, A. Rosen (eds.), Korpusová lingvistika Praha 2011, sv. 3: Gramatika a značkování korpusů. Praha: Nakladatelství Lidové noviny – Ústav Českého národního korpusu FF UK, s. 199–207.

VOTRUBEC, J. (2005): Volba vhodné sady rysů pro morfologické značkování češtiny. Diplomová práce. Praha: Matematicko-fyzikální fakulta UK.

[1] Tento příspěvek vznikl v rámci projektu GAČR 13-27184S Treebank na základě gramatiky.

[2] Interpunkční znaménko je slovnědruhově označeno jako zvláštní slovní druh Interpunkce.

[3] Ryze syntakticky může mít ovšem při zájmenné interpretaci tvaru má celá skupina má církev v pronájmu od města za symbolickou korunu [a město] funkci nominativu jmenovacího rozvíjejícího tvar objekt, ač je to velmi nepravděpodobné. Autor děkuje recenzentovi za toto upozornění.

[4] Uvedený bigram je ovšem didaktickým zjednodušením, máme tu na mysli akuzativ v objektové funkci a i při tomto zúžení se mohou takové konfigurace vyskytnout.

[5] Autora na ni upozornila H. Skoumalová.

Ústav teoretické a komputační lingvistiky FF UK
Celetná 13, 110 00 Praha 1
vladimir.petkevic@ff.cuni.cz

Naše řeč, ročník 97 (2014), číslo 4–5, s. 194-207

Předchozí Jan Chromý: Korpus a reprezentativnost

Následující Karel Kučera: Diachronní složka Českého národního korpusu a hranice možností korpusového výzkumu vývoje češtiny

Menu
Úvod
Archiv
O archivu
Hledání v archivu:
Autor