Časopis Naše řeč
en cz

Diachronní složka Českého národního korpusu a hranice možností korpusového výzkumu vývoje češtiny

Karel Kučera

[Články]

(pdf)

The diachronic part of the Czech National Corpus: Limitations of corpus research into the history of Czech

The paper reviews the present state of the diachronic part of the Czech National Corpus, with the focus on the two-million-word unannotated pivotal corpus Diakorp and its limitations in relation to corpus-based research into the history of Czech. A minimum 1,000,000-token growth, lemmatization and morphological tagging are cited as near-future enhancements to the corpus. A series of thoroughly structured monitoring diachronic corpora to be built from 2017 on is considered as a future basis for research into long-term trends in the history of Czech, thus complementing the quantity-oriented Diakorp.

Key words: annotation, corpus size, corpus structure, diachronic corpus, history of Czech
Klíčová slova: anotace, velikost korpusu, struktura korpusu, diachronní korpus, vývoj češtiny

[1]Uvažovat o možnostech korpusového výzkumu vývoje češtiny – a navíc o hranicích těchto možností – se může zdát nadbytečné, anachronické nebo přinejmenším poněkud předčasné v době, kdy Diakorp, základní korpus diachronní složky Českého národního korpusu (ČNK), pokrývá historické kontinuum českého jazyka od počátku 14. do konce 19. století necelými dvěma miliony slovních tvarů, navíc se značně nerovnoměrnou distribucí, při níž jsou jednotlivá století reprezentována texty o rozsahu zhruba mezi 110 000 (17. století) a 480 000 tokenů (19. století). Uvážíme-li vedle toho skutečnost, že dostatečně velký soubor kvalitně zpracovaných jazykových dat je prvním a nevyhnutelným předpokladem pro jakýkoli korpusově orientovaný lingvistický výzkum, můžeme i bez dalších úvah konstatovat, že současná těsnost hranic výzkumu na základě jmenovaného korpusu je primárně dána malým rozsahem korpusových dat.

Toto konstatování je bezpochyby platné, i když problém je ve skutečnosti složitější, než na první pohled vypadá. Dostatečný rozsah korpusu není absolutní veličina a odpověď na otázku, co lze považovat za dostatečně velký korpus, záleží především na zaměření a šíři výzkumu, k němuž má příslušný korpus [209]sloužit, a na povaze výstupů, které chceme na jeho základě získat nebo získávat. Je zjevné, že i malý několikatisícový soubor textů – například účelově sestavený korpus všech básní jednoho autora – je naprosto dostačující, má-li adekvátně specializované, úzce zaměřené poslání (v daném případě např. sloužit k analýze autorova básnického jazyka, k vytvoření autorského slovníku ap.). Při srovnání se současnými, dnes už nijak výjimečnými několikamiliardovými nespecializovanými synchronními korpusy, kladoucími si často za cíl reprezentovat celý současný (psaný) jazyk, má podobný specializovaný korpus ve skutečnosti nesrovnatelnou výhodu v tom, že několik tisíc jeho slovních tvarů představuje všechna potřebná data, kdežto sebevětší nespecializovaný synchronní korpus je nevyhnutelně jen vzorkem mnohonásobně rozsáhlejšího, v podstatě neomezeného množství jazykových projevů neustále vznikajících v živé komunikaci.

Z tohoto hlediska je vysvětlitelný zdánlivý paradox spočívající v tom, že pokrytí šesti století vývoje češtiny dvěma miliony slovních tvarů je v případě Diakorpu vnímáno jako nedostatečné, kdežto v případě světoznámého helsinského korpusu staré, střední a rané nové angličtiny (Helsinki Corpus of English Texts obsahující texty z let 730 až 1710) je pokrytí tisíciletého vývoje textovými vzorky o celkovém rozsahu necelých 1,6 milionu tokenů akceptováno jako postačující. Helsinský korpus je výsledkem osmiletého průkopnického projektu završeného v roce 1991 a svými autory je stručně charakterizován jako „diagnostický korpus poskytující obecné informace o výskytu tvarů, struktur a lexémů v různých obdobích angličtiny“, s dodatkem, že „tyto informace lze doplnit doklady, které poskytují speciálnější a úžeji zaměřené historické korpusy“ (viz www.helsinki.fi/varieng/CoRD/corpora/HelsinkiCorpus/). Diakorp je naproti tomu časově neomezený projekt směřující k co nejširšímu (nikoli jen orientačnímu, „diagnostickému“), kontinuálně rozvíjenému pokrytí historického vývoje českého jazyka od konce 13. do konce 19. století, a to celými dochovanými texty, nikoli jen vzorky, a bez odkazu k jiným, specializovanějším korpusům.[2] Vzhledem k tomuto širšímu určení je ovšem současný rozsah Diakorpu podstatně méně uspokojivý než rozsah helsinského korpusu poměřovaný jeho výše citovanými cíli.

Kvantitativní omezení výzkumu vývoje češtiny s využitím diachronní složky ČNK tedy je (a v dohledné budoucnosti stále ještě bude) značné, a Diakorp jako celek proto ještě dlouho nebude bezpečným východiskem pro diachronní výzkum méně frekventovaných jazykových prvků a jevů. V průběhu času by však toto omezení mělo ustupovat do pozadí. V plánech rozvoje Českého národního korpusu pro nejbližších 5–10 let je v co největším rozsahu pokrýt korpusovými texty dosud jen velmi mezerovitě podchycené období od konce 19. století do konce 80. let 20. století a propojit tak synchronní a diachronní část ČNK. [210]Výsledkem by měla být relativně spolehlivá základna pro korpusový výzkum vývoje českého jazyka od začátku 19. do začátku 21. století. Tato základna by pak měla být plynule rozšiřována jak do minulosti (růstem Diakorpu a budováním monitorovacích korpusů, viz níže), tak do budoucnosti (v podobě dalších synchronních korpusů řady SYN).[3] K nejbližším konkrétním cílům, termínovaným ke konci roku 2016, patří v této souvislosti vytvoření stomilionového korpusu SYN2015 a rozšíření korpusu Diakorp minimálně o milion slovních tvarů, s koncentrací na 19. století.

Datová základna ovšem může významně omezovat možnosti korpusového výzkumu jazyka nejen svým malým rozsahem, ale i svým nedostatečným strukturováním. Má-li korpus sloužit široké škále diachronně orientovaného lingvistického výzkumu, měl by mu poskytnout nejen dostatečné kvantum dat, ale také zajistit, aby v něm byly reprezentovány pokud možno všechny základní druhy textů vznikající v dobové komunikaci. V ideálním případě by měl být korpus natolik diverzifikovaný, aby eliminoval zkreslení celkové představy o dobovém jazyce – zkreslení, k němuž může dojít vlivem nepřiměřeně velkého nebo naopak neadekvátně malého, popř. nulového zastoupení textů jednoho nebo několika málo typů, žánrů ap. Tvůrci synchronních korpusů redukují možnost takového zkreslení zpravidla výběrem, který je realizován buď na základě odhadu uplatnění, respektive recepce, různých textových typů, forem, žánrů ap. v dobové komunikaci (korpusy SYN2000, SYN2005, SYN2010), anebo na základě v zásadě arbitrárních schémat, v nichž jsou na několika rovinách rovnoměrně zastoupeny jednotlivé druhy textů (např. Brown Corpus z roku 1964; viz http://khnt.aksis.uib.no/icame/manuals/brown/). V případě menších korpusů se naznačená možnost zkreslení navíc účinně minimalizuje tím, že do korpusu vstupují jednotlivé texty nikoli jako celky, ale ve formě stejně velkých vzorků (prototypem je zmíněný Brown Corpus sestavený ze vzorků o rozsahu 2 000 slovních tvarů).

Pro diachronní korpusy – od nichž se očekává, že poskytnou možnost ústrojného, kompatibilního srovnání různých stavů jazyka v rámci jeho několikasetletého vývoje – představuje požadavek strukturace jazykových dat dva podstatné problémy. První spočívá ve skutečnosti, že texty z jednotlivých vývojových fází jazyka se dochovaly v nestejném, často jen velmi omezeném počtu typů, žánrů a forem, což znamená, že se nelze ani úplně vyhnout datovému zkreslení celkové představy o jazyce jednotlivých období, ani dosáhnout plné kompatibility [211]srovnání různých dobových stavů jazyka. Tento problém je neřešitelný, představuje trvalý limitující faktor korpusové (i jakékoli jiné) obecnější analýzy vývoje jazyka, a je tedy třeba ho neustále brát v úvahu. Snížit míru jeho vlivu lze pouze na interpretační úrovni, vyhodnocováním historických jazykových dat (zejména kvantitativních) vždy s plným vědomím jejich omezení.

Druhý problém strukturace jazykových dat v diachronním korpusu vyplývá z přirozeného požadavku na její nadčasovost, tj. aplikovatelnost na texty z celé historie daného jazyka. Je přitom zřejmé, že různá propracovaná rozvržení textových typů, žánrů, forem, tematických kategorií ap., která slouží jako základ strukturace dnešních synchronních korpusů (srov. k tomu např. Lee, 2001, nebo Křen, 2013, zejm. s. 46–51), tomuto požadavku vyhovují jen zčásti. Jako celek jsou tato rozvržení obvykle využitelná jen v rozsahu jednoho dvou století, neboť diverzita textů se více či méně výrazně mění v čase: směrem do minulosti se zpravidla zmenšuje (mj. v historicky krátké době mizí i jeden z dnešních základních textových typů – publicistické texty) a do budoucnosti je naopak třeba počítat s jejím rozšiřováním (srov. např. specifické jazykové projevy vznikající v různých druzích internetové a telefonické komunikace, které sice v současnosti mohou být staršími uživateli jazyka ještě vnímány jako okrajové, ale pro nezanedbatelnou část mladé generace se stávají vůbec nejčastějšími texty, které píše a čte). Pro zajištění jednotné struktury diachronních korpusů se proto obvykle navrhují odlišná kritéria, obecnější než v případě korpusů synchronních. Cílem takového obecnějšího dělení textů na několik málo skupin, jaké bylo poprvé aplikováno před třiceti lety v helsinském historickém korpusu, je zabezpečit, aby jednotlivé textové kategorie a podkategorie pokud možno nezůstávaly v různých fázích vývoje jazyka nenaplněny a zajišťovaly tak „spolehlivost kvantitativní analýzy méně častých syntaktických a lexikálních variant“ (Rissanen, 1989, s. 18).[4]

Odlišnost synchronního a diachronního přístupu ke strukturaci vyplývá z rozdílu mezi synchronním a diachronním pojetím reprezentativnosti korpusu, a v poslední instanci tedy z rozdílu mezi množinami jazykových dat (statistickými populacemi), které mají synchronní a diachronní korpusy reprezentovat. Zatímco populací pro nespecializovaný korpus současného jazyka je – jak už bylo naznačeno – rostoucí, potenciálně nekonečná množina jazykových projevů, [212]z níž je možno vybírat mnoha různými zdůvodnitelnými způsoby, pro nespecializovaný korpus mapující starší historii jazyka jde o množinu uzavřenou (i když nikoli nutně v úplnosti známou a přístupnou), z níž lze sestavit jen značně omezené množství smysluplných výběrů – a v případě extrémně malého počtu textů dochovaných z určitého období dokonce jen výběr jediný. Reprezentativnost diachronního korpusu se tedy vztahuje k množství dochovaných textů, nikoli obecně k jazyku příslušných historických období, o němž získáváme spolehlivé informace právě jen z těchto dostupných textů. Aniž zpochybňujeme význam strukturace diachronního korpusu, je zřejmé, že v uvedených souvislostech ustupuje poněkud do pozadí a že do popředí naopak vystupuje důležitost jeho rozsahu, který je významnější charakteristikou než u korpusu synchronního. Vyhraněně formulováno: ideálním nespecializovaným diachronním korpusem češtiny by nebyl ideálně strukturovaný neúplný korpus,[5] ale korpus úplný, zahrnující všechny zachované autentické české texty, třebaže struktura takového korpusu by následkem rozmanitých okolností ovlivňujících dochování starších textů byla nevyhnutelně silně nejednotná a nevyvážená.

Diakorp je korpusem orientovaným k tomuto ideálnímu, v praxi ovšem sotva realizovatelnému stavu, a směřuje tedy primárně k co nejširšímu textovému pokrytí vývoje češtiny. Při jeho výstavbě, v počátečních fázích vedené téměř výhradně hlediskem kvantity, se sice stále více uplatňuje i zřetel k zastoupení různých typů historických textů, ale vzhledem ke své primární kvantitativní orientaci nebude Diakorp zřejmě nikdy tou nejvhodnější základnou pro sofistikovanější statistický výzkum dlouhodobých vývojových trendů a tendencí v češtině. Takovou základnou by se měla stát uvažovaná souvislá řada monitorovacích (synchronních i diachronních) korpusů. Jejich primárním cílem by mělo být co nejširší zachycení diachronní diverzity psaných jazykových projevů v takové podobě, která by v rámci reálných možností důsledně zohledňovala i texty, jako jsou např. kramářské písně, neúspěšná literární díla, příležitostné texty, praktické návodné texty, zápisy v městských knihách, korespondence ap., tj. texty, které jsou v tradičních popisech vývoje jazyka do jisté míry opomíjeny. V rámci omezení daných různým množstvím a skladbou psaných jazykových projevů dochovaných z různých období by adekvátní reprezentace podobných neoficiálních a kulturně, společensky i jinak méně významných textů měla být zajištěna přiměřenou strukturací monitorovacích korpusů, umožňující spolu s lemmatizací a morfologickým značkováním operativnější, mnohostrannější a exaktnější výzkum dlouhodobých proměn češtiny i v rámci jednotlivých textových typů.

[213]Konkrétní koncepce monitorovacích korpusů a jejich strukturace v ČNK teprve vzniká. Celková představa je, že monitorovací korpusy by měly zachycovat vývoj češtiny v různých intervalech, jejichž velikost (rok, pět let, deset i více let…) bude vyplývat především z množství, rozmanitosti a dostupnosti textů zachovaných z příslušné vývojové fáze češtiny. Se vznikem prvního historického monitorovacího korpusu, odrážejícího při rozsahu jednoho milionu slovních tvarů textovou diverzitu v desetiletí 1891–1900, se počítá po roce 2017. Jak už bylo zčásti naznačeno, Diakorp by v poměru k monitorovacím korpusům měl plnit úlohu širšího textového zázemí, v němž by bylo možno na větším objemu dat ověřovat a lépe dokumentovat například existenci obecnějších tendencí identifikovaných v monitorovacích korpusech nebo prověřovat platnost pracovních hypotéz, které na základě těchto korpusů vznikly.

Vedle zmíněných problémů spojených s rozsahem a strukturací textové základny, tedy v podstatě problémů datových, jsou hranice korpusového výzkumu vývoje jazyka výrazně ovlivňovány i různými aspekty celkové koncepce diachronního korpusu. K základním současným omezením tohoto typu patří skutečnost, že možnosti, které Diakorp nabízí pro diachronní výzkum, odpovídají požadavkům dnešní korpusové lingvistiky víceméně jen v oboru fonologie,[6] tj. v oboru, v němž v zásadě lze výzkum realizovat na samotném korpusovém textu, bez dodaných lingvistických informací. Fakt, že Diakorp tyto informace dosud neobsahuje, představuje citelnou nevýhodu pro výzkum v ostatních základních oblastech diachronního lingvistického bádání, tj. konkrétně zejména v oblasti lexikologie, morfologie, syntaxe a sémantiky. Z nich v prvních dvou by se měla situace výrazně zlepšit po roce 2016, kdy v diachronní sekci ČNK bude postupně, od konce 19. století do minulosti, implementována lemmatizace a morfologické značkování. V oboru syntaxe zůstane situace v dohledné budoucnosti bohužel nezměněna, tzn. že Diakorp – podobně jako velká část existujících synchronních i diachronních korpusů – nebude umožňovat prakticky žádný složitější automatizovaný syntaktický výzkum za hranicí jevů vázaných na konkrétní lexikální obsazení, k jakým patří např. historická změna slovosledu mi/ti sě/se na sě/se mi/ti). K odstranění této překážky bude třeba vyvinout jak dostatečně propracovaný systém diachronního syntaktického značkování, tak nástroje na jeho (alespoň částečně) automatickou implementaci v diachronním korpusu češtiny – což jako celek představuje úkol, jehož brzké řešení je v současné době nad možnosti ČNK. Ze stejného důvodu zůstane v dohledné době nezměněna i podobně neuspokojivá situace v oblasti sémantického značkování, které by [214]umožnilo automatizované vyhledávání v diachronním korpusu např. podle sémantických polí, synonymie, hyperonymie, hyponymie ap.

Specifické koncepční omezení Diakorpu vystupuje do popředí v oblasti výzkumu pravopisu. Vzhledem k tomu, že texty vzniklé před rokem 1849 (tj. před pravopisnou reformou, která jako poslední měnila platnost jednotlivých grafémů a grafémových skupin) vstupují do korpusu vždy v transkribované podobě, může Diakorp sloužit pouze k výzkumu novočeského pravopisu, a to od poloviny 19. století do současnosti. Toto omezení by mohlo být v budoucnu redukováno např. propojením transkribovaných textů s digitalizovanými snímky starších originálů (podobně, jak je tomu u některých textů v projektu Manuscriptorium, srov. http://www.manuscriptorium.com), ale jeho realizace – závisící především na dohodě se správci starších textů a majiteli digitalizovaných kopií – zatím není součástí plánů rozvoje Diakorpu v nejbližší budoucnosti.

Závěrem přehledu základních faktorů limitujících možnosti korpusového výzkumu vývoje jazyka stručně zmiňme technickou, hardwarovou a softwarovou stránku korpusů, která představovala významné omezení především v minulosti.[7] Současné možnosti v oblasti výpočetní techniky daleko přesahují nároky projektů, jako je ČNK, a budování ani využívání jazykových korpusů rozhodně nenaráží ani na hranice možností softwarových. Z uživatelského hlediska je diachronní složka ČNK velmi dobře softwarově vybavena jednak k vyhledávání v textech (v nedávné době byl uveden do provozu funkčně zdokonalený vyhledavač KonText), jednak k získávání údajů o frekvenci jazykových jednotek a o průběhu jejich vzájemné konkurence v celém historickém vývoji češtiny (nástroj SyD).[8]

Běžnému uživateli korpusu zůstávají nicméně skryta úskalí tvorby a dlouhodobého zdokonalování programů pro řešení takových specifických úkolů, jako je automatická disambiguace výsledků morfologické analýzy korpusových dat.[9] Chybovost těchto programů se sice neustále snižuje, ale z uživatelského hlediska se výsledné chyby ve značkování i dnes ještě jeví jako citelná vada, vnímaná [215]zpravidla coby nedostatek korpusového softwaru, respektive coby nedostatek korpusu jako celku. Je však třeba poznamenat, že tento nedostatek nevyplývá ani ze systémových, ani z programových, ani z programátorských omezení, nýbrž primárně z nezpůsobilosti existujících popisů češtiny poskytnout k disambiguaci vyčerpávající formální, na kontextu založená pravidla. Tento problém není ani specificky český, ani zanedbatelný, ale česká i zahraniční lingvistika mu obecně věnuje jen velmi malou pozornost, přestože jeho vlivem dochází ke snižování kvality informací dodaných k textovým datům, které je zvlášť citelné v jazycích s vysokou mírou úplné i částečné homonymie. Příslibem zlepšení současné situace je především zpřesňování pravidel pro disambiguaci výstupů automatické analýzy korpusových textů, systematicky rozvíjené v Ústavu teoretické a komputační lingvistiky FF UK v Praze, a alternativní přístupy, svou podstatou statistické a stochastické, rozvíjené zejména na Ústavu formální a aplikované lingvistiky MFF UK v Praze a v Centru zpracování přirozeného jazyka FI MU v Brně.

Jak je zřejmé z textu tohoto příspěvku, jsme přesvědčeni, že vliv většiny naznačených současných datových, strukturních i koncepčních omezení korpusového výzkumu historie českého jazyka bude v průběhu času slábnout a že hranice možností tohoto výzkumu se budou podstatně, i když jen postupně a nerovnoměrně rozšiřovat. Přes tento celkový optimismus považujeme za nezbytné zdůraznit, že v historicky orientovaném lingvistickém výzkumu – především vlivem už připomenutých neovlivnitelných rozdílů v kvantitě a diverzitě textů zachovaných z jednotlivých starších období – budou tyto hranice vždy užší než ve výzkumu současného jazyka a že i velmi přesvědčivá kvantitativní nebo statistická analýza vývojových proměn češtiny může vést k nerealistickým závěrům, nebudou-li její výsledky interpretovány s plným vědomím právě těchto hranic.

LITERATURA

KŘEN, M. (2013): Odraz jazykových změn v synchronních korpusech. Praha: Nakladatelství Lidové noviny – Ústav Českého národního korpusu.

LEE, D. (2001): Genres, registers, text types, domains, and styles: clarifying the concepts and navigating a path through the BNC jungle. Language Learning & Technology, 5, s. 37–72.

RISSANEN, M. (1989): Three problems connected with the use of diachronic corpora. ICAME Journal, 13, s. 16–19.


[1] Tento příspěvek vznikl při realizaci projektu Český národní korpus (LM2011023) financovaného Ministerstvem školství, mládeže a tělovýchovy v rámci aktivity Projekty velkých infrastruktur pro VaVaI.

[2] Jak uvádíme níže, Diakorp by se měl stát naopak širším, materiálově bohatějším korpusem, využitelným k doplnění specifičtějších diachronně orientovaných výzkumných projektů.

[3] Postup rozšiřování diachronní složky ČNK směrem od přítomnosti do minulosti byl zvolen mj. se zřetelem k tomu, že v opačném směru se prohledavatelná datová základna pro nejstarší historické období češtiny intenzivně buduje v oddělení vývoje jazyka Ústavu pro jazyk český AV ČR, v. v. i., (blíže viz např. http://vokabular.ujc.cas.cz/informace.aspx?t=STB&o=nezapojeneZdroje). Při postupu obou projektů z protilehlých stran by měla být spolehlivá elektronická báze pro výzkum celého historického vývoje češtiny k dispozici podstatně dříve než při souběžném postupu obou projektů stejným směrem.

[4] Texty jsou v helsinském korpusu děleny na šest základních kategorií, tzv. textových prototypů, a to na texty statutární (právo, oficiální dokumenty ap.), instruktivní světské (příručky, instruktivní vědecké, filozofické a vzdělávací texty), instruktivní náboženské (výklady biblického textu, kázání ap.), výkladové (výkladové vědecké a vzdělávací texty), narativní neimaginativní (historické texty, kroniky, deníky, životopisy ap.) a narativní imaginativní (beletrie); blíže viz www.helsinki.fi/varieng/CoRD/corpora/HelsinkiCorpus/textcategories.html. Těchto šest hlavních kategorií se podařilo naplnit texty v rozsahu celého tisíciletí pokrytého korpusem. V další, podrobnější kategorizaci na 31 žánrů (viz www.helsinki.fi/varieng/CoRD/corpora/HelsinkiCorpus/genres.html) už v jednotlivých obdobích (stará, střední a raná nová angličtina) zůstávaly jednotlivé žánry často nezastoupeny.

[5] Důsledná strukturace, při níž by bylo třeba dodržovat poměry mezi vyčleněnými kategoriemi textů, by v reálných podmínkách často omezovala rozsah korpusu, neboť bylo-li by v určitém období možné některou kategorii naplnit texty jen zčásti, musely by být adekvátně – rovněž jen zčásti – naplněny i ostatní kategorie, třebaže by k jejich naplnění ve skutečnosti existoval dostatek textů.

[6] Výrazem víceméně zde chceme naznačit, že ani fonologicky orientovaný výzkum na základě korpusu Diakorp není zcela bez problémů vzhledem ke zkreslení, které s sebou může nést transkripce starších textů. Za zpřesnění formulace děkuji jednomu ze dvou anonymních posuzovatelů tohoto příspěvku.

[7] Srov. vyjádření Mattiho Rissanena, vedoucího zmíněného prvního diachronního korpusového projektu Helsinki Corpus of English Texts, v souvislosti s již připomenutými obtížemi při zajišťování spolehlivosti kvantitativní analýzy méně častých jazykových jevů v tomto jedenapůlmilionovém korpusu: „Podotýkáme, že nejlepším způsobem, jak se s tímto problémem vypořádat, by bylo budovat velmi velké korpusy, ale omezení hardwaru a softwaru dostupného lingvistům udává velikosti korpusu jisté meze.“ (Rissanen, 1989, s. 18)

[8] K celkovému přehledu přístupného uživatelského softwaru ČNK viz odkazy na adrese korpus.cz. Prostřednictvím poradny přístupné na téže adrese také může každý registrovaný uživatel korpusu oznámit případné nejasnosti, problémy nebo podněty ke zlepšení účinnosti, intuitivnosti a uživatelské vstřícnosti programového vybavení ČNK.

[9] V češtině jde zejména o řešení případů lexikální a tvarové homonymie, tj. např. o problém, jak na základě kontextu, s nímž disambiguační program pracuje, jednoznačně určit, kdy a je v textu spojka a kdy částice, kdy má být tvar stát interpretován jako sloveso a kdy jako podstatné jméno ap.

Ústav Českého národního korpusu FF UK
nám. Jana Palacha 2, 116 38 Praha 1
karel.kucera@ff.cuni.cz

Naše řeč, ročník 97 (2014), číslo 4–5, s. 208-215

Předchozí Vladimír Petkevič: Problémy automatické morfologické disambiguace češtiny

Následující Neil Bermel, Luděk Knittl, Jean Russell: Absolutní a proporcionální frekvence v ČNK ve světle výzkumu morfosyntaktické variace v češtině