Časopis Naše řeč
en cz

Diachronní složka Českého národního korpusu a hranice možností korpusového výzkumu vývoje češtiny

Karel Kučera

[Články]

(pdf)

The diachronic part of the Czech National Corpus: Limitations of corpus research into the history of Czech

The paper reviews the present state of the diachronic part of the Czech National Corpus, with the focus on the two-million-word unannotated pivotal corpus Diakorp and its limitations in relation to corpus-based research into the history of Czech. A minimum 1,000,000-token growth, lemmatization and morphological tagging are cited as near-future enhancements to the corpus. A series of thoroughly structured monitoring diachronic corpora to be built from 2017 on is considered as a future basis for research into long-term trends in the history of Czech, thus complementing the quantity-oriented Diakorp.

Key words: annotation, corpus size, corpus structure, diachronic corpus, history of Czech
Klíčová slova: anotace, velikost korpusu, struktura korpusu, diachronní korpus, vývoj češtiny

Text je on-line k dispozici v databázi CEEOL.

Ústav Českého národního korpusu FF UK
nám. Jana Palacha 2, 116 38 Praha 1
karel.kucera@ff.cuni.cz

Naše řeč, ročník 97 (2014), číslo 4–5, s. 208-215

Předchozí Vladimír Petkevič: Problémy automatické morfologické disambiguace češtiny

Následující Neil Bermel, Luděk Knittl, Jean Russell: Absolutní a proporcionální frekvence v ČNK ve světle výzkumu morfosyntaktické variace v češtině