Časopis Naše řeč
en cz

K efektivitě manuální a poloautomatické excerpce neologismů

Jakub Sláma

[Articles]

(pdf)

On the efficiency of manual and semi-automatic detection of neologisms

The paper presents a simple semi-automatic neologism detection procedure: a trivial Python script processes a text file, making use of a Czech morphological tagger, and extracts all words unrecognized by the tagger as potential neologisms. The list of these candidates has to be checked by a human (hence the label semi-automatic). This method was applied to a set of texts that were also analyzed in a more traditional way, by the “reading and marking” technique (i.e. the current practice). The comparison of the two methods has revealed that the semi-automatic procedure clearly outperforms the current practice both in speed and in efficiency.

Key words: data collection, manual detection of neologisms, neologisms, Python, semi-automatic detection of neologisms
Klíčová slova: manuální excerpce neologismů, neologismy, poloautomatická excerpce neologismů, Python, sběr dat

Text je on-line k dispozici v databázi CEEOL.

Ústav pro jazyk český AV ČR
Letenská 123/4, 118 51 Praha 1
slama@ujc.cas.cz

Naše řeč, volume 102 (2019), issue 1-2

Previous Jana Nová, Zdeňka Opavská: Odborní konzultanti všeobecného výkladového slovníku (praktické zkušenosti lexikografického týmu ze spolupráce s odborníky)

Next Irena Fuková, Petr Nejedlý, Štěpán Šimek: K připravovanému Slovníku raněnovověké češtiny

cheap icmeler transfersdalaman airport transfersdalaman transfersdalaman vip transfer
© 2011 – HTML 4.01 – CSS 2.1