Časopis Naše řeč
en cz

Korpusový přístup k popisu jazyka: Slovo úvodem

Jan Chromý

[Články]

(pdf)

Corpus approach towards language description: An introduction

Dvojčíslo, které právě držíte v ruce, je věnováno korpusové lingvistice, tedy jazykovědné subdisciplíně, která u nás v posledních zhruba dvaceti letech pevně zakořenila. Používání korpusu je dnes již integrální součástí lingvistické práce. Existuje celá řada různě zaměřených korpusů a vznikají stále nové (respektive se rozšiřují některé starší), v Nakladatelství Lidové noviny vychází ediční řada Studie z korpusové lingvistiky, ryze korpusově orientovaný je časopis Korpus – gramatika – axiologie, pravidelně se konají různé korpusové konference (v tomto roce především Korpusová lingvistika Praha 2014), vzniká mnoho závěrečných prací založených na korpusových analýzách a v neposlední řadě je každoročně publikována řada studií, které se o korpus opírají.

Rozmach korpusové lingvistiky je spjat s nadšením, které je pro rozmach jakékoliv inovativní subdisciplíny typické. Toto nadšení je z určitého úhlu pohledu pochopitelné. Najednou totiž máme k dispozici velké objemy dat a díky jejich analýze můžeme dospívat k mnoha novým poznatkům o fungování jazyka, respektive revidovat ty staré, založené obvykle na introspekci. Jazyk jako bychom najednou měli na dlani před sebou. Pokud bychom však tomuto nadšení podlehli, hrozilo by, že si nevšimneme slabin korpusové lingvistiky jako přístupu, respektive že budeme odhlížet od teoreticko-metodologických problémů, které potřebují řešení.

Důvodem uspořádání tohoto tematického dvojčísla byla právě snaha upozornit na problematická místa korpusového přístupu k popisu užívání jazyka a nastínit možná řešení. Shromáždili jsme tak celkem deset studií, které se zabývají nejrůznějšími aspekty korpusového přístupu (ať už obecnými, teoretičtějšími, nebo konkrétními, spíše praktickými), a také recenze na dvě nejnovější publikace české korpusové lingvistiky, tedy na práci Michala Křena Odraz jazykových změn v synchronních korpusech a na knihu Václava Cvrčka Kvantitativní analýza kontextu.

Dvojčíslo otevírá práce Radka Čecha nazvaná Jen popis s čísly? Perspektivy korpusové lingvistiky. Čech zde rozebírá otázku kvantifikace v korpusové lingvistice a dochází k závěru, že se korpusová lingvistika nachází na hranici dvou paradigmat: strukturalistického a experimentálního. Následující text Jana Chromého Korpus a reprezentativnost poukazuje na rozdílnost reprezentativnosti v pojetí korpusové lingvistiky na jedné straně a sociologie na straně druhé, přičemž tvrdí, že o skutečné statistické reprezentativnosti má smysl mluvit pouze u specializovaných korpusů. Třetím v pořadí je článek Vladimíra Petkeviče [170]Problémy automatické morfologické disambiguace češtiny, který na konkrétních příkladech rozebírá hlavní úskalí, s nimiž se v současnosti potýká automatická disambiguace v rámci českého tvarosloví. Korpusovému zkoumání vývoje češtiny se v následujícím textu nazvaném Diachronní složka Českého národního korpusu a hranice možností korpusového výzkumu vývoje češtiny věnuje Karel Kučera. Všímá si zde faktorů, které limitují možnosti tohoto výzkumu – od malého rozsahu diachronních korpusových dat přes otázky koncepční až po problémy technického rázu. Pátým příspěvkem je studie Neila Bermela, Luďka Knittla a Jean Russellové Absolutní a proporcionální frekvence v ČNK ve světle výzkumu morfosyntaktické variace v češtině, v níž jsou srovnávány dva způsoby operacionalizace frekvence určitého jevu v korpusu, a to na základě jejich propojení s přijatelností jevu pro rodilé mluvčí. Autoři dochází k závěru, že proporcionální frekvence jevu odpovídá jeho přijatelnosti mnohem lépe než frekvence absolutní.

Šestým příspěvkem v pořadí je článek Magdy Ševčíkové Zjišťování slovotvorné produktivity z korpusových dat: přípony odvozující názvy vlastností, v němž je na příkladu přípon -ost, -ství/-ctví, -ita a -ismus ukázáno, že je potřeba při posuzování slovotvorné produktivity kombinovat jak kvantitativní, tak systémové rysy formantů. V následujícím textu K možnostem korpusového zpracování nadvětných jevů Lucie Poláková poukazuje na to, že je vhodnější k analýze nadvětných jevů přistupovat formálně, tedy vycházet z jazykových forem, jejichž prvotní funkcí je textové spojování, propojování či odkazování, než přímo hledat tato propojení na základě významu. Studie Překladová čeština v korpusech Lucie Chlumské a Olgy Richterové nejprve podává přehled toho, jak se s překladovými texty pracuje ve světové korpusové lingvistice, a dále na příkladu vybraných jevů upozorňuje na to, že se české překladové texty mohou lišit od textů původních, což může způsobovat zkreslení, pokud svou analýzu založíme na korpusech, kde jsou nevyváženě zastoupeny oba tyto typy textů. Předposlední studií tohoto dvojčísla je text K metodologii využití paralelních korpusů v kontrastivní lingvistice Michaely Martinkové. Autorka v něm kriticky analyzuje užívání paralelních korpusů v kontrastivní lingvistice a své poznatky dokumentuje na datech z korpusu InterCorp. Desátou prací je pak text Veroniky Kolářové Nominalizované struktury se dvěma aktanty ve formě bezpředložkového genitivu, který rozebírá konstrukce typu zbavení ženy starostí v Pražském závislostním korpusu a v ČNK.

Pevně věříme, že toto dvojčíslo přispěje k dalšímu rozvoji české korpusové lingvistiky – ať už přímo, nebo alespoň prostřednictvím diskusí, které jednotlivé příspěvky, jak doufáme, vyvolají.

Naše řeč, ročník 97 (2014), číslo 4–5, s. 169-170

Předchozí Z dopisů jazykové poradně

Následující Radek Čech: Jen popis s čísly? Perspektivy korpusové lingvistiky