Časopis Naše řeč
en cz

Korpus jako zdroj dat o češtině

Jan Klaška

[Posudky a zprávy]

(pdf)

-

Ve dnech 4.―6. 11. 2004 uspořádal Ústav českého jazyka Filozofické fakulty Masarykovy univerzity v Brně ve spolupráci s Ústavem pro jazyk český AV ČR v Praze mezinárodní konferenci s názvem Korpus jako zdroj dat o češtině. Toto vědecké setkání se uskutečnilo ve Šlapanicích u Brna jako součást projektu Možnosti a meze gramatiky češtiny ve světle Českého národního korpusu, podporovaného Grantovou agenturou ČR. Odpovědným řešitelem tohoto vědecky aktuálního projektu, jehož se účastní řada lingvistů z České republiky i ze zahraničí, je František Štícha.

Základním cílem šlapanické konference byla výměna informací o získávání relevantních dat z Českého národního korpusu, zvláště z jeho hlavního subkorpusu SYN2000, která mohou tvořit empirickou základnu umožňující plnit priority projektu, tj. vytvářet po stránce teoreticko-metodologické i materiálové předpoklady pro zpracování koncepce gramatiky češtiny založené na datech z korpusu. V úvodním referátu O korpusu jako o zdroji jazykových dat charakterizoval K. Oliva úkol, který dnes v českém prostředí konference o jazykovém korpusu má, jako hledání odpovědi na tři vzájemně provázané otázky: 1. Jakého specifického typu jsou jazyková data obsažená v korpusu?; 2. Co je to reprezentativnost korpusu?; 3. Je korpus možné považovat za jediný ― nebo alespoň za nejdůležitější ― zdroj jazykových dat pro gramatický výzkum?

Referáty přednesené na konferenci lze rozdělit z hlediska cílů, které jejich autoři měli na mysli, v zásadě do dvou skupin. Ve více než polovině příspěvků se řešily základní problémy spojené s korpusovou lingvistikou, zejména otázky metodiky práce s korpusy. Šlo o tematiku, která upozornila na nutnost vzájemného propojení znalostí a zkušeností korpusových lingvistů, programátorů i nekorpusových jazykovědců, kteří od korpusu očekávají empirická data jako podklad pro jazykovědné analýzy. Ve zbývajících referátech se těžiště zájmu přesunulo na lingvistický aspekt korpusových dat, zvláště na otázky týkající se vztahu korpusových dat a gramatičnosti slovních tvarů a syntaktických konstrukcí, výpovědní hodnoty nulového výskytu hledané struktury a výpovědní hodnoty korpusových dat vzhledem ke gramatičnosti a spisovnosti v souvislosti se stylovou a žánrovou omezeností korpusového materiálu. Po stránce tematické lze přednesené příspěvky rozdělit do dvou skupin: na příspěvky reflektující jevy tradičně vykládané v nauce o vnitřní struktuře slova a na příspěvky tematizující jevy související se strukturou jazykových jednotek větších než slovo.

Do prvního tematického okruhu referátů se zařadil příspěvek T. Bergera Vybrané problémy z nominální morfologie, v němž se autor zaměřil na zobecnění závěrů z dat, která korpus poskytuje o českých pomnožných jménech. R. Kvapilová Brabcová vystoupila s referátem Kolísání rodu substantiv. Konfrontovala v něm názory na rodovou příslušnost substantiv zachycené v našich mluvnicích s daty poskytovanými korpusem SYN2000. V. Petkevič ve svém příspěvku Lokál a jeho automatická identifikace v korpusu SYN2000 poukázal na překážky při automatickém tagování a demonstroval je na značkování slov v lokálu. Problematice kolísání mezi vzory se věnovala J. Obrovská v referátu Variantnost v deklinaci apelativních feminin. Podobnou problematiku zvolila za téma svého referátu Varianty v dativu singuláru (mužská jména [43]životná) ― analýza korpusových výskytů v SYN2000 M. Hebalová. Také jejím cílem bylo nabídnout popis variantních koncovek; dospěla k závěru, že podle databáze ČNK se koncovka -ovi vyskytuje ve vzorech měkkého typu muž a soudce sporadicky, ve spisovné češtině je dominantní krátká koncovka. Jediným příspěvkem z oblasti formální morfologie finitních sloves byl referát N. Bermela Jak často se vyskytují (vyskytujou) tzv. hovorovétvary 1. os. j. č. a 3. os. mn. č. v ČNK? Na základě cenných poznatků o distribuci morfologických forem ve vztahu k stylistickým, tematickým i gramatickým faktorům vyslovil autor obecný závěr, že data z korpusu SYN2000 zdůrazňují u dubletních tvarů spíše možnosti volby nežli meze užívání.

Na pomezí mezi morfologií a syntaxí byl zakotven příspěvek J. Šimandla Deverbativní adjektiva a jejich konkurenty. Na analýze vyhledávek v korpusu SYN2000 sledoval syntaktické chování verbálních adjektiv na -ící/-oucí a jejich konkurentů a konfrontoval je s analýzou, kterou nabízí valenční teorie Funkčního generativního popisu. Z jiného hlediska byl na rozhraní mezi morfologií a syntaxí referát P. Cahy a M. Zikové Neshody s děvčetem. Autoři využili toho, že substantivum děvče má přirozený rod ženský, kdežto gramatický rod střední, a pokusili se na základě dat z korpusu ukázat, že není vhodné považovat shodu za komplexní vztah dvou jednotek ve struktuře a jejich vzájemné sjednocení rysů, nýbrž že shoda je spíše vztah jednotlivých rysů. Mezi morfologií a slovotvorbou se pohyboval referát F. Esvana Vidová opozice v kontextu. Francouzský bohemista se v něm soustředil na analýzu konstrukcí typu Opravoval ten dům, ale neopravil ho. a ukázal, že data, která nám o této konstrukci poskytuje korpus, nejsou v souladu s tvrzením standardních gramatik o vidových opozicích.

Druhý tematický okruh, tj. referáty zaměřené na syntax, zahájil P. Kosta příspěvkem Syntax ticha (elipsa/výpustka systémová, aktuální apod., sluicing, gapping) aneb jak získat to, co v korpusu není vidět? Ukázal teoretické pozadí různých typů „výpustek“ a navrhl proceduru, jak lze zmíněné syntaktické jevy v korpusu vyhledávat. J. Panevová v příspěvku Všeobecné aktanty očima PDT jako jedna z mála vycházela z dat získaných z Pražského závislostního korpusu, který je na rozdíl od korpusu SYN2000 syntakticky anotovaný. Data z téhož korpusu použila i E. Hajičová ve svém referátu Kontrast v základu výpovědi ve světle pražského závislostního korpusu. Zaměřila se na anotování aktuálního členění, konkrétně na vymezení kategorie „kontrastivní základ“. Třetí referát využívající Pražský závislostní korpus měl název Valence deverbálních substantiv odvozených syntaktickou derivací: Některé specifické změny povrchových realizací participantů a přednesla ho V. Kolářová. Tyto příspěvky ukázaly, že anotování Pražského závislostního korpusu přináší dosud neznámé možnosti studia nejrůznějších otázek gramatické stavby češtiny. Další referáty se syntaktickou tematikou se týkaly jednak nominální skupiny (P. Nádeníček, Vnitřní struktura a mikrosyntax dějových substantiv podle SYN2000), jednak celé věty (J. Dotlačil, Neprojektivita klitik ve větách s infinitivními konstrukcemi jaká jsou syntaktická omezení pro neprojektivní konstrukce typu Lékařům se ho nepodařilo zachránit?), ale také struktur, pro jejichž výklad je potřeba kontext nadvětný (F. Štícha, Kataforické to v souvětí, L. Uhlířová, O nepřesné anafoře a I. Kolářová, Postupy při vyhledávání slova to na počátku výpovědi ve spojkové, částicové, eventuálně jiné navazovací funkci v textech SYN2000). V syntaktickém bloku byly předneseny i dva referáty patřící do oblasti větné modality, a to příspěvek M. Hirschové: Jaké poznatky o ilokučních slovesech lze z korpusu získat? a R. Meyera: Syntax doplňovacích otázek: teorie vs. evidence z ČNK. Vedle morfolo[44]gie a syntaxe se na konferenci objevilo i téma lexikologické. Referát M. Hnátkové Speciální frazémy a jejich identifikace v korpusu ukázal, že komputační lingvistika už dnes má relativně spolehlivé nástroje pro odlišení frazémů od komplexních struktur nefrazémových, a to i v případech homonymních výrazů.

Pro lingvisty byl nesmírně cenný příspěvek K. Paly a P. Rychlého Bonito a slovní profil. Představili v něm nejnovější verzi korpusového manažeru Bonito, seznámili účastníky konference s technikou práce s tímto manažerem, s jeho možnostmi a funkcemi. Program konference doplnily panelové diskuse: první na téma Morfologické značkování a desambiguace (moderátorem byl V. Petkevič), druhá na téma Vyhledávání gramatických jevů v korpusech (SYN2000, Treebank) a jejich editace pro ukládání do databází MaM: zkušenosti, problémy, perspektivy (moderoval F. Štícha).

Konference ukázala, že korpus je jedinečným zdrojem informací o přirozeném jazyce, že poskytuje dosud neznámé možnosti práce s jazykovými daty, umožňuje jejich vyhodnocování (například i z hlediska gramatičnosti a spisovnosti) a vyslovování závěrů o struktuře češtiny a jejím užívání v standardních komunikačních situacích. František Štícha proto navrhl uspořádat konferenci věnovanou lingvistické reflexi jazykových dat získaných z korpusu i v roce 2005, tentokrát v Praze. Hostitel šlapanické konference Petr Karlík vydá příspěvky přednesené na konferenci ve sborníku Korpus jako zdroj dat o češtině ještě v roce 2004.

Naše řeč, ročník 88 (2005), číslo 1, s. 42-44

Předchozí Jan Balhar: Studie o mluvě českých reemigrantů z Ukrajiny

Následující Veronika Scheirichová: Slova a dějiny 2004