Časopis Naše řeč
en cz

Velké korpusy a identifikace změn v blízkých stavech jazyka

Karel Kučera

[Posudky a zprávy]

(pdf)

Large corpora and the identification of changes in language over short time intervals

A review of Michal Křen: Odraz jazykových změn v synchronních korpusech. Praha: Nakladatelství Lidové noviny – Ústav Českého národního korpusu FF UK, 2013. 180 s.

Michal Křen: Odraz jazykových změn v synchronních korpusech. Praha: Nakladatelství Lidové noviny – Ústav Českého národního korpusu FF UK, 2013. 180 s.

Monografie Michala Křena se dostává do rukou odborné veřejnosti v době, kdy v korpusové lingvistice postupně pomíjí jistá fascinace rozsahem korpusů (resp. euforie vyplývající z nebývalé možnosti zkoumat jazyky s využitím mimořádně velkých datových souborů) a nastupuje střízlivější pohled na přednosti korpusů i na problémy, které s sebou přináší jejich využívání. Křenova studie je v tomto směru příznačná. Rozsah datové základny, z níž vychází, je natolik impozantní, že zřejmě přesahuje hranice nejsmělejších snů kteréhokoli lingvisty zabývajícího se vývojem jazyka: pro identifikaci jazykových změn v období pouhých dvou desetiletí (1990–2009) byly využity texty obsahující celkem 1,3 miliardy slovních tvarů – texty zahrnuté ve třech stomilionových korpusech (SYN2000, SYN2005 a SYN2010) a dvou korpusech publicistických textů (SYN2006PUB a SYN2009PUB o rozsahu 300 milionů a 700 milionů slovních tvarů) vytvořených a zpřístupněných Ústavem Českého národního korpusu. Autor se však k této opulenci jazykového materiálu staví s exaktností a objektivitou: uvědomuje si, že mimořádně velké kvantum dat s sebou přináší nejen příslib bohatých výstupů, ale především řadu úskalí vyplývajících už ze základního faktu, že mnohonásobně přesahuje možnosti tradiční lingvistické analýzy současných textů, v jejímž celém průběhu lze počítat s využitím jazykového povědomí jako korektivu. Je tedy pochopitelné, že vedle množství konkrétních výsledků (statisticky významných posunů identifikovaných v současném úzu jednotlivých lexémů a jejich dvojčlenných kombinací) přináší publikace podrobnou analýzu možností a mezí detekce vývojových tendencí v jazyce na základě uvedených korpusů.

Při bližším pohledu je zřejmé, že Křenova práce je cílena do samého ohniska komplikací, překryvů, nejasných hranic, alternativních řešení a konkurenčních přístupů, v němž se metodologické, koncepční i lingvistické problémy projevují výrazněji než kde jinde. Především: autor se zaměřuje na vývojové posuny v oblasti úzu lexémů a jejich kombinací, tedy v oblasti, v níž jsou jazykové změny nejtěsněji provázány se změnami mimojazykovými. Tuto oblast zkoumá navíc v průběhu relativně velmi krátkého období, v jehož rámci je velmi nesnadné [305]odlišit přirozenou variabilitu či fluktuaci živého jazyka od projevů nebo zárodků dlouhodobějších vývojových tendencí. K podstatným problémům patří i to, že jako východisko pro zkoumání uvedených jazykových změn se na prvním místě nabízejí korpusy řady SYN, jejichž vhodnost pro diachronně orientovaný výzkum nebyla nikdy dříve testována, a že interpretace diachronních frekvenčních charakteristik je relativně nový fenomén, s nímž se statistika, na jejíchž metodách je založeno měření významnosti rozdílů kvantitativních dat, dosud nedokázala jednoznačně vypořádat (srov. např. Hilpert a Gries, 2009, s. 385). Z tohoto hlediska je pochopitelné, že cesta ke statistické identifikaci lexikálních změn ve více než miliardovém souboru dat se v Křenově publikaci vyznačuje jednak pečlivou přípravou, věnovanou především popisu a analýze výchozích korpusů, jednak řadou tematických odboček, v nichž se v širších souvislostech vyhodnocují možnosti řešení výše jmenovaných problémů a v nichž autor současně krok za krokem dospívá k formulaci vlastní metody, která vliv těchto problémů v rámci možností minimalizuje.

Metoda, kterou autor výsledně aplikuje při identifikaci změn v úzu lexémů a jejich kombinací, se vyznačuje především důsledným přístupem typu corpus-driven, tj. přístupem, který je řízen korpusovými daty, minimalizuje užívání apriorních kategorií a znalostí o jazyce, a jeho výsledky jsou proto jen málo ovlivněny tradičním uvažováním o daném problému.[1] Součástí metody je mimoto několik zdokonalení starších postupů, k nimž patří zejména taumed (Křenova empirická modifikace jedné z měr korelace mezi dvěma sadami hodnot, takzvaného Kendallova τ) a využívání průměrné redukované frekvence (ARF), která zohledňuje běžnost slova chápanou jako stupeň rovnoměrnosti jeho výskytů v celém korpusu.

Vzhledem k tomu, že hlavním cílem monografie je „popsat možnosti a meze detekce vývojových tendencí v jazyce na materiálu synchronních psaných korpusů řady SYN“ (s. 8) a vzhledem k tomu, že k tomuto materiálu lze přistupovat různými způsoby, vytváří autor z textů korpusů SYN celkem 48 subkorpusů určených k průkaznému porovnání vhodnosti, resp. účinnosti těchto různých přístupů. Jde (a) o 3 subkorpusy odpovídající celým reprezentativním korpusům SYN2000, SYN2005 a SYN2010, (b) o 9 subkorpusů odpovídajících částem korpusů SYN2000, SYN2005 a SYN2010 vyčleněným podle textových typů (beletrie, odborná literatura a publicistika), (c) o 18 subkorpusů, z nichž každý obsahuje všechny publicistické texty vydané v jednotlivých rocích mezi léty 1992–2009, a (d) o 18 subkorpusů, z nichž každý obsahuje všechny publicistické texty vydané v Mladé frontě Dnes v jednotlivých rocích mezi léty 1992–2009.

Aplikací stejných statistických metod na každý z těchto 48 korpusů[2] získává autor konkrétní vzájemně porovnatelné výstupy, které mu umožňují formulovat nejdůležitější metodologické závěry. Patří k nim především potvrzení počátečního předpokladu, že korpusy SYN2000, SYN2005 a SYN2010 nejsou jako celky vhodné pro výzkum lexikálního vývoje vzhledem k tomu, že výsledky získané jejich analýzou reprezentují vývoj jazyka jen ve třech bodech, a navíc se zkreslením vyplývajícím z autentičnosti některých textů (SYN2000 zahrnuje i reedice starších textů, např. Čapkových nebo Haškových). Vedle toho působí problémy při srovná[306]vání těchto korpusů také kategorizace textů: kategorie „životní styl“ byla v korpusu SYN2000 řazena do publicistiky, zatímco v korpusech SYN2005 a SYN2010 byla převedena do odborné literatury, kam s sebou neústrojně vnesla řadu výrazů jako např. celebrita, fotka nebo strašně moc, jejichž výskyt byl dříve v odborných textech nulový. Jako nevhodná metoda pro identifikaci lexikálních změn se ukázalo i oddělené srovnávání v rámci zmíněných tří základních textových kategorií korpusů řady SYN (beletrie, odborná literatura, publicistika), neboť ke zmíněným problémům spojeným se srovnatelností korpusů SYN jako celků přibývá při rozdělení na textové typy ještě fakt, že vzniklé subkorpusy mají výrazně menší rozsah.

Ze zkoumaných korpusů se jako nejspolehlivější základny pro statistickou identifikaci změn ukázaly dva subkorpusy publicistických textů, z nichž obecnější obsahuje různé publicistické tituly, kdežto specializovaný jen Mladou frontu Dnes. Zřejmou nevýhodou výzkumu změn realizovaného na této základně je ovšem zúžená platnost výsledků vyplývající ze skutečnosti, že oba korpusy odrážejí primárně změny v projevech publicistického stylu (resp. v textech jednoho deníku), nikoli v psané češtině jako celku. Jistou korekci této nevýhody vidí autor jednak v tom, že publicistika je ze tří základních typů psaných textů zřejmě nejvíce otevřená jazykovým změnám, a jednak v tom, že součástí novin se ve stále větší míře stávají rozmanité kulturní a tematické (do jisté míry i značně odborné) přílohy, jejichž vlivem se původní vyhraněně zpravodajské a politické zaměření publicistiky zčásti rozplývá. K jednoznačným výhodám obou korpusů patří především homogennost srovnávaných dat, autenticita a spolehlivá datace textů umožňující jejich výzkum přímo po jednotlivých rocích. Z uvedených důvodů se na tyto dva korpusy soustřeďuje hlavní Křenův výzkum.

Výsledky statistické identifikace lexikálních změn v obou korpusech jsou v monografii uváděny jednotně formou tabulek obsahujících jako ukázku vždy 50 lemmat a 50 kombinací lemmat, u nichž se frekvenční vývojové změny ze statistického hlediska jevily jako nejvýraznější. Celkově tyto tabulky uvádějí 700 lemmat a 700 kombinací lemmat a jsou doplněny celkem 42 průběhovými grafy, které mimo jiné ukazují, že ani v těchto homogenních korpusech se nelze zcela vyhnout vlivu náhodných mimojazykových faktorů, jakým bylo např. nestejné zastoupení textů z vydavatelství Vltava-Labe-Press v publicistických korpusech. Tabulkové výsledky nepředstavují konečné výstupy, tvoří jen podklad k následné lingvistické analýze, při níž je třeba prověřit relevantnost změn ve frekvenci jednotlivých identifikovaných lemmat a jejich kombinací a která se (přinejmenším v současné době) vymyká možnostem automatického zpracování. Třebaže značná část těchto výsledků se k vývoji jazyka v užším smyslu vztahuje jen zprostředkovaně,[3] jako celek představují pro lingvistickou analýzu velmi inspirativní podklad, neboť odhalují množství případů, které by při tradičním průzkumu textů bezpochyby zůstaly z velké části nerozpoznány.[4]

[307]Křenova studie nicméně nesměřuje ani k systematickému prověřování výsledků statisticky identifikovaných změn, ani k jejich detailní lingvistické interpretaci, ale soustřeďuje se především na metodologické a statistické výklady ke konkrétním skupinám výstupů vyčleněným na základě aplikace stejné statistické míry. Z lingvistického hlediska se autor omezuje na komentáře k vybraným prototypickým (nebo naopak neobvyklým) případům a s využitím identifikovaných změn formuluje několik zobecňujících charakteristik publicistických textů. K těmto charakteristikám počítá zejména časté frekvenční lexikální výkyvy, které reflektují významné události, změny aktuálních společenských témat ap., a rostoucí zaměření publicistiky na témata souvisící s praktickým životem a využíváním volného času (vzrůst frekvence lemmat jako skiareál, zeleň, vláček, adrenalinový a kombinací lemmat jako odpočinkový+zóna, volnočasový+aktivita, odpočinkový+místo, počasí+přilákat ap.). K uváděným charakteristikám publicistických textů patří rovněž vzrůstající neformálnost jejich jazyka, odrážející se např. ve stoupající frekvenci řady lemmat z jádra slovní zásoby (viz pozn. 4) nebo v rostoucím úzu významově oslabených sloves (nově např. sloveso ustát ve spojeních jako ustát aféru, ustát tlak, ustát chemoterapii ap.).

Recenzovaná publikace čtenáři neposkytuje (a za daného stavu poznání ani nemůže poskytnout) autoritativní jednoznačná řešení všech problémů, s nimiž je v současné době spojena statistická identifikace vývojových změn založená na srovnávání jazykových korpusů zachycujících blízké stavy jazyka. Neposkytuje (a opět: ani nemůže odpovědně poskytnout) zaručený recept na generování výsledků, které by bylo možno mechanicky – bez uvážení všech souvislostí, bez zpětného ověření v datech a bez korektivu jazykového povědomí – převzít jako relevantní a spolehlivé. Namísto toho autor realisticky nabízí čtenáři zasvěcený přehled řešitelných i neřešitelných problémů, které je třeba při statistické identifikaci a následné interpretaci vývojových změn brát v úvahu, názorně ukazuje rozdíly ve výstupech založených na odlišných statistických metodách a představuje nemalé možnosti, které využití těchto metod nabízí. Jako taková by měla monografie Michala Křena patřit k základním příručkám nejen toho, kdo chce – stejně jako autor – využít velkých korpusů k výzkumu vývojových změn probíhajících v češtině v krátkém nedávném období, ale obecně každého, kdo chce s využitím statistických metod a rozsáhlých textových souborů proniknout hlouběji do historie jazyka.

LITERATURA

HILPERT, M. – GRIES, S. T. (2009): Assessing frequency changes in multistage diachronic corpora: Applications for historical corpus linguistics and the study of language acquisition. Literary and Linguistic Computing, 24, s. 385–401.


[1] Jedním z výsledků volby tohoto přístupu je i to, že se v Křenově práci zkoumají obecně kombinace lexémů, tedy nikoli kolokace, jejichž současné lingvistické vymezení není natolik přesné, aby umožnilo jejich spolehlivou automatickou identifikaci v textu.

[2] Na všechny uvedené subkorpusy byla aplikována kombinace statistických měr log-likelihood, χ2 a CBF; na publicistické korpusy (c) a (d) byly v dalších analýzách použity i míry taumed a Kendallovo τ.

[3] Vlivem již zmíněné těsné provázanosti jazykových a mimojazykových změn ve slovní zásobě publicistických textů obsahují seznamy lemmat a kolokací vedle relevantních výsledků, upozorňujících na primárně jazykové změny, i množství dokladů, které odrážejí především změny v mimojazykové realitě; k takovým případům patří ve zkoumaném období např. značný vzrůst frekvence kombinací lemmat typu internetový+stránka, webový+stránka, občanský+sdružení ap.

[4] To platí zejména o výrazných, avšak při lineárním vnímání textu těžko zaznamenatelných posunech ve frekvenci běžných lemmat, jako je např. vzestup frekvence na, i, ale, do, hodně, tak, pak ap. nebo naopak pokles frekvence kombinací lemmat jako souvislost+s, považovat+za, podstatný+část, tento+souvislost, přesvědčení+že aj.

Ústav Českého národního korpusu FF UK
nám. Jana Palacha 2, 116 38 Praha 1
karel.kucera@ff.cuni.cz

Naše řeč, ročník 97 (2014), číslo 4–5, s. 304-307

Předchozí Jiří Milička: Kontroverzní hranice jazykovědy aneb O syntagmatických očích Hany Karadžičové

Následující Petr Nejedlý: Nad původem jednoho přirovnání (zagroškudla?)