Jiří Milička
[Posudky a zprávy]
Controversial borders of linguistics or On the syntagmatic eyes of Hana Karadžičová
A review of Václav Cvrček: Kvantitativní analýza kontextu. Praha: Nakladatelství Lidové noviny, 2013. 288 s.
Myslíte si, že nadpis této recenze je nesmyslný nebo nesprávný? Vyvolává ve vás odpor nebo zvědavost? Pokud ano, jsou ony emoce dány nejazykovou skutečností, nebo je důvod součástí jazyka? To je jen jedna z kontroverzí, ke kterým vás může přivést nová kniha Václava Cvrčka z Ústavu Českého národního korpusu. Jak název knihy napovídá, zabývá se kontextem jako takovým. Nikoli tedy kontextem určitých slov nebo kontextem v určitém jazyce, ale kontextem jakožto obecně lingvistickým faktorem, který ovlivňuje kvantitativní charakteristiky textu. Zároveň ale byla zřejmě zamýšlena také jako metodologie pro zkoumání kontextu konkrétních jazykových jednotek v konkrétních jazycích. Má první otázka po prvním zběžném prolistování knihy byla, proč tato publikace nevyšla v angličtině, když ve světovém měřítku by našla nejméně o řád více čtenářů než v češtině, kde statistické studování jazykových univerzálií na základě přirozeně vzniknuvších textů je spíše výjimkou a i korpusové studie jsou často spíše filologického charakteru. V rámci českého lingvistického diskurzu bere si tato kniha na bedra nelehkou úlohu: vytvořit si své čtenáře. Už tuto neskromnou ambici je třeba ocenit, ač pokusů o uvedení kvantitativní lingvistiky do českého prostředí bylo vícero, vzpomeňme především na díla Ludmily Uhlířové a Marie Těšitelové nebo odborné i populárně-naučné publikace Luďka Hřebíčka.
Úvod Kvantitativní analýzy kontextu mi připomněl první dvě kapitoly Vyprávění o lingvistických experimentech s textem od Luďka Hřebíčka (2002). Svou poněkud zbytečnou kontroverzí. Potkal jsem více lidí, kteří z této Hřebíčkovy knihy přečetli prvních pár desítek stran a utvořili si na ni neotřesitelný negativní názor, než těch, kteří ji dočetli do konce a mohli si užít kontroverzí mnohem šťavnatějších a inspirativnějších.
Také tato kniha má dobře našlápnuto k tomu, aby si generovala své vlastní kritiky, kteří nepřečtou víc než prvních deset stránek. Z jejich pohledu nesprávná tvrzení v úvodu budou výbornou výmluvou pro ukončení četby ještě před tím, než dojde na pasáže nárokující si větší intelektuální kapacitu.
Několik jedinečných příležitostí k zaseknutí se dostane znalci strukturalismu hned na první stránce (str. 11). Přiznám se, že kritiku použité terminologie rád přenechám jiným, znalejším a angažovanějším, nicméně i mě zaujal inovativní způsob, s jakým autor chápe dichotomii parole vs. langue; viz větu: „Druhý přístup akcentuje úhrnný (languový) kontext jednotky, tedy kontext všech realizací zkoumaného jevu“. Vždycky jsem měl zato, že v běžném lingvistickém diskursu se pojem langue používá nikoli pro souhrn všech instancí (to by byla pouze ultimátně dlouhá parole, pokud vůbec něco), ale pro mechanismus, který ony instance vytváří. Nicméně možná jsem tuto větu jenom špatně pochopil.[1]
[301]Přitom bez langue–parolové dichotomie by se Úvod docela dobře obešel. Daleko závažnější je otázka, co autor považuje za statistickou populaci. Je jí souhrn všech textů v daném jazyce (jak by napovídalo jeho pojetí langue)? Nebo je pro každou vlastnost textu populací stochastický proces, který onu vlastnost vytváří (nebo lépe – procesy a principy, ne nutně stochastické)? Právě tohle je otázka, která dělí CL i QL komunitu (přičemž toto rozdělení není samozřejmě natolik silné, aby se zástupci těchto dvou náhledů vzájemně ignorovali, často prostě dělají, kuhnovsky řečeno, normální vědu, aniž by nad tímto rozdílem vůbec přemýšleli).
Rovněž pojem syntagma je používán ve významu (patrně sinclairovském), ze kterého by strukturalista nebo generativec vyletěl z kůže. Čtenář, který poněkud nezvyklou terminologii akceptuje (neboť účelem termínů by mělo být porozumění, nikoli rozepře), dočká se mnoha originálních náhledů na realitu i nečekaných výsledků měření. Myslím, že právě kvůli občasným zásadním pasážím, které mění čtenářovy zažité stereotypy a očekávání, má smysl systematicky sledovat Cvrčkův výzkum.[2]
Na začátku druhé kapitoly je uvedena první velmi zajímavá úvaha: Pokud výskyt slovního typu A (který má četnost N v korpusu K) ovlivňuje počet slovních typů vyskytujících se v kontextu jednotlivých instancí onoho typu (onen počet je nazván ACV), měl by se počet slovních typů v onom kontextu lišit od počtu typů v subkorpusu K‘ o velikosti N, náhodně vybraném z korpusu K (onen počet je nazván PDCV[3]). (Podotýkám, že tato myšlenka je v díle vyjádřena v méně formalizované a „lidštější“ podobě.)
Vzhledem k tomu, že slova omezují svůj bezprostřední kontext, pak bychom čekali, že ACV[4] Taková pozorování ovšem vzbuzují mnohé zajímavé otázky. Zároveň se ukazuje, že i vzdálený kontext některých slov může mít ACV odlišné od PDCV, neboť se objevují v určitém typu textů s relativně vyšším type-token ratio vzhledem ke zbytku korpusu, což je řešeno v kapitole 4.5.
Zde je třeba zmínit, že při zjišťování PDCV pomocí metody Monte Carlo by nebylo tak komputačně náročné změřit konfidenční intervaly PDCV, respektive RCV[5]. Tím by se testovala statistická signifikance rozdílnosti PDCV a ACV bez ztráty informace o velikosti rozdílu, ke které by došlo při použití běžných inferenčních statistických testů, což by bylo velmi nežádoucí. Bohužel, taková důslednost není zatím v lingvistice obvyklá (a často ani v medicínském výzkumu, což může mít mnohem tragičtější následky).
[302]V následujících podkapitolách jsou definovány nové indexy pro určování vzájemné blízkosti slov: proximita, modus a obligatornost. Pravověrný kvantitativec by měřil tyto indexy (včetně ACV) nikoli na celém korpusu jakožto jedno číslo, ale na jednotlivých textech (neboť korpus není statistická jednotka, ale vzorek, přičemž největší statistické jednotky jsou jednotlivé texty), což by mu, kromě dobrého pocitu z metodicky čisté práce, přineslo možnost zjistit distribuci oněch indexů pro více textů a následně možnost s touto distribucí dále pracovat (například bootstrappovat konfidenční intervaly, což by eliminovalo otázku, do jaké míry jsou hodnoty těchto indexů dány náhodně). Toto ovšem není v korpusové lingvistice zvykem. V našich podmínkách je možná dobře, že tento postup nebyl použit, neboť by učinil text složitějším a spletitějším.
Třetí kapitola je věnovaná otázce, která slova nebo skupiny slov se v kontextu slov nebo skupin slov reálně nacházejí. Ukazuje se, že slova s podobným kontextem jsou až na výjimky stejného slovního druhu. Tohoto zjištění je využito k propagaci myšlenky, že kategorie číslovek není potřebná, neboť různé druhy číslovek je možné nejen morfologicky a funkčně, ale i podle typického kontextu, rozřadit mezi ostatní slovní druhy. Osobně zastávám názor, že důležitost definic a kategorizace je v českém lingvistickém diskurzu přeceňovaná a že by bylo nejlíp nechat vše s notnou dávkou tolerance na tradici, neboť v konečném důsledku nejsou důležité samotné kategorie, ale hypotézy, které s těmito kategoriemi pracují a které jim dávají smysl. Nic jako správná definice neexistuje. Boj o definice je plýtvání papírem, pokud neznáme sadu (zdůrazňuji) testovatelných hypotéz, které danou definici používají (něco jiného je ovšem třeba kategorizace, která probíhá v NLP ad hoc pro potřeby té které aplikace, kdy není vyžadována žádná srozumitelnost, návaznost na předchozí výzkum apod.). V této kapitole najdeme dále několik případových studií, které dokladují, že i synonyma se podle kontextu liší a že některé sémanticky spřízněné skupiny slov mají kontext podobný, ovšem také s určitými nenáhodnými rozdíly, které můžou být vodítkem k například lexikografickému zkoumání. Použitá metodologie, vhodná právě pro lexikografy, ovšem obecného lingvistu přivádí k úvaze, do jaké míry je kontext dán jazykem a do jaké míry odráží mimojazykovou realitu (pokud přiznáme, že takováto dichotomie existuje). Kupříkladu lemma „modrý“ se liší od lemmatu „zelený“ tím, že má ve svém kontextu častěji lemma „oči“. Dostáváme se tak k otázce, proč vlastně daný proces podstupujeme a čeho tím chceme docílit. Je například jasné, že tuto metodologii nemůžeme použít pro diachronní lingvistiku, neboť změny v kontextu by mohly spíše než jazykový vývoj reflektovat změny mimojazykové. Naopak by tato metoda mohla být zajímavá pro historiky, ovšem i tady je třeba velké opatrnosti.
Následující kapitola dále pracuje s pojmy definovanými v kapitole druhé a pozastavuje se nad tím, že v bezprostředním kontextu určitého slovního typu je méně hapaxů, než kolik by jich mělo být, pokud bychom je normovali podle RCV. Podle mé intuice to příliš překvapivé není a je to v souladu se Zipfovým zákonem (z něhož vyplývá, že menší počet typů v textu znamená asymetricky menší počet hapaxů a vůbec typů s nízkou frekvencí). Naopak zajímavé je zjištění, že interpunkční znaménka se chovají podobně jako slovní tokeny. Zde bych ocenil, kdyby byly hypotézy testovány na více jazycích. Což ostatně platí pro celou práci, neboť by se tak ukázalo, jestli popisuje jevy specifické pro češtinu, případně angličtinu, nebo obecné zákonitosti. Celá kapitola je věnována vztahu variability kontextů a různých proměnných a velmi oceňuji, že autor reportuje i měření s negativním výsledkem, tedy ta, kde závislost neobjevil.
[303]Pátá kapitola taktéž nechává ožít pojmy definované v druhé kapitole, totiž proximitu a obligatornost. Kapitola je poněkud deskriptivní, nicméně i zde se najdou zajímavé momenty, například v podkapitole 5.2 je uvedeno, že dvě slova, která spolu ráda tvoří syntagmata, málokdy vstupují do vzájemných paradigmatických vztahů. Bohužel není uvedeno, odkud je tato informace čerpána, ani není natvrdo položena jako testovatelná hypotéza, ale jako „axiom“.[6]
Revoluční myšlenku najdeme v kapitole 5.5, kde autor přichází s nápadem, že desítky asociačních měr (indexů kolokability), které jsou založeny na frekvenci, je vhodné doplnit mírou, která značí typickou vzdálenost daných typů (samozřejmě normovanou podle frekvence oněch typů a velikosti korpusu). Takovéto kolokace nazývá p-kolokacemi a pro jejich vyhledávání prosazuje obligatornost a proximitu. Dokážu si představit, že tato myšlenka bude v budoucnu rozvinuta o další indexy p-kolokací a že se stanou standardním nástrojem popisu jazyků za použití korpusu. Další zaznamenáníhodný nápad najdeme v samém závěru páté kapitoly, totiž že jako kolokáty nemusíme určovat jen jednotlivá slova, ale i skupiny slov seskládané dohromady právě podle podobnosti kontextu (skupiny seskládané dohromady podle podobnosti kontextu vyjádřeného ve skupinách seskládaných podle podobnosti kontextu vyjádřeného ve skupinách seskládaných podle podobnosti kontextu… chce se dodat).
Nakladatelství Lidové noviny odvedlo po technické stránce standardní práci, ovšem je škoda, že se redaktorům nepodařilo vychytat různé drobné chyby, například v popisku k tabulce 3.15.
Závěrem: Kvantitativní analýza kontextu klade víc otázek, než na kolik odpovídá, což je dle mého důležitým znakem kvalitní vědecké práce. Je totiž inspirativní. A ona inspirativnost bohatě vyváží případné chyby a nedokonalosti. V českém kontextu je ojedinělá a díky přístupnému jazyku (mnohem přístupnějšímu, než jaký používám v této recenzi) otvírá i neznalému čtenáři dveře do nového světa netriviální abstrakce. Drobné nedokonalosti spolu s poměrně jednoduchými a přímočarými způsoby pozorování onoho čtenáře do oněch dveří lákají: podívej, kolik neprozkoumaných oblastí za námi najdeš, podívej, jak je to jednoduché. Jsi nespokojený? Něco se ti nelíbí? Zdá se ti čeština a angličtina jako malý vzorek jazyků pro zobecnění? Vezmi si pár textů a replikuj výzkum, změň cokoli podle vlastního gusta, uváděj poznatky do kontextu teorií, na které jsi zvyklý, a hledej nové v zahraniční literatuře. Kvantitativní analýza kontextu asi nebyla zamýšlena jako učebnice, ale doufám, že její edukativní vliv na českou lingvistickou scénu nebude zanedbatelný.
CVRČEK, V. (2011): How Large is the Core of Language? Corpus Linguistics 2011 [online]. Birmingham. Cit. 2014-06-02. <http://www.birmingham.ac.uk/documents/college-artslaw/corpus/conference-archives/2011/abs-145.pdf>.
HŘEBÍČEK, L. (2002): Vyprávění o lingvistických experimentech s textem. Praha: Academia.
MILIČKA, J. (2009): Type-token & Hapax-token Relation: A Combinatorial Model. Glottotheory. International Journal of Theoretical Linguistics, 2, s. 99–110.
[304]MILIČKA, J. (2013): Rank-frequency Relation & Type-token Relation: Two Sides of the Same Coin. In: I. Obradović – E. Kelih – R. Kohler (eds.), Methods and Applications of Quantitative Linguistics – Selected papers of the 8th International Conference on Quantitative Linguistics (QUALICO). University of Belgrade and Academic Mind, s. 163–172.
[1] Například kdyby zněla „… tedy kontext všech možných realizací zkoumaného jevu“, byla by interpretace jednodušší.
[2] Jako příklad empirického pozorování s náležitým „wow-efektem“ lze uvést měření publikované v Cvrček (2011), kde se ukazuje, že pro dostatečně velký korpus poměr hapaxů ke všem typům v závislosti na počtu tokenů v určité fázi přestává klesat a při randomizaci na úrovni textů dokonce od určitého počtu tokenů mírně roste. Toto zjištění má dalekosáhlé teoretické následky, dosud nedoceněné, pouze částečně zpracované v Milička (2013, kapitola 4).
[3] Je škoda, že Václav Cvrček používá pro výpočet PDCV kombinaci metody Monte Carlo (náhodná tvorba subkorpusu) pro malé N a Heapsova modelu pro type-token relation pro větší N, když pro jakoukoli velikost N je k dispozici metoda publikovaná v Milička (2009), která exaktně počítá výsledek dosažený metodou Monte Carlo při nekonečném množství náhodných subkorpusů (nebo lépe řečeno všech možných subkorpusů) efektivně pomocí kombinatoriky.
[4] Například z grafu na straně 150 vyplývá, že existuje spojka, která má v bezprostředním kontextu R1 ACV o 50 % vyšší, než je PDCV.
[6] Vedle plnotučných hypotéz autor používá ještě pojem tvrzení. Tato tvrzení čísluje stejně jako hypotézy, přičemž není úplně jasné, jaké místo v epistemologickém aparátu taková tvrzení zaujímají. Občas se při čtení knihy dostaví pocit, že i hypotézy jsou položeny příliš vágně. Zvláště pak upozorňuji na hypotézy 2.1 a 2.2, které jsou (tak, jak jsou uvedeny) netestovatelné.
Ústav srovnávací jazykovědy FF UK
nám. Jana Palacha 2, 116 38 Praha 1
milicka@centrum.cz
Naše řeč, ročník 97 (2014), číslo 4–5, s. 300-304
Předchozí Veronika Kolářová: Nominalizované struktury se dvěma aktanty ve formě bezpředložkového genitivu
Následující Karel Kučera: Velké korpusy a identifikace změn v blízkých stavech jazyka