Michaela Martinková
[Články]
On the methodology of using parallel corpora for contrastive linguistic research
In the last twenty years, contrastive linguistic research has benefited greatly from the introduction of parallel corpora; the valuable “bilingual output” supplied by translations “provides a basis of comparison, or at least justifies the assumption of comparability” (Gast, forthcoming, p. 8). This paper subjects the methodology of using parallel corpora for contrastive linguistic research to a critical analysis.
Key words: parallel corpus, InterCorp, contrastive linguistics, methodology
Klíčová slova: paralelní korpus, InterCorp, kontrastivní lingvistika, metodologie
Zatímco vznik prvních elektronických jednojazyčných korpusů spadá do šedesátých let minulého století, na korpusech vícejazyčných se začalo pracovat až v letech devadesátých ve Skandinávii. Dvojjazyčný English-Norwegian Parallel Corpus (ENPC; viz Altenberg – Aijmer, 2000) byl dokončen v roce 1997, sesterský English-Swedish Parallel Corpus (ESPC; viz Johansson – Hofland, 1994) v roce 2000. Oba okamžitě inspirovaly řadu kontrastivně lingvistických studií (Hasselgård, 1997 a další).
I na české lingvistické scéně padlo uvedení vícejazyčného korpusu InterCorp (Čermák – Rosen, 2012) na velmi úrodnou půdu – kontrastivní přístup tu má dlouhou tradici. Již v Tezích předložených prvému sjezdu slovanských filologů v Praze 1929 se píše o „nových možnostech využití srovnávací metody“, a to v oblasti synchronní lingvistiky (Vachek, 1970, s. 36). Vilém Mathesius zkoumal současnou angličtinu „metodou analytického srovnávání“ (1961, s. 10); Ivan Poldauf, který upozornil, že kořeny porovnávacího přístupu[2] je třeba hledat už [271]„v humboldtovském pohledu na jazyk“ (1977, s. 71), se ke kontrastivní lingvistice explicitně vyjadřuje hned ve dvou svých článcích (1954, 1977) a angličtinu srovnává s češtinou ve většině svých prací. Systematické srovnávání dvou či více jazyků s cílem popsat jejich podobnosti a rozdíly (jak kontrastivní metodu definuje Johansson, 2007a, s. 1) je v těchto studiích cílem, nikoliv prostředkem, na rozdíl od převážně didakticky zaměřeného kontrastivně-lingvistického výzkumu tehdejší doby (Fries, 1945; Lado, 1957). Johansson, jeden z autorů korpusu ENPC a zakladatel tradice paralelních korpusů, roli tzv. Pražské školy v kontrastivní lingvistice ostatně připomíná už ve svém článku Seeing through Multilingual Corpora (2007a, s. 52) a ve své přednášce Multilingual Corpora: Possibilities and Limitations (2010, s. 53–54) explicitně zmiňuje vliv Pražské školy i Jana Firbase na svou práci.
InterCorp, ve kterém je v tuto chvíli zastoupeno 32 jazyků, obsahuje texty originální i překladové; autoři jej označují jako korpus paralelní. Všechny cizojazyčné texty jsou tu zarovnány (na úrovni věty)[3] proti jejich české verzi (více v kapitole 3.3). Práce na korpusu začala v roce 2005, pět let po uveřejnění prvního jednojazyčného korpusu češtiny SYN2000. Dostupný je uživatelům od roku 2008, zpočátku přes paralelní rozhraní Park, později přes NoSketch Engine a nejnověji přes KonText. V současnosti InterCorp umožňuje nejen pojmout některá dosavadní pozorování o stejné či podobné funkci různých jazykových prostředků jako hypotézy a empiricky verifikovat jejich platnost, ale také přinést kontrastivní pohled na další konkrétní jazykové jevy, nejen v angličtině (např. Malá, 2013; Čermáková – Čermák, 2013; Janebová, v tisku), ale i ve francouzštině (např. Nádvorníková, 2013), italštině a dalších 29 jazycích včetně češtiny.
Cílem tohoto příspěvku je pojednat detailněji o využívání paralelních korpusů jako metodologii v kontrastivně lingvistickém výzkumu.
Podle Volkera Gasta (v tisku, s. 9) jsou originály a jejich kvalitní překlady příkladem vyrovnaného dvojjazyčného výstupu (balanced bilingual output); [272]data představující konkrétní realizace dvou jazykových systémů se tu totiž nijak podstatně neliší od výstupu, jaký by poskytli rodilí mluvčí těchto jazyků. Tento dvojjazyčný výstup je velmi důležitý, jelikož ospravedlňuje tzv. předpoklad srovnatelnosti (Gast, v tisku, s. 8), což je zásadní problém nejen v jazykové typologii, ale právě v kontrastivní lingvistice. Například ve strukturalistických přístupech, kde jsou jazykové kategorie definovány ve vztahu k jiným kategoriím v témže systému, nelze automaticky předpokládat, že si kategorie v různých jazycích skutečně odpovídají a že stojí za to jejich formální realizace srovnávat (Gast, tamtéž);[4] při srovnávání je tu nebezpečí, že lingvisté srovnávají dva zcela nesouvisející jazykové jevy.
Jak však připomínají i Granger a Altenberg (2002, s. 8), korpusy paralelní (v jejich terminologii překladové) mají schopnost zachovat funkci a význam napříč srovnávanými jazyky. Johansson dokonce tvrdí, že vícejazyčné korpusy umožňují vidět skrze překlad význam, a mohou tedy být prostředkem k odhalení víceznačnosti či vágnosti (2007a, s. 57),[5] což je teze často ověřovaná v kontrastivnělingvistických studiích. Lingvisté (např. Altenberg – Granger, 2002, s. 16) poukazují na Jamesovo konstatování, že překladová ekvivalence je možné „tertium comparationis“ pro kontrastivní analýzu (1980, s. 178); místo teoretického konceptu ekvivalence však používají empirický termín korespondence (vztah daný právě paralelním výskytem dvou výrazů, jednoho ve zdrojovém textu a druhého v jeho překladu). Lingvista nejprve stanoví tzv. překladové paradigma (ve smyslu Johanssona, 2007b, s. 23, tj. seznam jednotlivých korespondencí v cílovém, případně i zdrojovém textu). Korespondence identifikované v cílovém textu může posléze vyhledávat ve zdrojových textech a analyzovat jejich zpětný překlad. Pokud má k dispozici obousměrný vyrovnaný překladový korpus, může sílu korespondencí dokonce měřit; již v roce 1999 Altenberg pro tento účel zavádí koncept tzv. mutual correspondence (MC). Jde o procentuálně vyjádřenou frekvenci, se kterou je určitý výraz a jeho předpokládaný protějšek skutečně překládán jeden druhým ve srovnatelném obousměrném překladovém korpusu (Altenberg, 1999, s. 254). Počítá se podle vzorce uvedeného na obrázku 1:
Obr. 1 Vzorec pro výpočet tzv. mutual correspondence (Altenberg, 1999)
[273]At a Bt jsou tu počty výskytů obou srovnávaných jednotek (překladových protějšků) v příslušných překladových textech, As a Bs pak jejich počty v příslušných originálních (nepřekladových) textech. V čistě hypotetickém případě by MC slovníkových (Fronek, 2000) protějšků takže a anglického and so byla 100 % tehdy, pokud by ve speciálně vytvořeném (třeba na základě korpusu InterCorp) oboustranném srovnatelném paralelním korpusu bylo and so v anglických zdrojových textech vždy překládáno do češtiny jako takže a naopak takže v českých zdrojových textech vždy překládáno do angličtiny jako and so. Stoprocentní MC však protějšky nedosahují ani v mnohem méně problematických případech; v Altenbergově studii anglických a švédských konektorů v korpusu ESPC (1999) jsou nejvyšší kolem 80 %.
V poslední době lingvisté při práci s paralelními korpusy využívají statistického ověřování hypotéz, například testují statistickou signifikanci souvýskytu určitého jazykového jevu a určitého překladového protějšku. To je i případ studie Gasta a Levshiny (v tisku) o jednom typu vytýkacích konstrukcí (tzv. W(h)-clefts) v angličtině a němčině v korpusu zápisů z Evropského parlamentu Europarl.
Přestože jsou výhody využití paralelních korpusů v kontrastivní lingvistice nesporné, metodologie není dokonalá; o některých problematických aspektech pojednáme v následující kapitole.
Lingvista pracující s paralelním korpusem se vypořádává jak s úskalími, která provázejí práci s jakýmkoliv jednojazyčným korpusem, tak se specifiky korpusů paralelních. K těm prvním patří 1. fakt, že hledat je možné jen to, co je explicitně formálně vyjádřeno; 2. problémy s kvalitou morfologické anotace; 3. nedostatek syntakticky anotovaných korpusů, daný především velmi nízkou spolehlivostí automatické syntaktické anotace;[6] 4. obtížnost či nemožnost dohledání širšího kontextu, a tudíž nemožnost pracovat s celým textem jako s makrostrukturou.[7] Na paralelní korpusy však můžeme vztáhnout i další dvě pozorování týkající se jednojazyčných korpusů.
Prvním je to, že korpus nám neřekne, co není „správné“, jinými slovy zdaleka ne vše, co v korpusu nenajdeme, můžeme označit za „nesprávné“. Doloženost výskytu je pouze věcí náhody (Traugott, 1989, s. 34) a vzhledem k tomu, že korpusy příkladů s hvězdičkou neexistují (Fillmore, 1992, s. 58), žádná korpusová analýza nemůže identifikovat formu jako nepřijatelnou. Vztaženo na překladové korpusy toto navíc znamená, že fakt, že se nějaké překladatelské řešení neobjeví, [274]nebo se objeví ve velmi nízké frekvenci, ještě nemusí mít vypovídací hodnotu. Druhý metodologický problém s prvním úzce souvisí. Ne vše, co v monolingválním korpusu najdeme, je totiž nutně „správné“, data jsou pouze „autentická“ (Fillmore, 1992, s. 38). Z toho pro práci s překladovými korpusy vyplývá, že ne všechny překladové protějšky, které korpus nabízí, budou přijatelné. Překladatelsky jednoznačně chybná řešení nejsou pro kontrastivnělingvistický výzkum použitelná, proto lingvisté zabývající se kontrastivně lingvistickým výzkumem prosazují už při výběru dat pro paralelní korpus (pokud je takový výběr možný) spolupráci s translatology, zejména s těmi pohybujícími se v oblasti hodnocení kvality překladu. I tak jde však o problém; fakt, že se jedná o srovnávání s jazykem překladovým, bývá dokonce často zmiňován jako zásadní problém kontrastivnělingvistické analýzy (Altenberg – Granger, 2002, s. 9; Chlumská, 2014, s. 227). Pojednáme o něm v následující kapitole.
V translatologii je známým faktem, že překladový text může být orientován k jazyku zdrojovému. Tyto stopy zdrojového jazyka v cílovém textu, ale zejména důsledky aplikace tzv. univerzálních translatologických postupů (srov. Baker, 1993) se někdy (srov. Altenberg – Granger, 2002, s. 17, s. 40) označují jako efekty překladu, tzv. translation effects. Jako užitečné se přitom jeví Chestermanovo rozlišování mezi tzv. S univerzáliemi, které jsou procedurální (slovy Chestermana jde o způsob, jakým překladatelé zpracovávají zdrojový text [2003, s. 218]), a T univerzáliemi, které se projeví při srovnání překladového textu se srovnatelným textem nepřekladovým. Nejde tu přitom o to, že by konkrétní překladové protějšky v cílovém textu nebyly legitimní; překladový text pouze může vykazovat určité rysy, které ho od žánrově srovnatelného původního (nepřekladového) textu odlišují. Korpusy překladových textů umožnily translatologům signifikanci těchto rozdílů testovat a postupně testovat také to, zda se skutečně jedná o překladové univerzálie, tj. zda jsou tyto rysy společné překladovým textům bez ohledu na to, o který jazyk jde a ze kterého jazyka byl text přeložen. V českém prostředí jde například o studii Chlumské a Richterové (2014) o simplifikaci v českých překladových textech (založenou na korpusu Jerome) nebo o příspěvek obou autorek v tomto svazku. I kontrastivnělingvistický výzkum však může některé dílčí rozdíly mezi původním (nepřekladovým) a překladovým jazykem odhalit, případně ukázat na rozdíly v korespondencích podle směru překladu. Naše analýza anglického I wish [přeji si] v beletristických textech korpusu InterCorp například ukázala (Martinková, 2010), že zatímco v anglických zdrojových textech je I wish nejčastěji následováno vedlejší větou (příklad [1]), v angličtině jako cílovém jazyce (v překladu z češtiny) následuje po I wish ve srovnatelném množství případů infinitiv:
I wish you had asked. Škoda, že ses nezeptal. (InterCorp, Franzen) |
Co se pak korespondencí s češtinou týče, ukazuje se, že některé české výrazy najdeme pouze v překladu z angličtiny: zatímco I wish s vedlejší větou bývá překládáno pomocí postojového škoda že, ve směru opačném, tedy v překladech českého škoda že, už I wish nenajdeme. Na funkční paralely mezi oběma prostředky přitom upozornil už Poldauf ve svých studiích o třetím syntaktickém plánu (1963) a potvrdila ji i zmíněná kontrastivní analýza anglického I wish ve zdrojových textech.
Podobné rozdíly mezi angličtinou jako překladovým (cílovým) a nepřekladovým (zdrojovým) jazykem jsme pozorovali i při analýze anglické konstrukce se slovesem have následovaném jmennou frází a slovesem v neurčitém tvaru. Zejména relativní frekvence případů, kdy je místo jmenné fráze užito zájmeno a neurčitým slovesným tvarem je VING, se ukazuje být třikrát vyšší v anglických zdrojových (26,5 výskytů na 100 tisíc slov) než cílových textech (8,65 výskytů na 100 tisíc slov):
(2) | You still have her dusting? Takže ona ti tu pořád uklízí? (InterCorp, Lindsay) |
Důvodem může být to, že případy analogické dvojici vět v příkladu (2), kde v českém překladu najdeme tzv. volný dativ, v opačném směru překladu v beletristických textech InterCorpu nenajdeme, jinými slovy anglický protějšek českého zájmena ve volné dativní formě se v anglickém překladu neobjevuje v subjektu konstrukce have-zájmeno-VING. Na obdobnou funkci tzv. konstrukce s have (vazba zájmové účasti, srov. Poldauf, 1940, s. 360) a české konstrukce s volným dativem, kterou je také uvedení účastníka na ději nějak zainteresovaného, přitom opět Poldauf upozorňoval a věta v příkladu (2) korespondenci potvrzuje.
Ač mohou být zjištěná pozorování zajímavá, například pro výuku budoucích translatologů, pro kontrastivnělingvistický výzkum nejsou tím nejdůležitějším. Hlavně je pak potřeba konstatovat, že nevíme o případu, kdy by podobné kvantitativní rozdíly mezi zdrojovým a cílovým textem (T univerzálie) představovaly pro kontrastivnělingvistický výzkum problém. Tím mohou být zdá se spíše tzv. S univerzálie, zejména explicitace,[8] jejíž důsledky se mohou projevit jako tzv. nulové korespondence. O těch pojednáme podrobněji v následující kapitole.
Jako nulové korespondence (zero correspondences) bývají označovány případy bez formální mezijazykové korespondence ve zkoumaném překladovém korpusu (Johansson, 2007a, s. 58). Jde tu přitom jak o vynechání (omission; [276]zkoumaný výraz nemá protějšek v cílovém/překladovém textu), tak o přidání (addition; pro určitý výraz v cílovém/překladovém textu není možné identifikovat protějšek v textu zdrojovém, tedy nepřekladovém) (Johansson, ibid.). V první řadě je potřeba zmínit, že samotný koncept nulové korespondence může být problematický; když totiž lingvista říká, že zkoumaný výraz byl v překladu vypuštěn, nebo (pokud se jedná o cílový text) do něj byl přidán, může to pořád ještě znamenat, že protějšek v textu neodhalil. Hledat je totiž potřeba často za hranicí větného kontextu, tedy za hranicí zarovnaných úseků,[9] přičemž dosáhnout zobrazení kontextu širšího než odstavec je ve vyhledávači velmi pracné; celý text, z nějž hledaný výraz pochází, pak vyhledávač podobně jako u korpusů jednojazyčných neposkytne nikdy. To však není jediný problém nulových korespondencí. Dalším je to, že mohou mít různé interpretace.
Zaprvé tu jsou nulové korespondence jako výsledek překladatelovy nedbalosti (Johansson, 2007a, s. 59), ty ovšem nejsou pro kontrastivní lingvistiku zajímavé. Zásadní jsou naopak nulové korespondence jako důsledek mezijazykové neekvivalence (Aijmer – Altenberg, 2002, s. 24). Aijmer a Altenberg (tamtéž) tu uvádějí jako příklad švédský explanatorní konektor nämligen, který se v anglickém překladu ztrácí v 53 % případů užití ve zdrojových textech korpusu ESPC; zbytek korespondencí je velmi různorodý, což podle autorů také svědčí o problémech s překladem (s. 38). Nejde však jen o rozdíly lexikální. Výše zmíněný výzkum konstrukce se slovesem have například naznačuje, že konstrukci s volným dativem nelze v překladu této vazby zájmové účasti použít vždy. Omezení jsou daná sémantikou slovesa (musí být schopno vyjadřovat zasaženost[10]) i tím, zda už participant není ve větě vyjádřen jako argument slovesa. Příkladem druhého je následující věta:
(3) | I had one catch me in the elevator this afternoon. (InterCorp, Grisham, The Client) |
Podle Aijmer a Altenberga (2002) jsou nulové překlady (jejich termín pro nulové korespondence) zejména běžné u nepropozičních složek věty, tj. výrazů, které nemají vliv na její pravdivostní hodnotu; v některých konkrétních případech mohou být dokonce důkazem o postupující gramatikalizaci (s. 32).
Nulové korespondence se však mohou vyskytnout i tam, kde protějšek ve druhém jazyce existuje. V takových případech se nabízí otázka, zda nejde o důsledek aplikace překladatelského postupu. Blum-Kulka jako příklad explicitace uvádí větší koncentraci kohezních prostředků v překladovém jazyce (1986, s. 19), což postuluje jako překladovou univerzálii. Aijmer a Altenberg přitom zmiňují pro švédštinu a angličtinu tendenci opačnou – podle nich (s. 22) data v korpusu [277]ESPC naznačují, že v překladu lze většinu typů konektorů vynechat, pokud je kontext dostatečně jasný (jak však podotýkají, dochází k tomu častěji ve směru ze švédštiny do angličtiny než naopak), což jen potvrzuje, že univerzálnost jednotlivých univerzálií je stále otázkou empirickou. Ve vlastních analýzách se nám osvědčuje zjistit, zda se nulové korespondence v překladovém paradigmatu zkoumaného jevu objevují v obou směrech překladu, tedy nejen jako vynechání, ale také jako přidání. Pokud ano, stojí za to dále zkoumat na jednojazyčných korpusech obou jazyků, případně na korpusu srovnatelném, zda jde o systémový mezijazykový rozdíl.
Jako příklad problému s interpretací nulových korespondencí zde uvedeme předběžné výsledky naší analýzy anglického intenzifikátoru quite v premodifikaci adjektiv skrze jeho české ekvivalenty v korpusu InterCorp. Ukazuje se totiž, že quite se v českém překladu často ztrácí, ve 27,3 % případů výskytu v textech psaných americkou angličtinou a ve 37,4 % případů výskytu v textech psaných britskou angličtinou. Důvodem může být polysémie výrazu quite, kterou explicitní protějšky potvrzují, konkrétně fakt, že překladatelé nedokáží disambiguovat: quite jednak funguje jako tzv. maximalizační intenzifikátor,[11] zejména s absolutními adjektivy (quite sure – zcela/naprosto jistý), nebo modifikuje adjektiva někdy označovaná jako relativní (Ocelák, 2013). Pak může intenzitu modifikovaného výrazu jak zvyšovat (quite good – velmi dobrý, zejména v americké angličtině, srov. Quirk et al., 1985), tak naopak snižovat (quite good – celkem dobrý).
Nulové korespondence se nicméně objevují i ve směru z češtiny do angličtiny, jinými slovy quite je velmi často v anglickém překladu přidáváno (33,3 % všech výskytů quite v anglicky psaných cílových textech), z čehož usuzujeme, že nejde jen o chybu překladatele. Relativní frekvence quite v premodifikaci adjektiv je v cílových textech dokonce vyšší (16,86 výskytů na 100 tisíc slov) než ve zdrojových textech psaných americkou angličtinou (10,18 výskytů na 100 tisíc slov). Analýza pak naznačuje, že český protějšek často chybí v těch příkladech, kdy quite modifikuje absolutní adjektivum a má tedy maximalizovat: v překladech z britské angličtiny je například quite v quite sure přeloženo jen šestkrát (z toho jen dvakrát maximalizačním kvantifikátorem), a to v překladu jedné knihy (Clarkův román Setkání s Rámou).[12] Ve zbývajících 15 případech je vynecháno, což vyvolává otázku, zda ve spojení s maximálním absolutním adjektivem quite [278]skutečně maximalizuje, či se spíš nejedná o oslabení, případně projev nechuti angličtiny k absolutním tvrzením (srov. též například škálu subjektivně zabarvených sponových sloves v angličtině). Na potvrzení této hypotézy by však bylo potřeba dalších zkoumání na srovnatelných korpusech, případně využití experimentálních metod.
Poslední Achillovou patou překladových korpusů je jejich nevyrovnanost a malá velikost; i přes značnou míru automatizace je vytváření překladových korpusů časově i finančně náročné, takže ani beletristické paralelní korpusy většinou nejsou rozsáhlé a lingvisté se často musí spokojit s výskyty v řádu jednotek. Nevyrovnanost pak lze pozorovat hned v několika ohledech. Jedním je nevyrovnanost v zastoupení regionálních variant jazyka; v současné verzi InterCorpu například výrazně převládá zastoupení americké angličtiny nad britskou. Subkorpus amerických textů publikovaných po roce 1920 vytvořený pro naši analýzu výrazu quite čítal 3 965 944 textových pozic (TP), zatímco subkorpus britských textů publikovaných po roce 1920 po vyloučení románů J. R. Tolkiena[13] 985 465 TP. V průběhu práce jsme tak pracovali s frekvencí relativní (normalizovanou), nikoliv absolutní, a jsme nuceni přiznat, že závěry o britské angličtině vycházejí z malého vzorku dat. V současné době autoři anglické části InterCorpu na zohlednění tohoto faktoru pracují.
Asi nejčastěji zmiňovaným příkladem nevyrovnanosti paralelních korpusů je zastoupení jednotlivých žánrů (např. Chlumská, 2014); výběr žánrů je omezen na ty, které bývají často překládány, což jsou téměř výhradně texty psané, zejména pak texty beletristické či publicistické. Jiných typů textů, zejména textů informativních, v překladových korpusech najdeme pomálu, spontánní konverzace vůbec. To je nutně i případ paralelního korpusu InterCorp, ve kterém kromě „jádra“ (beletrie, v daleko menší míře drama a v naprosto okrajové míře odborné texty) najdeme tzv. kolekce: „publicistické články a zpravodajství z webových stránek Project Syndicate a Presseurope, právní texty Evropské unie z korpusu Acquis Communautaire a zápisy jednání Evropského parlamentu z let 2007–2011 z korpusu Europarl“ (http://ucnk.ff.cuni.cz/intercorp/?req=page:info).
Nevyrovnanost se však u korpusů, které jsou obousměrné, projevuje i v nejrůznějších translatologicky důležitých aspektech: prvním je nutně to, že tzv. malé jazyky jsou v originálních (nepřekladových) textech zastoupeny mnohem menším počtem dat než třeba angličtina (Chlumská, 2014), v jejich rámci jsou navíc [279]nejvíce zastoupeni autoři, kteří se nejčastěji překládají. V textech jádra korpusu InterCorp tak ve směru překladu z češtiny do angličtiny najdeme v tuto chvíli pouze 15 prací, z toho dva odborné texty, tři divadelní hry a 10 románů či povídkových knih. Tato nevyrovnanost znesnadňuje případné vytváření obousměrných vyrovnaných subkorpusů po vzoru ESPC a ENPC prostě proto, že výsledný korpus bude vždy nutně velmi malý, tedy použitelný pouze pro studium jevů s vysokou frekvencí. V desíti českých beletristických textech je navíc třemi romány zastoupen Milan Kundera, takže se při každém výzkumu, kde budou všechny zastoupeny, bude nabízet otázka, zda nejde pouze o výpověď o Kunderově autorském stylu.
Další nevyrovnanost je svým způsobem dána faktem, že všechny texty jsou zarovnány proti češtině, která je pivotním jazykem v tom smyslu, že cizojazyčný text má v korpusu svou českou verzi, proti níž je zarovnán. To může u nepoučeného uživatele vzbudit dojem, že u dvou konkrétních textů je vždy jeden překladem druhého. Při konkrétním zarovnání češtiny a dalšího jazyka však nastávají možnosti různé, pro zjednodušení je demonstrujeme na románu Harry Potter and the Philosopher’s Stone. Pouze lingvista pracující s angličtinou tu srovnává zdrojový a cílový jazyk, potenciální srovnání například české a polské verze je už srovnáním dvou různojazyčných překladů z angličtiny jako třetího jazyka, nejde už tedy o dvojjazyčný výstup ve smyslu Gasta (v tisku, s. 9). Zda je toto problém například pro kontrastivní analýzu češtiny a polštiny, si netroufáme posoudit, množství anglicko-českých a česko-anglických překladů nám umožňuje ve vlastních analýzách angličtiny a češtiny překlady ze třetích jazyků v rámci jádra vyloučit.[14] U kolekcí je však situace komplikovanější.
Co se jednání Evropského parlamentu (a korpusu Europarl) týče, je třeba zmínit fakt, že do roku 2003 tu byly projevy překládány z jakéhokoliv jazyka EU do jakéhokoliv jiného jazyka EU, od tohoto roku je angličtina používána jako pivotní jazyk v tom smyslu, že všechny jazyky jsou nejprve překládány do angličtiny a teprve z ní do ostatních jazyků (Gast – Levshina, v tisku, s. 1). Opět se nabízí otázka, zda je toto pro kontrastivní lingvistiku překážka. Volker Gast a Natalie Levshina zaujali ve výše zmíněné kvantitativní studii anglických a německých W(h)-clefts takové stanovisko, že specifická povaha textů korpusu Europarl umožňuje přijmout předpoklad, že všechny páry vět z tohoto korpusu jsou sémanticky i pragmaticky „přibližně ekvivalentní“ (Gast – Levshina, v tisku, s. 3), a upustit tak od rozlišování, zda je zdrojovým jazykem angličtina, němčina, nebo dokonce nějaký třetí jazyk. Studie i tak přinesla vynikající výsledky.
Zmíněné příklady různých forem nevyrovnanosti zkoumaného subkorpusu vytvořeného z českých a anglických textů v korpusu InterCorp hrály roli i v naší [280]analýze funkce částice prý skrze její anglické ekvivalenty. Hirschová a Schneiderová (2012, s.1) prý řadí mezi lexikální prostředky evidenciálnosti, tedy uvádění toho, „na čem se zakládá sdělovaná informace, její zdroj“. Výraz prý je tu spolu s výrazem údajně uveden jako příklad pro vyjádření evidence „založen[é] na převzaté informaci, a to na informaci bez uvedení zdroje – tzv. hearsay“ (s. 2). Nás zajímalo, co o zdroji reprodukované informace vypovídají anglické ekvivalenty částice prý a zda tato data potvrzují, co o prý naznačují současné slovníky češtiny, že totiž pokud prý neuvádí přímou řeč, evokuje vždy význam nezaručenosti a pochybnosti o pravdivosti reprodukovaného sdělení (srov. Mejstřík et al., 2009). Plánovali jsme srovnat data z beletristické části korpusu InterCorp (pro tento účel byl vytvořen subkorpus beletrie vydané po roce 1950, omezený na české zdrojové texty a cílové texty, v nichž je zdrojovým jazykem angličtina), databázi Presseurope a databázi Europarl, s cílem poukázat na rozdílné funkce částice prý v různých žánrech. Subkorpus Presseurope (zdrojem je opět čeština nebo angličtina) a subkorpus beletrie vykazovaly podle očekávání nízké procento českých zdrojových (nepřekladových) dat, o to víc, že došlo k vyloučení jednoho ze tří Kunderových textů, protože vykazoval velmi specifický styl.[15] Zásadní problém však nastal téměř okamžitě při vytváření subkorpusu v rámci Europarl: subkorpus českých cílových textů zarovnaných s anglickými zdrojovými protějšky totiž čítal pouhých 9 284 TP.[16] Pro analýzu jsme tak byli (po vzoru Gasta a Levshiny) nuceni od faktu, co je zdrojovým jazykem, zcela odhlédnout. Tabulka 1 shrnuje informace o velikosti jednotlivých subkorpusů v TP v českých cílových textech (CT) a českých zdrojových textech (ZT):
| České CT | České ZT |
beletrie | 3 548 005 TP | 678 818 TP |
Presseurope | 281 461 TP | 59 111 TP |
Europarl | 15 038 876 TP |
Tab. 1 Velikost vytvořených subkorpusů v korpusu InterCorp
Omezení rozsahu tohoto článku nám nedovoluje detailně popsat výsledky výzkumu a jejich interpretace, předběžné výsledky ale poukazují přinejmenším na rozdílné zastoupení uvedeného zdroje reprodukované informace v jednotlivých subkorpusech:
Čeština je CJ | Čeština je ZJ | |||
| zdroj je znám | zdroj není znám | zdroj je znám | zdroj není znám |
Fiction | 64,6 % | 35,4 % | 61,4 % | 38,6 % |
Presseurope |
| 45 % | 55 % | |
Europarl | zdroj je znám: 17,6 %, zdroj není znám: 82,4 % |
Tab. 2 Procentuální zastoupení uvedeného zdroje reprodukované informace v subkorpusech korpusu InterCorp
V subkorpusu beletristických textů je zdroj reprodukované informace znám ve více než šedesáti procentech případů, a to jak v českých cílových (64,6 %), tak zdrojových textech (61,4 %). Nejčastějším ekvivalentem jsou uvozovací či parentetické věty s verbem dicendi, nejčastěji slovesem say:[17]
(4) | He said his name was Jirka but everyone called him Jirik. (InterCorp, Viewegh) |
Toto pozorování potvrzuje – alespoň pro tento typ textů – zařazení „výpovědního útvaru s částicí prý“ mezi prosté způsoby „reprodukce prvotních výpovědí“ (Grepl, 2002, s. 375) a pozorování Hoffmanové a Kolářové (2007, s. 98) o „nezanedbateln[é] roli prý při reprodukci dialogu v beletrii.“ Případy, kdy dochází ke zpochybňování zdroje reprodukované informace, jsou v menšině. V korpusu Europarl je situace odlišná, zdroj reprodukované informace v naprosté většině příkladů vyjádřen není; v 51 % všech výskytů prý je protějškem prý anglická uvozující věta s verbem dicendi v pasívu, častými protějšky jsou i adverbia (např. allegedly [údajně]). Zdroj je explicitně uveden pouze v desíti případech, na rozdíl od beletristických textů je buď příliš obecný, nebo je od něj vyjádřen odstup, či je zpochybněn, jako například v příkladu (5):
(5) | A těm, kdo kritizují francouzské předsednictví, bych rád řekl: „Počkejte si na české předsednictví. To budete koukat.“ Před několika týdny vetoval prezident zákon o zákazu diskriminace, prý jde o zbytečnost. (Europarl orig_cs) |
V subkorpusu Presseurope se výrazně projevily efekty překladu; v českých cílových textech bylo identifikováno pouze šest případů výskytů prý, takže závěry můžeme uvádět pouze pro české zdrojové texty.[18] Neuvedení zdroje v nich [282]lehce početně převyšuje, což je v souladu s pozorováním Hirschové a Schneiderové (2012, s. 7) o výrazu údajně, že prý se v publicistice používá k označení převzaté informace kvůli tomu, aby se novinář vzdal odpovědnosti za pravdivost reprodukovaného sdělení. Tam, kde je zdroj informace vyjádřen, si podobně jako v subkorpusu Europarl autor udržuje odstup od reprodukovaného sdělení, což může opět znamenat jeho zpochybnění. Dalším důvodem je, že autor textu přebírá informace z jiných periodik.[19]
Odlišit, zda mluvčí vyjadřuje pochyby o pravdivosti reprodukovaného sdělení, nebo jen reprodukuje, je velmi obtížné. Okolnosti, za kterých se toto pragmatické vyvozování (za jaké tento jev považujeme, srov. Hopper – Traugott, 2003) konvencionalizuje, stojí za další podrobné analýzy jednojazyčných korpusů češtiny. Předběžné výsledky naší analýzy však v každém případě zpochybňují definice prý ve výkladových slovnících češtiny a poukazují na různé funkce prý v různých typech textu.
V tomto článku jsme se pokusili shrnout nejdůležitější problémy spojené s metodologií využívání paralelních korpusů v kontrastivní analýze: ty, které se projevují i při práci s jednojazyčnými korpusy, ale hlavně specifika korpusů paralelních. Za zásadní a nejproblematičtější přitom považujeme otázku tzv. nulových korespondencí, nejen kvůli spornosti samotného konceptu (i vzhledem k rozsahu, v němž se korespondence hledá), ale zejména kvůli problematičnosti jejich interpretace: kromě rozdílu mezi jazyky může jít též o nedbalost překladatele nebo efekt překladu, zejména explicitaci. Naznačili jsme, že považujeme za nutné zjišťovat, zda se nulové korespondence vyskytují i v opačném směru překladu. Upozornili jsme též na potřebu ověřovat výsledky výzkumu v jednojazyčných korpusech či korpusech srovnatelných, pokud pro daný pár jazyků existují nebo je možné je vytvořit. Na příkladu korpusu InterCorp jsme ukázali několik případů nevyrovnanosti paralelního korpusu: často zmiňovanou nevyrovnanost zastoupení jednotlivých žánrů, ale též nevyrovnanost v zastoupení regionálních variant jednotlivých jazyků a zejména nevyrovnané zastoupení textů podle směru překladu (konkrétně nízké zastoupení tzv. malých jazyků ve zdrojových textech). Protože posledně zmíněný případ nevyrovnanosti je pro některé jazyky prakticky neodstranitelný, je potřeba přinejmenším pracovat s frekvencemi relativními místo absolutních a hlavně odpovědět na otázku, zda je metodologicky čisté v konkrétní kontrastivní analýze odhlédnout od směru překladu či od faktu, že žádný z analyzovaných jazyků není jazykem originálu.
[283]Závěrem musíme připomenout, že i když lingvista využívající tento typ korpusů naráží na řadu metodologických problémů, existence tohoto druhu předpřipraveného dvojjazyčného výstupu pro něj znamená obrovský posun v možnostech lingvistických analýz. Vliv nedokonalostí této metodologie je potřeba minimalizovat, to jest pracovat s relativními frekvencemi místo absolutních, mít vždy při ruce referenční korpus obou analyzovaných jazyků či použít (nebo vytvořit) korpus srovnatelný, a pokud analýza na nějaký systematický rozdíl mezi jazyky poukáže, výsledky v nich ověřovat.
AIJMER, K. – ALTENBERG, B. (2002): Zero translations and cross-linguistic equivalence: evidence from the English-Swedish Parallel Corpus. In: L. E. Breivik – A. Hasselgren (eds.), From the COLT’s mouth … and others. Language corpora studies in honour of Anna-Brita Stenström. Amsterdam: Rodopi, s. 19–41.
ALTENBERG, B. (1999): Adverbial connectors in English and Swedish: Semantic and lexical correspondences. In: H. Hasselgård – S. Oksefjell (eds.), Out of corpora. Studies in honour of Stig Johansson. Amsterdam: Rodopi, s. 249–268.
ALTENBERG, B. – AIJMER, K. (2000): The English-Swedish Parallel Corpus: a resourse for contrastive research and translation studies. In: Ch. Mair – M. Hundt (eds.), Corpus linguistics and linguistic theory. Amsterdam: Rodopi, s. 15–35.
ALTENBERG, B. – GRANGER, S. (2002): Recent trends in cross-linguistic lexical studies. In: B. Altenberg – S. Granger (eds.), Lexis in Contrast: Corpus-based Approaches. Amsterdam: John Benjamins, s. 3–48.
BAKER, M. (1993): Corpus linguistics and translation studies: Implications and applications. In: M. Baker – G. Francis – E. Tognini-Bonelli (eds.), Text and Technology. In Honour of John Sinclair. Amsterdam – Philadelphia: John Benjamins, s. 233–250.
BLUM-KULKA, S. (1986): Shifts of Cohesion and Coherence in Translation. In: J. House – S. Blum-Kulka (eds.), Interlingual and Intercultural Communication. Tübingen: Gunter Narr Verlag, s. 17–35.
BOJAR, O. – ŽABOKRTSKÝ, Z. (2009): CzEng 0.9 Large Parallel Treebank with Rich Annotation. Prague Bulletin of Mathematical Linguistics, 92, s. 63–83.
ČERMÁK, F. – ROSEN, A. (2012): The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics, 13, s. 411–427.
FILLMORE, C. J. (1992): Corpus linguistics or Computer aided armchair linguistics. In: J. Svartvik (ed.), Directions in Corpus Linguistics: Proceedings from a 1991 Nobel Symposium on Corpus Linguistics. Stockholm: Mouton de Gruyter, s. 35–60.
FRIED, M. (2009): Plain vs situated possession in Czech: a constructional account. In: W. McGregor (ed.), Expressions of possession. Berlin – New York: Mouton de Gruyter, s. 213–248.
FRIES, C. C. (1945): Teaching and learning English as a foreign language. Ann Arbor: University of Michigan Press.
FRONEK, J. (2000): Velký česko-anglický slovník. Praha: LEDA.
GAST, V. (v tisku): Contrastive Linguistics: Theories and Methods [online]. Cit. 2014-04-20. .
[284]GAST, V. – LEVSHINA, N. (v tisku): Motivating w(h)-clefts in English and German: A hypothesis-driven parallel corpus study [online]. Cit. 2014-04-20. .
GREPL, M. (2002): Reprodukce prvotních výpovědí. In: P. Karlík – M. Nekula – J. Pleskalová (eds.), Encyklopedický slovník češtiny. Praha: Nakladatelství Lidové noviny, s. 375–376.
HASSELGÅRD, H. (1997): Sentence openings in English and Norwegian. In: M. Ljung (ed.), Corpus-Based Studies in English. Amsterdam: Rodopi, s. 3–20.
HIRSCHOVÁ, M. – SCHNEIDEROVÁ, S. (2012): Evidenciální výrazy v českých publicistických textech (případ údajně – údajný). In: Grammar and Corpora 2012: 4th International Conference [online]. Praha: Ústav pro jazyk český AV ČR – Hradec Králové: Gaudeamus. Cit. 2014-04-20. <http://www.ujc.cas.cz/miranda2/export/sitesavcr/data.avcr.cz/humansci/ujc/vyzkum/
gramatika-a-korpus/proceedings-2012/konferencni-prispevky/HirschovaMilada_SchneiderovaSona.pdf>.
HOFFMANOVÁ, J. – KOLÁŘOVÁ, I. (2007): Slovo prý/prej: možnosti jeho funkční a sémantické diferenciace. In: F. Štícha – J. Šimandl (eds.), Gramatika a korpus 2005. Praha: Ústav pro jazyk český AV ČR, s. 93–102.
HOPPER, P. – TRAUGOTT, E. C. (2003): Grammaticalization. Cambridge: Cambridge University Press.
CHESTERMAN, A. (2003): Contrastive Textlinguistics and Translation Universals. In: D. Willems – B. Defrancq – T. Colleman – D. Noël (eds.), Contrastive analysis in language. Identifying linguistic units of comparison. New York: Palgrave Macmillan, s. 213–229.
CHLUMSKÁ, L. (2014): Není korpus jako korpus: Korpusy v kontrastivní lingvistice a translatologii. Časopis pro moderní filologii, 96, s. 221–232.
CHLUMSKÁ, L – RICHTEROVÁ, O. (2014): Jak zkoumat překladovou češtinu. Výzkum simplifikace na korpusu Jerome. Korpus, gramatika, axiologie, 9, s. 16–29.
JAMES, C. (1980): Contrastive Analysis. London: Longman.
JANEBOVÁ, M. (v tisku): Between Volition and Futurity: A Contrastive View of Will and Be Going to and Their Czech Translation Equivalents. In: M. Martinková – M. Janebová – J. Macháček (eds.), Category and Categorial Changes: The Third Syntactical Plan and Beyond. Olomouc: Palacký University.
JOHANSSON, S. (2007a): Seeing through multilingual corpora. In: R. Facchinetti (ed.), Corpus Linguistics 25 Years On. Amsterdam – New York: Rodopi, s. 51–71.
JOHANSSON, S. (2007b): Seeing through Multilingual Corpora. On the use of corpora in contrastive studies. Amsterdam – Philadelphia: John Benjamins.
JOHANSSON, S. (2010): Multilingual Corpora: Possibilities and Limitations. In: F. Čermák – P. Corness – A. Klégr (eds.), InterCorp: Exploring a Multilingual Corpus. Praha: Nakladatelství Lidové noviny, s. 53–68.
JOHANSSON, S. – HOFLAND, K. (1994): Towards an English-Norwegian parallel corpus. In: U. Fries – G. Tottie – P. Schneider (eds.), Creating and Using English Language Corpora. Amsterdam: Rodopi, s. 25–37.
KLÉGR, A. – MALÁ, M. – ROHRAUER, L. – ŠALDOVÁ, P. – VAVŘÍN, M. (2013): Korpus intercorp_en, verze 6 z 8. 4. 2013 [online]. Praha: Ústav Českého národního korpusu FF UK. Cit. 2013-03-30. <http://www.korpus.cz>.
[285]LADO, R. (1957): Linguistics across cultures: Applied linguistics for language teachers. Ann Arbor: University of Michigan Press.
MALÁ, M. (2013): Translation counterparts as markers of meaning. The case of copular verbs in a parallel English–Czech corpus. Languages in Contrast, 13, s. 170–192.
MARTINKOVÁ, M. (2010): I wish you/someone/people would… or mělo by se: A corpus-based study of sentences with I wish and their Czech equivalents. In: The International Symposium on Using Corpora in Contrastive and Translation Studies [online]. Cit. 2014-04-20. <http://www.lancaster.ac.uk/fass/projects/corpus/UCCTS2010Proceedings/>.
MATHESIUS, V. (1961): Obsahový rozbor současné angličtiny na základě obecně lingvistickém. Praha: ČSAV.
NÁDVORNÍKOVÁ, O. (2013): Francouzský gérondif a český přechodník: kontrastivní analýza a jazykové korpusy. Jazykovědné aktuality, 3, s. 80–93.
OCELÁK, R. (2013): Sémantické škály a skalární modifikátory v češtině. Slovo a slovesnost, 2, s. 110–134.
POLDAUF, I. (1940): Podstata anglického pasiva a anglické vazby zájmové účasti. Časopis pro moderní filologii, 26, s. 358–363.
POLDAUF, I. (1954): Srovnávání s mateřštinou při vědeckém zkoumání jazyků. In: Sborník Vysoké školy pedagogické v Olomouci, Jazyk a literatura, s. 45–72.
POLDAUF, I. (1963): Třetí syntaktická rovina. Philologica Pragensia 6, s. 134–146.
POLDAUF, I. (1977): Konfrontační lingvistika ve vztahu k odbornému překladu. In: Preklad odborného textu. Bratislava: SPN, s. 71–89.
QUIRK, R. – GREENBAUM, S. – LEECH, G. – SVARTVIK, J. (1985): A Comprehensive Grammar of the English Language. London: Longman.
Slovník spisovné češtiny pro školu a veřejnost (2009). Praha: Academia.
TRAUGOTT, E. (1989): On the Rise of Epistemic Meanings in English: An Example of Subjectification in Semantic Change. Language, 65, s. 31–55.
VACHEK, J. (1970): U základů pražské jazykovědné školy. Praha: Academia.
[1] Tato studie vznikla v rámci projektu Fondu na podporu vědecké činnosti FF UP FPVC2014/18 Paralelní překladové korpusy a kontrastivní lingvistika.
[2] Poldauf rozlišuje mezi porovnáváním a srovnáváním: „v jazykovědě i při jejích aplikacích se setkáváme s termíny porovnávací nebo konfrontační na jedné straně a kontrastivní na druhé. Čeština přitom umožňuje lišit srovnávání a porovnávání, přičemž první podtrhuje předpokládané souvislosti, jako jsou při srovnávání příbuzných jazyků v historickém pohledu, zatímco druhé prostě juxtaponuje“ (Poldauf, 1977, s. 71).
[3] Právě přítomnost zarovnání, tedy přiřazení určité textové jednotky (nejčastěji věty) v jednom jazyce k ní odpovídající jednotce v jazyce jiném, podle některých lingvistů použití termínu paralelní korpus opodstatňuje (např. Altenberg – Granger, 2002, s. 8). Anglická terminologie tu však zdaleka není jednotná; Johansson (2007, s. 9 i jinde) používá pro vícejazyčný korpus, který obsahuje originály a jejich překlady, označení translation corpus, tedy překladový korpus. Paralelní korpus je pak u něj termín zastřešující, zahrnující kromě korpusu překladového i korpus srovnatelný (comparable); v tomto případě jde o nejméně dva různojazyčné korpusy původních (nepřekladových) textů se stejnou strukturou, tj. jsou v nich stejnou mírou zastoupeny texty určitého typu, komunikativní funkce a obsahového zaměření (Altenberg – Granger, 2002, s. 8). Již zmíněné korpusy ENPC a ESPC jsou pak kombinací korpusu překladového a srovnatelného, tj. obsahují jak srovnatelné originální texty v angličtině a norštině (respektive švédštině), tak jejich oficiální překlady. Na stejném principu je založen i Oslo Multilingual Corpus. Podrobněji o typologii korpusů srov. Chlumská (2014).
[4] Předpoklad srovnatelnosti představuje paradoxně velký problém pro tzv. korpusy srovnatelné (srov. poznámka pod čarou 3); jak připomínají Granger a Altenberg, u nich lze jen obtížně odhadnout, co stojí za to srovnávat (2002, s. 8).
[5] Tímto se paralelní korpusy liší od korpusů jednojazyčných, které umožňují pouze analýzu forem, často kvantitativní či distributivní; význam a funkce těchto forem zůstávají skryty (Johansson, 2007, s. 57).
[6] Syntakticky anotovaný je Czech-English parallel corpus (Bojar – Žabokrtský, 2009).
[7] K tomuto bodu se krátce vrátíme v kapitole 3.2.
[8] Systematická analýza vlivu překladových univerzálií na výsledky kontrastivnělingvistické analýzy založené na paralelních korpusech bohužel doposud chybí a přesahuje možnosti tohoto příspěvku.
[9] Zcela triviálním problémem mohou být i chyby v zarovnání.
[10] Srov. Fried (2009).
[11] Pro tuto práci používáme termíny uvedené ve studii Radka Oceláka (2013).
[12] Jde o důležitý faktor idiolektu překladatele, jehož systematickou analýzu jsme nuceni v tuto chvíli ponechat stranou; u řady prací není jméno překladatele v metadatech InterCorpu uvedeno. Informaci o překladateli tak uživatelé InterCorpu pro potřeby citace dohledávají jiným způsobem, pokud však bylo určité dílo přeloženo několikrát, nemají možnost zjistit, o který překlad jde. Až budou v InterCorpu metadata kompletní, budou kontrastivní lingvisté nejen moci kontrolovat, zda v jejich subkorpusu není výrazně zastoupen jeden překladatel, ale translatologové budou také moci studovat překladatelský idiolekt.
[13] Důvodem byl specifický jazyk autora, který analýzu zkresloval. Rozsah článku neumožňuje samostatně pojmout vliv autorského stylu na konkrétní výzkum, nicméně jak ukazuje tento konkrétní příklad, je potřeba ho vzít v úvahu.
[14] Pro dva malé jazyky je však toto často jediný způsob, jak paralelní data získat.
[15] Relativní frekvence prý v románu Žert převyšovala relativní frekvenci prý v ostatních českých románech asi šestkrát.
[16] Zřejmě jde o problém s metadaty, subkorpus anglických dat označených jako zdrojové čítá například jen 795 textových pozic. V něm přitom najdeme texty, kde angličtina není jazykem originálu (i když tu konkrétní jazyk originálu označen není, evidentně šlo o překlad ze španělštiny). Angličtina tu však byla zdrojovým jazykem pro překlady do ostatních jazyků.
[17] Případy, kdy je subjektem verba dicendi genericky užité zájmeno they [oni] nebo substantivum people [lidé], byly počítány jako případy bez uvedení zdroje.
[18] Na tomto místě je potřeba přiznat, že i v beletristických textech se efekty překladu projevily: relativní frekvence prý byla v českých cílových textech čtyřikrát nižší než v textech zdrojových, a to i po vyloučení románu Žert. Neidentifikovali jsme v nich však žádná nepřijatelná překladatelská řešení a dat k analýze byl dostatek.
[19] Koncept originálu je tu zcela zpochybněn, jazyk originálu není uveden ani v metadatech.
Katedra anglistiky a amerikanistiky FF UP
Křížkovského 10, 779 00 Olomouc
michaela.martinkova@upol.cz
Naše řeč, ročník 97 (2014), číslo 4–5, s. 270-285
Předchozí Lucie Chlumská, Olga Richterová: Překladová čeština v korpusech
Následující Veronika Kolářová: Nominalizované struktury se dvěma aktanty ve formě bezpředložkového genitivu