Časopis Naše řeč
en cz

Překladová čeština v korpusech

Lucie Chlumská, Olga Richterová

[Articles]

(pdf)

Translated Czech in corpora

It is a well-established fact that corpus design, including its representativeness, has a major influence on any corpus research. The discussions usually cover the selection of text types or genres, or the choice of specific texts, while the issue of translations often remains unnoticed. The objective of this paper is to summarize approaches to translated texts in international corpus linguistics, to introduce the CNC corpus design regarding translations, and to present some examples which demonstrate that texts translated into Czech may differ from original Czech texts and thus affect the research results.

Key words: corpus design, representativeness, translated Czech, translations
Klíčová slova: složení korpusu, reprezentativnost, překladová čeština, překlady

[1]1 Reprezentativnost korpusů – nejen otázka žánrových rozdílů

Korpusy především v posledních letech představují základní zdroj informací o jazyce nejen pro korpusové lingvisty, ale pro jazykovědce obecně, bez ohledu na příslušnost k lingvistické disciplíně. Korpusy a korpusové metody nacházejí uplatnění nejen v oborech tradičně spojených s korpusovou lingvistikou, jako je lexikologie a lexikografie, ale také například v kognitivní lingvistice, sociolingvistice, translatologii či stylistice. Míra jejich využití může být různá, ale základní premisa práce s korpusem zůstává: uživatel musí svůj korpus znát, vědět, s jakými daty pracuje, jaký vzorek jazyka má k dispozici a jaké závěry z něj tedy lze vyvozovat.

O problému reprezentativnosti bylo již napsáno mnoho (v českém prostředí např. Králík, 2001; Šulc, 2001; Cvrček – Kováříková, 2011; Křen, 2013, s. 12). Reprezentativnost bývá zpravidla chápána jako „vyváženost korpusu s ohledem na různé typy textů, žánry a témata“ (Cvrček – Kováříková, 2011, s. 130). Největší důraz bývá kladen právě na výběr textů z hlediska jejich tématu, žánrového zařazení či rejstříku/registru[2], neboť o vlivu těchto faktorů na výskyt a užití různých jazykových jevů dnes již není pochyb, jak dokladují rozsáhlé studie především Douglase Bibera (např. Biber, 2006; Biber, 2009; pro češtinu Kodýtek, [260]2007). Je nesporné, že ve výzkumu je třeba rozlišovat mezi tím, k jakému textovému typu či žánru se výsledky vztahují:

„Texts from different registers are produced in fundamentally different circumstances, for fundamentally different communicative purposes; and as a result, these texts often use completely different sets of linguistic features that are functionally appropriate for those circumstances and purposes. Such patterns of variation are pervasive and extensive in all human language.“ (Biber – Conrad, 2009, s. 256)

Vliv žánrů a obdobných kategorií však není jediným faktorem, jenž může potenciálně ovlivnit možnosti výzkumu a interpretaci výzkumných výsledků. V posledních letech – především v korpusové translatologii (viz níže) – upozorňují mnozí na vliv další proměnné: toho, zda je jazyk zkoumaných textů jazykem originálu, nebo zda může být jazyk skutečně pozměněn v důsledku procesu překladu. Tomuto faktoru zde budeme říkat překladovost. Odlišují se nějak texty, jež byly psány v původním jazyce[3], od těch, které vznikly překladem z cizího jazyka? Je možné, že podobně jako u odlišných žánrů mohou být mezi nepřekladovými a překladovými texty významné rozdíly, které je třeba při analýze zohledňovat? Na tyto otázky se pokouší odpovědět zahraniční korpusová translatologie, jejíž poznatky ve stručnosti shrnuje následující kapitola.

2 Překladový jazyk jako svébytný kód?

Tendence zkoumat jazyk překladů jako samostatný kód, jenž disponuje charakteristickými jazykovými prostředky, je v korpusové translatologii (Corpus-based Translation Studies) patrná v posledních zhruba dvaceti letech (v ostatních jazykovědných disciplínách se takto vyhraněný přístup k překladovým textům doposud příliš neuplatňoval). Od prvních hypotéz o specifických znacích překladového jazyka, tzv. překladových univerzáliích, jež ve svých pracích postulovala Mona Bakerová (Baker, 1993, 1996), se trend posunul k úžeji zaměřeným zkoumáním, která si již nekladou za svůj hlavní cíl potvrdit či vyvrátit univerzálnost překladových jevů, ale spíše popsat konkrétní překladový jazyk i s ohledem na možný vliv zdrojového jazyka (tzv. interferenci[4]). Nejde přitom pouze o anglofonní studie: výzkum se zaměřuje např. na překladovou čínštinu (Xiao, 2010), finštinu (Mauranen, 2001) nebo holandštinu (De Sutter – Van de Velde, 2008).

Nejnovější výsledky zkoumání ukázaly, že překladový jazyk skutečně může vykazovat odlišné vlastnosti, ať už jde např. o tendenci k explicitaci, ilustrovanou [261]na výzkumu norštiny a angličtiny (Øverås, 1998), nižší výskyt jazykově-specifických rysů, tzv. unique items[5], ve finských překladech (Tirkonnen-Condit, 2004), menší rozmanitost kolokátů vybraných slov, jak bylo zjištěno v portugalských překladových textech (Dayrell, 2007), nebo tendenci k simplifikovanému vyjádření – identifikovanou např. v překladové španělštině (Corpas, 2008) nebo češtině (Chlumská – Richterová, 2014). Přehledné shrnutí dosavadních studií lze nalézt u Laviosové (Laviosa, 2002), Chestermana (2004) nebo Malmkjærové (Malmkjær, 2012).

Obecně lze konstatovat, že rysy charakteristické pro překlad se mohou lišit v závislosti na zkoumaném jazyce překladu, ale i originálu a také v kombinaci s vlivem žánrů. Pro češtinu doposud nebyl dokončen rozsáhlejší kvantitativní výzkum překladového jazyka, ale pilotní sondy naznačují, že překladová čeština se skutečně liší, např. má nižší lexikální bohatost než nepřekladová (Cvrček – Chlumská, připravuje se). Ačkoli v tuto chvíli zatím nedisponujeme ucelenými daty, je třeba předpokládat, že rozdíly mohou existovat a ovlivnit interpretaci výsledků zkoumání (a to i při výzkumu prováděném pouze na korpusu jednojazyčném). Je tedy nezbytné dobře znát korpus, s nímž pracujeme, i z hlediska překladovosti zahrnutých textů. Ne každý uživatel Českého národního korpusu si při výzkumu češtiny uvědomuje, že korpusy současné češtiny řady SYN zahrnují i překladové texty a že je žádoucí tento faktor zohlednit. Následující kapitola proto nabízí mj. i přehled složení nejpoužívanějších korpusů ČNK z hlediska překladových textů.

3 Překlady v jednojazyčných korpusech – ano, či ne?

Přístup tvůrců korpusů k překladovým textům se v různých tradicích korpusové lingvistiky liší. Nemáme nyní na mysli korpusy paralelní, které ze své podstaty zahrnují překlady a jejich zdrojové texty, ale korpusy jednojazyčné, a to především ty, které se označují za reprezentativní. Jedním z prvních velkých reprezentativních korpusů je Britský národní korpus (BNC), který zahrnuje 100 mil. slov a byl zveřejněn jako referenční korpus v roce 1994 (od té doby prošel podle oficiálních informací pouze dílčími změnami[6], nové texty do něj zahrnuty nebyly). Měl sloužit jako zdroj dat o tehdejší současné britské angličtině, psané i mluvené, a obsahuje celou řadu žánrů a textových typů, nikoli však anglické překladové texty. O koncepci jeho reprezentativnosti se lze dočíst mnohé[7], ovšem zajímavé je, že nikde nenalezneme zdůvodnění, proč byly překladové [262]texty z korpusu vynechány. Implicitně se tak předpokládá, že překlady nejsou autentické texty, že jsou to pouhé odvozeniny, které nejsou dostatečně reprezentativní.[8] Tato myšlenka přetrvávala v lingvistice (a koneckonců i v translatologii) prakticky až do nástupu deskriptivního výzkumu, v němž se do centra pozornosti dostal (překladový) jazyk takový, jaký je, bez implicitního evaluativního hlediska.

Dokladem toho, že překladovost nebývá zpravidla předmětem zájmu tvůrců jednojazyčných korpusů, budiž fakt, že u velkých jednojazyčných korpusů zřídkakdy najdeme údaje o zahrnutí nebo vynechání překladů. Jedinou výjimkou je v tomto ohledu patrně Ruský národní korpus, který v dokumentaci uvádí „zahrnutí menšího množství překladových textů“ (Zanettin, 2011, s. 16). Navzdory této časté praxi nezahrnovat překlady do reprezentativních jednojazyčných korpusů se v poslední době dají vysledovat i opačné tendence (Zanettin, 2011), které vycházejí z premisy, že překlady tvoří nedílnou součást kultury a literatury dané země (byť různě významnou u malých a velkých jazyků) a neexistuje důvod je vylučovat z reprezentativního vzorku jazyka, ba naopak.

Korpusy ČNK tomuto pojetí vyhovují. Korpusy řady SYN (tedy současná psaná čeština) vycházejí z původní koncepce založené na kritériu recepce. Jelikož překlady u nás patří mezi poměrně často recipované texty (každoročně u nás vychází přibližně třetina neperiodických překladových publikací[9]), obsahují korpusy řady SYN v beletrii a odborné literatuře i překladové texty. Tabulka 1 přehledně shrnuje, jaké procento tvoří překlady u jednotlivých textových typů v těchto korpusech.

 

 

překlady v beletrii

překlady v odborné literatuře

překlady v publicistice

SYN2010

66,6 %

20,3 %

0 %

SYN2005

58,2 %

30,0 %

0 %

Tab. 1 Překladové texty v nejnovějších referenčních korpusech řady SYN

 

Jak je zřejmé z tabulky 1, v podílu překladových textů existují značné rozdíly, srovnejme např. převahu překladových textů v beletrii a jejich nulový výskyt v publicistice. U publicistiky je však třeba brát v potaz i fakt, že u mnohých textů nebývá ve zdroji explicitně uvedeno, že jde o úplné či částečné překlady[10] (převzaté a do jisté míry upravené zahraniční texty), proto se na tento údaj nelze zcela spolehnout. Lze tedy konstatovat, že pokud nás zajímá určitý jev, který zkoumáme na korpusu složeném z beletrie či odborné literatury v řadě SYN, měli bychom se ptát, zda na naše výsledky nemůže mít vliv i překladovost jazyka.

[263]Korpusy řady SYN samozřejmě nejsou jedinými korpusy ČNK, které zahrnují určitý podíl překladů. V tabulce 2 je přehled toho, jaká data a jaké informace o překladových textech je možné nalézt v nejčastěji používaných psaných korpusech ČNK, vč. paralelního korpusu InterCorp a nově zveřejněného srovnatelného korpusu Jerome[11] (viz 4.1), který byl sestaven s cílem poskytnout materiál k výzkumu překladové češtiny v porovnání s češtinou nepřekladovou (viz dále).

 

druh korpusu

obsahuje překladový jazyk

možné srovnání se zdrojovým textem

známý jazyk originálu

vyvážený poměr překladů a původní češtiny

psané korpusy řady SYN[12]

ANO

NE

ANO

NE

korpus InterCorp[13] – beletrie (jádro)

ANO

ANO

ANO

NE

korpus InterCorp – publicistika a odborný jazyk (kolekce)

ANO

ANO

ANO/NE[14]

NE

srovnatelný korpus JEROME[15]

ANO

NE

ANO

ANO

Tab. 2 Přehled různých korpusů ČNK z hlediska překladovosti

 

Jak je vidět, pouze korpus Jerome se srovnatelným složením překladových a nepřekladových textů umožňuje snadné porovnávání výsledků s ohledem na faktor překladovosti, u všech ostatních korpusů je třeba dbát na jejich přesné složení a poměry.

4 Vliv překladovosti na analýzu dat

Nejprve je nutné zdůraznit, že naším cílem zde není ověřovat platnost obecných úvah o rozdílech mezi jazykem nepřekladovým a překladovým, ani by to vzhledem k rozsahu článku a komplexnosti tématu nebylo možné. Rády bychom však na několika příkladech ukázaly, v čem se může překladová čeština odlišovat od nepřekladové a jak to může ovlivnit interpretaci výsledků. Zkoumání jsme prováděly na korpusu Jerome, jehož složení je třeba krátce představit.

[264]4.1 Korpus Jerome

Korpus Jerome o velikosti 85 milionů tokenů (69 milionů slov po vyloučení interpunkce) je jednojazyčný srovnatelný korpus, který obsahuje dvě stejně velké části – česky psané nepřekladové texty a překlady z jiných jazyků do češtiny. Nejedná se o korpus paralelní, neobsahuje tedy originály neboli zdrojové texty; nepřekladová čeština zde hraje roli referenčního korpusu. Základní premisou je, že při sestavování obou částí, překladové i referenční nepřekladové, byla dodržena tatáž kritéria složení, aby byly výsledky výzkumu porovnatelné.

Korpus vznikl na základě databáze textů Českého národního korpusu, konkrétně pak řady SYN (synchronní psaná čeština, SYN2000, SYN2005 a SYN2010), z níž byly ručně vybrány konkrétní texty na základě specifických, translatologicky relevantních kritérií. Mezi hlavní patří zásada, že v korpusu Jerome nemůže být žádný autor zastoupen více než třikrát, aby se předešlo vlivu autorského idiolektu. Podobné pravidlo platí i pro překladatele: překladatel se může v korpusu objevit také maximálně třikrát, ovšem pokaždé s překladem jiného autora. Tím byla zajištěna dostatečná heterogennost korpusu. Dalším kritériem byla doba vydání textu – do korpusu jsou zařazeny texty vydané[16] v období zhruba posledních dvaceti let (1992–2009), aby mohla být zkoumána současná překladová čeština.

Korpus je lemmatizován a morfologicky značkován obdobně jako korpusy řady SYN. Kromě standardních informací o textu, jako je název, autor, rok a místo vydání, překladatel a zdrojový jazyk, byla anotace doplněna o podstatné translatologické informace: překlad či nepřeklad (status), první vydání textu (prvnivyd), pohlaví autora (autor_pohlavi) i překladatele (preklad_pohlavi).

Korpus Jerome byl sestaven tak, aby odrážel skutečnou situaci překladové literatury u nás a simuloval reálnou zkušenost čtenáře. Neobsahuje tedy stejné množství textů ze všech jazyků – což by bylo při dané velikosti korpusu neuskutečnitelné –, nýbrž zhruba odpovídá poměru překládaných jazyků, jak jej uvádí statistiky Národní knihovny a MŠMT[17]. Z nich vyplývá, že např. knih přeložených z angličtiny se u nás vydá přibližně třikrát více než z druhého či třetího nejčastěji překládaného jazyka (němčina, francouzština); korpus Jerome tuto skutečnost svým složením reflektuje. Tento rys je třeba mít na paměti při další interpretaci rozdílů mezi výsledky – důvodem pro odlišnost překladové části korpusu nemusí být proces překladu jako takový, ale interference jednoho konkrétního zdrojového jazyka, zde angličtiny. Pro ověření, zda jde o „univerzálii“ či interferenci, je možné využít menší vyvážený subkorpus, který obsahuje stejné množství tokenů (cca 100 000) ze všech zahrnutých jazyků (pro beletrii 14, pro odbornou literaturu 6 jazyků).

[265]4.2 Příklady odlišností v překladové a nepřekladové češtině

Specifické rysy překladového jazyka lze zkoumat a nahlížet různými způsoby, ovšem jisté riziko pro badatele představují právě v případě, kdy překladovost není předmětem jejich výzkumu a zároveň v něm není nijak zohledněna. Může se totiž projevovat i na rovinách, kde to není na první pohled zřejmé. Jak ukazuje tabulka 3, i pouhé orientační porovnání tak obecných kategorií, jako jsou slovní druhy, může poukázat na rozdíly mezi překladovými a nepřekladovými texty, jež mohou zkreslit nejrůznější statistiky a další zkoumání.

 

kategorie

celkově Jerome:bel

nepřekladová čeština

překladová čeština

rozdíl (vždy signifikantní)[18]

substantiva

10 334 101

5 502 041

4 832 060

více v originální češtině

adjektiva

3 689 367

1 988 453

1 700 914

více v originální češtině

zájmena

6 346 151

2 981 630

3 364 521

více v překladové češtině

číslovky

752 485

446 766

305 719

více v originální češtině

slovesa

8 886 271

4 201 372

4 684 899

více v překladové češtině

adverbia

3 610 272

1 803 657

1 806 615

více v originální češtině

předložky

4 183 464

2 176 670

2 006 794

více v originální češtině

spojky

3 774 872

1 889 785

1 885 087

více v originální češtině

částice

704 653

364 230

340 423

více v originální češtině

citoslovce

58 279

27 059

31 220

více v překladové češtině

Tab. 3 Počty výskytů (tokenů) slovních druhů v překladové a nepřekladové beletristické části korpusu Jerome

 

Při pohledu do tabulky 3 zjistíme, že zájmena, slovesa a citoslovce převažují v překladové češtině, kdežto zbývající slovní druhy převažují v češtině nepřekladové. Důvody mohou být samozřejmě různé, podrobná analýza není nyní předmětem našeho zájmu. Důležité je mít na paměti, že výzkum provedený na publicistických textech v korpusu SYN nebude vzhledem k nulovému objemu překladových textů zcela porovnatelný např. s beletrií nebo odbornou literaturou, které překlady obsahují v hojném počtu (viz tabulka 1).

Při bližším pohledu na zájmena, konkrétně pak na zájmena přivlastňovací, můžeme odhalit další vliv překladového jazyka. Jak uvádí Dušková (1988, s. 107), „v angličtině se posesívních zájmen užívá při odkazování na části těla, předměty osobní potřeby a v jiných případech, kdy se v češtině přivlastňovací vztah buď nevyjadřuje vůbec, nebo s dativem zvratného či osobního [266]zájmena.“ Vyjadřuje-li tedy čeština tentýž vztah implicitně nebo pomocí jiného druhu zájmen, pak by nadbytek přivlastňovacích zájmen v překladové češtině mohl značit interferenci. Výskyt přivlastňovacích zájmen[19] v korpusech ČNK podle překladovosti shrnuje tabulka 4, která může sloužit jako orientační přehled pro další výzkum.

 

beletristické subkorpusy

velikost zdrojových dat

abs. FQ přivl. zájmen

rel. FQ přivl. zájmen

SYN nepřeklady

49 647 612

541 098

10 898,8

SYN překlady

70 172 068

843 938

12 026,7

Jerome nepřeklady

26 551 540

295 840

11 142,1

Jerome překlady

26 617 523

319 584

12 006,5

InterCorp nepřeklady

11 539 000

125 492

10 875,5

InterCorp překlady

62 786 734

717 881

11 433,6

Tab. 4 Zastoupení přivlastňovacích zájmen v překladové a nepřekladové beletrii v korpusech SYN, Jerome a InterCorp

 

Z výsledků v tabulce 4 vyplývá, že v nepřekladové češtině je výskyt přivlastňovacích zájmen konzistentně nižší[20] než v té překladové, byť rozdíly nejsou závratné. Jde o údaje týkající se celých korpusů, ovšem angličtina jako zdrojový jazyk výrazně převažuje ve všech zkoumaných překladových subkorpusech, proto bychom mohli usuzovat, že k interferenci v podobě nadužívání přivlastňovacích zájmen dochází právě pod vlivem tohoto jazyka. Pro další ověření této hypotézy by bylo samozřejmě nutné provést podrobnější analýzu, která však není cílem tohoto článku.

Dalším příkladem rozdílů mezi překladovým a nepřekladovým jazykem může být frekvence n-gramů, tedy po sobě jdoucích řetězců slov (bez interpunkce), v nichž je dobře patrná syntagmatická povaha jazyka. Vyjdeme-li od nejčastějších 3-gramů a 4-gramů v překladové a nepřekladové beletrii, zjistíme, že některé jsou prominentně zastoupené v jednom subkorpusu, ale ve druhém se vyskytují ve zcela jiném frekvenčním pásmu[21] nebo se nevyskytují takřka vůbec. Pokud s touto možností např. v lexikálním či frazeologickém výzkumu nepočítáme, může být naše analýza zkreslená. Tabulka 5 ukazuje příklady n-gramů, které mají vyšší frekvenci užití v překladové části, a tabulka 6 naopak ty, které se objevují častěji v nepřekladové češtině. Příklady byly ze seznamu statisticky signifikantních n-gramů[22] pro daný subkorpus vybrány s cílem ilustrovat možné [267]rysy překladového jazyka na zajímavých spojeních (ze sémantického či formálního hlediska).

 

n-gram

korpus[23]

abs. FQ nepřeklady

rel. FQ nepřeklady

abs. FQ překlady

rel. FQ překlady

je mi líto

Jerome

109

4,1

214

8,0

ani v nejmenším

Jerome

113

4,3

324

12,2

co do činění s

Jerome

11

0,4

92

3,5

až do morku kostí

Jerome

18

0,7

54

2

Tab. 5 Příklady n-gramů prominentně zastoupených v překladech

 

Jak vyplývá z tabulky 5, některá slovní spojení v češtině zjevně podléhají vlivu překladového jazyka. V tomto konkrétním případě patrně opět dochází k interferenci z angličtiny, zvláště pak u spojení je mi líto, které bývá otrockým překladem fráze I’m sorry, příp. Sorry, jak potvrzuje bližší pohled do paralelního korpusu InterCorp[24].

 

n-gram

korpus

abs. FQ nepřeklady

i.p.m. nepřeklady

abs. FQ překlady

i.p.m. překlady

jen a jen

Jerome

293

11

146

5,5

zdá se mi

Jerome

285

10,7

102

3,8

další a další

Jerome

212

8

142

5,3

mezi nebem a zemí

Jerome

42

1,6

13

0,5

Tab. 6 Příklady n-gramů prominentně zastoupených v nepřekladových textech

 

Obdobně můžeme nalézt n-gramy, jejichž výskyt je v původní, nepřekladové češtině vyšší než v překladech, jak ukazuje tabulka 6. Kromě frazému mezi nebem a zemí, jehož vyšší frekvence v nepřekladové části může být ovlivněna i tématem textů zahrnutých v korpusu, nižší frekvence spojení s duplikovaným výrazem (jen a jen a další a další) v překladech by mohla ukazovat na tendenci překladatelů vyhýbat se podvědomě opakování. Samozřejmě jde pouze o prvotní hypotézu, která by vyžadovala další výzkum. I z uvedených příkladů je však patrné, že faktor překladovosti by při výzkumu založeném na českých beletristických textech neměl být opomíjen.

[268]5 Závěrem

Translatologické i lingvistické výzkumy z posledních let jasně naznačují, že překladový jazyk je svébytným kódem, jehož vlastnosti a charakteristické rysy jej mohou odlišovat od jazyka nepřekladového. Ačkoli máme doposud pro češtinu k dispozici pouze dílčí sondy, je nesporné, že určité rozdíly existují. Dokud si nebudeme jisti, v jakém rozsahu a za jakých podmínek k nim dochází, je nutné mít faktor překladovosti na zřeteli i (nebo možná především) v případě výzkumu, který se jej přímo nedotýká. Zvlášť potřebné je uvážit vliv překladovosti v těch případech, kdy pozorovaný jev může vykazovat odlišné chování v různých žánrech a výzkumná data nejsou ve všech žánrech vyvážena z hlediska překladovosti (což je situace korpusů řady SYN, kde překladová beletrie zaujímá přibližně 60 %, zatímco překladová publicistika 0 %). Zlaté pravidlo pro práci s korpusem, tedy aby badatel znal dobře materiál, s nímž pracuje, tak nabývá dalšího významu. Vedle možných rozdílů žánrových, o nichž se dlouhodobě hovoří, se totiž mohou objevit i rysy související s procesem překladu.

LITERATURA

BAKER, M. (1993): Corpus linguistics and translation studies: Implications and applications. In: M. Baker – G. Francis – E. Tognini-Bonelli (eds.), Text and Technology: In Honour of John Sinclair. Amsterdam – Philadelphia: John Benjamins, s. 233–250.

BAKER, M. (1996): Corpus-based translation studies: The challenges that lie ahead. In: H. Somers (ed.), Terminology, LSP and Translation: Studies in language engineering, in honour of Juan C. Sager. Amsterdam: John Benjamins, s. 175–186.

BIBER, D. (2006): University language: a corpus-based study of spoken and written registers. Amsterdam: John Benjamins.

BIBER, D. (2008): Corpus-based analyses of discourse: dimensions of variation in conversation. In: V. Bhatia – J. Flowerdew – R. Jones (eds.), Advances in discourse studies. London: Routledge, s. 100–114.

BIBER, D. – CONRAD, S. (2009): Register, Genre, and Style. Cambridge: Cambridge University Press.

CORPAS PASTOR, G. (2008): Investigar con corpus en traduccion: los retos de un nuevo paradigma. Berlin – New York: Peter Lang.

CVRČEK, V. – CHLUMSKÁ, L. (připravuje se): Simplification in Translated Czech: New Approach to TTR.

CVRČEK, V. – KOVÁŘÍKOVÁ, D. (2011): Možnosti a meze korpusové lingvistiky. Naše řeč, 94, s. 113–133.

Český národní korpus – SYN2000, SYN2005, SYN2010 (2000/2005/2010) [online]. Praha: Ústav Českého národního korpusu FF UK. <http://www.korpus.cz>.

Český národní korpus – Jerome (2013) [online]. Praha: Ústav Českého národního korpusu FF UK. <http://www.korpus.cz>.

Český národní korpus – InterCorp (2008–2013) [online]. Praha: Ústav Českého národního korpusu FF UK. Cit. 2014-08-01. <http://www.korpus.cz>.

DAYRELL, C. (2007): A quantitative approach to compare collocational patterns in translated and non–translated texts. International Journal of Corpus Linguistics, 12, s. 375–414.

[269]DE SUTTER, G. – VAN DE VELDE, M. (2008): Do the mechanisms that govern syntactic choices differ between original and translated language? A corpus-based translation study of PP extraposition in Dutch and German. In: R. Xiao – L. He – M. Yue (eds.), Proceedings of The International Symposium on Using Corpora in Contrastive and Translation Studies [online]. Cit. 2014-05-23. <http://www.lancaster.ac.uk/fass/projects/corpus/UCCTS2008Proceedings/papers/
de_Sutter_and_de_Velde.pdf
>.

DUŠKOVÁ, L. et al. (1988): Mluvnice současné angličtiny na pozadí češtiny. Praha: Academia.

CHESTERMAN, A. (2004): Hypotheses about translation universals. In: G. Hanse – K. Malmkjær – D. Gile (eds.), Claims, Changes and Challenges in Translation Studies. Selected Contributions from the EST Congress Copenhagen 2001. Amsterdam – Philadelphia: John Benjamins, s. 1–14.

CHLUMSKÁ, L. (2013): Korpus Jerome – srovnatelný translatologický korpus překladové a nepřekladové češtiny (rozsah 69 mil. slov). ÚČNK FF UK, dostupné z www.korpus.cz.

CHLUMSKÁ, L. (2014): Není korpus jako korpus: Korpusy v kontrastivní lingvistice a translatologii. Časopis pro moderní filologii, 96, s. 221–232.

CHLUMSKÁ, L. – RICHTEROVÁ, O. (2014): Jak zkoumat překladovou češtinu: Výzkum simplifikace na korpusu Jerome. Korpus – gramatika – axiologie, 5, s. 16–29.

KODÝTEK, V. (2007): On the replicability of the Biber Model: The Case of Czech. Nepublikovaný rukopis.

KRÁLÍK, J. (2001): Vyvážení zdrojů Synchronního korpusu češtiny SYN2000. Slovo a slovesnost, 62, s. 38–53.

KŘEN, M. (2013): Odraz jazykových změn v synchronních korpusech. Praha: Nakladatelství Lidové noviny.

LAVIOSA, S. (2002): Corpus-based Translation Studies. Theory, findings, applications. Amsterdam – New York: Rodopi.

MALMKJÆR, K. (2012): Translation Universals. In: K. Malmkjær – K. Windle (eds.), The Oxford Handbook of Translation Studies. Oxford: Oxford University Press.

MAURANEN, A. (2001): Strange Strings in Translated Language. A Study on Corpora. In: M. Olohan (ed.), Intercultural Faultlines: Research Models in Translation Studies I: Textual and Cognitive Aspects. Manchester: St. Jerome Publishing, s. 119–141.

ØVERÅS, L. (1998): In Search of the Third Code: An Investigation of Norms in Literary Translation. Meta: Translator’s Journal, 43, s. 557–570.

ŠULC, M. (2001): Tematická reprezentativnost korpusů. Slovo a slovesnost, 62, s. 53–61.

TIRKONNEN-CONDIT, S. (2004): Unique Items – Over- or Under-Represented in Translated Language? In: A. Mauranen – P. Kujamäki (eds.), Translation Universals – Do They Exist? Amsterdam – Philadelphia: John Benjamins, s. 177–185.

XIAO, R. (2010): How different is translated Chinese from native Chinese? International Journal of Corpus Linguistics, 15, s. 5–35.

ZANETTIN, F. (2011): Translation and corpus design. SYNAPS – A Journal of Professional Communication, 26, s. 14–23.


[1] Příspěvek vznikl v rámci Programu rozvoje vědních oblastí na Univerzitě Karlově č. P11 Český národní korpus, podprogram Český národní korpus.

[2] O rozdílech mezi žánrem a rejstříkem/registrem viz např. Biber (2009, s. 2).

[3] Analogicky k překladové literatuře a překladovým textům budeme texty psané v původním jazyce označovat názvem nepřekladové. Naproti tomu termínem originální či zdrojové bývají označovány ty texty, které slouží jako podklad pro překlad (např. v paralelních korpusech, které obsahují originály a jejich překlady).

[4] Interferencí obvykle označujeme negativní přenos jazykových prostředků zdrojového jazyka, které v cílovém jazyce nemají tutéž funkci a mohou působit rušivě.

[5] Je však třeba dodat, že definice těchto „unique items“ je poměrně vágní a zcela jistě vyžaduje další zkoumání.

[6] Viz formulace „[…] the corpus was slightly revised“ dostupná na http://www.natcorp.ox.ac.uk/corpus/index.xml.

[7] Informace o složení korpusu BNC viz http://www.natcorp.ox.ac.uk/docs/URG/.

[8] Co se týče korpusu BNC, může hrát samozřejmě svou úlohu i postavení angličtiny ve světě; můžeme předpokládat, že se mnohem častěji překládá z angličtiny než do ní.

[9] Viz statistiky MŠMT: http://new.nipos-mk.cz/?cat=126.

[10] Jinou otázkou je, zda se takto převzaté a upravené texty dají ještě označovat za překlady.

[11] Viz Chlumská (2013). O rozdílech mezi srovnatelnými a paralelními korpusy viz Chlumská (2014).

[12] http://wiki.korpus.cz/doku.php/cnk:syn

[13] http://ucnk.ff.cuni.cz/intercorp/?lang=cs

[14] Specifická je především publicistická část korpusu InterCorp: u složky textů pocházejících z kolekcí PROJECT SYNDICATE a PRESSEUROP mnohdy bohužel není znám zdrojový jazyk (a někdy ani autor) původního textu; s obdobnými obtížemi se setkáváme i při zkoumání textů obsažených v záznamech debat z Evropského parlamentu (EUROPARL) a ve složce textů pocházející z evropských právních dokumentů (ACQUIS COMMUNAUTAIRE). V beletristické části InterCorpu (tzv. jádře) však informace o zdrojovém jazyce a překladateli uvedeny jsou.

[15] http://wiki.korpus.cz/doku.php/cnk:jerome

[16] Kritériem je zde rok vydání toho konkrétního díla zařazeného do korpusu, a nikoli vytvoření díla, ačkoli údaj o prvním vydání lze v anotaci korpusu snadno dohledat. Tímto způsobem se klade větší důraz na recepci textu v příslušné době.

[17] http://new.nipos-mk.cz/?cat=126

[18] Všechny rozdíly mezi překladovou a nepřekladovou češtinou byly podrobeny testu chí-kvadrát a jsou statisticky signifikantní (p < 0,001, u adverbií p < 0,05); jejich relevance pro popis se ovšem významně liší, srov. zanedbatelný rozdíl v řádu setin procentních bodů u adverbií a částic a naproti tomu rozdíl větší než 7 procentních bodů u citoslovcí, adjektiv a číslovek.

[19] Přivlastňovací zájmena byla vyhledána následujícím CQL dotazem: [tag=“P[8S].*“].

[20] Test chí-kvadrát rozdíl ve všech případech potvrdil (p < 0,001).

[21] Pro srovnání bylo použito prvních 1000 nejčastějších n-gramů v obou částech korpusu Jerome a analyzováno jejich pořadí a frekvence.

[22] Pro testování statistické signifikance byl opět použit text chí-kvadrát, který rozdíl potvrdil (p < 0,001).

[23] Vybrané n-gramy byly vyhledány v uvedeném tvaru (typ dotazu Fráze) v beletristických subkorpusech korpusu Jerome o velikosti: překlady 26 617 523, nepřeklady 26 551 540 tokenů (vč. interpunkce).

[24] Ze 111 výskytů Je/je mi líto v anglicko-české části beletristického subkorpusu InterCorpu je skutečně 104 překladem anglického (I’m) sorry.

Ústav Českého národního korpusu FF UK
nám. Jana Palacha 2
116 38 Praha 1
lucie.chlumska@ff.cuni.cz
olga.richterova@ff.cuni.cz

Naše řeč, volume 97 (2014), issue 4–5, pp. 259-269

Previous Lucie Poláková: K možnostem korpusového zpracování nadvětných jevů

Next Michaela Martinková: K metodologii využití paralelních korpusů v kontrastivní lingvistice