Časopis Naše řeč
en cz

Zjišťování slovotvorné produktivity z korpusových dat: přípony odvozující názvy vlastností

Magda Ševčíková

[Články]

(pdf)

Investigating word-formation productivity from corpus data: suffixes deriving names of qualities

In the “corpus age” of linguistics, the research in productivity in word-formation has focused on development of measures that enable the calculation of productivity from frequency data gained from large corpora. In this contribution, we determine the productivity of four suffixes that are used in names of qualities in Czech. The results obtained by respected productivity measures are compared with a tentative approach (inspired esp. by Dokulil, 1962) to determine the productivity of the suffixes on the basis of their systemic features. The disparity of results based on quantitative data vs. systemic features is interpreted in favor of combining both aspects.

Key words: corpus, derivation, names of qualities, productivity, suffix, word-formation
Klíčová slova: korpus, odvozování, názvy vlastností, produktivita, přípona, slovotvorba

[1]1 Úvod

Pojetí produktivity a její zjišťování patří k základním otázkám slovotvorného výzkumu; s etablováním korpusů jako materiálových zdrojů lingvistické práce se výzkum produktivity stal ústředním tématem (především evropského) slovotvorného bádání. Popis slovotvorného systému češtiny ve starších i novějších pracích (např. Daneš a kol., 1967; Šmilauer, 1971; Hauser, 1986; Dokulil a kol., 1986; Karlík – Nekula – Rusínová, 2000; Čermák, 2012) vychází z teorie vypracované Milošem Dokulilem (zvl. 1962 a další práce), Dokulilovo pojetí produktivity[2] a způsob jejího zjišťování z korpusových dat je analyzován v pracích F. Štíchy (2002, 2007, 2009, 2012a, 2012b), zde srov. odd. 2. V zahraničních pracích je od 90. let 20. století diskutována možnost vyčíslit produktivitu jednotlivých formantů na základě frekvenčních údajů z korpusových dat, zásadní důležitost je přitom přikládána derivátům, které jsou v korpusových datech doloženy jediným výskytem (srov. odd. 3).

[229]Problematičnost zjišťování slovotvorné produktivity z korpusových dat ilustrujeme v odd. 4 analýzou čtyř přípon, které v češtině vystupují jako součást názvů vlastností (zpravidla vedle jiných užití; srov. zvl. odd. 4.3.2). Aplikací etablovaných kvantitativních přístupů a pokusem o důsledný rozbor systémových vlastností této sady přípon totiž dospíváme k různým výsledkům, tzn. jako nejproduktivnější jsou stanoveny různé přípony.

2 Pojetí slovotvorné produktivity v české lingvistice

Produktivitou (jako vlastností slovotvorných typů) se v české lingvistice zabýval už Šmilauer (1946, s. 131n.), rozlišil šest stupňů produktivity (od „živých“ typů tvořených pravidelně a neomezeně po typy „mrtvé, neprůhledné“); ve své pozdější práci (Šmilauer, 1971, s. 22) škálu zjemnil připojením sedmého stupně. Vedle produktivity slovotvorných typů lze podle Dokulila (1962, s. 78) zkoumat také produktivitu slovotvorných prostředků a slovotvorných základů.[3] Produktivnost slovotvorného typu definuje Dokulil (1962, s. 78 a 84) jako „schopnost tohoto slovotvorného typu být modelem pro tvoření nových slov“, produktivnost slovotvorného prostředku jako „schopnost tohoto formantu aktivně se účastnit vytváření nových slov“, produktivnost základu jako „upotřebitelnost základového morfému daného slova při tvoření nových slov“. Slovotvorné prostředky pak z hlediska produktivity vytvářejí hierarchii založenou na opozici prostředků živých proti neživým; živé prostředky jsou rozlišeny na produktivní a neproduktivní; produktivní prostředky jsou produktivní neomezeně nebo omezeně, a to vysoce, středně nebo málo (Dokulil, 1962, s. 92n.).

Pokud jde o způsob, jak slovotvornou produktivitu stanovit, je podle Dokulila nutné rozlišovat tzv. systémovou produktivitu od produktivity empirické. Systémová produktivita slovotvorného prostředku je dána jeho pozicí v jazykovém systému, pro její stanovení se tedy zjišťují systémové vlastnosti formantu a příslušných základových slov a posuzuje se konkurence formantu se sémanticky a stylisticky synonymními prostředky (Dokulil, 1962, s. 81n.). Druhý z termínů, produktivita empirická, postihuje skutečnost, že uplatnění formantu je kromě systémových rysů ovlivněno konkrétními společenskými podmínkami, z hlediska poznání jazykového systému je ovšem tento typ produktivity pro Dokulila okrajový. Dokulil ilustruje výklad mnoha příklady, vychází z jazykové intuice a rozsáhlého slovníkového materiálu (srov. Štícha, 2007, s. 250); přesná metodologie, jak produktivitu jednoho nebo druhého typu stanovit, ovšem chybí.

[230]Integrací Dokulilovy koncepce slovotvorné produktivity – jako koncepce „předkorpusové“ – do slovotvorného výzkumu opírajícího se o korpusová data se zabývá Štícha. Frekvenční údaje zjistitelné z korpusů jsou podle Štíchy (2012a, s. 103n.; 2012b, s. 4n.) ukazatelem produktivity empirické.[4] Při analýze činitelských jmen a adjektivních gradačních prefixů Štícha (2002 a 2007; 2009) upozorňuje na nutnost kombinovat rozbor frekvenčních dat s dalšími hledisky (také Štícha, 2012a, s. 105).

3 Kvantitativní přístupy k slovotvorné produktivitě

I když je koncepce produktivity integrální součástí Dokulilovy slovotvorné teorie, která byla a je široce přijímána jako základ slovotvorného popisu češtiny a některých dalších, zvláště slovanských jazyků,[5] Dokulilovo pojetí slovotvorné produktivity není v evropské lingvistice reflektováno.[6] Počátek studia produktivity jako subdisciplíny slovotvorného výzkumu je spojován s generativní lingvistikou 70. let (Bauer, 2005, s. 315n.), citovány jsou především práce N. Chomského (zvl. 1970) aM. Aronoffa (1976). Aronoff (1976, s. 36) navrhl porovnávat slovotvornou produktivitu na základě tzv. „indexu produktivity“, který se stanoví jako podíl počtu tzv. možných slov (possible words) se zkoumaným formantem k počtu existujících slov (attested words) obsahujících tento formant. I když jsou problematické obě položky vstupující do tohoto výpočtu,[7] Aronoff zde předznamenává kvantitativní přístup, který výzkumu produktivity dominuje od 90. let.

V éře běžné dostupnosti velkých jazykových korpusů bylo cílem vyvinout takovou metodu výpočtu produktivity, která by pracovala s frekvenčními údaji zjistitelnými z korpusových dat a její výsledky by odpovídaly lingvistické intuici. Míra produktivity P, kterou definoval Baayen (1992) a která je i přes řadu výhrad široce akceptována, se vypočítá jako podíl počtu derivátů se zkoumaným formantem, které mají v daném korpusu jediný výskyt (jednodokladová lemmata, nazývaná hapax legomena), a počtu všech výskytů derivátů s daným formantem [231]v tomto korpusu.[8] Další, méně využívaná míra produktivity P*, kterou Baayen (1993) navrhl v reakci na námitky týkající se vztahu mezi frekvenčními údaji a produktivitou (zvl. van Marle, 1992), vztahuje počet jednodokladových lemmat se zkoumaným formantem k počtu všech jednodokladových lemmat v daném korpusu. Zatímco tedy míra P vyjadřuje, jaká část derivátů s daným formantem má v korpusu jediný doklad, míra P* vyjadřuje podíl daného formantu na jednodokladových lemmatech v celém korpusu.

Baayenův kvantitativní přístup vyvolal širokou diskuzi týkající se kromě možnosti odvozovat produktivitu z frekvence také povahy jednodokladových lemmat. Už při zběžné revizi korpusového materiálu je totiž zřejmé, že jedním dokladem jsou kromě pravidelně utvořených nových slov a okazionalismů doložena např. také slova lexikalizovaná, která označují málo frekventované jevy, slova archaická, slova chybně napsaná mluvčím, slova chybně analyzovaná morfologickým analyzátorem atd.[9] (srov. např. Štekauer, 1994; Dressler – Ladányi, 2000; Dal, 2003). Při velkém objemu dat není ovšem možné provádět ruční selekci a ani automatická příprava dat nevedla k uspokojivým výsledkům (Evert – Lüdeling, 2001). Z této diskuze, zahrnující také aspekty metodologické (vliv velikosti dat, omezená aplikovatelnost na málo frekventovaná slova ad.; např. Fernández – Domínguez a kol., 2007), pak vycházejí další přístupy: např. Lüdeling – Evert (2005) kombinují kvantitativní přístup s tzv. analýzou kvalitativní, Gaeta – Ricca (2006) před kvantitativní analýzou upravují velikost korpusových dat.

4 Produktivita přípon -ost, -ství/-ctví, -ita a -ismus

4.1 Korpusová data jako zdroj frekvenčních údajů a informací o systémových vlastnostech

V současné češtině najdeme názvy vlastností tvořené zhruba 15 příponami domácího i cizího původu (Karlík – Nekula – Rusínová, 2000, s. 138n.), z nich jsme pro podrobnější korpusovou analýzu zvolili přípony -ost, -ství/-ctví, -ita a -ismus. Tyto přípony si konkurují jako součást názvů vlastností (př. intelektuálnost / intelektuálství / intelektualismus / intelektualita, naivnost / naivismus / naivita, fanatičnost / fanatismus, produktivnost / produktivita), kromě toho mají i další významy. Protože je tyto významy možné vydělovat různě (srov. popis [232]přípony -ství/-ctví v Daneš a kol., 1967; Hauser, 1986; Karlík – Nekula – Rusínová, 2000) a pro řadu korpusových dokladů je často obtížné mezi jednotlivými významy rozlišovat, neporovnáváme zde produktivnost jednotlivých slovotvorných typů s těmito příponami, ale produktivnost jednotlivých přípon ve všech jejich významech.

Přípony jsme zkoumali v datech ze čtyř korpusů Českého národního korpusu, SYN2000 a SYN2010 jsou reprezentativní korpusy (každý o velikosti zhruba 100 milionů textových slov), korpusy SYN2006PUB a SYN2009PUB jsou korpusy publicistických textů (obsahující 300 milionů a 700 milionů textových slov). V dotazech formulovaných pro každou z přípon jsme vedle slovního druhu specifikovali také rod (za účelem vyloučení slov jako host nebo táborita), v dotazu pro příponu -ost jsme dále požadovali, aby příponě předcházely alespoň dva znaky (pro vyloučení primárních substantiv jako kost), vedle -ismus jsme hledali i varianty -ismuz, -izmus a -izmuz.[10] Tabulka 1 uvádí frekvenční údaje zjištěné na základě těchto dotazů v každém z korpusů, tyto údaje jsou v odd. 4.2 použity ke stanovení produktivity jednotlivých přípon pomocí kvantitativních měr. Systémové vlastnosti přípon jsme zkoumali napříč jednotlivými korpusy (odd. 4.3), z této analýzy jsme vyloučili chybné a nepatřičné doklady (např. propria končící danou sekvencí hlásek, která ovšem nebyla příponou).

4.2 Produktivita přípon podle frekvenčních údajů

Pro každou z přípon -ost, -ství/-ctví, -ismus a -ita v každém z těchto čtyř korpusů jsme stanovili počet výskytů, lemmat a jednodokladových lemmat (tab. 1). Pro přípony -ost, -ství/-ctví a -ita lze ve všech korpusech (bez ohledu na jejich žánrové složení a reprezentativnost) sledovat vztah přímé úměrnosti mezi počtem výskytů a počtem lemmat a jednodokladových lemmat: pokud měla přípona v korpusu méně výskytů než jiná přípona, měla ve srovnání s touto příponou také méně lemmat a jednodokladových lemmat. Podle všech těchto tří frekvenčních údajů je v každém z korpusů nejfrekventovanější příponou přípona -ost, následuje přípona -ství/-ctví a dále přípona -ita. Přímá úměrnost mezi sledovanými údaji neplatí pouze pro příponu -ismus – tato přípona sice podle počtu výskytů zaujímá ve všech korpusech poslední, čtvrté místo, podle počtu lemmat i jednodokladových lemmat se ovšem řadí na místo třetí před příponu -ita.

Podílem zjištěného počtu jednodokladových lemmat s jednotlivými příponami k celkovému počtu výskytů všech derivátů s danou příponou v každém z korpusů jsme stanovili míru produktivity P: podle ní nejvyšší produktivitu – shodně

 

[233]korpus:

přípona:

SYN2000

    (100 mil. textových slov)    

SYN2010

 (100 mil. text. slov) 

SYN2006pub

 (300 mil. text. slov) 

SYN2009pub

(700 mil. text. slov)

-ost

881 736 výskytů

847 900

2 393 053

5 083 676

5 158 lemmat

5 592

6 413

6 864

1 400 hapax legomena

1619

1 787

1 752

P = 15,9e-4; P* = 32,0e-4

19,1e-4; 41,6e-4

7,5e-4; 26,2e-4

3,4e-4; 15,5e-4

-ství/-ctví

232 070

177 163

697 052

1 487 141

1 286

1 264

1 525

1 524

243

273

268

204

10,5e-4; 5,6e-4

15,4e-4; 7,0e-4

3,8e-4; 2,9e-4

1,4e-4; 1,8e-4

-ismus

57 919

42 811

126 338

193 376

636

756

792

827

69

132

126

124

11,9e-4; 1,6e-4

30,8e-4; 3,4e-4

10,0e-4; 1,8e-4

6,4e-4; 1,1e-4

-ita

145 532

135 509

422 983

923 651

435

496

473

472

42

48

51

48

2,9e-4; 1,0e-4

3,5e-4; 1,2e-4

1,2e-4; 0,7e-4

0,5e-4; 0,4e-4

Tab. 1 Frekvence derivátů s příponami -ost, -ství/-ctví, -ita a -ismus ve čtyřech korpusech řady SYN. Pro každou příponu je uveden celkový počet výskytů příslušných derivátů, počet lemmat a počet jednodokladových lemmat v každém z korpusů. Hodnota míry P a P* je uvedena kurzivou.

 

v korpusech SYN2010, SYN2006PUB a SYN2009PUB – vykazovala přípona -ismus, následovaná příponou -ost, na třetí místo se řadila přípona -ství/-ctví, nejméně produktivní byla přípona -ita. Při stanovení této míry na základě dat korpusu SYN2000 je ale přípona -ost produktivnější než přípona -ismus, umístění přípon -ství/-ctví a -ita zůstává stejné jako v ostatních korpusech (srov. tab. 1).

S použitím Baayenovy míry produktivity P* ovšem dospíváme ještě k jinému pořadí: jako nejproduktivnější je stanovena přípona -ost, na druhé místo se řadí přípona -ství/-ctví, následuje přípona -ismus a jako nejméně produktivní vychází přípona -ita, a to shodně pro každý ze čtyř používaných korpusů (srov. tab. 1).[11] [234]Ke stejnému pořadí dojdeme také seřazením přípon podle poměru počtu jednodokladových lemmat k celkovému počtu lemmat s danou příponou (tedy podle míry navržené F. Štíchou, 2012a, s. 105), a to na základě dat z korpusů SYN2000, SYN2010 a SYN2006PUB; při aplikaci této míry na data z korpusu SYN2009PUB se přípony řadí stejně jako podle míry P aplikované na data SYN2000 (tedy: -ost > -ismus > -ství/-ctví > -ita).

4.3 Produktivita přípon podle systémových vlastností

4.3.1 Systémové vlastnosti zjišťované v korpusových datech

Na základě Dokulilova výkladu (srov. zde odd. 2) a studií zabývajících se produktivitou vybraných derivátů ze systémového hlediska (zvl. Šlosar, 1984; Ziková, 2002; také Štícha, 2002, 2007, 2009)[12] jsme sestavili sadu rysů, které jsou považovány za relevantní pro posuzování tohoto typu produktivity. Jde jednak o systémové vlastnosti samotného slovotvorného formantu, popř. derivátů jím utvořených (rysy A až D), jednak o vlastnosti základových slov, s nimiž se daný formant spojuje (rysy E až J):

A. vydělitelnost přípony

B. počet významů přípony

C. stylové zabarvení přípony

D. existence sémanticky a stylisticky synonymních sufixů

E. hláskové kombinace v základovém slově

F. slovní druh základového slova

G. původ základového slova (české vs. přejaté)

H. derivační historie základového slova (primární vs. odvozené)

I. morfologické kategorie základového slova

J. sémantika základového slova

Všechny analyzované přípony -ost, -ství/-ctví, -ita a -ismus jsou dobře vydělitelné (rys A), mají obdobné stylové zabarvení (rys C) a v rámci slovotvorné třídy deadjektivních názvů vlastností, do které všechny (minimálně jedním z významů) patří, vstupují do konkurence s obdobnou sadou synonymních prostředků (rys D). Pokud jde o kombinovatelnost těchto přípon se základovými slovy, aplikace žádné z nich není blokována hláskovými kombinacemi (rys E)[13] ani morfologickými nebo sémantickými rysy základového slova (rysy I, J). Pro porovnání produktivity zkoumaných přípon se tedy jako relevantní jeví především [235]počet jejich významů (rys B; srov. odd. 4.3.2) a velikost množiny potenciálních základových slov (rysy F až H; odd. 4.3.3).

4.3.2 Významy analyzovaných přípon (rys B)

Korpusová data poskytují o sémantice přípon komplikovanější obraz než mluvnické popisy (zvl. z Dokulil a kol., 1986; Karlík – Nekula – Rusínová, 2000). Všechny zkoumané přípony považujeme za polysémní, pro každou z nich vypočítáváme pouze slovotvorné významy, které se opakují u určitého množství derivátů, lexikalizované významy (zpravidla vysoce frekventovaných) derivátů brány v úvahu nejsou.

U přípony -ost rozlišujeme vedle významu vlastnosti (nedomyšlenost zákonů, SYN2010) význam nositele vlastnosti (chyby, přehlédnutí a nedomyšlenosti vznikající při schvalování zákonů, SYN2010).[14] Přípona -ství/-ctví kromě těchto dvou významů (vlastnost: Vadí mi lajdáctví redaktorů, SYN2009PUB; nositel vlastnosti: A těch tiskových chyb a lajdáctví, až se tomu nechce věřit, SYN2006PUB) je také součástí názvů povolání (poslanectví je zaměstnání na celý úvazek, SYN2010), živností a obchodů (lidé do jeho pekařství rádi chodili, SYN2010) a názvů myšlenkových, uměleckých, politických a náboženských směrů (Z Descartova učení vychází směr nazývaný karteziánství, SYN2006PUB). Pro deriváty s příponou -ismus identifikujeme význam vlastnosti (její styl připomíná naivismus hrubých dřevorytů na kramářských písních, SYN2006PUB), nositele vlastnosti (překlad s mnoha anglicismy, SYN2010) a myšlenkových, uměleckých, politických a náboženských směrů (očekává od Tošovského vlády klausismus bez Klause, SYN2006PUB; k tomuto významu přiřazujeme také označení negativně hodnocených společenských jevů, př. Jánabráchismus totiž bují i mimo politiku, SYN2009PUB). Přípona -ita se omezuje na význam vlastnosti (Tematické členění vede místy ke zbytečné duplicitě výkladu, SYN2006PUB) a jejího nositele (duplicity v sítích vedou ke zhoršení efektivnosti obou provozovatelů, SYN2006PUB).

4.3.3 Slovní druh, původ a derivační historie základových slov (rysy F až H)

Přípona -ost se v naprosté většině derivátů spojuje s adjektivními základy, a to s primárními i odvozenými, českého i přejatého původu; mezi vysoce frekvento[236]vanými, lexikalizovanými deriváty jsou vzácně doloženy také základy slovesné (žádost, bytost). Přípona -ství/-ctví odvozuje od adjektiv s příponou -ský/-cký (a to s domácími i přejatými základy), popř. od substantiv, od nichž jsou tato adjektiva utvořena (sobectví, přátelství, ženství, vegetariánství);[15] mezi lexikalizovanými substantivy jsou zřídka doloženy i deriváty primárních adjektiv českého původu (hrubství, zoufalství). Přípona -ismus je typicky součástí substantiv s přejatým základem adjektivního charakteru (impresionismus), zřídka se kombinuje s českými apelativy (panelákismus) a proprii českého i cizího původu (zvl. pak se jmény osob; kafkismus, klausismus). Výjimečně odvozuje substantiva od frazémů a syntagmat obecně (vlezdoprdelismus, kůlplotismus, anything-goes-pluralismus, jetřebismus; Dokulil, 1968; Ziková, 2001)[16] nebo je součástí tzv. sufixoidů vstupujících do afixoidních kompozit (srov. -holismus ve slově čokoholismus; Martincová – Savický, 1987; Ziková, 2001). Přípona -ita je v korpusovém materiálu doložena pouze v substantivech s přejatými adjektivními základy.

4.3.4 Porovnání produktivity přípon

Interpretace počtu významů přípon a množiny potenciálních základů ve vztahu k systémové produktivitě přípon je ovšem problematická. Podle našeho názoru je totiž možné jako ukazatel svědčící o produktivnosti formantu interpretovat jak jeho polysémii (formant vyjadřující více významů je „užitečnější“), tak jednoznačnost (specializovaný formant může být preferován před formantem polysémním, protože daný význam vyjadřuje jednoznačně). Spolu s Dokulilem (1962, zvl. s. 87) zde volíme první možnost, polysémní formanty považujeme za produktivnější než formanty jednoznačné: nejvíce významů, a v tomto aspektu tedy nejvyšší produktivitu má přípona -ství/-ctví, následovaná příponou -ismus, přípony -ost a -ita se řadí na třetí místo.

Při stanovení velikosti množiny potenciálních základů za účelem posouzení systémové produktivity formantu bychom měli odhlédnout od frekvenčních údajů (které jsou v popisu v odd. 4.3.3 přítomny v podobě adverbií „zřídka“, „výjimečně“ atd.) a zajímat se o omezení zakotvená v jazykovém systému. Měli bychom se tak např. ptát na systémové vlastnosti frazémů či obecně syntagmat, se kterými se spojuje přípona -ismus – zjišťujeme, že pro syntaktickou výstavbu ani sémantiku syntagmatu vstupujícího do derivace příponou -ismus nejsou zřejmá žádná omezení, a jako potenciální základy tedy musíme připustit [237]všechna syntagmata. Na základě takové úvahy je z hlediska velikosti množiny základových slov přípona -ismus nejproduktivnější, následuje přípona -ost (potenciálně aplikovatelná na všechna adjektiva), přípona -ství/-ctví, poslední je přípona -ita.

Nejjednodušší metodou, jak od těchto dvou dílčích pořadí (z nichž ovšem jedno bylo stanoveno na základě jediného rysu B, druhé na základě kombinace tří rysů – F, G a H) dospět k výslednému pořadí, které budeme chápat jako pořadí podle systémové produktivity, je tato dílčí pořadí „sečíst“: příponám v dílčích pořadích přiřadit hodnotu 4 (pro nejproduktivnější formant) až 1 (pro nejméně produktivní) a na základě součtu těchto hodnot jednotlivé přípony seřadit. Jako nejproduktivnější pak vychází přípona -ismus, následuje -ství/-ctví, potom -ost a nakonec -ita. Dospíváme tak k další škále, která se neshoduje s žádnou ze škál sestavených v odd. 4.2.

Navržený postup vyvolává řadu otázek, např.: Pokud několik z uvedených rysů nemá při posuzování produktivity daných přípon distinktivní platnost, není třeba uvedenou sadu modifikovat nebo doplnit? Je vůbec možné stanovit takovou sadu rysů, která by byla relevantní pro posuzování produktivity různých formantů? Je s jednotlivými rysy možné zacházet jako s rovnocennými (jak postupujeme zde), nemají různou závažnost? Pokud mají, lze jejich závažnost stanovit obecně a vyhodnocovat je stejně při posuzování produktivity různých formantů, nebo je tuto váhu nutné stanovit pro různé skupiny formantů individuálně?

5 Závěr

Přes zásadní pozornost, která byla v teoretické lingvistice i korpusově založených pracích pojmu slovotvorné produktivity věnována, nebylo dosud dosaženo konsenzu, jak tento pojem definovat ani jak produktivitu zjišťovat. V příspěvku jsme s použitím dvou respektovaných kvantitativních měr vyhodnocovali produktivitu přípon -ost, -ství/-ctví, -ita a -ismus. Podle jedné z těchto měr (P) vykazuje ve třech ze čtyř využívaných korpusů nejvyšší produktivitu přípona -ismus: tato přípona je z hlediska podílu jednodokladových lemmat na celkovém počtu výskytů derivátů s touto příponou ze všech čtyř srovnávaných přípon nejaktivnější. Z hlediska podílu zkoumaných přípon na všech jednodokladových lemmatech v jednotlivých korpusech (tedy podle míry P*) byla jako nejproduktivnější stanovena přípona -ost. Následně jsme naznačili možnost, jak na základě porovnání systémových rysů, které jsme pro jednotlivé přípony zjišťovali rovněž z korpusových dat, stanovit produktivitu zkoumaných formantů bez ohledu na frekvenční údaje. Ve snaze o objektivní porovnání zjištěných systémových rysů jsme se ovšem ani zde neobešli bez kvantifikace – jsme si ovšem vědomi toho, že zjednodušení, ke kterým jsme v této souvislosti přistoupili, výsledky analýzy relativizují a vyžadují další výzkum.

[238]Výsledek analýzy systémových rysů, tedy stanovení přípony -ismus jako nejproduktivnějšího formantu sice koreluje s výsledkem první kvantitativní analýzy, nicméně např. rozpor mezi konstatováním, že pro příponu -ismus může být jako potenciální základ bráno jakékoli syntagma, a malým množstvím takových derivátů v korpusech, svědčí podle našeho názoru o potřebnosti nevyhodnocovat kvantitativní a systémové vlastnosti formantů odděleně (jak by to odpovídalo Dokulilově distinkci dvou typů produktivity), ale rysy obou typů konfrontovat, přesněji korigovat zjištění o systémových vlastnostech frekvenčními daty – systémové vlastnosti formantů a slovotvorných základů chápat jako předpoklady, prerekvizity jejich produktivity, frekvenční údaje pak interpretovat jako její projev (a doklad).

LITERATURA

ARONOFF, M. (1976): Word formation in generative grammar. Cambridge, MA: MIT Press.

BAAYEN, H. (1992): Quantitative aspects of morphological productivity. In: G. E. Booij – J. van Marle (eds.), Yearbook of Morphology 1991. Dordrecht: Kluwer Academic Publishers, s. 109–149.

BAAYEN, H. (1993): On frequency, transparency, and productivity. In: G. E. Booij – J. van Marle (eds.), Yearbook of Morphology 1992. Dordrecht: Kluwer Academic Publishers, s. 181–208.

BAUER, L. (2001): Morphological Productivity. Cambridge: Cambridge University Press.

BAUER, L. (2005): Productivity: Theories. In: P. Štekauer – R. Lieber (eds.), Handbook of Word-Formation. Dordrecht: Springer, pp. 315–334.

BOOIJ, G. E. et al. (2000): Morphologie / Morphology. Ein internationales Handbuch zur Flexion und Wortbildung / An International Handbook on Inflection and Word-Formation. 1. Halbband / Volume 1. Berlin – New York: Walter de Gruyter.

BOOIJ, G. E. et al. (2004): Morphologie / Morphology. Ein internationales Handbuch zur Flexion und Wortbildung / An International Handbook on Inflection and Word-Formation. 2. Halbband / Volume 2. Berlin – New York: Walter de Gruyter.

CVRČEK, V. a kol. (2010): Mluvnice současné češtiny. Praha: Karolinum.

CVRČEK, V. – VONDŘIČKA, P. (2013): Nástroj pro slovotvornou analýzu jazykového korpusu. In: Grammar & Corpora / Gramatika a korpus 2012. Hradec Králové: Gaudeamus.

ČERMÁK, F. (2012): Morfématika a slovotvorba češtiny. Praha: Nakladatelství Lidové noviny.

Český národní korpus – SYN2000, SYN2006PUB, SYN2009PUB, SYN2010 (2000/2006/2010/ 2010) [online]. Praha: Ústav Českého národního korpusu FF UK. <http://www.korpus.cz>.

DAL, G. (2003): Productivité morphologique: définitions et notions connexes. Langue française, 140, s. 3–23.

DANEŠ, F. a kol. (1967): Tvoření slov v češtině 2: Odvozování podstatných jmen. Praha: Nakladatelství ČSAV.

DOKULIL, M. (1962): Tvoření slov v češtině 1: Teorie odvozování slov. Praha: Nakladatelství ČSAV.

DOKULIL, M. (1968): Nepotřebujeme vyčkávače a zabukisty. Naše řeč, 51, s. 255.

[239]DOKULIL, M. a kol. (1986): Mluvnice češtiny 1. Fonetika, fonologie, morfonologie a morfematika, tvoření slov. Praha: Academia.

DRESSLER, W. U. – LADÁNYI, M. (2000): Productivity in word formation: a morphological approach. Acta Linguistica Hungarica, 47, s. 103–144.

EVERT, S. – LÜDELING, A. (2001): Measuring morphological productivity: is automatic preprocessing suffiecient? In: P. Rayson – A. Wilson et al. (eds.), Proceedings of the Corpus Linguistics 2001 Conference. Lancaster: Peter Lang, s. 167–175.

FERNÁNDEZ-DOMÍNGUEZ, J. et al. (2007): How is Low Productivity Measured? Atlantis, 29, s. 29–54.

FLEISCHER, W. (1975): Wortbildung der deutschen Gegenwartssprache. Tübingen: Max Niemeyer Verlag.

GAETA, L. – RICCA, D. (2006): Productivity in Italian word-formation: A variable-corpus approach. Linguistics, 44, s. 57–89.

HAUSER, P. (1986): Nauka o slovní zásobě. Druhé vydání. Praha: SPN.

CHOMSKY, N. (1970): Remarks on Nominalization. In: R. Jacobs – P. Rosenbaum (eds.), Readings in English Transformational Grammar. Waltham, MA: Blaisdell, s. 184–221.

KARLÍK, P. – NEKULA, M. – RUSÍNOVÁ, Z. (eds.) (2000): Příruční mluvnice češtiny. Druhé, opravené vydání. Praha: Nakladatelství Lidové noviny.

LÜDELING, A. – EVERT, S. (2005): The emergence of productive non-medical -itis. Corpus evidence and qualitative analysis. In: S. Kepser – M. Reis (eds.), Linguistic Evidence. Empirical, Theoretical and Computational Perspectives. Berlin – Boston: Mouton De Gruyter, s. 351–370.

MARTINCOVÁ, O. – SAVICKÝ, N. (1987): Hybridní slova a některé otázky neologie. Slovo a slovesnost, 48, s. 124–138.

POUNDER, A. (2000): Process and paradigms in word-formation morphology. Berlin – New York: Mouton de Gruyter.

ŠEVČÍKOVÁ, M. (2014): Kvalitativní a nekvalitativní význam substantiv s příponou -ost. Korpus – gramatika – axiologie, 9, s. 41–55.

ŠEVČÍKOVÁ, M. – ŽABOKRTSKÝ, Z. (2014): Word-Formation Network for Czech. In: Proceedings of the 9th Language Resources and Evaluation Conference. Paris: ELRA, s. 1087–1093.

ŠLOSAR, D. (1984): Slovotvorná produktivita – pojem synchronní, nebo diachronní? In: SPFFBU A, 32, s. 97–101.

ŠMILAUER, V. (1946): Tvoření slov. In: První Hovory o českém jazyce. Praha: Kruh přátel českého jazyka v Praze, s. 126–151.

ŠMILAUER, V. (1971): Novočeské tvoření slov. Praha: SPN.

ŠTEKAUER, P. (1994): Hapax Legomena and Word-Formation. ASA Journal, 1, s. 6–9.

ŠTEKAUER, P. (1998): An onomasiological theory of English word-formation. Amsterdam – Philadelphia: John Benjamins.

ŠTEKAUER, P. – LIEBER, R. (eds.) (2005): Handbook of Word-Formation. Dordrecht: Springer.

ŠTÍCHA, F. (2002): K Dokulilovu pojmu slovotvorné produktivity (z hlediska korpusové analýzy). Čeština doma a ve světě, 4, s. 302–310.

ŠTÍCHA, F. (2007): Korpusové statistiky a slovotvorná produktivita. In: F. Štícha – J. Šimandl (eds.), Grammar & Corpora / Gramatika a korpus 2005. Praha: Academia, s. 250–257.

[240]ŠTÍCHA, F. (2009): Slovotvorná produktivita a gramatičnost: gradační expresivní adjektiva s prefixy pra-, pře- a vele- v současné psané češtině. Eslavística Complutense, 9, s. 145–170.

ŠTÍCHA, F. (2012a): Jak v epoše elektronických korpusů následovat Miloše Dokulila (Miloši Dokulilovi ke stému výročí narození). Jazykovědné aktuality, 49, s. 95–107.

ŠTÍCHA, F. (2012b): Miloš Dokulil and his theory of productivity in word-formation. Korpus – gramatika – axiologie, 6, s. 3–9.

ŠTÍCHA, F. a kol. (2013): Akademická gramatika spisovné češtiny. Praha: Academia.

VAN MARLE, J. (1992): The relationship between morphological productivity and frequency: A comment on Baayen’s performance-oriented conception of morphological productivity. In: G. E. Booij – J. van Marle (eds.), Yearbook of morphology 1991. Dordrecht: Kluwer Academic Publishers, s. 151–163.

ZIKOVÁ, M. (2001): Substantivní neologismy a jejich parasystémový charakter. Naše řeč, 84, s. 81–89.

ZIKOVÁ, M. (2002): Slovotvorně motivované neologismy – produktivita a pravidelnost jejich tvoření. In: SPFFBU A, 50, s. 93–104.


[1] Tento příspěvek vznikl za podpory projektů GAČR P406/12/P175 Vybrané derivační vztahy pro automatické zpracování češtiny a LINDAT-CLARIN LM2010013.

[2] Dokulil (1962) důsledně pracuje s termínem produktivnost; termíny produktivnost a produktivita užíváme v tomto textu jako plně synonymní.

[3] Produktivitu slovotvorných základů chápe Dokulil (1962, s. 84) pouze jako „podmínku podporující nebo omezující produktivnost určitého slovotvorného typu“. Obdobně i v zahraniční literatuře je produktivita nejčastěji připisována slovotvorným prostředkům (např. Fleischer, 1975, s. 71) a slovotvorným typům (mezi jednotlivými koncepcemi tu ovšem jsou jisté rozdíly: např. Pounder, 2000, s. 133, hovoří o produktivitě slovotvorných operací, Aronoff, 1976, s. 36, o produktivitě slovotvorných pravidel).

[4] Štícha (2002, s. 303) rozšířil Dokulilovu dvojici systémová a empirická produktivita o termín produktivita parolová. Systémová a empirická produktivita jsou později (Štícha, 2007) pod zastřešujícím termínem „produktivita potenciální“ postaveny do protikladu k produktivitě reálné (parolové). Zjednodušením této hierarchie dospěl Štícha (2009; 2012a) k opozici produktivita empirická (neboli parolová, reálná) vs. systémová (také languová, potenciální).

[5] Z Dokulilovy koncepce onomaziologických kategorií ale vychází také Štekauerova (1998) onomaziologická teorie slovotvorby aplikovaná na angličtinu.

[6] Dokulilova teorie slovotvorné produktivity není zmiňována v reprezentativních přehledových příručkách (např. Štekauer – Lieber, 2005, nebo Booij et al., 2000, 2004) ani ve specializovaných pracích (např. Bauer, 2001) a případových studiích.

[7] Lze si např. klást otázku, zda existujícím slovem je slovo doložené ve slovníku, v korpusu, na internetu, nebo které je součástí uživatelova úzu. Ještě problematičtější je vymezení množiny možných slov – Aronoffův (1976, s. 36) návrh spočítat možná základová slova je pro většinu formantů obtížně realizovatelný.

[8] Míra P je implementována v aplikaci Morfio pracující nad daty Českého národního korpusu (Cvrček – Vondřička, 2013).

[9] Jednoduchý test, který jsme provedli nad korpusovými doklady s příponou -ost (srov. odd. 4), navíc ukazuje, že lemma, které je v datech z jednoho korpusu zastoupeno jedním výskytem, je často v jiném korpusu doloženo dvěma nebo třemi atd. doklady: zatímco seznamy jednodokladových lemmat s příponou -ost z korpusů SYN2000 a SYN2010 měly průnik zhruba v 1/6 lemmat, po rozšíření o dvou- až pětidokladová lemmata se tyto seznamy kryly už zhruba ze 2/5, při dalším rozšíření o šesti- až desetidokladová lemmata pak průnik činil zhruba 1/2.

[10] Dotazy k vyhledání dokladů se zkoumanými příponami měly následující podobu (jednotlivé dotazy odděleny středníkem): [tag=“N.F.*“ & lemma=“…*ost“]; [tag=“N.N.*“ & lemma=“.* [sc]tví“]; [tag=“N.I.*“ & lemma=“.*i[sz]mu[sz]“]; [tag=“N.F.*“ & lemma=“.*ita“].

[11] Počet všech jednodokladových lemmat v jednotlivých korpusech jsme zjišťovali ze seznamů lemmat sestavených v rozhraní KonText (www.korpus.cz) pomocí funkce Dotaz -> Seznam slov (interpunkční znaménka a číslice nebyly zahrnuty). V korpusu SYN2000 bylo takto identifikováno 436 951 lemmat doložených jediným dokladem, v SYN2010 388 986 jednodokladových lemmat, v SYN2006PUB 681 223 a v SYN2009PUB 1 129 912 jednodokladových lemmat.

Pořadí přípon podle míry P* je pro jednotlivé korpusy totožné s pořadím přípon podle absolutního počtu jejich jednodokladových lemmat (srov. také Štícha, 2002, s. 303), protože ve výpočtu je pro všechny přípony použit stejný dělitel (počet všech jednodokladových lemmat je pro každý korpus konstantní).

[12] V citovaných studiích jsou jednotlivé rysy často posuzovány selektivně a/nebo je produktivita zkoumaných formantů porovnávána na základě jediného rysu (srov. např. Šlosar, 1984).

[13] I když by se přípona -ství/-ctví mohla zdát obtížně kombinovatelná se základy končícími sekvencí několika souhlásek, deriváty jako blbství ukazují, že zde takové omezení není.

[14] Rozlišením těchto dvou významů přípony -ost (srov. Ševčíková, 2014) se lišíme od dosavadních popisů, které význam nositele vlastnosti interpretovaly jako výsledek přenesení významu vlastnosti na konkrétní denotát. Stanovení významů přípon a základových slov je závislé na teoretickém rámci, zjištění navíc mohou být subjektivní a neúplná především vzhledem k velikosti dat a manuální analýze. Některé z požadovaných informací bude nově možné získat ze vznikající databáze českých derivátů (Ševčíková – Žabokrtský, 2014).

[15] V hodnocení derivátů s příponou -ství/-ctví jako derivátů deadjektivních nebo desubstantivních se české slovotvorné popisy liší, srov. Šmilauer (1971, s. 63), Dokulil a kol. (1986, s. 297n.), Cvrček a kol. (2010, s. 95), Čermák (2012, s. 74n.) nebo Štícha a kol. (2013, s. 140n.).

[16] I když si tyto deriváty uchovávají charakter neologismů, jejich seznam sestavený na základě analyzovaných korpusových dat je jen o málo bohatší než doklady uváděné v pracích M. Dokulila (1968) nebo M. Zikové (2001).

Ústav formální a aplikované lingvistiky MFF UK
Malostranské nám. 25, 118 00 Praha 1
sevcikova@ufal.mff.cuni.cz

Naše řeč, ročník 97 (2014), číslo 4–5, s. 228-240

Předchozí Neil Bermel, Luděk Knittl, Jean Russell: Absolutní a proporcionální frekvence v ČNK ve světle výzkumu morfosyntaktické variace v češtině

Následující Lucie Poláková: K možnostem korpusového zpracování nadvětných jevů