Časopis Naše řeč
en cz

Kvantitativní charakteristiky současné češtiny

Jan Petr

[Posudky a zprávy]

(pdf)

-

Pod tímto názvem vyšla v edici Studie a práce lingvistické č. 19 monografie Marie Těšitelové a kol. (Academia, Praha 1985, 252 s., 92 tabulky a 1 graf + ruské a anglické shrnutí), která tematicky navazuje na třídílnou akademickou Mluvnici češtiny (v tisku). Doplňuje ji o kvantitativní charakteristiky: /1/ českých fonémů a grafémů, /2/ slovní zásoby, /3/ slovních druhů (jevů morfologických a neohebných druhů slov) a /4/ syntaktické stavby české věty (věty jednoduché a souvětí). Je to první soubor kvantitativních charakteristik současného jazyka ve všech jeho rovinách, první v našem i světovém kontextu. V oblasti popisu fonologie vychází z kvantitativní analýzy souboru 187 000 fonémů z textů odborného, publicistického a uměleckého stylu, v oblasti gramatiky, slovní zásoby a mluvnice (tvarosloví a skladby) se opírá především o analýzu korpusu věcného stylu v rozsahu 540 000 slov (vycházelo se z 75 % psaných a 25 % mluvených projevů). Tento korpus byl zpracován s pomocí moderní výpočetní techniky, pomocí děrných štítků a servisních překladových programů, které byly uloženy do externí paměti samočinného počítače Tesla 200, a automaticky dále zpracován ve výpočetních střediscích ČSAV. Při zpracování slovní zásoby a tvarosloví se též využilo frekvenčního slovníku češtiny autorů J. Jelínka — J. V. Bečky a M. Těšitelové (Frekvence slov, slovních druhů a tvarů v českém jazyce, Praha 1961) a dosavadní odborné literatury, zvláště individuálních a kolektivních prací, jejichž autoři jsou nebo v minulých letech byli pracovníky oddělení (úseku) matematické lingvistiky Ústavu pro jazyk český ČSAV.[1]

V úvodní kapitole ke každému ze čtyř oddílů je zachycena problematika kvantifikace příslušných jazykových jevů v češtině i dosavadní způsoby jejího řešení, jak se uvádějí v odborné literatuře předmětu. Jádro výkladu tvoří většinou nové, původní kvantitativní charakteristiky zkoumaných jazykových jevů zjištěné na reprezentativním materiálu a vykládané s co největší obecností pro češtinu. Srovnávání s výsledky prací, které byly v příslušné oblasti kvantitativní analýzy již vykonány, umožňuje autorům jednak potvrdit, resp. ověřit platnost jimi zjištěných výsledků, jednak je rozšířit, a to nejen pro češtinu. Vytváří se tím možnost porovnávat kvantitativní charakteristiky češtiny s jinými slovanskými jazyky. Na tuto možnost na úseku slovní zásoby, s cílem takto stanovit typologii slovanských slovníků, poukázala již v r. 1968 [30]M. Těšitelová.[2] Své závěry poté rozšířila v promyšlené podobě i na ostatní roviny jazyka, aby bylo možné touto cestou dosáhnout efektivní možnosti srovnávat také jazyky typologicky odlišné.[3]

Monografie také přináší soubor 92 tabulek a 1 grafu, které tvoří podklad pro výkladovou část a současně vytvářejí předpoklady pro další využití dat, o nichž se mohli autoři při omezeném rozsahu monografie jen zmínit a naznačit jejich možný výklad.

Monografie se opírá především o analýzu korpusu jazyka věcného stylu (v rozsahu 540 000 slov) a její výsledky se srovnávají, pokud jsou pro to podmínky, s výsledky kvantitativní analýzy jazyka stylu uměleckého, např. v oddílu II. 2. o strukturaci české slovní zásoby, frekvenci morfologických kategorií u jména, slovesa a u neohebných druhů slov. Takto srovnáním obou těchto dat (týkajících se jazyka stylu uměleckého a věcného) získáváme ucelený obraz o početním zastoupení jednotlivých jazykových jevů v češtině a o jejich fungování v textu, resp. při komunikaci. Méně výrazně se výsledky takového srovnávání projevují v oblasti zkoumání syntaxe. Souvisí to pochopitelně s tím, že kvantitativní analýza jednotlivých rovin, tj. jejich prozkoumání s pomocí kvantitativních metod je zatím na nestejné úrovni. Na tuto skutečnost se upozorňuje v úvodu monografie. Kvantitativní metody se totiž uplatňují v oblasti syntaxe ve větším měřítku až v posledním období, kdy se při přípravě jazykového materiálu a jeho dalšího zpracování užívá moderní výpočetní techniky, zvláště samočinných počítačů. Některé neúplnosti při kvantitativním popisu syntaxe bude možné ovšem doplnit postupně a odstranit v průběhu dalších výzkumů.

Z uvedeného obsahu monografie vyplývá, že autoři při zpracování tematiky zvolili postup od jednotek nejnižších (foném, grafém) přes slovo k jednotce nejvyšší, větě (jednoduché a souvětí); přidrželi se tedy ve svém pojetí převážně formy pojetí, která je relativně nejvíce objektivní a vytváří optimální podmínky pro aplikaci kvantitativních metod. Tento přístup k jazykovým jednotkám se v celé monografii důsledně dodržuje. To je její nesporný klad a záruka správného metodologického postupu. Frekvence zvolených jazykových jednotek se sleduje ve vzájemných vztazích jazykových rovin, např. frekvence slabiky podle pozice ve slově, čímž se respektují i prvky slovotvorné, popř. morfematické. i když jim v monografii není věnována zvláštní pozornost. Pokud jde o kvantifikaci vzájemných vztahů jazykových jevů, zaslouží si také zmínku i vztah slova k slovnědruhovým kategoriím, propojenost frekvence morfologických kategorií v rámci slovních druhů a jejich tvarů i jejich syntaktických funkcí. V monografii M. Těšitelové a kol. se také [31]poprvé v tak velké míře zpracovala i kvantifikace vztahů mezi jazykovými jevy různých rovin.

Uveďme zde ukázkově některé závěry, k nimž dospěli autoři monografie a které mají podle našeho názoru také širší praktický dosah. V podrobnostech je ovšem třeba odkázat na výklady obsažené v knize. Nejfrekventovanější fonémy v češtině jsou krátké vokály v pořadí e, o, a, i, neznělé souhlásky t, s, k a sonantické fonémy n, l, m, r, ze znělých souhlásek, které jako příznakové členy protikladu znělosti jsou méně frekventované, se uplatňují zvláště v, d, z, b, z dlouhých samohláskových fonémů í, á. Poměr souhlásek a samohlásek v psaných a mluvených textech je 58,7 % : 41,3 %. Slabika má v češtině délku 1 až 6 fonémů, v textu se uplatňuje jejich 13 základních typů, z nichž nejčetnějšími (87 % textu) jsou souhl. + samohl. (60 %), souhl. + samohl. + souhl. (17 %) a souhl. + souhl. + samohl. (10 %). Souvislý text obsahuje 75 % slabik otevřených a 25 % slabik zavřených. Frekvence slabik na počátku slova je nejsilněji ovlivňována prvky slovotvornými, na konci slova prvky systému flektivního. Nejčastější jsou v češtině slova dvouslabičná, méně je slov jednoslabičných a tříslabičných. V grafematickém systému češtiny nejčastěji vystupují grafémy o, e, n, a, t, v, na začátku slova p, z, s, v, n, na konci slova v textu í, e, u, o, a a na konci tvarů slov v systému í, y, u, m, i (digramy -ni, -ky, -ou, -ých, -ho).

Z hlediska slovnědruhového k nejčastějším slovům patří slova gramatická, spojky, předložky, dále zájmena a některá slovesa. Mnohem nižší frekvenci mají slova plnovýznamová, podst. a příd. jména, slovesa a příslovce. Tato frekvence, která se v práci podrobně číselně kvantifikuje, je ovšem závislá na funkčním stylu a jeho složkách. V tvarosloví je u slovesných osob nejfrekventovanější 3. os. jedn. a množ. č. (platí pro češtinu vůbec), kromě nich v publicistice, beletrii a dramatu 1. a 2. os. jedn. č., což souvisí s modalitou a svědčí o subjektivních rysech v těchto stylech. U věcného stylu se administrativa vyznačuje zvýšenou frekvencí 2. os. množ. č., podmíněnou užíváním rozkazovacího způsobu. V odborné češtině se výrazněji uplatňuje 1. os. množ. č., spojená s výkladovým slohovým postupem v odborném textu. Poměr jedn. a množ. č. se jeví jako 65 % : 35 %. V uměleckém stylu se vedle převažujícího oznamovacího způsobu více uplatňují podmiňovací a rozkazovací způsob. Přítomný čas je typický pro věcný styl, toto zjištění platí především pro odbornou češtinu a administrativu, v publicistice jsou časté tvary minulého času, totéž platí o uměleckém stylu, v němž je užití přítomného času menší než času minulého. Činné slovesné tvary jsou příznačné pro umělecký styl, trpné pro věcný styl, zejména pro administrativu.

Při analýze neohebných slovních druhů se došlo k závěru, že představují i z hlediska kvantitativního značně nesourodé třídy slov, a proto není snadné určit pro ně nějaké společné rysy. Zvláštní skupinu zde tvoří příslovce, která mají střední frekvenci. Předložky a spojky charakterizuje vysoká frekvence, ze spojek mají relativně nejvyšší frekvenci spojky souřadicí. Došlo se přitom k zajímavému poznatku, že pro různé typy koordinace [32]je vždy jedna spojka základní s největší frekvencí a ostatní jsou k ní jakoby synonymní. U spojek podřadicích se z hlediska kvantitativního výrazně projevuje jejich vázanost na strukturu souvětí. Citoslovce a částice se neuplatňují z hlediska kvantitativního příliš výrazně, ve srovnání se zjištěním jejich užití před 30 lety je zde patrný jistý pohyb, především v rámci slovní zásoby současné češtiny.

Při zkoumání frekvence skladebních jevů se podle zjištění autorů monografie ukazuje, že věty dvojčlenné převyšují svou frekvencí věty jednočlenné, frekvence determinačních syntagmat frekvenci koordinačních syntagmat, základní slovní druhy jsou vysoce frekventovány především v těch syntaktických funkcích, které jsou pro ně primární, slovosledné typy základní převažují nad kontextově vázanými atd. Potvrzuje to poznatek obecné povahy, že bezpříznakové, primární větné vlastnosti převažují svými frekvencemi nad vlastnostmi příznakovými, příležitostnými.

Na základě kvantitativního hodnocení souvětí se v monografii uvádějí tyto pozoruhodné závěry, dílem stálé, dílem proměnlivé povahy. Stálé rysy jsou dány jednak gramatickým systémem češtiny, jednak psychologickými činiteli. K nim se řadí ekonomičnost vyjadřování, projevující se v tendenci užívat kratší souvětí, klást větu hlavní na začátek, resp. co nejblíže počátku větného celku, zřetelně rozlišovat typy vedlejší věty, které svou řídící větu zpravidla předcházejí, a těch, které ji zpravidla následují. Řadí se sem také vyvážený poměr jednoduché věty a souvětí, rámcové údaje o frekvencích vedlejších vět, konstantní poměr mezi typy spojovacích výrazů a některé další údaje týkající se jejich využití (spojek, vztažných zájmen a příslovcí apod.). K proměnlivým charakteristikám patří vzájemný poměr dvou nejpočetnějších souvětných typů, rozložení spojovacích výrazů v textu a využití spojek podřadicích ve vedlejších větách. Jsou to, souhrnně řečeno, stylisticky příznakové charakteristiky, vázané především na příslušnost textu k určitému funkčnímu stylu.

K těmto a dalším pozoruhodným poznatkům, které jsme zde krátce shrnuli, dospěli autoři monografie, H. Confortiová, J. Králík, M. Ludvíková, J. Nebeská a L. Uhlířová a vedoucí tohoto autorského kolektivu M. Těšitelová. V obsahu se uvádí u každé kapitoly její autor, takže jde o kolektivní monotematickou monografii s plným zaznamenáním tvůrčího podílu každého spoluautora. Čtenář jistě vytěží četné poznatky nejen z textu práce, ale také z připojených tabulek a z grafu. Náš referát měl sice za úkol upozornit čtenáře jen na některé poznatky obsažené v knize, avšak chtěl by u něho vzbudit zájem o podrobnější studium celé práce, možná také jej podnítit k tomu, aby se tvůrčím způsobem a z hlediska svých odborných zájmů začetl do čtyř svazků interní řady Ústavu pro jazyk český ČSAV Linguistica (II, III, IV, VII), věnovaných kvantitativním aspektům zejména publicistického, odborného, resp. věcného stylu.


[1] Srov. k tomu připojený soupis použité literatury na s. 230—235. Srov. J. Petr, O jazyce současné české publicistiky v číslech, NŘ 65, 1982, 248—253; M. Těšitelová, O kvantitativní analýze češtiny s pomocí moderní výpočetní techniky, NŘ 67, 1984, s. 47—50.

[2] M. Těšitelová, K typologii slovanského slovníku z hlediska kvantitativního (na českém materiálu), Čs. přednášky pro VI. mezinárodní sjezd slavistů, Praha 1968, s. 95—99.

[3] M. Těšitelová, Das Tschechische als Sprachtyp aus quantitativer Sicht, in: Linguistica Generalla I, AUC 1974, Philol. 5, Praha 1977, s. 157—165.

Naše řeč, ročník 69 (1986), číslo 1, s. 29-32

Předchozí Ivana Svobodová, Jiří Nekvapil: Konference mladých jazykovědců

Následující Karel Fic: Knížka o tvoření staročeských příslovcí