Časopis Naše řeč
en cz

O využití výsledků kvantitativní lingvistiky

Marie Těšitelová

[Articles]

(pdf)

-

Kvantitativní lingvistika, složka matematické lingvistiky studující kvantitativními metodami jazykové jevy a jejich vztahy na různých rovinách, dosáhla v posledních desítiletích, zejména při využití moderní výpočetní techniky, významných úspěchů.[1] Pokud jde o využití výsledků kvantitativní lingvistiky, nad nímž se v tomto článku chceme zamyslit, je do značné míry speciální a pro jazykovou disciplínu ne dost typické. Z dějin kvantitativní lingvistiky, které můžeme systematicky sledovat zhruba za posledních sto let,[2] je známo, že kvantitativních metod, zvl. statistických, využila k ekonomickému zvládnutí některých jazykových jevů v podstatě nejdříve praxe: těsnopisci (při vytváření znaků pro jazykové jevy, jako jsou foném apod.), sazeči (při vybavování zásobníků literami podle frekvence grafémů), učitelé jazyků, především cizích, psychologové apod., kteří se zajímali o frekvenci slov. Teprve po nich, popř. ve spolupráci s nimi začali o aplikaci kvantitativních metod na jazykové jevy jevit zájem lingvisté sami; v poslední době zájem z řad lingvistů převládl: Od 60. let bylo zahájeno systematické studium jazyka kvantitativními metodami, zlepšily se podmínky tohoto studia po stránce odborné i technické a také využití jeho výsledků nabylo nových podob. Aplikační oblastí výsledků kvantitativní lingvistiky se stává především lingvistika sama, mluvíme potom /1/ o aplikacích lingvistických; nadále zůstává „klasická“ aplikační oblast jazykové pedagogiky, jazykové vyučování, tedy /2/ aplikace pedagogické; objevují se různé, zvl. nové vědecké interdisciplíny, psycholingvistika, informatika, neurolingvistika apod., tj. /3/ aplikace interdisciplinární, konečně existují /4/ aplikace technické. Jednotlivé aplikační oblasti kvantitativní lingvistiky budeme dále stručně charakterizovat.

 

[226]1. Aplikace lingvistické

Ačkoli kvantitativní lingvistika jako lingvistická disciplína má svůj předmět, své metody i speciální úkoly v jazykovědě, přesto mnohé z jejích výsledků mohou být dále využity jednak lingvistikou samou, jednak jejími interdisciplínami (srov. dále).

Pokud jde o lingvistiku samu, musíme bohužel konstatovat, že využívání kvantitativních charakteristik, zjištěných pro jazykové jevy a jejich fungování v textu, v komunikaci apod., není ani v dnešní době samozřejmostí. Do jisté míry tu činí výjimku oblast lexikální, kde se poměrně často a s prospěchem přihlíží i k frekvenci slova; srov. např. využití tzv. frekvenčního slovníku češtiny.[3] Bohatý pramen nevyčerpaných možností poskytuje i řada dílčích frekvenčních slovníků přinášejících především kvantitativní charakteristiky slovní zásoby jazyka věcného stylu a jeho složek.[4] Méně jsou v lingvistice využívány kvantitativní charakteristiky gramatických jevů, morfologických a syntaktických. A přece morfologický systém a jeho variantnost, resp. variantnost některých jeho tvarů ukazují na působení většího počtu činitelů, které je třeba studovat i z hlediska kvantitativního. Délka věty je základním faktorem, který rozhoduje o dekódování jazykového sdělení. A syntaktická struktura věty, její složitost apod. je často příčinou poruch v jednoznačné informaci věty i vyšších jednotek, textu apod. Také sémantická analýza, která může stavět na kvantitativních charakteristikách jevů syntaktických, ev. morfologických, ukazuje v novém světle závislost významu slov na kontextu, vzájemné speciální sémantické vztahy (např. jména a slovesa) v kontextu apod.

Zvláštní postavení mezi výsledky kvantitativní lingvistiky zaujímají zjištění týkající se slovních druhů, zejména se zřetelem k slovníku, ke gramatice i k sémantice, po stránce jak formální, tak i významové. Své opodstatnění má proto i skutečnost, že se z hlediska kvantitavního dělí slovní druhy do dvou skupin: nominální (kam se řadí substantiva, adjektiva a předložky) a verbální (slovesa, zájmena, adverbia a spojky). Toto dělení se projevuje jako významný činitel, který má vliv na strukturaci slovní zásoby, uspořádání podle frekvence do tří základních pásem (srov. dále). Z hlediska kvantitativního se ukazují v novém světle rozdíly mezi slovy gramatickými, formálními a slovy [227]tzv. plnovýznamovými. Kvantifikace morfologických kategorií jména a slovesa objevuje nové cesty k poznání gramatických kategorií vůbec u jednotlivých druhů slov i při jejich fungování při výstavbě tvarů slov, ale i věty a textu. Syntaktické kategorie se zřetelem k jednotlivým slovním druhům vůbec čekají na své propracování, zejména v dialektické jednotě aspektu kvalitativního i kvantitativního. Text a jeho výstavba patří tedy k oblasti, kde využití kvantitativních charakteristik týkajících se slovních druhů a jejich kategorií může vnést objektivního činitele do poznání výstavby textu, vztahů v něm, koherence, smyslu vůbec.

Výsledky kvantitativní lingvistiky týkající se jiných jazykových rovin, např. fonologické, grafematické, slovotvorné aj., představují rovněž cenný materiál k hlubšímu propracování charakteristik jednotlivých rovin, zejména pak zhodnocení jejich podílu na komunikaci vůbec, k dynamickému pojetí jednotlivých rovin a jejich propojenosti při fungování jazyka v pojetí hodném lingvistiky v období využívání moderní výpočetní techniky.

Významné místo mají aplikace výsledků kvantitativní lingvistiky v oblasti stylistické, zejména v tradici naší stylistiky (srov. FSČ). Kvantitativní charakteristiky různých jazykových rovin mohou přispět k prohloubenému poznání funkčních stylů i jejich diferenciace i k odhalení jazykového stylu autora, přispět k vypracování typologie textu apod.

Ukázkou možných interpretací kvantitativních dat o jazyce, ale i zároveň dat pro jejich další využití je pro češtinu monografie Kvantitativní charakteristiky současné češtiny,[5] která tvoří doplněk k akademické Mluvnici češtiny.[6] Čeština má tak — i v světovém kontextu — jedinečný zdroj kvantitativních charakteristik pro popis svého fungování na základních jazykových rovinách (fonologické, grafematické, lexikální a gramatické), zásobník dat pro další využití, další doplňování apod. Je třeba připomenout, že se s uváděním kvantitativních charakteristik u jevů gramatických, i když ještě relativně neúplným vzhledem k možnostem doby, setkáváme v práci Vl. Šmilauera o českém jazyce.[7]

Aplikace lingvistického charakteru ovšem vyžadují, aby se lingvista [228]naučil s kvantitativními daty zacházet, interpretovat je, ev. potřebná data si dále opatřovat apod. To vše je zatím velkou slabinou dosavadní lingvistické práce. Lze tu očekávat pomoc v správném nasazení moderní výpočetní techniky, jejíž využívání se musí stát samozřejmostí nejen v oblasti kvantitativní lingvistiky, resp. matematické lingvistiky.

 

2. Aplikace pedagogické

Tyto aplikace mají v kvantitativní lingvistice již svou tradici, srov. výše. V současné době jde zpravidla především o vyučování jazyku mateřskému; ve výsledcích kvantitativní lingvistiky — alespoň u nás, v ČSSR — byly k tomu účelu vytvořeny optimální podmínky, a proto mu budeme věnovat pozornost na prvém místě.

2.1. Vyučování mateřskému jazyku

V nejstarším období aplikací kvantitativní lingvistiky se hledala opora v kvantifikaci jazykových jevů týkajících se slovní zásoby, resp. zjišťování frekvence slov, slovních druhů apod. Šlo především o slovník dětí, o rozsah jejich slovní zásoby v době předškolní, o rozvíjení slovní zásoby v době školní docházky s perspektivou postihnout i slovní zásobu dospělých. K studiu a kvantifikaci slovní zásoby byly určeny především frekvenční slovníky, ev. frekvenční seznamy.

Kvantitativní studium slovní zásoby (uložené ve frekvenčních slovnících a seznamech) umožňuje utřídit slovní zásobu na slova 1. s frekvencí nejvyšší a vyšší, 2. s frekvencí střední, 3. s frekvencí nižší a nejnižší.[8] U jednotlivých skupin slov je důležité respektovat jejich příslušnost k slovním druhům; např. bylo dokázáno, že vyšší frekvence slov plnovýznamových usnadňuje jejich ovládání, obtížněji se zvládají slova méně frekventovaná, sémanticky málo jasná, nekonkrétní apod.

Frekvenčních slovníků a seznamů možno v pedagogické praxi využít i při tvorbě učebnic mateřského jazyka, při sestavování čítanek apod.

Při tvorbě učebnic mateřského jazyka můžeme kvantitativními aspekty do jisté míry řídit volbu slovní zásoby ve výchozích textech i v cvičeních navazujících na výklad. Srovnáním s frekvenčním slovníkem lze kontrolovat, jak je slovo v jazyce časté, a podle potřeby užijeme slova jiného, častějšího, konkrétnějšího apod.

Při sestavování čítanek, poznámek k textům apod. posuzujeme, resp. měříme slovní zásobu zvolených textů, odhadujeme jejich přístupnost a srozumitelnost žákům; měřítko se pochopitelně mění podle druhu školy, věku žáků apod.

[229]Také při sestavování výkladů v odborných předmětech můžeme z hlediska kvantitativního zrevidovat počet termínů (ve srovnání s jejich frekvencí v jazyce vůbec, popř. v odborné literatuře), posoudit počet cizích slov (termíny cizího původu v to počítaje) a jejich využití v jazyce i ve speciálním oboru. Existuje proto velký počet odborných frekvenčních slovníků, zvl. v SSSR a NDR (srov. d. cit. v pozn. 2); i když jsou určeny především pro vyučování jazykům cizím, lze jich s prospěchem využít i pro vyučování jazyku mateřskému.

Práce na učebnicích a čítankách, pokud je mi známo, neposkytla dosud potřebného klidu a času autorům k tomu, aby využitím frekvenčních slovníků a seznamů a jiné podobné literatury vnesli do své práce potřebná objektivní kritéria pro vhodnou volbu jazyka, slov v učebnicích a čítankách. Frekvenční slovníky a seznamy tu většinou čekají na své využití. To ovšem také předpokládá umět s těmito pomůckami zacházet; týká se to jak autorů učebnic a čítanek (mateřského jazyka), tak i učitelů mateřského jazyka samých.

Čekají-li na své využití v pedagogické praxi výsledky lexikální statistiky, která má téměř stoletou tradici, tím spíše to platí i o výsledcích gramatické statistiky, zejména o statistických datech týkajících se jevů morfologických a syntaktických. Souvisí to i s tím, že v kvantitativní lingvistice dosud chybělo zpracování výsledků gramatické statistické analýzy v přehledné a přístupné formě, jakou představují v lexikální statistice frekvenční slovníky a seznamy. Co znamená pro objektivní kvantitativní popis slovní zásoby frekvenční slovník, to znamenají pro gramatiku (např. v oblasti morfologické a syntaktické) kvantitativní charakteristiky ve formě tabulek, přehledů a grafů. Býv. oddělení matematické lingvistiky ÚJČ ČSAV takové pomůcky pro češtinu pořídilo (srov. d. cit. v pozn. 4) i citovaná monografie (v pozn. 5) taková data pro současnou češtinu v relativně velké míře obsahuje.

Na základě kvantitativních charakteristik gramatických jevů, v podstatě gramatických kategorií, můžeme jazykové jevy, které při vyučování nebo v učebnicích probíráme, hierarchizovat, uspořádat podle jejich frekvence, ale ovšem i podle jejich důležitosti, tj. podle toho, jak se podílejí na vytváření jednotlivých tvarů i spojení slov, syntaktických struktur apod. Jevy nejčetnější nemusí být vždy jevy nejdůležitějšími a naopak. Vzhledem k frekvenci — ve spojení s jinými činiteli — můžeme řídit výběr jazykových jevů ve výkladech a cvičeních, odstupňovat jejich nácvik apod. I při výběru gramatických jevů pro výklady a procvičování je tedy třeba přihlížet — mimo jiné — i k jejich frek[230]venci. To ovšem neznamená, že bychom při vyučování jazyku — mateřskému i cizímu — neměli respektovat systém jazykových jevů, např. systém morfologický. Je třeba přihlížet také k tomu, v čem žáci chybují nebo nechybují.

Vzhledem k frekvenci budeme v češtině více času věnovat např. výkladu a zejména procvičování oznamovacího způsobu minulého času, který tu patří k relativně nejvíce frekventovaným kategoriím slovesa, zejména v 3. os. jedn. a množ. č., dále 3. os. jedn. a množ. č. oznamovacího způsobu přítomného času sloves vzorů prosit, trpět a sázet. V tom je jistě rozdíl od probírání např. přechodníků v češtině, jejichž výskyt je statisticky zanedbatelný. Nemůžeme ovšem pominout postavení přechodníků v systému tvarů současné češtiny. Naproti tomu např. v ruštině má přechodník relativně významnou frekvenci, a proto je mu třeba ve cvičeních věnovat více pozornosti. Význam morfologických kategorií je — jak známo — v různých jazycích různý a k tomu je třeba přihlížet, řídíme-li se při vyučování kvantitativními charakteristikami morfologických jevů.

Zvláštní problematiku v rámci kvantitativních charakteristik gramatických kategorií představuje frekvence slovních druhů. Je známo, že jejich frekvence do velké míry obráží závislost na typologii jazyka, na stylu funkčním, autorském, na slohovém postupu, na sémantice kontextu apod. Z tohoto hlediska je např. zajímavý souvýskyt některých adjektiv s některými substantivy, korespondence adjektiv se slovesy apod. Těchto a některých jiných zjištění lze využít při vyučování slohu, ve stylizačních cvičeních, v literární výchově při jazykové analýze textu apod.

Důležitou oblast gramatických kvantitativních charakteristik představují charakteristiky syntaktické; jejich význam stále více vzrůstá. Z hlediska kvantitativního se ukazuje nově jednak jejich vztah k morfologickým kategoriím a slovnědruhové příslušnosti apod., jednak jejich úloha v textu. Jako důležitý faktor se při vyučování i tvorbě učebnic uplatňuje délka věty. Musí být únosná, aby žáci porozuměli sdělení a dobře si je zapamatovali. Důležité je věnovat pozornost i začlenění věty do kontextu, neboť i to urychluje pochopení její sdělné úlohy. Syntaktická struktura věty má někdy větší vliv na její pochopení než vztahy sémantické. Při nácviku gramatických kategorií zaslouží zvláštní pozornosti např. vyjadřování podmětu, sémantika slovesa apod.

Kvantitativní charakteristiky syntaktické je třeba respektovat nejen ve vyučování mateřskému jazyku a v jeho učebnicích, ale i v učebni[231]cích ostatních předmětů, dějepisu, zeměpisu, fyziky aj. Pro pochopení učiva má důležitý význam nejen délka věty, která by neměla překročit jistou hranici, ale i složitost souvětí, funkce spojovacích výrazů apod. Důležitá je např. znalost četných typů souvětí, aby se do výkladu i do cvičení dostaly vhodné příklady apod.

Také při vyučování pravopisu, zejména lexikálnímu, můžeme v češtině např. nácvik i/í-y/ý opřít o statistická data týkající se slov odvozených od tzv. slov vyňatých; nácvik můžeme do jisté míry odstupňovat podle frekvence příslušných slov, resp. podle jejich výskytu v textu, který je reprezentován materiálem, na němž je frekvenční slovník založen. Na druhé straně ovšem chyby v psaní i/í-y/ý, kterých se žáci dopustili v diktátě, ve cvičeních apod., lze opravovat individuálním i hromadným nácvikem některých jevů se zřetelem k frekvenci příslušného slova, ev. jeho tvarů; pokud jde o nácvik i/y v příčestí při shodě s podmětem, lze přihlížet i k frekvenci morfologických kategorií, jako je frekvence 3. os. jedn. a množ. č. v min. čase, srov. ptáci přiletěli, vlaštovky přiletěly.[9]

Kvantitativní zhodnocení závažnosti chyb v žákovských pracích, a to nejen pravopisných, ale i gramatických, morfologických a syntaktických, a stylistických (např. výběr slov, jejich synonymie apod.) lze provádět i z hlediska frekvence slov, morfologických i syntaktických kategorií apod.

I výcvik v mluvených projevech můžeme na škole zlepšovat tím, že přihlížíme např. k frekvenci slov. Slova frekventovaná vnímáme totiž lépe než slova řídká. Délka slova a jeho frekvence se do jisté míry vyrovnávají: Slova frekventovaná bývají zpravidla poměrně krátká (bývají to slova formální, jako jsou spojky, předložky a zájmena, srov. podle FSČ: a, že, v, na, s, z, ten, on aj.), slova méně frekventovaná, zejména substantiva a adjektiva, bývají zpravidla delší (srov. ve FSČ: zralost, kandidát, mravenec, komický, nezapomenutelný aj.). Nejen výběr slov a jejich druh, ale i pauza, její četnost a délka mají svou funkci i v projevech žáků a zaslouží při vyučování zvláštní pozornosti.

2.2. Vyučování cizímu jazyku

Mnoho z obecných zásad o využití kvantitativních charakteristik pro vyučování jazyku mateřskému platí i pro vyučování jazykům cizím. Zejména ve starším období kvantitativní lingvistiky tu bylo vykonáno mnoho práce (srov. d. cit. v pozn. 2). Šlo především o výsledky lexi[232]kální statistiky, frekvenční slovníky a seznamy, které byly často určeny i pro vyučování toho kterého jazyka jako mateřského. Platí to zejména o slovnících pro angličtinu, např. o slovnících Thorndikeových, ale i jiných (d. cit. v pozn. 2).

Při vyučování cizím jazykům se o frekvenci opírá zvláště rozlišení tzv. slovní zásoby aktivní (kterou mají žáci ve svých projevech psaných a mluvených užívat) a pasívní (tj. slova, která žáci znají, rozumějí jim, ale nemusí, ev. nedovedou jich ve svých projevech užívat, nemusí se jim učit). Této problematice bylo věnováno hodně pozornosti v SSSR, zejména v tzv. minimálních slovnících.[10]

Na základě frekvence lexikálních jevů, zvl. slov, může se vyučování cizím jazykům soustředit především na slova s vysokou frekvencí. Těmto slovům se žáci učí snadněji než slovům s frekvencí nízkou. Frekvence slov tedy vyučování cizím jazykům usnadňuje. Není to ovšem jediný faktor, který tu působí. Vedle frekvence uplatňuje se i užitečnost slova, jeho potřebnost apod. Např. v češtině jsou slova voda, nůž aj. slova frekventovaná a zároveň i užitečná a potřebná; slova minerálka, vidlička aj. jsou slova podstatně méně frekventovaná, ale jsou zároveň i potřebná a užitečná. V některém kontextu tyto vlastnosti převažují.

Kvantitativním aspektem se snažíme vnést jistý systém do osvojování slovní zásoby u žáků tím, že slova diferencujeme, resp. hierarchizujeme podle objektivního kritéria. Jde o jistý druh racionalizace. Pokus o podobnou racionalizaci v osvojování slovní zásoby učinil náš pedagog J. A. Komenský ve svém díle Janua linguarum reserata.[11] Položil tu do jisté míry základy k rozlišování slov podle jejich běžnosti a potřebnosti; podle dnešního pojetí jde v zásadě o rozlišení tzv. aktivní a pasívní slovní zásoby (srov. výše). Teprve vlastně nové směry ve vyučování cizím jazykům, spjaté mimo jiné se snahou o kvantifikaci v osvojování slovní zásoby, objevily pokrokovost racionalizační myšlenky Komenského a navázaly na ni.

Při vyučování cizím jazykům se např. ukázalo, že frekvence slov má vliv i na pohotovost odpovědí u žáků; slova více frekventovaná se jim vybavují snadněji. Méně snadno si žáci osvojují i vybavují slova s frekvencí střední, ev. nízkou. Záleží tu ovšem i na druhu slov; např. konkrétní substantiva a k tomu ještě frekventovaná zvládají žáci snadněji.

[233]Také kvantitativní charakteristiky gramatických jevů čekají ve vyučování cizím jazykům na lepší využití. Je nepochybné, že jevy morfologické a syntaktické diferencované na základě objektivních kritérií mohou být při vyučování cizím jazykům zvládnuty efektivněji. Např. pro angličtinu bylo prokázáno, že se žáci učí větám se slovesnými aktivními strukturami snadněji než větám se strukturami jmennými a pasívními. Při doplňování vět v angličtině zvládají žáci kladné věty snadněji než věty záporné. Při vyučování cizím jazykům má důležitou úlohu i délka věty a složitost její struktury. Čím je složitější, tím nesnadněji ji žáci chápou. Věta jednoduchá se složitou strukturou a nadměrně dlouhá může být pro pochopení žáků obtížnější než např. přiměřeně dlouhé souvětí. Důležitý význam zde má i sémantická stránka jednotlivých větných členů, syntaktických větných struktur apod.

I při vyučování cizím jazykům možno s prospěchem využít kvantitativní aspekt při opravě chyb; udělá-li žák chybu v jevu frekventovaném, je třeba ve větší míře věnovat pozornost jeho nácviku, ev. počtu cvičení při jeho opravě, popř. při jeho doučování.[12] Např. na základě rozboru chyb v angličtině byla zjištěna tendence zaměňovat složitější tvary slovesné za jednodušší apod. Studium chyb v syntaktických a morfologických jevech v pracích žáků, zvl. jejich kvantitativní zhodnocení i jejich následná oprava podle frekvence toho kterého jevu v jazyce, popř. v odborném stylu apod., mohou být účinným prostředkem ke zvládnutí syntaxe i morfologie cizího jazyka, přirozeně i v závislosti na typologickém vztahu syntaxe a morfologie v daném jazyce.[13]

Jako příklady využití kvantitativních jazykových charakteristik při vyučování jak jazyku cizímu, tak i mateřskému posloužily nám charakteristiky z oblasti lexika a gramatiky. Je samozřejmé, že v obou případech můžeme dobře využít charakteristik z jiných jazykových rovin, např. fonologické a grafematické (zejména při vyučování cizím jazykům), typologické aj. Využití výsledků kvantitativní lingvistiky v jazykovém vyučování a při tvorbě učebnic vůbec spolu s využitím po[234]čítačů na našich školách může dnes významně přispět k uplatnění vědeckotechnického pokroku.[14]

 

3. Aplikace interdisciplinární

Na tradiční spolupráci kvantitativní lingvistiky s psychologií navázala v 60. letech psycholingvistika. Využívala a využívá zejména jazykového materiálu pro své výzkumy a experimenty, jednak materiálu z hlediska kvantitativní lingvistiky již zpracovaného (srov. např. frekvenční výběr slov pro asociační testy apod.), jednak vlastního jazykového materiálu, na nějž při analýze přikládá podle potřeby i měřítka kvantitativní. V podstatě analogický přístup ke kvantitativním jazykovým datům má od 60. let i sociolingvistika. Jazykový materiál kvantitativně zhodnocený pomáhá psychologům měřit např. tzv. krátkodobou paměť (např. při kontextovém omezení posloupnosti slov), sociologům hodnotit např. rozdíly v jazyce mužů a žen apod.

Nově — od 60. let — využívá výsledků kvantitativní lingvistiky teorie informace, disciplína, která v zásadě zkoumá z hlediska počtu pravděpodobnosti přenos informace sdělovacím kanálem, který se uskutečňuje pomocí signálů (kódových znaků).[15] Při rozpracovávání problematiky týkající se automatického indexování a komprese (zhušťování) přirozených textů využívá se kvantitativních charakteristik, jakými jsou např. délka věty, váha termínů vzhledem k jejich frekvenci apod. Zvláštní význam zde má zavádění tzv. klíčových slov, na nichž se nejvýrazněji obráží tematika textu, u nichž se pořizuje soupis výskytů, výčet deskriptorů různé hierarchie, které se zaznamenávají v podobě tzv. tezaurů.[16] Pomocí deskriptorů lze v archívech, knihovnách apod. automaticky vyhledávat texty s jistou tematikou, např. ekologickou, vytvářet banky dat o daných problémech apod.

Medicína se již v raném stadiu kvantitativní lingvistiky zajímala o některé její výsledky. Šlo o to především v případech různých poruch řeči, jako je afázie, koktavost, brebtavost apod. Nejnověji se rozvíjí nová interdisciplína — neurolingvistika, která i na základě analýzy jazykového materiálu, konfrontovaného s výsledky kvantitativní lingvistiky, studuje poruchy řeči způsobené různými onemocněními.[17] Jde [235]např. o rozdíly v užívání slov gramatických a plnovýznamových, o záměnu slovních druhů, vynechávání hlásek ve slovech, o počet pauz a jejich délku apod. Do sféry zájmů medicíny patří i např. poruchy čtení, dyslexie, tj. chyby při čtení slov, spojování písmen, plynoucí z neschopnosti porozumět čtenému, dále poruchy sluchu, které se měří např. počtem slov a jejich frekvencí, počtem funkčních slov apod. Také psychiatrie opírá svá šetření o analýzu jazykových projevů a hledá v kvantitativní lingvistice měřítka pro své závěry (např. význam pauz, jejich délka a rozložení v mluveném projevu) apod.

Interdisciplinární aplikace výsledků kvantitativní lingvistiky se rozvíjejí za oboustranného zájmu zúčastněných disciplín. Např. pro lingvistiku přináší studium poruch řeči nové cenné poznatky zejména o vývoji řeči a jejím fungování.

 

4. Aplikace technické

Do této oblasti už s jistou tradicí patří především využití kvantitativních charakteristik jazyka, zejména z oblasti lexikální, ale i fonologické, morfematické a grafematické, pro potřeby těsnopisu.[18] Je známo, že těsnopiscům jde o takovou soustavu písma, která směřuje k co největší ekonomii a k co nejmenší redundantnosti, tj. k maximální informaci na jednu grafickou jednotku. Kvantitativních charakteristik současné češtiny se při tom využívá a některé z nich jsou tu ještě dále propracovávány.[19]

Ke staršímu využití výsledků kvantitativní lingvistiky, zejména v oblasti grafematické, náleží řazení písmen na klávesnici psacích strojů, dálnopisu apod., aby se dosáhlo optimálního uspořádání. Nejnovější úpravy vycházejí z četností digramů, tj. dvojic písmen, která se spolu vyskytují nejčastěji. Tyto údaje se konfrontují s pohybovými možnostmi ruky při desetiprstové metodě psaní. U telegrafu, přenášejícího jazykové informace elektroakustickým kanálem, jde o přenos jednotek různého typu, fonémů, grafémů, jejich kombinací apod. Z hlediska ekonomického přenosu informace zde má důležitou úlohu tzv. komprese textu, maximální zhuštěnost.

V období vědeckotechnického rozvoje znamenají výsledky kvantitativní lingvistiky přínos do komunikace člověk — stroj, a to z dvojího hlediska. Kvantitativní lingvistika sama využívá od 60. let celkem [236]systematicky moderní výpočetní techniku — počítače (srov. práce býv. odd. matematické lingvistiky ÚJČ, pozn. 4). Z materiálu uloženého na magnetickou pásku jsou vhodnými programy z různých aspektů (kvantitativních i kvalitativních) pořizovány výpisy jednotlivých jazykových jevů a jejich kombinací, takže kvantitativní lingvistika může hlouběji a všestranněji zpracovávat jazykový materiál a vyvozovat z něho obecné závěry. Těch lze mimo jiné využít po stránce lingvistické i technické ve prospěch samostatných prací tzv. strojové lingvistiky, která se z prací s počítačem v posledním období osamostatnila jako lingvisticko-technická interdisciplína. Připomeňme např. dešifrování písma Mayů v SSSR, strojové zpracování řeckých a latinských textů v belgickém Lutychu s cílem určit jejich pravost a časově je zařadit, dále automatické opravování chyb, jako je přehození písmena, jeho vynechání apod.

Zvláštním úkolem strojové lingvistiky je strojový překlad, při němž se rovněž využívá výsledků kvantitativní lingvistiky. Např. slova se vyhledávají ve slovníku založeném na principu frekvenčním, aby se zkrátil čas potřebný k vyhledávání slova, morfologicko-syntaktické jednotky se opírají o frekvenci pádů apod.[20] Spolu se strojovou lingvistikou klade si i kvantitativní lingvistika úkol přispět k automatické analýze textu, k studiu umělého intelektu apod.

 

Závěr. Aplikace výsledků kvantitativní lingvistiky jsou jednak staršího data, zejména aplikace pedagogické a některé aplikace technické, jednak nabývají nového charakteru ve shodě s novým vývojem kvantitativní lingvistiky v období po 60. letech i ve shodě s novým vývojem oblastí, které výsledky kvantitativní lingvistiky přejímají. Ve všech případech bude ještě třeba dále propracovávat a rozšiřovat výsledky kvantitativní lingvistiky, ale i ze strany oblastí přejímajících bude třeba naučit se s výsledky kvantitativní lingvistiky pracovat, resp. lépe jich využívat.


[1] Srov. M. Těšitelová, Nad bibliografií kvantitativní lingvistiky za léta 1962—1982, SaS 47, 1986, s. 231—241.

[2] Dříve šlo o víceméně jednotlivé aplikace zejm. statistických metod; historii kvant. lingvistiky srov. v novém, druhém vydání skript M. Těšitelové, Kvantitativní lingvistika, Praha 1987; 1. vyd. 1977.

[3] J. Jelínek — J. V. Bečka — M. Těšitelová, Frekvence slov, slovních druhů a tvarů v českém jazyce, Praha 1961; dále FSČ.

[4] Podrobnosti srov. v čl. M. Těšitelové, O kvantitativní analýze češtiny s pomocí moderní výpočetní techniky, NŘ 67, 1984, s. 47—50.

[5] M. Těšitelová a kol., Kvantitativní charakteristiky současné češtiny, Praha 1985.

[6] Mluvnice češtiny I, II, Praha 1986, III, Praha 1987 (v tisku).

[7] Vl. Šmilauer, Nauka o českém jazyku, Praha 1972.

[8] Srov. M. Těšitelová, Otázky lexikální statistiky, Praha 1974.

[9] M. Těšitelová, Význam tvoření slov pro zvládnutí tzv. pravopisu lexikálního, Český jazyk 5, 1955, s. 53—61.

[10] Srov. např. V. I. Rachmanov, Slovar’-minimum po anglijskomu, francuzskomu i nemeckomu jazykam, Moskva 1947 a další vydání.

[11] M. Těšitelová, J. A. Komenský a racionalizace osvojování si slovní zásoby, SaS 31, 1970, s. 397—399.

[12] K tomu srov. např.: L. Dušková — V. Urbanová, K otázce anglického préterita a perfekta z hlediska frekvence jejich výskytu, Cizí jazyky ve škole 10, 1966/1967, s. 337—344; J. Krámský, Nácvik mluvnice pomocí větných vzorců, Cizí jazyky ve škole 13, 1969/1970, s. 230—240; aj.

[13] Chyby v angličtině u německých žáků zkoumá a kvantitativně hodnotí nejnověji Ph. Luelsdorff, Constraints on error variables in grammar, Amsterdam — Philadelphia 1986.

[14] K tomu srov. J. Klíma, Z diskuse na 5. zasedání ÚV KSČ, RP, č. 69 ze dne 24. 3. 1987.

[15] Srov. např. C. E. Shannon, Prediction and entropy of printed English, Bell Syst. Techn. Journal 30, 1951, s. 50—64.

[16] Srov. Vl. Voznička — Vl. Smetáček — O. Uličný, Práce s informacemi. Příručka s cvičebnicí pro střední školy, KPÚ, Olomouc 1984.

[17] Srov. H. Lehečková, Neurolingvistika: předmět, metody a historie, SaS 45, 1984, s. 154—157; táž, Jazykové aspekty typologie afázií, SaS 46, 1985, s. 119—126.

[18] Srov. první frekvenční slovník F. W. Kädinga, Häufigkeitswörterbuch der deutschen Sprache, Steglitz 1897; B. Trnka, Pokus o vědeckou teorii a praktickou reformu těsnopisu. Sbírka pojednání a rozprav filozofické fakulty UK 20, Praha 1937.

[19] M. Matula, Moderní těsnopis, Praha 1983.

[20] O ostatní problematice strojového překladu srov. E. Hajičová — P. Piťha — P. Sgall, Učíme stroje česky, Praha 1982.

Naše řeč, volume 70 (1987), issue 5, pp. 225-236

Previous Miloslav Sedláček: Pojmenování pro závodnici v běhu maratónském

Next Stanislava Kloferová: O mluvě mladé generace v nově osídleném severomoravském pohraničí