Časopis Naše řeč
en cz

Dělení slov v češtině pomocí strojů

Jitka Štindlová

[Články]

(pdf)

-

Příprava podkladu pro program dělení slov při automatické sazbě

Stroje na zpracování informací a jejich využívání staví před nás nové úkoly a nutí nově analyzovat i některé úseky jazykovědné problematiky, které dosud nebyly předmětem studia a nezdály se vůbec problematické. Jedním z nich je např. otázka dělení slov v češtině. Nestálo nikdy v popředí obecnějšího zájmu jazykovědců, i Pravidla českého pravopisu je hodnotila a hodnotí spíše jako záležitost rázu vnějšího, na kterou není třeba klást přílišnou váhu a v které je možno uživateli nechat jistou volnost. Pro stroje však musí být řešení jednoznačné pro všechny případy.

Úvodní věta oddílu o zásadách dělení slov v Pravidlech prozrazuje, že za jistých podmínek není jednoznačný návod pro dělení slov: „Dělí se v zásadě jen slova víceslabičná, a to na hranici slabik. Zásada dělení slov podle slabik je do jisté míry doplňována zřetelem ke složení slova“ (vydání z roku 1966).

Sama zásada dělení slov podle slabik je občas vágní, pokud máme na mysli složitou problematiku hranic zavřených slabik uvnitř slova, a přitom je ještě narušována zásadou další, která sleduje zřetele slovotvorné skladby slov.

Proto se také ozývalo volání stenotypistů, typografů a písařů na stroji po praktické pomůcce, která by jim usnadnila práci. Na tyto požadavky odpověděl Jiří Haller příručkou Jak se dělí slova (slangově nazývanou „sekáček“, SPN, Praha 1956, 176 stran).[1] V ní podrobněji formuloval pravidla dělení slov, uvedl seznamy nejčastějších českých předpon a přípon a sestavil rozsáhlý abecední rejstřík slov, která by při dělení mohla činit potíže (jsou to často i cizí slova).

Naše současné studium otázek dělení slov rovněž vyvolal tlak pracovníků v polygrafickém průmyslu. Stojí před námi úkol předepsat dělení slov strojům, tak aby stroje samy mohly automaticky slova (nebo alespoň většinu z nich) dělit. A proto musí mít zpracování této [24]problematiky jiný charakter, než mají pravidla pravopisu anebo příručka Hallerova, kde se počítá se schopnostmi člověka a s jeho znalostmi. Stroje mají především za úkol dělení slov se co nejvíce vyhýbat. Pokud to v dispozici několika řádků nedokáží, musí slovo, aniž by porozuměly jeho stavbě, jednoznačně dělit. Pro stroje je tedy třeba vypracovat striktnější a jednoznačnější pravidla, než jaká stačí uživateli jazyka.

Způsob řešení celé úlohy má značný ekonomický dosah. Jeho charakter rozhoduje o stupni automatizace sazby. Je totiž možno přistoupit ke skutečné automatické sazbě, tj. takové, kdy stroje samy souvisle zaznamenaný text člení a v případě potřeby i slova automaticky dělí.

Pokud člověk musí provádět nutná dělení slov, užití a efekt automatizace jsou omezovány rychlostí člověka. Způsob řešení může tedy zrychlit nebo zpomalit výrobní proces a ovlivňuje i výběr strojů.

Pokud návrh řešení bude obsahovat vysoké nároky na paměť strojů — bude automatizační zařízení velice nákladné a pro nejbližší léta snad i nedostupné; pokud se podaří pracovat spíše s pravidly než s ukládáním jednotek do paměti, bude automatizační zařízení levnější a snáze dostupné.

Proto usilujeme o to, abychom slova dělili především podle pravidel, a to takových, která by respektovala stavbu slov. Naprosto vylučujeme možnost mechanického členění slov např. podle prostého počtu písmen, kdy by se mohly oddělovat i spojení souhláska a samohláska, tedy skupiny, které se podle zásady „slabikování“, dosavadního úzu a dosavadních pravidel nikdy nedělí.

Výchozí předpoklady a symboly. — Protože jde o dělení slov v písmu, vycházíme důsledně z písemného projevu, a to zatím jen českého.

České písmo, systém grafických znaků užívaný pro češtinu, obsahuje 42 znakových jednotek, písmen, grafémů. V českém textu (který obsahuje i slova cizího původu s x, q a w) se vyskytuje 14 samohláskových grafémů (V) a 28 souhláskových grafémů (K). Výchozím předpokladem pro automatické dělení slov v češtině je rozlišení samohláskových a souhláskových grafémů a rozpoznání slabikotvorných konsonantů.

Pro schematický záznam struktury slov užíváme symbolů:

V

= vokál, samohláskový grafém

 

 

= dvojhláska, dva samohláskové grafémy, mezi nimiž nemůže být předěl

[25]K

= konsonant, souhláskový grafém

 

= konsonant, souhláskový grafém mimo r a l

 

= slabičný konsonant; r, l v jisté situaci[2]

 

= „nedělitelná“ skupina souhláskových grafémů

Výchozím elementem pro dělení je samohláskový grafém.

Dělení slov se pokoušíme postihnout především pravidly, která vycházejí z hláskově-grafematické struktury slov. V slovních strukturách nastávají situace trojího druhu.

První okruh pravidel se týká těch grafematických situací v slovech, kdy před samohláskovým grafémem předchází jen jeden grafém souhláskový.

Druhý okruh postihuje ty grafematické situace slov, v nichž se objevuje v bezprostředním sousedství více grafémů souhláskových.

Třetí okruh pravidel řeší dělení těch grafematických situací v slovech, v nichž se v bezprostředním sousedství vyskytují samohláskové grafémy.

I. Pravidla, která řeší dělení těch grafematických posloupností v slovech, v nichž před samohláskovým grafémem je jen jeden grafém souhláskový.

1. Pokud se vyskytuje před samohláskovým grafémem v kterékoli pozici ve slově jeden grafém souhláskový, připojí se tento předcházející grafém souhláskový k následujícímu grafému samohláskovému, to jest uplatňuje se „pravidlo otevřené slabiky“.

K V / K V

[26]ve/le/vá/že/ný

K V / K V / K V / K V / K V

po/mo/hl

K V / K V / K

u/či/ti

V / K V / K V

Toto pravidlo přichází v některých případech do rozporu se vžitým dělením podle skladby slov. Je to především na předělu předpony končící na souhlásku a slovního základu začínajícího samohláskou nebo na předělu složeniny, jejíž první část končí souhláskou a druhá začíná samohláskou.

Ukázka: pod / oddělení

od / operovati

dvoj / akord

Podle prvního pravidla by se dělilo:

po/dod/dě/le/ní

o/do/pe/ro/va/ti

dvo/ja/kord

Možnostem, jak alespoň částečně řešit tuto situaci, bude věnována zvláštní studie; zde tuto situaci připomínáme jen proto, aby nevznikl dojem, že jsme si ji neuvědomili.

2. Pokud za posledním samohláskovým grafémem v slově následuje ještě jeden nebo více grafémů souhláskových (kromě skupiny Kr, Kl, KKr, KKl), musí se připojit k předcházející samohlásce:

… / K V K

… / K V K K

u/či/tel

V / K V / K V K

pa/měť

K V / K V K

ma/lost

K V / K V K K

II. Pravidla, která postihují dělení těch grafematických posloupností v slovech, v nichž se objevuje skupina souhláskových grafémů.

3. Pokud stojí skupina souhláskových grafémů na počátku slova, připojuje se celá k následující samohlásce; pokud stojí na konci slova, připojuje se celá k předcházející samohlásce.

K K V …

prá/ce

… V K K

a/kord

K K K V K …

stra/na

… V K K K

ad/junkt

[27]4. Pokud se objevuje skupina souhláskových grafémů uprostřed slova, tj. mezi dvěma samohláskovými grafémy (V nebo ), připojuje se k následující samohlásce poslední souhláska skupiny.

 K / K V

 K K / K V

An/to/nín

V K / K V / K V K

děl/ník

K V K / K V K

lás/ka

K V K / K V

myš/len/ka

KVK/KVK/KV

5. Ve zvláštních případech tak zvaných nedělitelných souhláskových skupin, které jsou uvedeny v následujícím výčtu a které jsou uloženy do paměti stroje jako nedělitelné, se připojuje k následující samohlásce celá skupina.

V /  V

 V /  V

 V K /  V

 V K /  V

 V K K /  V

mo/no/člá/nek

K V / K V /  V / K V K

tří/strán/ko/vý

K K V /  V K / K V / K V

troj/kla/ný

K K V K /  V / K V

dvoj/stran/ný

K K V K /  V K / K V

Nedělitelné souhláskové skupiny se připojují celé k následující samohlásce. Jsou digramové (dvojpísmenové) a trigramové (trojpísmenové).

Digramové skupiny ():

st

ce/lo/stát/ní

K V / K V /  V K / K V

sp

ce/lo/spo/le/čen/ský

 

th

an/ti/the/se

 

 

ná/vrat

 

 

ty/po/graf

 

 

po/drob/ný

 

[28] 

mo/hla

 

 

po/dla/ha

 

o/te/vře/ný

 

 

spo/třeb/ní

 

Kv

e/lek/tro/svá/ře/cí

 

Digramové skupiny poziční, tj. takové, které jsou nedělitelné za podmínky, že před nimi předchází souhláskový grafém:

(K) K + sk

ná/chod/ský

K V / K V  /  V

 

ab/sti/nent/ský

V K / K K V / K V  /  V

K + št

a/rab/šti/na

V / K V  /  V / K V

Trigramové skupiny ():

str

se/stra

K V /  V

 

de/se/ti/strán/ko/vý

 

stř

pro/střed/nost

 

skv

pře/skvě/lý

 

stn

vla/stnost

 

stl

je/stli/že

 

štn

bez/de/štný

 

Poznámky k nedělitelným skupinám:

1. Skupinu st v pozici, kdy před ní předchází samohláskový grafém a za ní následuje alespoň jeden souhláskový — může to být i poslední grafém uvedených trigramových skupin začínajících na st: r, ř, n, l — a ještě nějaký samohláskový grafém, můžeme připojit i k předcházející samohlásce.

V st K V

1. V / st K V

by/strý

 

2. V st / K V

byst/rý

 

K V K V st / K V

výsost/ný

K V K V / st K V

výso/stný

K V st / K V K K

míst/nost

K V / st K V K K

mí/stnost

[29]K V st / K K V

měst/ský

K V / st K K V

mě/stský

 st / K V / K V

plst/na/tý

 / st K V / K V

pl/stna/tý

Samozřejmě není možné skupinu st spojit s předcházející souhláskou:

 

lé/kař/ství

KV/KVK/stKV

ta/jem/ství

KV/KVK/stKV

 

Přednost však dáváme řešení, kdy skupinu st + r, ř, s, l jako celou skupinu připojujeme k následující souhlásce.

2. Skupina  vylučuje skupinu rr, ll, rl, lr: čtver/list, vel/ryba, Hal/ler, bar/randovský.

Podle výchozího předpokladu, že r, l mezi dvěma souhláskami se chová jako samohláska (pokud pro tyto případy zdvojeného rr nebo ll vzhledem k tomu, že se vyskytují jen v cizích slovech, nebude jeho platnost omezena), jsou řešeny případy, kdy za zdvojeným ll nebo rr následuje souhláska. To znamená, že skupina ll nebo rr se může objevit celá jak na prvním, tak na druhém řádku:

 

antillsky

anti/llsky // antill/ský

hemorrhagie

hemo/rrhagie // hemorr/hagie

 

Druhé pravidlo tedy postihuje i zdvojené souhláskové grafémy. Pro ně neplatí zatím žádná zvláštní pravidla, to znamená, že se rozdělují. To je sice v rozporu se slabičným dělením, ale rozhodně tento způsob dělení neznesnadňuje čtení.

 

den/ní

K V K / K V

ap/partement

 

Arden/ny

 

Achil/leus

 

 

3. Skupina Kv nebude platit univerzálně, tj. nebude vytvářet nedělitelnou skupinu s kteroukoli souhláskou. Možná, že se omezí jen na několik předcházejících souhlásek: d-, t-, c-, s-, z-. Tato skupina vyžaduje důkladné a všestranné prověření distribuční a poziční.

4. Skupina sk a št je nedělitelnou skupinou poziční, tj. nedělí se jen za předpokladu, že před ní předchází souhláska. Jinak se dělí.

 

[30]a/bi/tu/ri/ent/ský

V / K V / K V / K V / V K K / sk V

arab/ština

V / K V K / št V / K V

na rozdíl od:

 

a/tlas/ka

V / K K V s / k V

bros/kev

K K V s / k V K

češ/tina

K V š / t V / K V

 

III. Pravidlo, které řeší dělení těch grafematických posloupností v slově, v nichž se vyskytují skupiny samohláskových grafémů.

6. Pokud za samohláskovým grafémem následuje další samohláskový grafém, může se druhý samostatně oddělit (zprava i zleva), pokud nejde o skupinu au, eu, ou, ae, ai, oi, ei, nebo o opakovaný samohláskový grafém (např. ee). Podmínky pro možnost dělení nastávají tehdy, když za skupinami samohláskových grafémů a) následuje jeden souhláskový a dále samohláskový grafém, b) následuje nedělitelná skupina souhláskových grafémů a samohláskový grafém.

a)

(… K) V / V / K V (…)

staci/o /nární

du/á/lový

asoci/a/ce, tři/a/půl

deseti/ú/helník

vy/u/žívá

ge/o/dézie

b)

 

bibli/o/graf

čtyři/a/dvacet

dřevo/o/bráběcí

do/o/bléknout

hemi/e/dr

[31]Příklady, v nichž nejsou splněny podmínky pro osamostatnění druhého samohláskového grafému:

au/tor, polo/automat

srovnejme:

mou/cha

 

eu/nuch

 

bae/deker, ae/rofobie

mezi/ak/tový

beef/steak, Bee/thoven

dvou/ak/tový

 

Předpony končící na -o-, -a- a slovní základy začínající na samohláskový grafém (zvl. u-) nebude podle třetího pravidla možné automaticky oddělovat:

 

pa/u/mění

bude se dělit jen:

pau/mění

po/u/kázat

 

pou/kázat

 

Pro řešení těch grafematických posloupností ve slově, v nichž se vyskytují skupiny samohláskových grafémů, se nabízí i řešení, které by nepočítalo vůbec s dělením samohláskových skupin jakýchkoli. Bylo by to sice poněkud nezvyklé, ale nikoli nesprávné (po/loau/to/mat) a napomáhalo by řešit dělení cizích slov a jmen, kde skupiny samohlásek jsou mnohem častější (a problematičtější pro dělení!) než v češtině.

Zadaná úloha — předepsat strojům program, aby uměly samy dělit slova, je úloha složitá, ale v podstatě řešitelná. To dokazuje skutečnost, že byla vyřešena pro jiné jazyky: angličtinu, francouzštinu, holandštinu a jistě i další.

První náčrt řešení tohoto úkolu je zaměřen na stanovení pravidel, která by postihovala vyhovujícím způsobem dělení co možná největšího počtu slov.

Náčrt řešení nemůže být pokládán za řešení, pokud nebude důkladně prověřen, zrevidován a doplněn. Prověrku úkolu pro stroje mohou nejlépe v dostatečném rozsahu provést jen stroje. Proto je příprava podkladů pro řešení tohoto úkolu jednou z prvních úloh mechanografické laboratoře ÚJČ, vybavené moderními technickými prostředky. Na řešení tohoto úkolu byla v letošním roce získána i spolupráce Vývojových dílen ČSAV, kde za vedení inž. Karla Vrány se konstruuje speciální zařízení, které zvládne pravidla dělení a umožní nám tak [32]jejich praktické ověřování. V posledních měsících se výzkum soustřeďuje na prověřování stanovených nedělitelných souhláskových skupin, což je nejzávažnějším úkolem pro stanovení algoritmických, tj. pro stroje vhodných a co nejvýhodněji stanovených a formulovaných postupů dělení slov.

Předložený návrh nemusí být návrhem jediným, i když výchozí princip — rozlišení samohláskových a souhláskových grafémů — musí být zachován, má-li dělení odpovídat struktuře jazyka.[3]

Nedá se předpokládat, že by vůbec nějaké řešení vyhovovalo na plných sto procent. To netvrdí ani jeden z dosud realizovaných projektů pro jiné jazyky. Jde nám však o to, aby návrh se co nejvíce přibližoval tradici, která navazuje na povědomí o slabičné a slovotvorné stavbě slov, a aby výjimek a odchylek proti těmto pravidlům bylo co nejméně.

Přípravné práce mohou ukázat i na vnitřní, pro češtinu dosud nepopsané zákonitosti struktury a skladby slov. To potvrzuje už sama skutečnost, že můžeme, resp. musíme pracovat s některými empiricky stanovenými nedělitelnými skupinami souhláskových grafémů.


[1] Starší je pomůcka Otakara Moravce, Jak děliti slova?, Kolín 1935.

[2] Souhláskové grafémy r a l se v situaci, kdy následují za souhláskovým grafémem a kdy za nimi nenásleduje samohláskový grafém, chovají jako samohláskové grafémy, proto volíme modifikovaný symbol V, a to , nikoli K.

[3] Sama formulace programu pro strojové ověření pravidel přinesla řadu poznatků a pravidla, která jsou v našem článku předvedena, ještě v mnohém zjednodušila.

Naše řeč, ročník 51 (1968), číslo 1, s. 23-32

Předchozí Miloš Helcl: Významový poměr přídavných jmen složených s celo- a s vše-

Následující Vladimír Staněk: O jazyce dramatu a jevištní řeči