en cz

Pracovní seminář o možnostech digitálního zpřístupňování starších českých textů

František Martínek

[Posudky a zprávy]

A workshop on making older Czech texts available digitally

This article is a review report on the "IT JAKUB" workshop on held in October 2015 in Prague.

22. října 2015 proběhl v Praze pracovní seminář Informační technologie ve službách jazykového kulturního bohatství (IT JAKUB). Byly na něm představeny výsledky stejnojmenného čtyřletého projektu NAKI financovaného Ministerstvem kultury, který se týkal inovace internetového portálu Vokabulář webový (VW). Stránky VW prodělaly zásluhou bohemistů z ÚJČ a informatiků z Fakulty elektrotechnické ČVUT[1] jednak velkou softwarovou rekonstrukci, jednak obsahovou inovaci, a portál tak může vedle zpřístupňování vědeckých výsledků a materiálů k nim plnit také např. deklarovanou funkci edukační. Semináře se účastnilo kolem 25 lidí, vedle členů řešitelského týmu to byli další pracovníci oddělení vývoje jazyka (OVJ) i jiných oddělení Ústavu pro jazyk český, jakož i externisté.[2]

[104]V úvodním slově zhodnotila hlavní řešitelka Alena Černá uplynulé čtyři roky projektu, popsala součásti portálu VW a zmínila se o jednotlivých oblastech jeho vylepšení, které pak přibližovali její kolegové.

O tzv. modulu digitalizovaných mluvnic (MDM) referovala Barbora Hanzová. Modul v tuto chvíli obsahuje 83 naskenovaných příruček od Náměšťské mluvnice po gramatiku Gebauerovu. Příručky jsou proznačeny lingvistickými termíny odpovídajícími probíraným tématům a lze je podle těchto termínů prohledávat. Výklad a právě ukázky anotace mluvnic termíny vyvolaly podle očekávání debatu, do níž se zapojoval i vedoucí tohoto úkolu Ondřej Koupil. I když pomineme krajní názor, že zpřístupnění pomocí anotace badatelům nadmíru usnadňuje práci, protože každý by si knihu měl projít sám a bez zavádějící „předinterpretace“, nabízejí termíny užité při anotaci několik námětů k přemýšlení:

1. Pojmy, podle nichž je v MDM možno hledat, jsou veskrze současné; v některých případech se pak o jazykovědné termíny nejedná (srov. níže věta neúplná). Uživatele nepochybně překvapí, že se např. u zájmena vymezovacího odkazuje i na nejstarší, Náměšťskou mluvnici. Mnohem pochybnější však jsou – velmi výběrové, a tedy nedůsledné! – odkazy na variantnost v deklinaci, především adjektiv, pomocí ahistorického termínu obecná čeština.

2. Vedle výhody, že zvolené termíny jsou velmi praktickým vyhledávacím nástrojem a značně urychlují badatelovu práci, přinášejí ještě jeden vklad, méně zřejmý: pojmy, které pro popis obsahu jednotlivých gramatik, gramatiky vůbec a jazykových a typografických jevů mimo oblast gramatiky zvolili jazykovědci na počátku 21. století, se za několik desetiletí stanou výborným studijním materiálem pro historiky jazykovědy a umožní reflexi dnešního nahlížení na popis jazyka. Mimo jiné tak umožní v konfrontaci s jazykovědným bádáním dávných dob dokumentovat, nakolik jsou dnešní gramatický popis a jeho nástroje závislé na dávno vypracovaném gramatickém popisu latiny.

3. Jak bylo naznačeno, výběr termínů může vnášet nezáměrné rozpory mezi tehdejší a dnešní popis jazyka. Diskutující upozorňovali mj. na skutečnost, že staré mluvnice mohou užívat určitý termín (např. vid) pro zcela jinou oblast jevů, než se pod něj zahrnuje dnes, čímž mohou být mateni méně zkušení uživatelé. V tomto celkem souhlasím s O. Koupilem, který připomněl, že i některé starší knihy s titulem mluvnice, gramatika apod. bychom dnes za mluvnice nepovažovali a že je nutné uvědomovat si měnící se význam slov, včetně termínů. Na druhou stranu bych byl opravdu nerad, kdyby současní vysokoškolští studenti začali pod vlivem MDM v morfologickém rozboru současné češtiny určovat např. slovesný způsob přací…

4. Co ovšem vyvolává rozpaky, jsou ty ze zvolených termínů, které odkazují do velmi malého množství mluvnic, v krajním případě na jednu dvojstránku jedné knihy. Takového rekordmana jsem při zběžném hledání objevil v trojtečce (podle MDM se o ní zmiňuje pouze příručka F. O. Mikeše) a ve zmíněné větě neúplné: tou je v Dobrovského Ausführliches Lehrgebäude označen jev, který je u 11 jiných mluvnic včetně druhého vydání Lehrgebäude mnohem případněji pojmenován elipsa. Že je o takovém jménu látkovém podle MDM pojednáno ve čtyřech z 83 mluvnic a o větě přívlastkové ve třech, se zdá být mnohem přijatelnější, než že se termínem sousloví označují výhradně víceslovná cizí místní jména ve 2. vydání matičního Brusu (1881) a dvojice spojek (přesněji: dvojice spojek, částic či jiných slov tvořících víceslovný spojovací výraz) v Brusu pro změnu Konstancově.

Aby nedošlo k nedorozumění, zdůrazňuji, že si aktivity O. Koupila a jeho spolupracovníků při budování MDM velice vážím a že je jejich dílo i pro moji práci velmi přínosné a v mnoha [105]ohledech inspirativní. Chtěl jsem pouze připomenout několik problémových oblastí, o kterých by měl uživatel vědět, aby mohl s MDM efektivně pracovat.

Kateřina Voleková poté promluvila o zpřístupňování sekundární historickojazykovědné literatury a jeho výhodách nejen pro uživatele, ale i pro tvůrce VW: na konkrétní místo v příslušné digitalizované příručce bude možné přímo odkazovat z jiných modulů VW. Můžeme jen doufat, že se zpřístupněná sekundární literatura rychle rozroste, protože zatím jsou ve VW dostupné pouze tři ze čtyř svazků Gebauerovy Historické mluvnice.

Dále K. Voleková zmínila popularizační audioknihy; součástí semináře pak byl poslech ukázky z Frantových práv. Že je právě toto dílo mimořádně vhodné ke zvýšení zájmu o starší češtinu, už dokládají první zkušenosti ze středních a vysokých škol. Referující se zmínila o kompromisu, ke kterému bylo nutné dojít: s ohledem na možnosti interpretů – i když šlo o profesionální mluvčí – i na přístupnost zvukových záznamů předpokládanému publiku jistě nebylo možné trvat na všech nuancích staročeské výslovnosti, založených na rekonstrukcích jazykovědců.

Boris Lehečka poté představil komplexní návrh nového VW, v němž se do jediné složí stávajících pět aplikací, které chod Vokabuláře zajišťují. V novém VW zůstane rozdělení do záložek (sekcí) podle typů zdrojů, ale bude např. možné všechny slovníky i jiné materiály prohledávat naráz. Tady zase, podobně jako u MDM, narážíme na určité otázky, které byly tentokrát v diskusi spíš naznačeny než vypočteny. Dnes je možné jednotně prohledávat relativně homogenní skupinu staročeských slovníků; v nové verzi k nim přibydou i slovníkové zdroje mnohem novější, což může vést k jisté nepřehlednosti až heterogennosti výsledků vyhledávání. Případné nevýhody snad zvrátí a převáží jednak odpovídající grafické odlišení jednotlivých výsledků podle zdrojů, jednak věc ve VW zcela nová, totiž personalizace. To znamená, že různí uživatelé budou mít různý přístup ke zdrojům a budou si moci uzpůsobovat funkce VW vlastním potřebám – natrvalo si nastavit, které slovníky, kartotéky apod. chtějí prohledávat, a především si vytvářet v rámci Staročeské a Středněčeské textové banky vlastní subkorpusy.

B. Lehečka pak ještě představil čtveřici nástrojů a pomůcek pro lingvisty pracující se starými texty: kolační pravítko, což je rámeček, kterým si člověk vyznačí potřebné místo na digitální fotografii rukopisu nebo tisku; transkriptorium, tedy aplikaci pro převod textů mezi různými pravopisnými systémy, v případě historické bohemistiky především z transliterace do transkripce; nástroj pro sestavování speciálních znaků kombinací písmen a libovolných diakritických znamének; a konečně nástroj pro analýzu tokenů bez korpusového manažeru, použitelný v programu MS Excel. Tyto nástroje jsou ve VW volně ke stažení.

Martin Mudra z ČVUT poté publikum seznámil s mobilními výukovými aplikacemi sloužícími ke zvýšení zájmu o starou češtinu, umožňujícími luštění i tvorbu různých křížovek nebo přípravu textu s vynechanými místy a možnostmi doplnění. Během diskuse se došlo k závěru, že dané softwarové nástroje by bylo možné využít i pro výuku současné češtiny nebo cizích jazyků – vše záleží na zapojených zdrojových textech a ty se nyní čerpají z VW.

Program pokračoval informací Ondřeje Koupila o výstavě starých gramatik v Národním muzeu a o katalogu výstavy, jíž a jemuž bude jistě věnována v lingvistických časopisech samostatná pozornost. Koupil zdůvodňoval koncepci katalogu, odůvodnil tak např. uspořádání kapitol po jednotlivých staletích místo podle (primárně?) nejazykovědných termínů typu humanismus – baroko – národní obrození a zmiňoval se o úskalích přiměřenosti při výběru informací do katalogu (i když daný katalog obvyklé standardy příslušných publikací jednoznačně převyšuje). [106]Jeho prezentace byla doplněna krátkou zprávou o nálezu norimberského tisku Náměšťské mluvnice z r. 1543,[3] o němž jsme měli zprávu pouze od Jana Blahoslava (a z Hradilova–Jirečkova vydání Blahoslavovy mluvnice z r. 1857) a jenž byl považován za ztracený.

Následovalo další vystoupení Borise Lehečky o metodice přípravy elektronických edic, kterou se kromě staročeských textů podařilo uplatnit také při přípravě edice Weinerovy sbírky básní Rozcestí, zpracované v ÚČL AV ČR. Lehečka poté detailně představil příslušnou šablonu. Tento nástroj se aktualizuje průběžně podle potřeb editorů a aktualizace odpovídají mj. také vlastnostem textů, jež je třeba edičně připravit: jiné požadavky na textové styly má editor latinsko-českého slovníku, jiné editor veršovaného textu nebo třeba glos. Rychlé volby a klávesové zkratky byly upraveny podle toho, které možnosti šablony editoři nejčastěji užívají. Šablona je vázána na prostředí editoru MS Word. Jeho užívání s sebou nese určité problémy už proto, že se Word vcelku pravidelně obměňuje, a tak je nutné přizpůsobovat šablonu novým verzím. V diskusi zazněla otázka, zda by bylo možné danou šablonu ze závislosti na Wordu vyvázat. Podle Lehečkovy odpovědi by se to v současnosti zřejmě nevyplatilo.

Na závěr semináře promluvila Alena Černá o novém, školním vydání e-knihy Výbor ze starší české literatury, která bude zdarma ke stažení v e-shopu nakladatelství Academia. Tato e-kniha má být snadno přístupnou učební pomůckou, a proto v ní byl oproti prvnímu vydání vypuštěn kritický aparát a doplněn – což je myslím velmi dobrý krok – slovníček „interpretačně problematických slov“, vysvětlující jednotlivé kontextové významy.[4] Vedle toho byly pro ilustraci doplněny reprodukce vybraných folií, resp. stran z památek.

Celý seminář tedy shrnul aktuální činnost pracovníků oddělení vývoje jazyka a naznačil jejich další úkoly na poli zpřístupňování a lingvistického, jakož i didaktického využití starších českých textů.

[1] Tým z katedry počítačové grafiky a interakce pracoval pod vedením Martina Klímy.

[2] Účast nepochybně ovlivnila skutečnost, že se ve stejné době konala na Filozofické fakultě konference Lingvistika Praha.

[3] Unikátní exemplář příslušného tisku objevil pro bohemistiku v r. 2014 v mnichovské knihovně Petr Voit; od 9. dubna 2016 je dostupný též v modulu digitalizovaných mluvnic VW.

[4] V 1. vydání Výboru bylo pouze upozornění na historické slovníky dostupné ve VW.

Ústav českého jazyka a teorie komunikace FF UK
nám. Jana Palacha 2, 116 38 Praha 1
frantisek.martinek@ff.cuni.cz

Naše řeč, ročník 99 (2016), číslo 2, s. 103-106

Předchozí Ivana Bozděchová: Nekončící příběhy s češtinou

Následující Josef Štěpán: Nový význam slovesa dát a módní frazém to dáš!

Menu
Úvod
Archiv
O archivu
Hledání v archivu:
Autor