Citace v HTML a XHTML

24. února 2003

•

Ve svém předchozím článku jsem se pokusil o stručný a přehledný návod, jak správně zapisovat citace, respektive odkazy na citační zdroje. Byl jsem překvapen množstvím dopisů, které, mimo jiné, požadovaly bližší osvětlení metody zápisu citace a citačního zdroje v XHTML. Obětoval jsem tedy trochu času a výsledek už můžete posoudit sami.

Citace v (X)HTML

Podle definice HTML 4.01 a odpovídající redefinice XHTML 1.0 máme v současnosti pouze tři sémantické značky pro vyznačování citací (čtyři s jedním okem zavřeným). Jsou to cite, blockquote, q (a address). Přitom element address můžeme hned ze začátku odbýt tím, že jeho účelem je vyznačování „skutečné“ adresy tvůrce elektronického dokumentu, což využijeme snad jen v případě velmi rozvinutých forem citací. Element address je mnohem užitečnější v cílovém dokumentu než v jeho citaci.

Element cite patří k takzvaným „phrase“, neboli frázovacím elementům. Podle své definice může tento element obsahovat citaci nebo odkaz na zdroj citace, tedy referenci. Smyslem frázovacích elementů přitom je logicky rozčlenit větu tak, aby se zlepšila její srozumitelnost vnesením dodatečné sémantické informace. Element cite je definován jako řádkový (inline) element, zobrazovaný kurzívou. (Což odpovídá nejobvyklejšímu typografickému odlišení citace v tištěných dokumentech.)

Elementy blockquote a q tvoří v definici HTML samostatnou skupinu, určenou výhradně pro logické označování citací, přesněji řečeno citovaného obsahu, nikoli reference na něj. Oba elementy mohou nanejvýš nést atribut cite (Neplést se stejnojmenným elementem!), jehož hodnotou smí být pouze URL citovaného zdroje, pokud byl citován elektronický zdroj volně dostupný v internetu. (Asi tak, jako když se „odkazujete“ na obrázek.)

S elementy blockquote a q byly a dosud jsou spojeny mnohé problémy. Především první z nich byl často zneužíván k formátování textu místo vyznačování logické struktury. Podle definice se totiž tento blokový (block) element od okolního textu odlišuje odsazením zleva. (Pozor, bez uvozovek!) Řádkový element q, používaný pro vyznačení krátké citace, zase nebývá správně zobrazován prohlížeči. Definice totiž požaduje jeho automatické obklopení uvozovkami (respektive „citačními značkami“), a to podle jazykového kontextu, což prohlížeče nezvládají nebo jednoduše ignorují. (Navíc nelze tento požadavek považovat za zcela správný, vyznačování by mělo být vázáno na národní, nikoli jazykový kontext.)

Z nouze ctnost

Z předchozího přehledu jasně vyplývá, že neexistuje úplné řešení problému správného a dostatečného sémantického vyznačování citací v HTML 4.01, potažmo XHTML 1.0. Za stávající situace můžeme maximálně stanovit a dodržovat několik jednoduchých pravidel, jež snad zabrání zmatkům a umožní automatickou konverzi dokumentů někdy v budoucnosti:

Řádkový element cite používejte tam, kde potřebujete vyznačit bibliografický odkaz na zdroj citace.
Řádkový element q používejte tam, kde potřebujete odlišit od okolního textu citaci nepřesahující jeden odstavec textu. Pokud citujete obecně dostupný elektronický zdroj, nezapomeňte uvést také atribut cite.
Blokový element blockquote používejte tam, kde potřebujete odlišit od okolního textu citaci, přesahující jeden odstavec textu, jednotlivé odstavce a podsekce citace vnořujte do vnitřní části elementu. Pokud citujete obecně dostupný elektronický zdroj, nezapomeňte uvést také atribut cite.

Odkazy na reference

Samostatným problémem je včlenění referencí na zdroje citací do zpracovávaného dokumentu. V tištěném světě existují v podstatě jen dvě metody. V prvním případě se úplná identifikace zdroje zapisuje přímo za citaci, přičemž se odlišuje pomocí tučného písma nebo závorek. V druhém případě se reference zcela vyloučí z toku textu a zapisují se buď do zápatí stránky nebo na konec celého dokumentu. V obou případech se potom na zdroj citace odkazuje prostřednictvím malé značky za citovaným textem, která bývá sázena takzvaným superskriptem (písmem posunutým o polovinu řádku výše než okolní text).

Obě metody lze stejně dobře využít i v elektronických dokumentech. První způsob je vhodný tam, kde citujeme jen několikrát a je pro nás důležité, aby si čtenář všiml reference „i kdyby nechtěl“. Druhá metoda je vhodná tehdy, pokud píšeme objemnější text nebo dokonce skládáme svou práci z celé sady textových a jiných dokumentů. Pak je velmi výhodné uvést všechny „zdroje“ (včetně obrázků, grafů, tabulek a podobně) v samostatné sekci nebo v samostatném dokumentu a v textu se na tyto zdroje pouze odkazovat prostřednictvím standardních hypertextových mechanismů. (Tuto metodu velmi dobře reprezentují například dokumenty W3C, kde jsou reference na externí dokumenty odděleny od textu a odkazy na ně jsou uzavírány do hranatých závorek.)

Konečné řešení – XML?

XML jako vyspělejší sourozenec HTML umožňuje cele řešit problém sémantického zápisu bibliografických citací a referencí, neřkuli celých publikací. Problémem, na který se zde naráží, je zvláštní druh konservativismu, který panuje mezi bibliografy-informatiky. Nadšenci mezi knihovníky kdysi přivítali počítače jako pomůcku, která mohla přinést mnoho dobrého. Přesto klasické lístkové katalogy nikdy nevymřely a využití informatiky nikdy nebylo dovedeno tak daleko, jak bylo možné a logické. Zkuste si třeba vyhledat články nějakého autora – nepodaří se vám to, pokud neznáte takzvaného „prvního autora“ všech hledaných článků, což málokdy bývá právě váš člověk. Přes existenci relačních databází se stále používají primitivní formáty „uskladnění“ a zpracování dat, které prostě neumožňují například uložení a znovuvyhledání neomezeného počtu autorů a informací o nich.

V současnosti je normativním formátem pro zpracování elektronických bibliografických informací systém MARC (Machine-Readable Cataloging), spravovaný Kongresovou knihovnou USA. Přestože tento formát není příliš dokonalý, noví konzervativci jej dodnes obhajují a odmítají se ho vzdát. Přitom jediným logickým, i když velmi pádným argumentem je obrovské množství dat v tomto formátu uložené.

V osmdesátých letech vzniklo několik iniciativ, které se snažily o aplikaci SGML v oblasti knihovnictví, například projekt TEI (Text Encoding Initiative; bylo do něj přeloženo kompletní dílo Williama Shakespeara). Jejich snahy ztroskotaly na složitosti SGML a obecné nedostupnosti výpočetní techniky v té době. Prakticky okamžitě po „zjevení“ XML vzniklo množství iniciativ, které se snažily o vytvoření nových technologických standardů. Jeden z nejucelenějších projektů sponzorovalo francouzské ministerstvo kultury a než svou podporu stáhlo, vznikly standardy BiblioML a AuthoritiesML. Jejich společnou předností i nevýhodou je původ ve formátu UNIMARC.

Aktuální situace se podobá Babylonu po zmatení jazyků. XML je v porovnání se staršími formáty až příliš jednoduché („Vždyť to má jen 30 stran syntaxe!?“, divila se kdysi jedna kolegyně.), takže se prakticky každý pokouší o jeho využití. Přesto věřím, že právě XML, v kombinaci s relačními a nativními XML databázemi, se v blízké budoucnosti stane oním konečným řešením. Dnešní bezedné databáze se tak stanou přirozenou součástí budoucího sémantického webu…