Řízený slovník je podmnožina jazyka, je to seznam ekvivalentních výrazů ve formě synonymické řady (synonym ring) nebo seznam preferovaných výrazů, ve formě autoritativního seznamu (authority file). Definujte vztahy (širší a užší) a dostanete klasifikační schéma, modelujte asociativní vztahy mezi koncepty a máte tezaurus. Protože tezaurus spojuje všechny tyto slovníky v jeden, vysvětlíme si je postupně.

Synonymní kruhy

Synonymní kruhy (synonym ring) slouží pro definování výrazů, které jsou ekvivalentní pro potřeby získávání informací, například hanheld, PDA, PocketPC a Pocket PC. Bývají zde uvedeny také známé překlepy a výrobci daných zařízeních. Není důvod určovat, který výraz je preferovaný, místo toho se ve vyhledávání použijí všechny. Synonymní kruhy zvyšují úplnost (recall) výsledků proti přesnosti.

Autoritativní seznam

Autoritativní seznam má formu seznamu preferovaných výrazů, neobsahuje varianty a synonyma. Klasickým autoritativním seznamem je slovník spisovné češtiny.

Autoritativní seznam je užitečným nástrojem pro autory obsahu. Z pohledu správy řízených slovníku může být preferovaný výraz uveden u synonymního kruhu. Mohou například pomáhat opravit uživateli překlepy nebo ho poučit o námi používané terminologii.

Klasifikační schémata

Klasifikační schémata jsou používána pro hierarchické uspořádání výrazů.

Tezaury

Tezaurus – sémantická síť konceptů spojující slova s jejich synonymy, hononymy, antonymy, bližšími a vzdálenějšími výrazy a souvisejícími výrazy.

Tezaurus (dle ANSI a pro naše potřeby) – kontrolovaný slovník, ve kterém jsou definovány vztahy ekvivalence, hierarchie a asociace pro potřeby zlepšeného získávání dat.

Vztahy mezi termíny tezauru

Preferovaný výraz – preferred term – PT
Takzvaný akceptovaný výraz, akceptovaná hodnota, deskriptor. Všechny závislosti jsou definovány vzhledem k preferovanému výrazu.
Variantní výraz – variant term – VT
Nepreferovaný výraz, ekvivalent k preferovanému výrazu, jeho volné synonymum.
Vzdálenější výraz – broader term – BT
Rodič preferovaného výrazu v hierarchii. Je o úroveň výš v hierarchii.
Bližší výraz – narrower term – NT
Potomek preferovaného výrazy, o úroveň níže v hierarchii.
Související výraz – Related term – RT
Spojen s preferovaným výrazem pomocí asociativního vztahu. Bývá uvozován jako „See Also“ – „Viz také“.
Použij – Use – U
Tradiční tezaury používají tento výraz ve formě: „Variantní výraz -> použij preferovaný výraz(y)“. Používá se pro uvedení všech variant preferovaného výrazu.
Užíváno pro – Used for – UF
Používán jako opak předchozího. Preferovaný výraz užíván pro variantní výrazy.
Poznámka k rozsahu – Scope note – SN
Definice omezující význam preferovaného významu.

Tezaurus - vztahy mezi termíny
Tezaurus – vztahy mezi termíny (plná velikost, cca 10 kB)

Typy tezaurů

  • Klasický – používán pro indexování a prohledávání, pomáhá mapovat variantní výrazy na preferované při indexování dokumentů, při prohledávání jsou dotazy srovnávány se širokým slovníkem tezauru povolujícím synonyma, hierarchické procházení a asociativní odkazy.
  • Indexové – ne vždy je nutno vytvářet klasický tezaurus. Představte si scénář, kde vybudujete řízený slovník a indexujete dokumenty, ale nemáte možnost zabudovat synonymní kruh do vyhledávání. V tomto případě nenajde-li uživatel, co hledá, a zkusí-li to přes idnex, konzistentním indexem a jeho namapováním na dokumenty vyučujete uživatele k používání vašich výrazů. Navíc je to dobrý krok k plnému tezauru a jeho implementaci.
  • Vyhledávací – v případě, že nejste schopni použít indexaci na úrovni dokumentů (dodáváte obsah třetích stran jako novinky). V tomto případě použijete tezaurus při vyhledávání, nikoli při indexování (ruční by bylo velmi nákladné). Můžete nechat uživatel prohlížet tezaurus a nalezené výrazy použít jako předdefinované dotazy.

Metadata

Data o datech. Aneb kde použít řízené slovníky. Data popisující dokumenty, stránky, obrázky, audio soubory. Dříve používané jen v hlavičkách stránek, dnes již mnohem sofistikovaněji. Místo zařazování dokumentů do kategorií popíšeme, o čem dokument je, a slovník a software se postarají o zařazení. Nebo aspoň přiřadíme klíčová slova z řízených slovníku k dokumentům…

Starší komentáře ke článku

Pokud máte zájem o starší komentáře k tomuto článku, naleznete je zde.

Žádný příspěvek v diskuzi

Odpovědět