Google Sitemaps jsou poměrně jednoduchý způsob, jak přilákat Google na svůj web. Tvůrce webu pouze nabídne vyhledávači informace o změněných nebo nových stránkách – stačí vytvořit soubor předepsaného formátu (sitemap soubor) a průběžně jej aktualizovat – a vyhledávač už zařídí zbytek. Sitemap je vlastně takovým RSS pro Google.

Pro koho jsou Google Sitemaps určeny

Abyste mohli využívat Google Sitemaps, měli byste mít zřízen u Google účet (Google Account). Ten už máte, pokud používáte Gmail, případně některé další služby od Google. Úmyslně jsem použil podmiňovací způsob, protože Google Account není nutný. Přesto jej doporučuji, protože můžete sledovat, jak Google pracuje s vaší sitemap.

Čím vám budou Google Sitemaps užitečné

Tak především, Google Sitemaps:

  • nabídnou Google stránky, které chcete, aby byly nově zaindexovány
  • poskytnou čtenářům čerstvé informace – výsledky vyhledávání mohou nabídnout novější stránky
  • nabídnou Google další informace o stránkách (například čas poslední změny, četnost aktualizací a podobně)

Google Sitemaps jsou v současnosti v bezplatné beta verzi. Google Sitemaps nenahrazují standardní indexaci webových stránek. Jsou doplňkem stávajícího crawlování s cílem jeho zlepšení.

Jak vytvořit sitemap pro Google Sitemaps

Mnoho cest vede do Říma. A mnoho cest vede ke Google Sitemaps:

  • Autor může využít Sitemap Generator nebo jiný automatizovaný prostředek.
  • Lze poskytovat XML dokument (XML Sitemap) vytvořený ručně.
  • Google akceptuje prostý textový dokument se seznamem odkazů.
  • Google Sitemaps umí využít RSS 2.0 a Atom 0.3 obsahující vyplněný element lastMod.

Jak dát Google Sitemaps o sobě vědět

Opět máte na výběr několik možností:

  • Sitemap Generator sám informuje Google o existenci sitemap.
  • Můžete se přihlásit a zadat adresu ručně.
  • Můžete využít HTTP, například http://www.google.com/webmasters/sitemaps/ping?sitemap=sitemap_url.

Sitemap Protocol

Sitemap Protocol je dialektem XML. Způsobů, jak vytvořit soubor sitemap, je několik. Můžete použít už zmiňovaný Sitemap Generator, který ovšem není univerzální a ve většině případů je nutné jej upravit. Sitemap Generator je skript, který umí generovat obsah sitemap a poslat do Google informaci o existenci sitemap. Sitemap Generator umí vytvářet sitemap například z textových souborů se seznamem URL, z access logů webového serveru, případně po zadání cesty ke složce obsahující statické soubory. Sitemap Generator vyžaduje Python od verze 2.2.

Sitemap

Můžete upravit svůj publikační systém a sitemap generovat vždy při aktualizacích webu. Soubor můžete také vytvářet ručně (třeba v Poznámkovém bloku nebo PSPadu) a uploadovat jej na web.

Soubor sitemap by měl být samozřejmě validní (pozor na to, že XML validita je přece jen o něčem jiném, než validita XHTML dokumentů). Google nabízí vlastní Sitemaps schéma, proti kterému pak můžete sitemap validovat. Obdobně existuje i schéma pro Sitemaps index (seznam jednotlivých sitemap).

Pro ukázku uvádím příklad jednoduchého souboru sitemap, který obsahuje odkaz na dva dokumenty (uvnitř elementu url). První element obsahuje všechny dostupné elementy, druhý jen povinný element loc:

<?xml version=“1.0″ encoding=“UTF-8″?>
<urlset xmlns=“http://www.google.com/schemas/sitemap/0.84″>
<url>
<loc>http://www.example.com/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.example.com/catalog?item=12&amp;desc=prague</loc>
</url>
</urlset>

Jak vidíte, soubor sitemap je velmi jednoduchý XML soubor obsahující pouhých šest elementů (a pouze tři jsou povinné):

changefreq
Jak často je odkazovaná stránka měněna. Je to doporučení pro Google. Je na uvážení Google, jestli se tímto doporučením bude řídit. Může obsahovat následující textové hodnoty:

  • always – dokument se mění při každém přístupu k němu
  • hourly – jednou za hodinu
  • daily – denně
  • weekly – týdně
  • monthly – jednou za měsíc
  • yearly – jednou za rok
  • never – dokument se nemění (není vyloučeno, že Google bude dokument indexovat pro případ neočekávaných změn)
lastmod
Kdy byla odkazovaná stránka naposledy změněna. Měla by být použita textová hodnota ve formátu podle požadavků Date and Time Formats (ISO 8601), například 2005-06-14T11:19:35+01:00, případně zkrácená varianta 2005-06-14.
loc
Povinný element, obsahuje URL dokumentu, které musí být kratší než 2048 znaků.
priority
Význam (váha) stránky vůči ostatním stránkám daného webu. Obsahuje hodnoty mezi 0.0 (nejnižší váha) a 1.0 (nejdůležitější stránka). Pokud není atribut zadán, je výchozí hodnota 0.5. Hodnota nemá vliv na pořadí stránky ve výsledcích vyhledávání. Také nemá význam dát všem dokumentům prioritu 1.0.
url
Povinný element, uzavírá elementy changefreq, lastmod, loc a priority. Je to element pro jednu URL. Pokud odkazujete na složku, musí adresa končit lomítkem.
urlset
Povinný element nejvyšší úrovně.

Sitemap Index

Pokud by byl soubor sitemap větší než 50 000 řádků, případně větší než 10 MB, je třeba sitemap rozdělit do několika souborů. (Důvodů pro rozdělení sitemap může být vícero. Třeba přístupová práva do adresářů, různé doby aktualizace odkazovaných souborů, plánované rozšíření webu a podobně.) Na jednotlivé soubory se potom odkazuje ze souboru sitemap index. Soubor sitemap index může obsahovat odkazy až na 1 000 sitemap. Google doporučuje sitemap index soubor pojmenovat Sitemap_index.xml.

Struktura souboru sitemap index je podobná souboru sitemap (všechny elementy mimo element lastmod jsou povinné):

<?xml version=“1.0″ encoding=“UTF-8″?>
<sitemapindex xmlns=“http://www.google.com/schemas/sitemap/0.84″>
<sitemap>
<loc>http://www.example.com/sitemap-1.xml</loc>
<lastmod>2005-06-14T13:50:00+01:00</lastmod>
</sitemap>
<sitemap>
<loc>http://www.example.com/sitemap-2.xml</loc>
<lastmod>2005-01-01</lastmod>
</sitemap>
</sitemapindex>

Je nutné znovu zdůraznit, že sitemap i sitemap index jsou XML dokumenty, a proto pro ně platí stejná pravidla jako pro jiné XML dokumenty. Mimo jiné jsou u elementů rozlišovány malé a velké znaky. Hodnoty musí být kódovány (viz &amp; v příkladu).

Texťák stačí

Google doporučuje používat Sitemap Protocol. Přesto můžete do Google Sitemaps přihlásit prostý textový dokument, který na jednotlivých řádcích obsahuje URL stránek. Pamatujte ale na určitá omezení:

  • na každém řádku může být jen jedna adresa
  • adresa nesmí být rozdělena na více řádků
  • soubor musí být kódován v UTF-8
  • nejvyšší počet řádků je 50 000

Pár háčků

Google nezaručuje, že bude indexovat všechny stránky uvedené v sitemap. Ale může vašim stránkám pomoci. Google slibuje, že pomocí informací v sitemap bude lépe plánovat další indexování. Google také nezaručuje, že ihned po vytvoření a zaregistrování vaší sitemap začne její obsah indexovat a že začne indexovat obsah stránek v ní uvedených. Musíte si uvědomit, že se pořád jedná o beta verzi.

Další omezení jsem již zmínil. Jedná se o nejvyšší počet URL v jednom souboru sitemap, který je 50 000. Velikost nekomprimovaného souboru sitemap také nesmí být větší než 10 MB (10 485 760 Bytes). Proto je nutné velký soubor rozdělit na více menších sitemap.

Důležité je umístění sitemap souborů. Google doporučuje umístit soubory do rootu webu. V opačném případě se vystavujete riziku, že Google nebude indexovat všechna URL umístěná v souboru sitemap. Například pokud umístíte soubor sitemap na adresu http://www.example.com/clanky/sitemap.xml, nebudou indexovány URL umístěné například na adresách http://www.example.com/images/ nebo http://www.example.com/ (a to nemluvím o odkazech na jiný web). Budou se indexovat pouze URL začínající na http://www.example.com/clanky/.

Google byste měli informovat pokaždé, když změníte obsah sitemap. Můžete to udělat ručně ze svého účtu u Google Sitemaps, nebo můžete posílat zprávy při změně obsahu sitemap automaticky.

Souhrn

Ani Google Sitemaps nejsou spásou pro všechny. Dobře napsané weby většinou žádné berličky nepotřebují. Často indexované stránky asi výraznou výhodu nezískají. Přesto jsou Google Sitemaps zajímavou možností, jak zvýšit konkurenceschopnost svých stránek.

Odkazy a zdroje

Starší komentáře ke článku

Pokud máte zájem o starší komentáře k tomuto článku, naleznete je zde.

3 Příspěvků v diskuzi

  1. Zajímalo by mě jestli lze vkládat dynamicky generované XML soubory s koncovkou .php .

    Taky jestli lze přenášet parametry přes GET jako třeba, že vložím do robots.txt tento odkaz na sitemap:
    Sitemap: http://www.example.com/sitemap.php?sekce=kategorie&s=1

    nebo když budu odkazovat na sitemap_index takovýmto způsobem:

    Sitemap: http://www.example.com/Sitemap_index.php

    Chtěl bych vytvořit dynamický sitemap, jelikož se můj web rychlerozrůsta a uvítal bych kdyby se sitemapy vytvářely automaticky a rozdělovali taky automaticky. Jelikož je těžce nepraktický zadávat nebo generovat ručně každých 3 dny sitemap…

Odpovědět