Logo English Web Page
Accueil Association BSD Linux Dev Reseau Infologisme Mac OSX
tl tr
Sujet Utliser Date 20-12-2010
Titre Le fichier sitemap.xml de Google SiteMap Section Infologisme
Article

Comprendre et utiliser Google SiteMap

Google propose un nouveau service : Google SiteMap, présenté comme un service à titre expérimental, a pour vocation de faciliter l‘indexation des pages d‘un Site Web par les robots de Google. Nous allons voir les bases du fonctionnement de Google SiteMap.

Avantage de Google SiteMap

La découverte des pages d‘un site, d‘autant plus lorsqu‘il est récemment créé, peut être une opération relativement longue. Les robots doivent tout d‘abord trouver ce dernier à partir d‘un lien provenant d‘un autre site. Un fois la page analysée et les liens vers les autres pages trouvés, le robot continuera la « découverte » de votre site. Ce processus, notamment pour un « gros » site, peut être extrêmement long. Ne parlons pas des difficultés liées à la réindexation des modifications d‘un site. Google SiteMap a pour principe de recenser dans un fichier XML l‘ensemble des urls de votre site, et éventuellement la date de modification de ces dernières. De ce point de vue, Google SiteMap est une bonne idée pour un moteur plus actuel et plus réactif.

Enfin Google SiteMap est un outil qui permettra de faciliter le travail de Google. Au delà de l‘intérêt philanthropique et expérimental, ce système permettra à Google d‘avoir une longueur d‘avance dans la guerre au nombre de pages indexées que se livrent les moteurs de recherche.

Avantage pour Google

En externalisant une partie du travail de son « Bot », cela détermine pour Google à terme par un gain de « Bande passante » et une économie de « Temps machine ».

Bande passante : Le seul moyen pour Google de connaître les modifications d‘un site Web est de le « Crawler », puis d‘analyser le site pour l‘indexer. Cela produit un trafic réseau important, si en lisant le fichier sitemap.xml le « Bot » constate que sa date d‘enregistrement du fichier n‘a pas changer, il passe à un autre site Web. Si au contraire cette date à changé, le « Bot » le lit et ne prends en compte que les pages modifiées indiquées par le fichier sitemap.xml, d‘où un trafic réseau moindre qui économise de la « Bande passante ».

Temps machine : Cela prends moins de temps de lire un fichier sitemap.xml qui détaille le changement effectué sur les pages d‘un site Web, plutôt que de « Graber » ou ramasser un site Web pour savoir si telle ou telle page a changé. Cette économie de « Traitement informatique » permet une utilisation moindre des capacités de traitement qui se traduit en « Temps machine ».

URL de page virtuelle

Si comme C-extra.com un site Web génére des pages web à la volée en PHP, le « Bot » ne trouve pas les pages PHP dans un répertoire, puisque dans le cas de C-extra.com, une seule page affiche tous les articles stocké dans la base de données MySQL, c‘est seulement l‘index de la page qui change, donc comme les page web n‘existe pas en tant que ficher, cela devient des URL de page virtuelle. Dans ce cas précis le fichier sitemap.xml est primordiale pour le « Bot ». Voir

Après ces quelques réflexions, on découvre l‘importance de ce fichier sitemap.xml et que le WebMaster doit le traiter avec le plus grand soin.

Fonctionnement de Google SiteMap

Le fonctionnement de Google SiteMap est très simple, et se déroule en trois temps.

•   Créer un ou des fichiers XML contenant les urls du site et respectant le protocole expliqué ci-dessous.
•   Vous devez mettre le fichier XML ainsi généré sur votre site en respectant les contraintes d‘emplacements et de taille.
•   Soumettre le fichier SiteMap à Google.

Impératif à respecter (expérience)

•   Placez le fichier sitemap.xml dans le répertoire racine du site Web à coté du fichier robots.txt. Il n‘est pas obligatoire de placer le fichier sitemap.xml à la racine du site. Cependant, l‘emplacement du fichier du plan Sitemap compte ! En effet, seules les urls contenues dans le fichier du plan Sitemap appartenant au dossier oùse situe le fichier sitemap.xml de votre site seront prises en compte.
•   Nommez le fichier du plan Sitemap sitemap.xml, exemple : Voir
•   Créer le fichier du plan Sitemap avec un éditeur qui respecte l‘encodage Unix (Type de saut de ligne LF Unix).
•   Le fichier doit être enregistré avec un codage UTF-8.
•   Ne pas indenter le fichier du plan Sitemap, l‘affichage indenté du fichier sitemap.xml se fait dans un navigateur automatiquement.
•   Le fichier Sitemap non compressé ne doit pas être supérieure à 10 Mo ou contenir plus de 50 000 Urls.
•   Ne pas compresser le fichier du plan Sitemap si vous servez un site Web en gZip Encoding. Voir
•   Etre patient, la plus part du temps Googlebot/2.1 passe dans les 24 heures lire le fichier sitemap.xml après soumission du plan Sitemap.
•   La création d‘un fichier de plan Sitemap peut être réalisé de plusieurs façon : manuellement, à l‘aide d‘un logiciel ou d‘un script (il existe aussi des outils en ligne). Chacune de ces méthodes ayant ses avantages et ses inconvénients. Mais il faut le vérfier avant de le soumettre !

Format de plan Sitemap XML

Le format du protocole Sitemap se compose de balises XML. Toutes les valeurs de données d‘un plan Sitemap doivent utiliser des caractères d‘échappement d‘entité. Quant au fichier, il doit être enregistré avec un codage UTF-8.

Vous trouverez ci-après un exemple de plan Sitemap composé d‘une seule URL et utilisant toutes les balises facultatives. Ces dernières sont en italique.

Contenu :

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.9">
Le fichier SiteMap doit commencer cette entête et la balise <urlset>
<url>
<loc>http://www.example.com/</loc>
<lastmod>2010-06-02T12:00:00+02:00</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
Pour chaque url de votre site mettre un bloc. Les paramètres entre les balises « lasmod », « changefreq » et « priority » sont optionnels. Respecter la hiérarchie des balises.
</urlset> Ferme la balise d‘entête <urlset>

Le plan Sitemap doit :

Commencez par une balise d‘ouverture <urlset> et terminez par une balise de fermeture </urlset>.
inclure pour chaque URL une entrée <url> en tant que balise XML parent ;
inclure une entrée enfant <loc> pour chaque balise parent <url>.

Définitions des balises XML

Les balises XML disponibles sont décrites ci-après.

<urlset> obligatoire Encadre le fichier et référence le standard de protocole actuel.
<url> obligatoire Balise parent de chaque entrée d‘URL. Les autres balises sont des enfants de cette balise.
<loc> obligatoire URL de la page. Cette URL doit commencer par l‘intitulé du protocole (http, par exemple) et se terminer par une barre oblique si votre serveur Web l‘exige. L‘URL ne doit pas comporter plus de 2 048 caractères.
<lastmod> facultatif Date de la dernière modification du fichier. Cette date doit être au format date et heure W3C. Celui-ci vous permet d‘omettre l‘heure, si vous le souhaitez, et de n‘utiliser que le format AAAA-MM-JJ.
<changefreq> facultatif Fréquence probable de modification de la page. Cette valeur fournit aux moteurs de recherche une information générale et n‘a pas nécessairement de rapport avec la fréquence effective d‘exploration de la page. Les valeurs acceptées sont les suivantes :

always
hourly
daily
weekly
monthly
yearly
never

La valeur « always » (toujours) doit être utilisée pour décrire les documents qui changent à chaque accès. La valeur « never » (jamais) doit être utilisée pour décrire les URL archivées.

Notez que la valeur de cette balise est considérée comme une indication, et non comme une commande. Même si les robots d‘exploration des moteurs de recherche prennent cette information en compte, ils ne l‘appliquent pas nécessairement de façon stricte. Ainsi, ils peuvent explorer des pages dont la fréquence de modification est « hourly » (horaire) moins fréquemment que cela ou, à l‘inverse, explorer des pages dont la fréquence de modification est « yearly » (annuelle) plus fréquemment. Il est également vraisemblable que les robots exploreront régulièrement les pages associées à la fréquence de modification « never » (jamais), de façon à traiter les modifications non prévues apportées à ces pages.
<priority> facultatif Priorité de cette URL par rapport aux autres URL de votre site. Les valeurs acceptées sont comprises entre 0,0 et 1,0. Cette valeur est sans effet sur la comparaison de vos pages avec celles d‘autres sites. Elle permet uniquement de signaler aux moteurs de recherche les pages que vous jugez les plus importantes de façon à organiser l‘exploration de votre site comme vous l‘entendez.

La priorité par défaut d‘une page est égale à 0,5.

Notez que la priorité attribuée à une page n‘a aucune incidence sur la position de vos URL dans les pages de résultats du moteur de recherche. Les moteurs de recherche utilisent cette information pour hiérarchiser les URL d‘un même site lors de leur sélection. Cette balise vous permet donc d‘augmenter la probabilité que vos pages les plus importantes figurent dans l‘index de recherche.

En outre, notez que l‘attribution d‘une priorité élevée à toutes les URL de votre site ne vous sera d‘aucune utilité. En effet, cette priorité relative n‘est utilisée que pour hiérarchiser les URL de votre site lors de leur sélection ; aucune comparaison ne sera établie entre la priorité de vos pages et celle des pages d‘autres sites.

Caractères d‘échappement

Nous vous demandons d‘utiliser impérativement un codage UTF-8 pour votre fichier Sitemap. En règle générale, c‘est au moment de l‘enregistrement du fichier que vous pouvez définir ce paramètre. Comme pour tous les fichiers XML, les valeurs de donnée (URL comprises) doivent utiliser des codes d‘échappement d‘entité pour les caractères répertoriés dans le tableau ci-après.

Caractère Code d‘échappement
Perluète & &amp;
Apostrophe &apos;
Guillemets droits " &quot;
Supérieur à > &gt;
Inférieur à < &lt;

En outre, toutes les URL (y compris celle de votre plan Sitemap) doivent être codées de façon à pouvoir être lues par le serveur Web sur lequel elles se trouvent et doivent utiliser les caractères d‘échappement nécessaires. Cependant, si vous utilisez un quelconque script, outil ou fichier journal pour générer vos URL (si vous les répertoriez autrement qu‘en les saisissant individuellement), cette mise en forme est généralement automatique. Si, après avoir envoyé votre plan Sitemap, vous recevez un message d‘erreur indiquant que Google ne parvient pas à trouver certaines de vos URL, vérifiez ce plan pour vous assurer que les URL sont conformes à la norme RFC-3986 définissant les URI, à la norme RFC-3987 définissant les IRI et à la norme XML.

Vous trouverez ci-après un exemple d‘URL utilisant un caractère non-ASCII (ü) et un caractère à remplacer par un caractère d‘échappement d‘entité (&) :

http://www.example.com/ümlat.html&q=name

Ci-dessous la même URL, codée en ISO-8859-1 (pour un hébergement sur un serveur utilisant ce codage), et utilisant des caractères d‘échappement d‘URL :

http://www.example.com/%FCmlat.html&q=name

Ci-dessous la même URL, codée en UTF-8 (pour un hébergement sur un serveur utilisant ce codage) et utilisant des caractères d‘échappement d‘URL :

http://www.example.com/%C3%BCmlat.html&q=name

Ci-dessous la même URL, utilisant un caractère d‘échappement d‘entité :

http://www.example.com/%C3%BCmlat.html&amp;q=name

Exemple de plan Sitemap XML

Vous trouverez ci-après un exemple de plan Sitemap au format XML. Ce plan contient un petit nombre d‘URL, chacune d‘elles étant identifiée à l‘aide de la balise XML <loc>. Chaque URL de l‘exemple est associée à un jeu de paramètres facultatifs différent.

<?xml version="1.0" encoding="UTF-8"?>
<urlset
xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9
http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">

<url>
<loc>http://www.c-extra.com/</loc>
<lastmod>2010-06-02T12:00:00+02:00</lastmod>
<changefreq>weekly</changefreq>
<priority>1.00</priority>
</url>

<url>
<loc>http://www.c-extra.com/en/index.php</loc>
<lastmod>2010-06-02T12:00:00+02:00</lastmod>
<changefreq>weekly</changefreq>
<priority>0.80</priority>
</url>

<url>
<loc>http://www.c-extra.com/fr/index.php</loc>
<lastmod>2010-06-02T12:00:00+02:00</lastmod>
<changefreq>weekly</changefreq>
<priority>0.80</priority>
</url>

<url>
<loc>http://www.c-extra.com/en/bsdlinux.php</loc>
<lastmod>2010-06-02T12:00:00+02:00</lastmod>
<changefreq>weekly</changefreq>
<priority>0.64</priority>
</url>

<url>
<loc>http://www.c-extra.com/en/devreseau.php</loc>
<lastmod>2010-06-02T12:00:00+02:00</lastmod>
<changefreq>weekly</changefreq>
<priority>0.64</priority>
</url>

<url>
<loc>http://www.c-extra.com/en/macosx.php</loc>
<lastmod>2010-06-02T12:00:00+02:00</lastmod>
<changefreq>weekly</changefreq>
<priority>0.64</priority>
</url>

<url>
<loc>http://www.c-extra.com/fr/bsdlinux.php</loc>
<lastmod>2010-06-02T12:00:00+02:00</lastmod>
<changefreq>weekly</changefreq>
<priority>0.64</priority>
</url>

<url>
<loc>http://www.c-extra.com/fr/devreseau.php</loc>
<lastmod>2010-06-02T12:00:00+02:00</lastmod>
<changefreq>weekly</changefreq>
<priority>0.64</priority>
</url>

<url>
<loc>http://www.c-extra.com/fr/macosx.php</loc>
<lastmod>2010-06-02T12:00:00+02:00</lastmod>
<changefreq>weekly</changefreq>
<priority>0.64</priority>
</url>

<url>
<loc>http://www.c-extra.com/en/article.php?AIndex=1</loc>
<lastmod>2010-06-02T12:00:00+02:00</lastmod>
<changefreq>weekly</changefreq>
<priority>0.51</priority>
</url>

<url>
<loc>http://www.c-extra.com/en/article.php?AIndex=2</loc>
<lastmod>2010-06-02T12:00:00+02:00</lastmod>
<changefreq>weekly</changefreq>
<priority>0.51</priority>
</url>

<url>
<loc>http://www.c-extra.com/fr/article.php?AIndex=1</loc>
<lastmod>2010-06-02T12:00:00+02:00</lastmod>
<changefreq>weekly</changefreq>
<priority>0.51</priority>
</url>

<url>
<loc>http://www.c-extra.com/fr/article.php?AIndex=2</loc>
<lastmod>2010-06-02T12:00:00+02:00</lastmod>
<changefreq>weekly</changefreq>
<priority>0.51</priority>
</url>

</urlset>


Vous pouvez compresser vos fichiers Sitemap à l‘aide de l‘utilitaire gzip.
Cette compression réduira le besoin de bande passante.
Notez que la taille de votre fichier Sitemap non compressé ne doit pas être supérieure à 10 Mo.


Epilogue

Un Site Web générateur de fichier sitemap.xml : XML-Sitemaps.com – Sitemap Generator

Auteur
Eric Douzet
Début de page
bl br
C-extra.com v. 1.2.2 © 2000-2014, tous droits réservés  –  Mise à jour le 12 Avril 2014 Infologisme.com