Forums Développement Multimédia

Les formations Mediabox
Les formations Mediabox

Ne référencer que ce qui vous intéresse avec Robots.txt

Par gto, le 13 août 2005

Un référencement intelligent

Derrière le concept des robots, se cachent des programmes parcourant les pages web pour alimenter les moteurs de recherche. Lors de cette opération effectuée à intervalles réguliers, des algorithmes parcourent les pages internet, et les cataloguent selon divers critères. Le travail de ces assistants peut être influençé par un fichier : “Robots.txt”. Ce dernier, créé par l'auteur d'une page web, permet de déterminer ce que le robot peut scanner, et ce qu'il ne peut pas prendre en compte. Le nom générique Robots.txt laisse entrevoir une certaine normalisation dans ce domaine.

Les programmes des robots permettent aux webmestres des moteurs de recherche de parcourir le web. Ces robots démarrent d'une page web quelconque, l'indexent, et suivent tous les liens qu'ils y trouvent. L'indexation des pages web est réalisé à partir des titres, des informations de la balise <méta> ou du texte.

Le standard SRE (Standard for Robots Exclusion) définit la façon d'exploiter ces robots. Dans ce standard, on trouve toutes les indications pour soustraire la page web de l'action de ces robots, mais également comment les alimenter de manière ciblée avec des informations que vous souhaitez leur livrer.

Dans SRE, il est stipulé qu'un simple fichier “Robots.txt” permet aux webmestre d'un serveur web de déterminer quelles pages web ne doivent en aucuns cas être prises en considération par les robots. Cette définition peut être réalisée individuellement pour chaque robot, ou pour tous les robots. Le fichier Robots.txt doit se trouver dans le dossier Racine de serveur, pour que les robots le trouvent.

Le fichier Robots.txt contient toujours les deux mots clés :

  • USER-AGENT
  • DISALLOW

USER-AGENT permet d'indiquer le nom des robots dont vous souhaiter piloter les accès. Dans le fichier, il est possible d'indiquer autant de fois USER-AGENT que voulu. Chaque entrée individuelle doit être plaçée dans une ligne différente. Avec l'étoile en guise de USER-AGENT, tous les robots auxquels ne s'appliquent pas les entrées précédentes seront concernés.
Le mot DISALLOW sert à indiquer les spécifications de fichier qui ne doivent pas être exploitées par les robots. DISALLOW permet de stipuler une URL ou un chemin d'accès. Ce mot clé permet également d'insérer des commentaires, à plaçer dérrière le caractère dièse : (#)

Exemples:

# robots.txt for http://dream.media-box.net/ 
User-agent: * # Cette instruction s'applique aux robots de tous les moteurs de recherche 
Disallow: /dossier1/dossier2/ # Entraîne le verrouillage de la zone : /dossier1/dossier2 
Disallow: /dossier3/ # Entraîne le verrouillage de la zone : /dossier3 
# robots.txt for http://dream.media-box.net/ 
User-agent: * # Cette instruction s'applique aux robots de tous les moteurs de recherche 
Disallow: / # Interdit toute activité sur l'URL à tous les robots