Les métas directives pour les robots (parfois appelées « balises méta robots ») sont des éléments de code qui fournissent des instructions sur la manière dont les robots doivent explorer ou indexer le contenu des pages d’un site Web.
Alors que les directives du fichier robots.txt donnent aux robots des suggestions sur la manière d’explorer les pages d’un site Web, les balises en question fournissent des instructions plus fermes quant à la manière d’explorer et d’indexer le contenu d’une page donnée.
A quoi servent ces balises méta robots ?
Les balises méta robots donnent aux robots d’exploration des instructions sur la manière d’explorer et d’indexer les informations qu’ils trouvent sur une page Web spécifique. Lorsque ces directives sont découvertes par les robots, leurs paramètres servent de suggestions fortes sur le comportement d’indexation des crawlers.
Malheureusement, comme c’est le cas pour les instructions placées dans le fichier robots.txt, les robots d’exploration ne sont pas tenus de suivre vos indications : il y a donc fort à parier que certains robots malveillants ignoreront vos directives et « avaleront » le contenu de vos pages sans aucun scrupule.
En effet, il est bon de rappeler que les balises robots ne constituent pas un bon mécanisme de sécurité : si vous disposez d’informations privées et que vous ne souhaitez pas qu’elles soient accessibles au public, choisissez une approche plus sûre, telle que la protection par mot de passe, pour empêcher visiteurs et robots de consulter ces pages confidentielles.
Les 2 types de balises méta robots
Il existe deux types de balises :
- celles qui font partie de la page HTML (« robots »)
- celles que le serveur Web envoie sous la forme d’en-têtes HTTP (« x-robots-tag »)
Les mêmes paramètres (comme « noindex » et « nofollow ») peuvent être utilisés à la fois par la balise méta robots et la balise x-robots : la seule différence est la manière dont ces paramètres sont communiqués aux robots.
Balise meta robots
La balise méta robots fait partie du code HTML d’une page Web. Elle apparaît sous forme d’éléments de code dans la section <head> d’une page Web, comme par exemple :
<code> <meta name="robots" content="[PARAMETRE]"></code>
Si la balise <meta name="robots" content="[PARAMETER]">
est standard, vous pouvez également fournir des directives à des crawlers spécifiques en remplaçant « robots » par le nom d’un user agent spécifique.
Par exemple, si vous souhaiter indiquer une directive spécifique à l’attention de Googlebot, vous pouvez utiliser le code suivant :
<meta name="googlebot" content="[PARAMETRE]">
Vous voulez utiliser plus d’une directive sur une page ? Tant qu’elles s’adressent au même robot, plusieurs directives peuvent être incluses dans une même balise méta – il vous suffit de les séparer par des virgules.
Voici un exemple :
<meta name="robots" content="noimageindex, nofollow, nosnippet">
Comme nous le verrons plus bas, cette portion de code indique aux robots de ne pas indexer les images de la page, de ne suivre aucun des liens et de ne pas afficher un extrait de la page, lorsqu’elle apparaît dans les résultats de recherche.
Si vous souhaitez donner des instructions différentes à différents robots de recherche, vous devrez utiliser des balises distinctes qui s’adresseront à chaque robot.
Balise X-robots
Alors que la balise meta robots vous permet de contrôler le comportement d’indexation au niveau de la page, la balise x-robots est incluse dans l’en-tête HTTP pour contrôler l’indexation d’une page dans son ensemble, ainsi que des éléments très spécifiques d’une page.
Bien que vous puissiez utiliser la balise x-robots pour exécuter les mêmes directives d’indexation que la balise méta robots, la directive x-robots offre plus de souplesse et de fonctionnalités que cette dernière.
En effet, la directive x-robots permet d’utiliser des expressions régulières, d’exécuter des directives d’indexation sur des fichiers non-HTML et d’appliquer des paramètres à un niveau global.
Pour utiliser la balise x-robots, vous devez avoir accès au fichier header.php, .htaccess ou au fichier d’accès au serveur de votre site Web. À partir d’un de ces fichiers, ajoutez le balisage x-robots-tag de votre configuration de serveur spécifique, y compris les paramètres éventuels. Voici quelques exemples de ce que vous permet l’utilisation de la balise x-robots :
- Contrôler l’indexation de contenu non écrit en HTML (comme une vidéo)
- Bloquer l’indexation d’un élément particulier d’une page (comme une image ou une vidéo), mais pas celle de la page elle-même.
- Contrôler l’indexation si vous n’avez pas accès au code HTML d’une page (en particulier à la section <head>) ou si votre site utilise un en-tête global qui ne peut être modifié.
- Ajouter des règles pour déterminer si une page doit être indexée ou non (par exemple, si un utilisateur a commenté plus de 20 fois, indexer sa page de profil).
Quels sont les paramètres des balises robots ?
Vous trouverez ci-dessous les paramètres que les robots des moteurs de recherche comprennent et suivent (ou pas) lorsqu’ils sont utilisés dans les balises méta robots.
Ces paramètres ne sont pas sensibles à la casse, notez toutefois qu’il est possible que certains moteurs de recherche ne suivent qu’un sous-ensemble de ces paramètres, ou traitent certaines directives de manière légèrement différente.
All
C’est la balise par défaut, vous n’avez pas besoin de la mettre : elle indique au moteur de recherche d’indexer une page.
Follow
Même si la page n’est pas indexée, le robot d’exploration doit suivre tous les liens contenus dans cette page et transmettre l’équité aux pages liées. Ce paramètre n’a pas besoin d’être spécifié. C’est aussi une valeur par défaut !
Noindex
Indique à un moteur de recherche de ne pas indexer une page. Avec ce paramètre, la page n’apparaîtra pas dans les résultats de recherche, mais les liens qu’elle contient seront suivis par le robot d’exploration.
Les pages « abonnés uniquement » constituent un exemple d’utilisation de cette balise. Vous ne voulez pas que les moteurs de recherche indexent un contenu payant… Cependant, les liens vers lesquels ils renvoient peuvent bénéficier de son autorité.
Vous pouvez utiliser la balise meta robot noindex pour éviter d’être pénalisé pour du contenu dupliqué. De même, si deux ou plusieurs URL de votre site Web pointent vers la même page, ce paramètre empêchera les robots d’exploitation de décider par eux-mêmes quel lien privilégier (ou pénaliser). Vous restez maître de votre SEO.
Nofollow
Indique au robot d’exploration de ne pas suivre les liens d’une page et donc de ne pas transmettre l’équité des liens. Ces liens peuvent être contenus dans des boutons de navigation, images ou d’autres ressources.
Vous pouvez également ajouter une balise nofollow aux liens dans les commentaires de votre blog pour éviter que les spammeurs tirent profit de vos contenus. Pensez aussi à l’utiliser sur les liens payants dans les bannières et les annonces publicitaires, ainsi que sur les logos de vos clients et partenaires.
None
Équivaut à l’utilisation simultanée des balises noindex et nofollow. Vous indiquez au robot d’exploration d’ignorer complètement la page. Elle ne sera pas indexée et les liens qu’elle contient ne seront pas suivis.
Cette balise s’avère utile pour les pages obsolètes que vous souhaitez mettre à jour ou celles en cours de construction, par exemple.
Noimageindex
Comme nous l’avons vu précédemment, ce paramètre indique au robot d’indexation de ne pas indexer les images d’une page. Cela permet de protéger vos images contre les usages sans votre autorisation préalable. Vous pouvez également définir le méta-nom comme googlebot-image pour empêcher spécifiquement les robots de Google d’explorer votre site à la recherche de visuels.
Cependant, notez que les images peuvent toujours être indexées si des liens provenant d’autres pages dirigent les robots vers elles.
Noarchive
Les moteurs de recherche ne doivent pas afficher de lien en cache vers cette page sur un moteur de recherche. Cela empêche les internautes et le robot d’exploration d’accéder à des contenus sensibles que vous souhaitez protéger.
Vous pouvez utiliser cette balise pour les landing pages payantes ou des documents internes. Elle est bénéfique pour les sites d’information qui souhaitent réserver certains de leurs contenus à leurs abonnés ou mettre en place un paywall.
Nocache
Identique à noarchive, mais utilisé uniquement par Internet Explorer et Firefox.
Nosnippet
Indique à un moteur de recherche de ne pas afficher un extrait de cette page (c’est-à-dire la méta-description) sur un résultat de recherche. Lorsque vous utilisez cette balise, les données ne peuvent pas apparaître dans les extraits enrichis du SERP.
Au lieu d’afficher les métadonnées que vous avez sélectionnées, les moteurs de recherche peuvent choisir d’afficher un autre extrait, pas toujours pertinent pour votre stratégie de référencement.
Il est également possible de marquer des parties de texte spécifiques que vous ne souhaitez pas voir utilisées comme extrait avec le paramètre data-nosnippet.
Max-snippet: [nombre]
Avec ce paramètre, vous indiquez au robot d’exploitation le nombre spécifique de caractères à afficher dans les extraits du SERP, même si cela n’empêche pas votre contenu d’être indexé.
Remplacez la variable [nombre] par le nombre maximal de caractères que vous souhaitez appliquer à un extrait de texte pour ce résultat de recherche.
Mettre [0] équivaut à l’instruction nosnippet. Les moteurs de recherche n’afficheront aucune partie de votre contenu comme extrait dans les SERP.
Mettre [-1] donnera à Google le soin de déterminer lui-même la longueur de l’extrait. Aucune limite ne sera appliquée dans ce cas.
Signalons que cette commande n’est plus applicable si vous utilisez les données structurées sur votre page. En dehors des images et vidéos, ce paramètre s’applique à tous les autres types de résultats : Google Images, Google Assistant, Discover, etc.).
Unavailable_after [DATE et HEURE]
Les moteurs de recherche ne doivent plus indexer cette page après une date particulière.
Comme le robot d’exploration peut encore visiter la page occasionnellement, celle-ci peut rester dans l’index, mais avec moins de chances d’être bien classée.
Attention, ce n’est pas parce que le contenu d’une page ne change pas qu’elle ne doit pas être explorée régulièrement. Utilisez cette balise pour les pages d’évènements ou les offres d’emploi limitées dans le temps.
Exemple : <meta name=”robots” content=”unavailable_after: 2020-09-21″>
Notranslate
Lorsque cette instruction n’est pas spécifiée, Google peut afficher un lien à côté du résultat pour aider les utilisateurs à afficher le contenu traduit sur votre page.
Si vous ne souhaitez pas proposer de traduction pour cette page dans les résultats de recherche, utilisez cette directive.
max-image-preview: [PARAMETRE]
Cette instruction sert à définir la taille maximale d’un aperçu d’image pour cette page dans les résultats de recherche. Si vous ne spécifiez pas l’instruction max-image-preview, Google affichera un aperçu d’image avec la taille par défaut.
Trois valeurs sont acceptées :
- « none » : aucun aperçu d’image ne doit s’afficher
- « standard » : un aperçu d’image par défaut peut s’afficher
- « large » : un aperçu d’image de grande taille peut apparaître
Les valeurs standard et none vous permettent d’empêcher l’utilisation de grandes vignettes lors de l’affichage des pages AMP dans les résultats de recherche.
À lire aussi : Développeurs Web : enfin un outil SEO pour booster vos prestations
3 erreurs à éviter dans l’utilisation des balises meta robots
Pour tirer profit des balises meta robots et améliorer votre SEO, voici 3 erreurs à éviter.
1. Une mauvaise typographie
Les robots d’exploration reconnaissent les attributs, les valeurs et les paramètres aussi bien en majuscules qu’en minuscules. Cependant, il est recommandé de mettre vos balises en minuscules pour améliorer leur lisibilité, notamment au niveau du code.
Prenez également l’habitude d’intégrer des virgules et des espaces pour faciliter le déchiffrage de vos paramètres.
2. L’utilisation de balises conflictuelles
Utiliser des balises conflictuelles entraîne des erreurs d’indexation.
Par exemple, si vous avez plusieurs balises méta comme : <meta name=”robots” content=”follow”> et <meta name=”robots” content=”nofollow”>, seul “nofollow” sera pris en considération.
Pourquoi ? Parce que les robots d’exploration privilégient les valeurs restrictives.
La balise « follow » étant une valeur par défaut, évitez de l’utiliser. Contentez-vous de mettre du « nofollow » pour les liens où vous souhaitez empêcher le suivi.3. La confusion entre noindex et disallow
Noindex empêche les robots d’indexer une page, pas de l’explorer ! Pour éviter que votre page ne soit crawlée, vous devez appliquer la commande disallow dans le robots.txt.
Et pour désindexer une page, ajoutez noindex puis disallow dans le header celle-ci.
Notre astuce
Et voilà, vous savez tout sur l’utilisation de ces balises méta robots. Si vous ne savez pas comment en tirer parti pour améliorer votre référencement, n’hésitez pas à faire appel à un professionnel !