SEO : pourquoi analyser les logs ?

Le SEO « technique » est la clé de voute qui permet aux moteurs de recherche d’explorer, analyser et indexer les pages de votre site. Cela aide à classer vos pages dans les SERPS, avant même que vous n’ayez commencé le travail de référencement. En d’autres termes, il ne sert à rien de faire du SEO « on-page » si votre SEO technique est médiocre.
La console de recherche, les crawlers tiers et les outils de statistiques ne donnent pas une image complète de la manière dont Googlebot et les autres moteurs de recherche interagissent avec un site web. Il n’existe qu’un seul moyen d’examiner la manière exacte dont les moteurs de recherche traitent votre site web. Et c’est en regardant les fichiers logs de votre serveur.
En aidant Google à faire son travail, vous préparez le terrain pour votre futur travail de référencement. L’analyse des logs est une facette importante du référencement technique, et la correction des problèmes trouvés dans vos logs aidera à obtenir un meilleur classement, plus de trafic, et plus de conversions…

Exemple d’entrée dans un fichier log

Chaque serveur est différent dans l’enregistrement des entrées, mais ils donnent généralement des informations similaires, organisées en champs.
Voici un exemple d’accès à un serveur web Apache (simplifié, certains champs ont été supprimés) :

50.56.92.47 - - [01/January/2020:12:21:17 +0100] "GET" - "/wp-content/themes/Codeur/help.php" - "404" "-" "Mozilla/5.0 (compatible ; Googlebot/2.1 ; +http://www.google.com/bot.html)" - www.example.com -

Comme vous pouvez le voir, pour chaque requête, le fichier log stocke des informations clés telles que :

la date et l’heure
le code de réponse de l’URI (dans ce cas, un 404)
le user agent qui émet la demande (ici, Googlebot)

Comme vous pouvez l’imaginer, les fichiers logs représentent des milliers de lignes par jour, car chaque fois qu’un utilisateur ou un robot arrive sur votre site, de nombreuses entrées sont enregistrées pour chaque page demandée (y compris les images, les CSS et tout autre fichier nécessaire au rendu de la page.)

Que chercher dans les logs ?

L’analyse des fichiers logs révèle un grand nombre de renseignements utiles, et permettent par exemple de :

Découvrir des zones de gaspillage de votre crawl budget.
Visualiser les réponses rencontrées par les moteurs de recherche au cours de leur exploration, par exemple les 302, 404 et 404 soft.
Identifier les lacunes de l’exploration, qui peuvent avoir des implications plus larges au niveau du site (comme la hiérarchie ou la structure des liens internes).
Voir quelles pages sont priorisées par les moteurs de recherche, et qu’ils peuvent considérer comme les plus importantes.

SEO technique analyse de logs

Trouver où le crawl budget est gaspillé

Vous ne savez pas ce qu’est le crawl budget ? J’en ai parlé dans cet article.
L’analyse des fichiers logs peut révéler que le budget d’exploration de votre site est gaspillé pour des pages non pertinentes. Si vous avez un nouveau contenu que vous souhaitez indexer mais qu’il ne vous reste plus de budget, Google n’indexera pas ce nouveau contenu. L’optimisation de votre budget d’exploration aidera les moteurs de recherche à explorer et à indexer les pages les plus importantes de votre site web.
Le fait d’avoir de nombreuses pages à faible valeur ajoutée peut avoir un effet négatif sur l’exploration et l’indexation d’un site. Les URL à faible valeur ajoutée peuvent entrer dans ces catégories :

Duplication du contenu
Soft 404
Pages piratées
Contenu de mauvaise qualité et spam

Ne gaspillez pas votre crawl budget sur des pages comme ça. L’exploration des pages qui ont réellement de la valeur, seront crawlées plus rapidement et plus souvent.

Répondre aux questions techniques sur le référencement

En analysant les fichiers logs, nous pouvons répondre aux questions suivantes avec beaucoup plus de certitude que si nous essayions d’utiliser d’autres outils :

Quelle est la fréquence d’exploration de certains sous-répertoires ? Par exemple, les pages de service, le blog, ou peut-être des auteurs particuliers.
Tous les robots de moteurs de recherche ciblés accèdent-ils à vos pages ?
Quelles sont les pages qui ne sont pas correctement desservies ? Recherchez les pages ayant les statuts HTTP 3xx, 4xx et 5xx

Découvrez si votre site est passé à l’index Google Mobile-First

Vous pouvez également utiliser les journaux du serveur d’un site pour savoir si votre site web est en train de recevoir le crawling par Smartphone Googlebot indiquant qu’il est passé à l’index mobile-first.

En règle générale, un site qui figure toujours dans l’index « normal » est visité à 80 % par le moteur de recherche « desktop » et à 20 % par le moteur de recherche mobile. Si vous êtes passé à l’index mobile, ces chiffres s’inverseront.

Vous pouvez trouver cette information en consultant quel User Agent vous visite le plus souvent :
Vous devriez voir la plupart des entrées provenant de

Mozilla/5.0 (Linux ; Android 6.0.1 ; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, comme Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible ; Googlebot/2.1 ; +http://www.google.com/bot.html)

Dernier crawl

Vous avez récemment publié quelque chose et aimeriez savoir si Google est venu indexer cette page ? La réponse se trouve également dans vos logs. D’ailleurs, la fréquence à laquelle Google visite votre site est un bon indicateur : il n’aime pas passer son temps sur de mauvais sites.

J’espère que vous comprenez à quel point l’analyse des logs est importante pour votre référencement. Vous pouvez faire appel à un freelance de Codeur.com pour qu’il s’occupe d’analyser vos fichiers logs !