Aujourd'hui un nouvel épisode de mon outil de statistiques web du moment, Awstats. Souvenez-vous, nous avons déjà rencontré ce logiciel à trois reprises :

Aujourd’hui attardons-nous sur une autre possibilité d'Awstats : la détection des robots et moteurs de recherches. Si vous avez déjà des statistiques en place, vous aurez noté que vous disposez d'une rubrique Visiteurs Robots/Spiders dans votre page. Awstats ne peut pas connaître tous les robots sur le marché, de nouveaux sont créés tandis que d'autres disparaissent. Certains sont dédiés à des moteurs de recherche, d'autres sont des logiciels téléchargeables, pour effectuer des recherches ou créer un aggrégateur de flux RSS. Lorsqu'Awstats repère un robot qu'il ne connait pas, il peut l'afficher de deux manières : Unknown robot (identified by 'bot*') ou bien Unknown robot (identified by '*bot'). Vous comprenez donc qu'il cherche juste le mot bot dans le User-agent laissé par votre visiteur dans les logs de votre serveur web.

Si vous regardez souvent les logs de votre serveur web (activité qui peut semble à première vue excentrique, mais Ô combien intéressante en réalité), vous trouverez sans doute un robot qui n'est pas connu d'Awstats. Ce billet prend l'exemple avec cplanet, un aggrégateur RSS utilisé en particulier par un certain planet BSD francophone.

Awstats stocke les noms des robots qu'il connaît dans un fichier nommé robots.pm. Ce fichier, dans le cas d'une installation via pkgsrc sous NetBSD se trouve à l'endroit suivant : /usr/pkg/awstats/cgi-bin/lib/robots.pm. Effectuons-donc une copie de sauvegarde de ce fichier :

root@vhost:/usr/pkg/awstats/cgi-bin/lib# cp -vp robots.pm robots.pm.bak
robots.pm -> robots.pm.bak

Profitons-en pour copier la sauvegarde dans un autre fichier, que nous allons modifier :

root@vhost:/usr/pkg/awstats/cgi-bin/lib# cp -vp robots.pm.bak robots.pm.custom
robots.pm.bak -> robots.pm.custom

Avant de modifier le fichier, jetons un oeil aux logs (Apache dans mon cas) :

1.2.3.4 - - [04/May/2011:16:30:48 +0200] "GET /feed/atom HTTP/1.1" 200 105441 "-" "cplanet/0.6"

Le User-agent de cplanet est donc : "cplanet/0.6". Maintenant éditons notre robots.pm.custom. En lisant les commentaires on se rend compte que le fichier est organisé en plusieurs listes. Il faut donc ajouter notre nouveau robot dans deux d'entres elles, RobotsSearchIDOrder_list<X> (où <X> désigne un chiffre) et RobotsHashIDLib. J'ai choisi d'ajouter mon robot dans RobotsSearchIDOrder_list2, qui contient des robots peu connus. Je suis allé à la fin de cette liste mais je n'ai pas ajouté mon robot en toute fin de liste mais juste après un robot nommé zeus. Pourquoi ? Il s'avère que certains noms de robots sont des expressions régulières, et doivent être en fin ou en début de liste. Donc je ne souhaite pas les perturber.

Voici les lignes contenant zeus et cplanet (aux alentours de la ligne 965) :

'zeus',
'cplanet',

Passons à la deuxième liste, qui commence aux alentours de la ligne 1000. Vers la ligne 1320, on peut lire le commentaire suivant : Other robots reported by users. Je suis donc à nouveau descendu jusqu'à retrouver zeus et j'ai ajouté de cette manière cplanet, juste en-dessous :

'cplanet','<a href="http://git.etoilebsd.net/cplanet/" title="A rss feed agregator that generate static html pages" target="_blank">CPlanet RSS agregator</a>',

J'ai donc créé un identifiant pour mon robot, qui est en fait une chaîne de caractères basée sur le User-agent, et ai ajouté un lien vers l'URL du robot pour savoir d'où il vient, ainsi qu'un texte descriptif, en anglais. Notez bien le format de séparation, et que la virgule à la fin est obligatoire.

Maintenant que notre fichier personnalisé est prêt, reste à le mettre en production :

root@vhost:/usr/pkg/awstats/cgi-bin/lib# rm -vf robots.pm && ln -sv robots.pm.custom robots.pm
robots.pm
robots.pm -> robots.pm.custom

Si jamais Awstats doit être mis à jour, celui-ci écrasera le lien symbolique. Il faudra donc vérifier (avec la commande diff par exemple) si le projet Awstats a mis à jour de son côté le fichier, et reporter nos modifications dans une copie du nouveau. Pensez d'ailleurs à proposer vos nouveaux robots sur le bug tracker d'Awstats sur Sourceforge