Nouvelle plaie de l’hébergement de sites web, les robots d’indexation sauvage d’images et contenus..
Depuis quelques mois nous sommes contactés par des clients dont les serveurs sont soumis à des charges non reliées à des pics de visiteurs « humains »
En consultant les logs des serveurs, on s’aperçoit de quantités faramineuses de requètes issues d’un robot « ByteDance », qui crawle l’intégralité des sites sans ménagement… ( sur l’un des cas, plus de 237 000 requètes en quelques heures, pour un petit site e-commerce contenant beaucoup d’images de produits)
Résultats : des lenteurs, des surcharges, des plantages, qui pénalisent le trafic légitime sans aucun gain pour l’éditeur du site.
Voici un exemple de directives à placer au début d’un fichier .htaccess (pour Apache) afin de bloquer quelques robots dont l’utilité est plus que discutable…
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^.*(Bytespider|bytedance|Amazonbot).*$ [NC]
RewriteRule .* – [F,L]
Le serveur répondra immédiatement une erreur 403, sans solliciter votre CMS et donc votre base de données. Un gain appréciable en ressources !
Laisser un commentaire