HTTP/1.0 Une marque supplémentaire des robots et proxies?
Voilà, inutile de me le dire, je sais bien que HTTP/1.0 et HTTP/1.1 sont au départ deux versions d’un protocole, HTTP/1.1 étant tout simplement plus récente que HTTP/1.0. Alors pourquoi donc un tel titre? Le fait est que la plupart des navigateurs récents envoient des requêtes HTTP/1.1 (jusqu’ici logique), mais pour des raisons qui m’échappent, beaucoup de bots (ou de proxies de temps en temps) semblent envoyer des requêtes HTTP/1.0 (en fait ce qui m’échappe le plus est de savoir pourquoi envoyer des requêtes HTTP/1.0 quand on a pris la peine de trafiquer le champ User-Agent pour qu’il ressemble à un navigateur ordinaire).
Lorsque l’on établit des blocages grace au .htaccess, le but est souvent de rendre les blocages les plus restrictifs possibles, c’est à dire qu’ils ne bloquent que les personnes, bots ou IPs que l’on veut bloquer. Cela peut être un robot qui visite à vitesse démesurée les pages de votre site (par exemple plus de 200 requêtes en très peu de temps), un robot spammeur, etc… Pour moi les buts principaux sont la protection des ressources (lorsqu’on a un trafic mensuel limité c’est normal), la protection contre les attaques visant à altérer le fonctionnement de mes sites ou à récupérer des mots de passe, ainsi que la protection contre le spam (commentaires, etc…).
J’envisage donc de rajouter à l’avenir dans mes règles de blocages (avec un “et logique” par rapport au règles déjà établies, il n’est pas question de bloquer plus mais au contraire de cibler plus), une vérification de la version de protocole HTTP employée (dans les cas où ça marche).
Voilà si quelqu’un a des liens utiles vers des ressources telles qu’une liste correspondant au protocoles utilisées selon le navigateur (et l’User-Agent), ou d’autres pages évoquant le lien (statistique seulement) entre HTTP/1.0 et bot plus probable, je suis preneur (y compris des liens vers des pages en anglais).
UPDATE (le même jour): Après quelques observations (supplémentaires), pour les proxies (ou proxies suspectés), ça semble être du 50/50 entre les deux versions (en gros), pour les accès direct avec un navigateur récent (ou ce qui y ressemble) ça semble être quasiment tout le temps du HTTP/1.1, et pour les robots et lecteurs de feeds, il y a une très forte proportion de HTTP/1.0… Comme je évoqué plus tôt le seul intérêt semble donc être de limiter les effets des bloquages (ex: si un bot se comporte mal avec votre site web et que ce bot n’utilise que HTTP/1.0, autant ne bloquer que ce protocole). Pour trouver qui/quoi bannir, le mieux semble être de regarder régulièrement ses logs (et éventuellement en plus de les analyser automatiquement pour réagir au plus vite).











Excellent billet ça mérrite réflexion et analyse.
Merci.