Pics de trafic subis : comment anticiper l’imprévisible ?
Par définition, les pics de trafic subis n’ont pas la politesse de prévenir avant de frapper. Que leur cause soit accidentelle (une exposition médiatique non prévue) ou intentionnelle (une attaque malveillante), leur nature imprévisible les rend difficiles à anticiper. Résultat, faute de préparation, les sites ou applications ont tendance à systématiquement tomber. Mais est-ce une fatalité pour autant ? Même si aucune solution miracle n’existe, vous pouvez prendre quelques précautions pour éviter le pire ou au moins minimiser son impact.
Si vous regardez Les Griffins (Family Guy en VO), peut-être vous souvenez-vous de cet épisode dans lequel Stewie, pour se faire pardonner, accorde le droit à Brian de le frapper une fois. Sauf que Brian prend un malin plaisir à retarder le plus possible l’échéance fatidique, faisant vivre l’enfer de l’expectative à Stewie. Finalement, c’est au moment où Stewie s’y attend le moins que Brian le gratifie d’un coup pour le moins… très douloureux. C’est un peu la même histoire avec les pics de trafic subis.
De par leur nature complètement imprévisible, les pics de trafics subis ont tendance à créer une double frustration en entreprise (et notamment pour les personnes en charge des infrastructures). Premièrement la dimension quasi-inévitable de l’interruption de service qui force l’équipe informatique à intervenir en urgence pour résoudre le problème. Et deuxièmement, le fait de vivre dans la crainte que ces pics de trafic ne se présentent. Or, pour apporter une réponse appropriée aux pics de trafic, il est préférable d’en connaître l’origine. Il est donc impossible de s’en prémunir totalement. Vous pouvez néanmoins préparer un minimum votre plateforme pour éviter qu’elle ne tombe dès le début du pic et ainsi vous laisser le temps d’agir pour sauver les meubles en attendant la fin de la vague.
Pas de magie, juste une bonne préparation
Nous répétons assez souvent qu’en matière d’infrastructures, il vaut mieux investir équitablement entre les humains et les machines. Le jour où vous serez confronté à un problème, un humain cherchera et trouvera une solution, pas la machine. Les pics de trafic subis sont justement des cas d’école où investir dans l’humain se révèle plus précieux que l’investissement matériel ou logiciel. À notre connaissance, il n’existe aucune solution miracle pour absorber ces hausses soudaines de charge. Pour les adresser vous devrez donc vous armer d’une bonne dose de culture infra (ou la déléguer) parce que, comme on dit vulgairement, vous ne pourrez pas échapper à mettre les mains dedans.
Par mesure de précaution, nous pouvons également vous conseiller de prévoir une documentation claire et accessible si le responsable des infrastructures n’est pas présent au moment où le pic se produit. Dans cette documentation vous devez indiquer les actions à réaliser en cas de montée en charge non prévue comme :
- Démarrer les composants scalables sur davantage de serveurs
- Ajouter de la puissance de calcul sur les autres composants
- Activer les systèmes de filtrage qui peuvent être simples (comme activer le mode Under Attack de Cloudflare si vous êtes utilisateur) ou plus radicaux (demander de remplir un captcha pour chaque nouvelle tentative de connexion)
Quand il s’agit de pics de trafics subis, nous distinguons deux cas de figure qui nécessitent des préparations différentes.
Anticiper le trafic légitime
Il s’agit des pics provoqués par une exposition médiatique non prévue ou du lancement d’une campagne marketing dont les responsables techniques n’auraient pas eu vent.
Pour y préparer votre plateforme, la démarche est exactement la même que pour les pics de trafic prévisibles. Nous n’allons pas détailler la marche à suivre ici puisque nous l’avons déjà fait dans l’article “Guide : comment lutter contre les pics de trafic prévisibles ?” dans la section “Anticipez comme jamais”.
Autant d’actions qui doivent être cohérentes avec votre politique de sécurité et vos plans de reprise d’activité.
Prévenir le trafic non légitime
Ces pics proviennent d’une démarche malveillante, les fameuses attaques DDoS. Ces attaques ont beau être vieilles comme le monde, elles n’en restent pas moins très fréquentes : en moyenne 106 attaques par jour sur le troisième trimestre 2020 et elles deviennent de plus en plus violentes. Fin octobre 2020, Google révélait avoir été la cible d’une attaque DDoS sans précédent en 2017. Cette dernière a duré 6 mois avec une pointe de trafic atteignant les 2,5 Tb/s.
Il y a assez peu de chance pour que vous soyez la cible d’une attaque aussi violente (sauf si vous déclenchez un incident diplomatique avec un État et que ce dernier vous veut du mal). À votre échelle, pour prévenir ces pics de trafic non légitime, là non plus pas de recette miracle mais un peu de bon sens. Cela passe essentiellement par la mise en place d’un système de filtrage pour lequel vous définirez un ensemble de règles qui vous paraîtront adaptées à votre plateforme. De plus en plus, le filtrage s’effectue côté réseau mais vous pouvez l’appliquer à différents niveaux. Il n’existe pas une règle universelle qui s’appliquerait pour tout le monde il s‘agit vraiment de cas par cas selon les plateformes.
Préparez-vous à intervenir
Si vous êtes victime d’un pic de trafic que vous n’aviez pas prévu, vous allez être obligés d’intervenir dans l’urgence. Toute la préparation que vous aurez effectuée en amont ne vous servira qu’à gagner un peu de temps pour résoudre le problème. Pour cela, vous pouvez intervenir à plusieurs niveaux.
Le premier niveau d’intervention est à cheval entre l’anticipation et la réaction puisque vous devez le préparer avant le pic et le déployer pendant le pic. Il s’agit de développer une landing page en cas d’erreur 500 ou 503 sur votre site. Utilisez cette landing page comme espace de créativité (avec un message et un design bien travaillés par exemple) ou comme vecteur de génération de leads si l’indisponibilité de votre site web ou application rime avec une perte de chiffre d’affaires.
Ensuite, vous devez analyser le pic de trafic pour déterminer si celui-ci est légitime ou non, car l’objectif de l’intervention ne sera pas la même. Respectivement, vous devrez soit rétablir le service le plus vite possible, soit détourner ce trafic de votre site ou application.
Si vous constatez que ce pic est légitime, vous devez identifier le composant défectueux de la chaîne pour le booster. Il peut s’agir de l’infrastructure, de l’architecture ou de votre code. En fonction du facteur limitant la réponse peut être infra (ajout de ressources et puissance de calcul) ou logicielle.
En cas de pic non légitime, tout l’enjeu consistera à dévier le trafic pour qu’il n’arrive pas jusqu’au site ou l’application. Ne cherchez pas à suivre le rythme ou absorber toutes les requêtes. C’est là que le filtrage réseau ou infrastructure entre en jeu. Il suffira d’appliquer les règles de filtrage définies en amont.
L’imprévisibilité de ces pics vous conduit à intervenir dans l’urgence. Et dans l’urgence, il est souvent difficile de faire de la magie. Ici il s’agit moins de conseils pratiques que d’une description de la marche à suivre pour intervenir en mode “pompier”. Tout l’enjeu consiste à laisser passer la vague pour en tirer les enseignements et apporter les modifications nécessaires à votre plateforme. C’est aussi la raison pour laquelle vous devez, en plus d’intervenir sur votre plateforme, récolter les données qui vous permettront de prendre des décisions pertinentes. Les outils New Relic et Datadog sont particulièrement pratiques dans cette optique.
Le mensonge du risque zéro
Le risque zéro n’existe et ceux qui vous le promettent sont en train de vous mentir éhontément. Même pour nous, qui nous revendiquons comme acteurs de la haute disponibilité, nous ne garantirons jamais 100% de taux de disponibilité sur nos plateformes (à l’heure où nous écrivons ces lignes en tous cas).
C’est précisément la raison pour laquelle nous avons fait le choix d’investir dans des humains compétents au lieu de tout miser sur l’automatisation à outrance. Premièrement parce que l’humain cherchera toujours une solution en cas de problème et deuxièmement, parce qu’un outil d’automatisation créé par une personne qui n’a que très de connaissances en infrastructures, fera les mêmes bêtises qu’un humain peu compétent en infrastructures. Les solutions d’auto-scaling des acteurs du cloud en sont l’exemple le plus parlant. C’est pourquoi, à notre sens, le débat censé mettre en opposition les humains et la technologie, pour les sujets cloud, est aussi stérile que mal venu.
Cette opposition et cette fausse promesse sont d’autant plus problématiques quand elles conduisent les entreprises à des situations très inconfortables. Nous pensons notamment au cas des agences web. Nous travaillons avec plusieurs d’entre elles et avant d’arriver chez nous, l’histoire est presque toujours la même. Avec des équipes web constituées quasi-exclusivement de développeurs, travailler avec un grand nom de l’hébergement rassure et les promesses de l’auto-scaling sont séduisantes. Elles finissent donc par prendre un serveur unique, chez un acteur connu de l’hébergement, en mutualisant tous leurs clients dessus. Mais si ces agences hébergent 200 sites sur ce serveur et que l’un d’entre eux est la cible d’une attaque malveillante, c’est tout le serveur qui est automatiquement coupé. Et ce n’est qu’un exemple parmi d’autres. Mais un infogéreur est plus facilement en capacité d’isoler le problème. Parce qu’un humain aura compris ce qui se passait.
Encore plus que pour les pics de trafic prévisibles, les pics de trafic subis sont avant tout une question d’arbitrage. À savoir : prendre le risque de gérer la (ou les) crise(s) vous-même, recruter des humains capables de les gérer en interne ou déléguer tout ou partie de vos infrastructures et les problématiques associées.
Vous n’avez pas de boule de cristal ? Nous non plus. Mais on peut vous aider à anticiper l’imprévisible.
La clé ? Des solutions adaptées, et des expertises variées. Tous les détails ici sur nos offres d'hébergement haute disponibilité.