FAQ : La science délicate et (pas si) subtile de la haute disponibilité en 6 questions

24/03/2022
Hébergement

Bien qu’il ne s’agisse plus d’un concept tout neuf, beaucoup de mythes, d’idées reçues et d’incompréhensions persistent autour de la haute disponibilité. Notamment parce qu’il s’agit d’un exercice dont la nature exigeante, voire contraignante, vient se fracasser contre les promesses de souplesse et de simplicité du cloud. Autrement dit, la haute disponibilité a été malmenée voire ringardisée par des Pure Player ou des acteurs du cloud très centrés sur le développement et assez peu sur les infrastructures. Et ce ne serait pas très grave si cela ne conduisait pas certaines entreprises à prendre des décisions qui les mènent tout droit vers des scénarios dramatiques.

Comme il s’agit de notre cœur d’activité, voici nos modestes réponses à quelques questions fréquentes, ou que vous n’osiez peut-être pas poser, à propos de la haute disponibilité. Peut-être que vous ne vous les êtes même jamais posées, mais voici les réponses quand même.

Qu’est-ce que c’est la haute disponibilité au juste ?

La haute disponibilité consiste à anticiper le plus de problèmes possibles pour limiter les risques qu’un site ou une application subisse un ralentissement ou une indisponibilité. Ces problèmes sont généralement d’ordre matériels, environnementaux ou humains. Il s’agit bien de limiter tous ces facteurs de risques, pas de les supprimer, parce que le risque zéro n’existe pas. Si un prestataire vous promet 100% de disponibilité, il vous ment.

Est-ce que la haute disponibilité garantit les performances ?

Absolument pas, ce sont deux sujets totalement différents. Vous pouvez avoir un site qui tient bien la route mais avec des performances minables et inversement. D’expérience, nous avons constaté qu’il s’agit d’une confusion récurrente, notamment chez les développeurs qui ont codé des bêtes de courses, avec des temps de réponse rapides comme l’éclair. La rapidité d’accès à l’information ou aux données ne garantit en rien leur disponibilité. 

C’est pas un peu superflu la haute disponibilité ? 

Toutes les entreprises n’ont pas besoin de haute disponibilité. En revanche, pour certaines entreprises, la disponibilité des sites et applications web a un impact immédiat sur leur business, leur notoriété ou l’expérience utilisateur. C’est précisément pour ces entreprises que la haute disponibilité est indispensable. Pour toutes les autres, c’est effectivement un luxe. Autrement dit (et là, on imagine déjà le visage de notre équipe commerciale se décomposer en lisant la phrase suivante) toutes les entreprises n’ont pas pour vocation à être clientes chez nous.

Est-ce qu’on peut faire de la haute disponibilité sans passer par de l’infogérance ?

Oui, mais c’est plus compliqué. L’un des principes fondateurs de la haute disponibilité, c’est la redondance. Le concept n’a rien de compliqué, mais sa mise en œuvre est une autre paire de manches. D’autant qu’il existe plusieurs types de redondance, chacune avec un niveau de complexité différent : 

  • La N+1, c’est-à-dire une redondance sur un autre serveur situé sur le même site, assez risquée en cas d’accident environnemental 
  • La N+N, aussi appelée redondance multi-site, beaucoup plus sûre mais qui suppose de mettre en place les outils nécessaires pour faire communiquer deux sites distants

Il est tout à fait envisageable pour une entreprise de gérer la préparation, la mise en œuvre et le maintien en conditions opérationnelles toute seule. Mais cela demande beaucoup de temps, du savoir-faire avec des compétences pointues… et des nerfs d’aciers en cas de défaillance.

J’ai déjà un PRA ou PCA, est-ce que ça fait l’affaire ?

C’est un très bon début. Mais le deuxième principe fondateur de haute disponibilité, en plus de la redondance (si vous avez bien suivi), c’est de faire systématiquement ce qu’on appelle de manière très très experte “ceinture-bretelles”. C’est-à-dire préparer un plan de secours béton en envisageant tous les (pires) cas de figure possibles et imaginables. Un exemple que nous utilisons souvent est celui de la panne d’électricité dans un datacenter. Pour parer à cette éventualité, les onduleurs constituent un bon plan de secours. Mais si l’onduleur ne marche pas ou qu’il arrive à bout de son autonomie (en général ça tient une quinzaine de minutes), il faut aussi prévoir un générateur électrique.

La haute disponibilité c’est considérer que la loi de Murphy peut s’appliquer à n’importe quel moment. 

Comme je suis chez un gros hébergeur, je suis à l’abri d’une panne. Pas vrai ?

Okay, voilà LE gros morceau de cet article. Vous avez peut-être déjà entendu dire, ou dit vous-même : 

“Non mais attends, avec un hébergeur comme ça, qui a des grosses infrastructures partout, c’est IMPOSSIBLE que ça plante du jour au lendemain. Sinon il n’y aurait pas autant de monde chez eux”  

Premièrement non, votre site n’est pas à l’abri d’une panne ou d’une perte de données parce que vous êtes chez un gros acteur. Deuxièmement, c’est possible de bénéficier de haute disponibilité chez un gros hébergeur, mais il faut y mettre le prix. En revanche, choisir un gros hébergeur, uniquement parce qu’il est gros, en espérant que son site ou son application ne tombera pas, c’est tomber dans ce qu’on appelle le “biais du survivant”.

Ce biais est souvent illustré par une anecdote assez prisée des pseudo-influenceurs sur LinkedIn. Pendant la seconde guerre mondiale, le statisticien Abraham Wald reçoit un schéma montrant les zones d’impacts et dommages subis par les avions, bombardiers et aéronefs revenus à la base. Ils sont globalement tous touchés au même endroit. La préconisation est donc de renforcer ces zones endommagées sur les futurs avions. Mais Wald n’est pas de cet avis, il préconise de blinder toutes les zones qui n’ont pas été touchées. Son raisonnement est le suivant : malgré ces dégâts, ces avions ont quand même réussi à rentrer de mission. Pour savoir quelles parties renforcer, il faudrait plutôt observer les avions qui se sont écrasés et qui ne sont pas revenus. Et statistiquement, il y avait de plus grandes chances que les avions disparus aient été touchés sur les zones restées intactes des avions rentrés de mission.

Et en matière d’hébergement, les exemples d’avions écrasés de la haute disponibilité (voire de la disponibilité tout court) ne manquent pas. Récemment, un incendie chez OVH a entraîné l’indisponibilité de plusieurs sites, tous secteurs confondus : médias, e‑commerçants et d’autres entreprises dont la bonne santé économique dépend d’une présence web sans faille. Il ne s’agissait pas d’une interruption de service de quelques minutes ou quelques heures, mais de plusieurs jours pour certains. Sans compter les entreprises qui avaient pris quelques précautions en mettant en place une redondance N+1 avec sauvegarde des données sur le même datacenter. Comme c’est tout le site qui est parti en fumée, ces dernières ont tout perdu. Loin de nous l’envie de tirer sur l’ambulance, OVH fait du bon travail, mais cela illustre bien que le facteur risque est tout aussi grand et présent chez les leaders du marché de l’hébergement. 

Plus récemment, c’est une panne de Fastly qui a créé une indisponibilité de plusieurs sites à l’échelle mondiale. Et Fastly n’est même pas un hébergeur au sens strict du terme, mais une entreprise de distribution de contenus (CDN). Cette panne pose aussi d’autres questions, mais c’est un autre sujet.

La haute disponibilité vous tient à cœur autant qu’elle nous est chère ? Vous pouvez :