Le 26 mai 2021 aux alentours de 17:00 (heure de Paris) toutes les plateformes myTuleap ont été impactées par une coupure d’environ 4h. L’incident est intervenu pendant une migration des données myTuleap vers un disque SAN. Nos équipes sécurité ont géré l’incident qui s’est résolue aux alentours de 20:30 (heure de Paris) le même jour. Aucune perte de données n’a été constatée, ni de conséquences graves. Les plateformes sont de nouveaux fonctionnelles à ce jour.
NB : myTuleap est notre offre dans le Cloud. En d’autres termes, c’est un accès complet à toutes les fonctionnalités de Tuleap Enterprise en mode SaaS. En savoir plus sur myTuleap
Contexte
Depuis plusieurs mois, nous approchons doucement de la limite de taille disque maximale sur myTuleap. En avril, nous avons testé les disques SAN de Scaleway qui se sont avérés avoir de meilleures performances que les disques locaux. Nous avons donc testé sur la pre-prod et décidé de migrer les données myTuleap sur un disque SAN. Le 25 mai, nous avons constaté que le disque était déjà quasiment plein, à 97% ; nous avons donc décidé d’accélérer la migration.
Timeline de l’incident du 26.05.2021
- Matin :
- Test de montage du disque et test de migration au fil de l’eau
- Échec du test (nécessité de redémarrer NFS, donc obligé de couper le service malgré tout)
- Communication sur une possible migration « totale » dans la soirée
- 15h50 : Suite accord migration à 19h, rollback du test « au fil de l’eau »
- Ce rollback a génèré une surcharge sur le NFS qui a perturbé le service sur certains platformes
- Plusieurs services étant coupés, décision d’en profiter pour remettre à plat et faire la migration
- 16h15 : Coupure de tous les services et lancement de la synchronisation des données
- 18h : Fin de la synchronisation (beaucoup plus longue que prévue) et désactivation de NFS et DRBD
- Reboot du serveur ds-001 afin de vérifier que DRBD ne redémarre plus (ce n’est plus nécessaire avec le SAN)
- Le serveur ne reboote plus, ouverture d’un ticket chez Scaleway + tests
- 19h25 : Confirmation que le serveur est mort (le troisième serveur perdu au reboot depuis le début de l’année)
- Remontage du disque SAN sur le serveur de secours ds-002 et désactivation de DRBD (sans test de reboot…)
- Remontage du NFS sur les nodes myTuleap
- 20h : Relancement des myTuleap : OK
- 20h30 : Supervision: OK
La suite
Le service est donc de nouveau 100% opérationnel après 4 heures d’interruptions sans pertes de données. Il s’agit d’ailleurs de la première interruption de service non prévue depuis le lancement de la nouvelle offre myTuleap au printemps 2017.
La sécurité des données est renforcée par l’utilisation de l’offre SAN Haute Disponibilité répliquée dans deux data center. De notre côté nous surveillons avec une attention toute particulière la santé des serveurs et avons commandé des serveurs en avance de phase pour parer l’épidémie de reboot fatals.
Au final, paradoxalement, le manque de fiabilité du matériel de ces derniers mois nous a permis d’être prêts pour une défaillance majeur.