Il y a un type spécial de frustration qui vient avec un problème de réseau que vous ne pouvez pas reproduire. Ce sont les problèmes qui ne se produisent que lorsque vous ne cherchez pas.
Au fil des ans, j’ai vu ma juste part de pépins, des pannes et des erreurs de configuration. Mais il y a toujours ce problème qui reste avec vous parce que c’est si étrange et si inattendu, cela ressemble presque à une farce. C’est le genre de problème qui n’apparaît pas dans un manuel ou un examen CERT, et aucune quantité de meilleures pratiques n’aurait pu vous préparer pour cela.
Une histoire vraie
Cela a commencé avec un billet d’une petite succursale: “Les utilisateurs ont lancé le VPN au hasard.” Ce n’était pas trop préoccupant au début, car nous avons tous vu notre juste part de préoccupations Wi-Fi feuilletées ou de baux DHCP erronés. Mais ensuite, il est devenu plus étranger. Ce n’était pas seulement le VPN. Les appels des équipes gèlent à mi-réunion, les fichiers n’économiseraient pas sur le lecteur partagé, et parfois tout le bureau déposerait tranquillement le réseau pendant une minute ou deux – puis reviendrait comme si rien ne s’était passé.
Nous avons tout vérifié. Le circuit WAN avait l’air propre. Latence et gigue? Minimal. Perte de paquets? Zéro. Les commutateurs étaient sains. Les journaux de pare-feu n’ont rien montré de bizarre. Le site avait une configuration de Meraki, afin que je puisse même vérifier les cartes de chaleur, les journaux d’événements et les histoires des clients, et je n’ai toujours rien trouvé.
Un jour de problèmes pourrait être un coup de chance. Mais cela a continué. Pas tous les jours, mais assez souvent pour que les gens aient commencé à demander: “Notre Internet est-il hanté?” Finalement, j’ai fait ce que chaque ingénieur redoute: j’ai réservé une visite du site.
Dès que je suis entré dans la salle du serveur, je savais que quelque chose était éteint. Tout d’abord, il faisait chaud – inconfortablement chaud. Les niveaux de fusion du centre de données pas complet, mais certainement plus chauds qu’ils n’auraient dû l’être. J’ai vérifié le CA de la pièce, et ça fonctionnait, en quelque sorte.
Ensuite, je me suis tourné pour regarder l’équipement du réseau, et je l’ai vu. Là, branché sur les mêmes UPS que le commutateur de base et le pare-feu, était un mini-réfrigérateur. Oui, un mini-réfrigérateur. Apparemment, quelqu’un au bureau avait décidé que la salle des serveurs était un bon endroit pour garder ses Red Bulls froids. Chaque fois que le compresseur du réfrigérateur se lançait, il a tiré juste assez de puissance de surtension pour mourir momentanément de l’autre équipement sur le circuit. Ce n’était pas suffisant pour redémarrer quoi que ce soit, mais suffisamment pour provoquer des micro-bruns qui abandonneraient les connexions ou les flux de données de décrochage, ce qui était juste assez de chaos pour causer des problèmes “fantômes”.
Cela avait du sens avec le recul. Le problème était sporadique parce que le réfrigérateur ne faisait pas toujours de vélo. Cela explique pourquoi nos journaux n’ont jamais montré de défaillances propres et pourquoi le problème était si difficile à cerner. Le matériel n’a jamais réellement perdu de l’énergie, il a simplement plongé dans un état instable pendant quelques secondes. Inutile de dire que le réfrigérateur a été expulsé. Nous avons eu un vendeur pour exécuter une ligne électrique propre pour le rack, et juste comme ça, les “problèmes fantômes” ont disparu.
À ce jour, quand quelqu’un se plaint d’un réseau qui “agit bizarre”, je me demande toujours: qu’est-ce qui partage d’autre cette source d’alimentation? Parce que parfois, votre plus grand ennemi réseau n’est pas un routeur erroné, c’est quelqu’un qui essaie de garder son déjeuner à côté de votre pare-feu.
