Facebook Down? Blutbad nach wenigen Tagen möglich?

Die Normale Hosting Cloud

Gestern war eigentlich ein schöner Tag, bis sich die Admins von unseren Hosting Partner gemeldet haben mit der Info das meine Server zur Neuinstallation des Hostsystems abgeschaltet werden müssten weil andere Kunden wohl kein Internetzugriff hätten. Ein Skandal! Weil wir reden hier immerhin über deinen Deutschen Hoster für KVM-Server Systeme. Was bei einem Gameserver schon kritisch wird ist bei einen Domäne Server noch blöder. Diese Homepage war in den letzten Tagen auch Kurzfristig offline gegangen. Da ist der Hoster die 1und1 IONOS und 1und1 sollte eigentlich Qualität bieten. Gut die DSL Anschlüsse fallen schon mal gut und gerne aus, doch Server? Server stehen normalerweise in einem gut gesicherten Rechenzentrum und ihre Verbindungen sind über zig Wege hochredundant angebunden. Strom und Daten sollten also einen Ausfall verkraften, aber was ist mit den Mitarbeitern?

Würde es bei Facebook zum Ausfall kommen wo schlimmstenfalls noch Daten weg wären dann gebe es ein richtiges Blutbad! Doch kleinere Hosting unternehmen (Und ja, Hetzner ist recht klein im Vergleich zu Google und Facebook) doch stellen sich alle Internetunternehmen auf die gleiche Stufe was die Ansprüche nach Uptime angeht. Während die Uptime (also die Zeit die ein System im Jahr auf jeden Fall zu laufen hat) bei Facebook wirklich 100% beträgt liegt diese beim klassischen Hosting bei 99,9%. Auf das Jahr umgerechnet sind das etwa 2 Wochen die ein Server offline sein darf. Was ist aber wenn der Server kritische Infrastruktur beherbergen soll. Ein DNS-Server sollte immer Redundant sein doch gibt es einige die sich (obwohl möglich) nicht daran halten. Gut, die sind dann selber verantwortlich wenn ihre Homepages trotz laufenden Webservers nicht mehr erreichbar sind. Kleine und mittelständische Unternehmen (KMUs) die Active Directory extern auslagern tun das meistens bei Microsofts Azure Cloud Dienst. Untergrund Installationen gibt es allerdings auch, also jene die entweder auf gecrackte Software zurückgreifen oder eben die aus anderen Gründen unter dem Radar operieren wollen. Leute die solche Systeme betreiben wollen gehen dann wiederum auch nicht immer direkt zu den großen Hosting Providern sondern gehen über Reseller (Weiter Verkäufer) und beziehen eben dort ihre Systeme. Ein Reseller System läuft meistens auf eigen Dedizierten Servern, auf denen installiert der Provider dann einfach ein System zur Hardware-Virtualisierung (meistens Proxmox) und steuert dieses mit einen Verwaltungstool an. Und jenes ist mit der Onlineshop Software verbunden. Man fertigt also Kunden automatisch ab über Templates. Fertig installierte Basissysteme als Vorlage für neue virtuelle Server. Gibt es in dieser Vorlage ein Fehler dann streikt das Internet. Natürlich muss auch der Kunde eine korrekte Konfiguration bekommen. Das was jeder Kunde mindestens Wissen sollte sind einmal: Seine IP, die zugehörige Subnetzmaske (manchmal auch CDIR genannt) und das Gateway (die IP des Routers). Also genau so wie Zuhause. Zuhause hat man ein DHCP-Server der diese Infos von selbst übergibt. Doch leider ist das in einer Cloud basierenden Umgebung nur sehr schwer möglich. Natürlich könnte man die MAC Direkt zuordnen und so Statisch Reservierte IP,s den KVM,s der Kunden zuordnen aber machen tut das kaum jemand.

Die Super Clouds von Facebook, Microsoft, Google und Co!

Sollte Facebook ausfallen könnte es durchaus ein Blutbad geben. Na geil wäre das zumindest nicht. Facebook, Microsoft, Google und Co versprechen Uptime Rates von 100% doch wie ist das möglich? Erst mal nutzten solche großen Unternehmen wie Facebook Geo-Cluster, das bedeutet es existieren sowohl im Europa als auch in Nordamerika große Rechenzentren. Diese werden über eigene Glasfaserkabel untern Meer abgeglichen. Fällt eines der Rechenzentren (etwa Naturkatstrophe) vollständig aus kommt es zwar zu erhöhten Ping Zeiten (Es dauert länger bis man auf Facebook drauf kommt und Facebook wird langsamer) aber es geht noch alles wie gewohnt weiter. Auch sind innerhalb dieser Datenzentren alle Daten räumlich verteilt. Das geht sogar so weit das der Ausfall von einzahlenden Festplatten (RAID) keine Unterbrechung im Betreib bedeutet. Facebook und Google haben mit unter den größten Traffic im Netz. Traffic bedeutet die Menge Daten und somit die Größe des Datenstroms. Würde Facebook von der einen auf die andere Sekunde nicht mehr existieren, dann würde man es in fast jedem Netzwerk Operation Zentrum (Network Operation Center aka NOC) sofort merken. Etwa 10% aller Daten die der DE-CIX (der größte Internetknoten Weltweit) an Daten durchleitet sind Facebook Daten.

Facebook arbeitet nicht wie in konventionellen Sinne (Kleine Unternehmen und Privatleute) mit konvergenten Servern (Du hast also ein Server wo die Festplatten drinnen sind und alles liegt auf diesen Festplatten) sondern Facebook nutzt SAN-Netzwerke (Storage Area Network). Das sind also über Fiber Channel (Glasfaserkabel) angeschlossene Speichergeräte die dutzende von Festplatten in einen RAID Verbund beinhalten. Der Zugriff auf solche Systeme ist natürlich viel schneller als auf eine interne Festplatte und dass ist auch dringend nötig. Facebook hat schon mehrere Petabyte an Speicher belegt. Und man muss bedenken das Facebook ein Datengrab ist. Das bedeutet es wird so gut wie nie etwas gelöscht. Schaut man sich etwa das die Wohnzimmer Facebook Gruppe an, so werden dank der Livestreams Funktionen mehrere Terrabyte pro Stunde hochgeladen auf die Server von Facebook.

Facebook selbst verfügt aber auch über eine Hochmoderne Web Cache Infrastruktur. Auf die Server von Facebook hat man nicht direkt Zugriff sondern man landet wenn man auf facebook.com geht auf einen Proxy Server. Dieser stellt dann intern eine Verbindung zum eigentlichen Webserver her. Der Proxy speichert aber schon mal erst Mal den ganzen Statischen Content. Und Bilder die sehr Häufig abgerufen werden landen entweder auch im Proxy zwischen Speicher (Hot Storage) oder werden über ein CDN (Content Delivery Network) extern zwischen gespeichert. So ein CDN Netz (etwa Cloudflare) kann sich jeder holen.

So, jetzt Wisst ihr wieso Facebook so gut wie nie Offline ist. Die letzten Störungen sind übrigens durch menschliches Versagen aufgetreten. Facebook Administratoren haben einfach ein Patch nicht korrekt in das System eingespielt. Facebook nutzt intern übrigens BitTorrent um seine Server auf den neusten Stand zu halten. Und wenn man ein Fehlerhaftes Update in das System einspeist dann verteilt es sich durch die ganze Serverfarm über alle Datenzentren hinweg und kann so das System tatsächlich zum Stillstand bringen. Das wäre dann der einzige Weg Facebook zu zerstören. Das wird allerdings nie passieren weil die Datenzentren von Facebook sehr gut gegen unbefugten Zugriff geschützt sind. Um ein Update initialisieren zu können muss man sich schon im inneren eines der Rechenzentren befinden und vor allem dingen auch Zugang zum dedizierten Update Netzwerk haben. Das hält die Risiken sehr gering dass es jemanden gelingen sollte Facebook so zu killen!