Stellungnahme zu den Routing-Problemen der letzten Tage

  • 03.09.2010
  • Support
  • keine Kommentare

Wir möchten uns bei allen unseren Kunden für die Erreichbarkeits-Probleme, die gestern zum zweiten Mal in dieser Woche aufgetreten sind, entschuldigen und Sie über die Hintergründe informieren.

In der Nacht vom Montag zum Dienstag, erfolgte ein geplantes Upgrade der Router-Software in Vorbereitung auf die parallele Einführung von IPv6. Trotz intensiver Vorbereitung mit unseren Router-Consultants (einschl. vorherigem Probelauf im Testlab) traten unerwartete Störungen im Routing auf, deren Ursache in Zusammenarbeit mit dem Hardware-Hersteller (Juniper), unseren Router-Consultants und Leitungsprovidern noch analysiert wird.

Als Sofortmaßnahme hatten wir etliche Peerings heruntergefahren und die Arbeiten zur Erweiterung auf IPv6 gestoppt um die Detailanalyse nicht zu beeinflussen.

Gestern, am 2. September kam es ab 16:00 Uhr zu erneuten Problemen auf den Core-Routern, die sich zuerst in einer außergewöhnlich hohen CPU-Auslastung der Router zeigten. In Zusammenarbeit mit sofort hinzugezogenen externen Routing-Spezialisten konnte die CPU-Last durch Deaktivierung nicht essentiell benötigter Dienste auf Normalniveau gesenkt werden.

Trotzdem traten bei beiden Anbindungen, Versatel und Lambdanet, massive Paketverluste auf. Dabei wurden ICMP- und UDP-Pakete korrekt geroutet, während aber abgehende TCP-Pakete außerhalb unseres Netzes zum Teil nicht durchgeroutet wurden. Dieses Problem trat hauptsächlich auf, wenn die Route über eine Hamburger Netzknoten lief, beim selben Carrier über Frankfurt trat dieses Problem nicht auf, was die Fehlereingrenzung zusätzlich erschwerte.

Durch das Herunterfahren weiterer Peerings und das Deaktivieren einzelner mehrfach redundanter Backbone-Devices konnte das Routing stabilisiert werden. Gegen 22:00 Uhr zeigten unsere Systeme wieder ein normales Routing-Verhalten an. Wir waren zeitgleich mit mehreren Kunden in regem E-Mail und Telefonkontakt und möchten uns an dieser Stelle für die vielfachen Hinweise und Problemdarstellungen aus Kundensicht bedanken.

Eine nun folgende Tiefenanalyse aller Vorgänge dieser Woche wird aufzeigen, welches Zusammenspiel einzelner Faktoren ursächlich für diese Probleme war. Die daraus gewonnenen Erkenntnisse bilden die Grundlage für die zukünftige Vermeidung einer solchen Situation.

Als weitere Sofortmaßnahme priorisieren wir die Erweiterung von Bestands-Domains auf einen 3. Nameserver, der sich in einem Düsseldorfer Hochleistungsrechenzentrum befindet. Darüber hinaus planen wir die Erweiterung des DNS-Systems um einen 4. Standort, voraussichtlich Amsterdam. Dies erhöht zusätzlich auch die Stabilität der Zonenverwaltung bei DOS-Attacken.

Wir versichern Ihnen, dass wir die Ereignisse der letzten Tage bis ins kleinste Detail analysieren werden und alle notwendigen Maßnahmen im administrativen und technischen Bereich unverzüglich ergreifen und umsetzen werden, damit sich diese Probleme nicht wiederholen.

Wir bitten um Entschuldigung und danken für das weitgehend von Ihnen erfahrene Verständnis.

Einen Kommentar schreiben

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>




* Pflichtfelder
  • Kategorien