Nicht-Techniker könnten bei „Ausfallzeiten“ sehnsüchtig an Urlaub denken. Doch für Technologie-Profis ist Downtime ein Schimpfwort – und das zu Recht. Netzwerkausfälle bedeuten einen schlechten Tag im Büro.
Netzwerkausfälle bedeuten unzufriedene Kunden, einbrechende Produktivität und weitere Probleme. Und wenn es um kundenorientierte Anwendungen wie eine Website geht, sind Ausfälle teuer: Netzwerkausfälle kosten größere Unternehmen ungefähr 9.000 $ pro Minute.
Und während Ausfallzeiten allen Unternehmen – unabhängig von Branche und Größe – schaden können, sind sie in bestimmten Industrien besonders problematisch. Ein Einzelhandelsunternehmen kann durch 1,1 Millionen $ pro Stunde Ausfallzeit verlieren.
Fazit: Ausfallzeiten sind schlecht.
Reduzieren und Verhindern von Ausfallzeiten dagegen ist gut – ja, sogar unverzichtbar, denn selbst kleinere Netzwerkausfälle können sich negativ auf das Ergebnis auswirken und Kollateralschäden wie Reputationsverluste verursachen.
In diesem Artikel definieren wir das Problem und was zu dessen Lösung erforderlich ist – einschließlich eines 13-Stufen-Rahmens für die Entwicklung Ihres eigenen Plans zur Reduzierung von Netzwerkausfällen. Zunächst hilft eine einfache Definition als Grundlage.
Was sind Netzwerkausfälle?
Netzwerkausfälle beziehen sich darauf, dass ein Teil oder ein gesamtes IT-Netzwerk nicht verfügbar wird. Dadurch werden beispielsweise Websites oder interne Anwendungen wie ein ERP-System für eine gewisse Zeitspanne unzugänglich.
Ausfallzeiten lassen sich im Allgemeinen in zwei große Kategorien unterteilen: geplant und ungeplant. Geplante Ausfälle sind genau das: Sie finden absichtlich und terminiert statt, in der Regel für Routinewartungen, Systemupgrades oder die Migration einer Anwendung.
Wenn wir sagen, Netzwerkausfälle seien schlecht, meinen wir eigentlich ungeplante Ausfälle – also wenn das Netzwerk unerwartet aus den unterschiedlichsten Gründen ausfällt. Die Ursachen können vielfältig sein: von Infrastrukturproblemen über Softwarefehler oder menschliches Versagen bis hin zu Cyberangriffen.
Was – und wer – wird benötigt, um Netzwerkausfälle zu minimieren?
Angesichts der quantitativen und qualitativen Kosten lohnt es sich, auch seltene Ausfälle anzugehen. Und wenn aus „selten“ eher „häufig“ wird, ist es Zeit, das Problem mit größerer Dringlichkeit zu lösen.

Eine Mischung aus Menschen, Prozessen, Dokumentation und Tools sollte zunächst organisiert werden, sagt Viacheslav Petrenko, Chief Technology Officer beim Softwareentwicklungsunternehmen LITSLINK.
Petrenko hat seine Empfehlungen zu den wichtigsten Punkten, die Sie klären sollten, bevor Sie eine Initiative zur Minimierung von Netzwerkausfällen starten, geteilt. Diese können sowohl vorausschauend als auch rückblickend sein. Sie umfassen:
Dokumentation
Petrenko empfiehlt, Netzwerktopologiediagramme, Incident-Reports, Service-Level-Agreements (SLAs) und Änderungsprotokolle als grundlegende Dokumentation zu sammeln.
Auch alle anderen organisations- oder netzwerkspezifischen Dokumente, die relevant sind, sollte man griffbereit halten.
Prozesse
Es gibt mehrere Prozesse, deren Analyse – oder gegebenenfalls Einführung – Experten im Rahmen einer Netzwerkverfügbarkeitsinitiative empfehlen. Dazu gehören:
Root Cause Analysis (RCA) Protokoll: Dies ist ein grundlegender Prozess zur Reduzierung von Netzwerkausfällen, da er darauf abzielt, die tatsächliche(n) Ursache(n) des Problems zu identifizieren. Root Cause Analysis „garantiert eine gründliche Untersuchung jedes Ausfallereignisses, um Wiederholungen zu verhindern“, sagt Petrenko.
Mehr dazu: 5 Root Cause Analysis Tools für besseres Testing & QA
Change-Management-Prozess: Minimiert Risiken, indem alle Netzwerkänderungen sorgfältig gesteuert und dokumentiert werden. Achtung: Ausgewogenheit zwischen Gründlichkeit und Agilität ist notwendig, um Engpässe zu vermeiden.
Disaster-Recovery- und Business-Continuity-Pläne: Jede Initiative zur Reduzierung von Ausfallzeiten sollte auf den übergeordneten Plänen der Organisation zur Resilienz bei größeren betrieblichen Unterbrechungen basieren – und diese wiederum auf die Reduzierung von Netzwerkausfällen abgestimmt werden.
Mehr dazu: Die 25 besten Disaster-Recovery-Services entschlüsselt
Netzwerkwartungsplan: Proaktive Wartung – die manchmal geplante Ausfälle einschließt – „hilft, Probleme durch regelmäßiges Aktualisieren und Optimieren der Netzwerkkkomponenten zu verhindern“, sagt Petrenko.
Menschen
Praktisch alle in einer Organisation sind auf das Netzwerk angewiesen, aber das bedeutet nicht, dass alle an der Optimierung von dessen Leistung und Zuverlässigkeit beteiligt sein müssen. Petrenko nennt die folgenden Rollen als wichtig, die in den Prozess einbezogen werden sollten. Beachten Sie, dass genaue Berufsbezeichnungen von Unternehmen zu Unternehmen variieren können.
Netzwerktechniker: Selbstverständlich müssen die Fachkräfte, die Ihre Netzwerkinfrastruktur implementieren und warten, Teil des Prozesses sein.
Systemadministratoren: Ebenso sollten die Personen eingebunden werden, die die Server (und andere Infrastruktur) sowie Anwendungen verwalten, die auf das Netzwerk angewiesen sind. Verwandte Jobtitel sind hier etwa DevOps Engineer, Site Reliability Engineer und Infrastruktur-Ingenieur.
Sicherheitsexperten: Die Einbindung Ihres Sicherheitspersonals hilft dabei, „die Netzwerksicherheit zu gewährleisten und Ausfallzeiten durch Angriffe oder Sicherheitslücken zu vermeiden“, sagt Petrenko.
Datenanalysten: Wie aus der oben genannten Dokumentation ersichtlich, erfordert die Optimierung eines Netzwerks die Analyse großer Mengen an Leistungsdaten und anderen Informationen. Sie benötigen Menschen mit den Fähigkeiten, diese Daten zu interpretieren und daraus Verbesserungsansätze abzuleiten.
Projektmanager: Insbesondere in großen Unternehmen benötigen Sie möglicherweise jemanden, der die Zusammenarbeit über Teams hinweg koordiniert und die Termine im Blick behält.
Tools
Wir gehen weiter unten noch detailliert auf Tools zur Verringerung von Netzwerkausfallzeiten ein, aber es sei schon jetzt gesagt, dass Sie verschiedene benötigen – mit besonderem Fokus (aber nicht ausschließlich) auf Monitoring, Protokollierung, Testen und Planung. Zu den speziellen Kategorien zählen:
Netzwerk-Monitoring-Software: Probleme lassen sich nicht lösen, wenn man nichts von ihnen weiß. Diese Tools stellen eine Echtzeitüberwachung Ihres Netzwerks und seiner Leistung sicher und können bei potenziellen Problemen Benachrichtigungen erzeugen.
Konfigurationsmanagement-Tools: Konfigurationsmanagement-Tools können Änderungen an der Netzwerkinfrastruktur und den Geräten automatisieren und nachverfolgen. Petrenko weist darauf hin, dass dies das Risiko menschlicher Fehler bei Änderungen senken kann.
Log-Management-Software und Log-Analyse-Tools: Protokollierung ist ein entscheidender Weg, um Basis-Muster und das „normale“ Verhalten im Netzwerk festzulegen – und dann ungewöhnliche Aktivitäten zu erkennen, bevor sie womöglich einen Ausfall verursachen.
Automatisierte Testtools: Die Automatisierung von Test- und Qualitätskontrollmaßnahmen hilft, Probleme schneller zu erkennen und reduziert zudem den erforderlichen personellen Aufwand.
Kapazitätsplanungs-Software: Kapazitätsplanung – oft eine Funktion von Netzwerküberwachungstools – hilft, zukünftige Netzwerkanforderungen vorherzusagen und Ausfallzeiten durch Überlastung zu vermeiden. Petrenko merkt an, dass hierfür präzise Dateneingaben und regelmäßige Aktualisierungen erforderlich sind, um wirksam zu bleiben.
-
NinjaOne
Visit WebsiteThis is an aggregated rating for this tool including ratings from Crozdesk users and ratings from other sites.4.8 -
SuperOps
Visit WebsiteThis is an aggregated rating for this tool including ratings from Crozdesk users and ratings from other sites.4.6 -
ManageEngine OpManager
Visit WebsiteThis is an aggregated rating for this tool including ratings from Crozdesk users and ratings from other sites.4.3
Netzwerkausfallzeiten in 13 Schritten reduzieren
Und was fangen Sie nun mit all dem oben Genannten an? Wir helfen Ihnen weiter: Petrenko hat mit uns einen 13-Schritte-Aktionsplan geteilt, mit dem Sie eine eigene Strategie entwickeln können – angepasst an die spezifischen Merkmale und Zielsetzungen Ihres Unternehmens und Netzwerks.
Los geht’s:
- Aktuellen Stand analysieren: Hier sammeln, ordnen und analysieren Sie alle oben besprochenen Komponenten, inklusive Dokumentation und weiterer relevanter Daten.
Petrenkos Tipp: „Ziehen Sie externe Berater für eine neutrale Perspektive hinzu, aber stellen Sie sicher, dass alle internen Stakeholder einbezogen werden, um ein umfassendes Bild zu erhalten.“
- Ziele definieren: „Ausfallzeiten reduzieren“ ist ein gutes Oberziel, aber unterteilen Sie es in spezifischere Ziele für die Netzwerkperformance.
Petrenkos Tipp: „Diese Ziele sollten ehrgeizig, aber realistisch sein und sowohl Branchenstandards als auch spezifische geschäftliche Anforderungen berücksichtigen.“
- Team zusammenstellen: Stellen Sie ein funktionsübergreifendes Team mit den nötigen Kompetenzen, Kenntnissen und Entscheidungsbefugnissen auf, um Ergebnisse zu erzielen.
Petrenkos Tipp: „Vermeiden Sie Silos und schaffen Sie gute Kommunikationskanäle zwischen allen Teammitgliedern.
- Monitoring-Tools implementieren: Umfassende Netzwerküberwachungs- und Analysetools sind entscheidend für jede Initiative zur Steigerung der Netzwerkverfügbarkeit.
Petrenkos Tipp: „Sie müssen zwischen On-Premises-, Cloud-basierten oder hybriden Lösungen entscheiden – abhängig von Ihrer Infrastruktur.“
- Legen Sie Ihre wichtigsten Kennzahlen & Ausgangswerte fest: Sie können keine Fortschritte in Richtung eines Ziels machen, wenn Sie nicht wissen, wo Sie angefangen haben.
Petrenkos Rat: „Messen Sie die aktuelle Leistung, um einen Ausgangspunkt für Verbesserungen festzulegen. Es ist entscheidend, dass diese Kennzahlen konsistent und relevant für Ihre definierten Ziele sind.“
- Ermitteln & priorisieren Sie kritische Probleme: Abhängig vom aktuellen Zustand Ihres Netzwerks ist es unwahrscheinlich, dass Sie alle zugrunde liegenden Probleme auf einmal lösen können. Priorisieren Sie daher die wichtigsten Ursachen für Ausfallzeiten. „Wichtigkeit“ kann dabei ganzheitlich anhand Ihrer Unternehmensziele verstanden werden, wie Petrenko unten erläutert.
Petrenkos Rat: „Berücksichtigen Sie bei der Priorisierung sowohl die Häufigkeit als auch die Auswirkungen der Probleme.“
- Erweitern Sie Ihre Strategie: Entwickeln Sie einen detaillierten Plan zur Behebung aller erkannten Probleme (sobald die prioritären Punkte angegangen wurden), einschließlich Zeitplänen und Ressourcenallokation.
Petrenkos Rat: „Versuchen Sie nicht, alles auf einmal zu beheben – priorisieren Sie nach Einfluss und Umsetzbarkeit.“
- Entwickeln Sie Redundanz- und Failover-Systeme: Redundanz in kritischen Netzwerkelementen und automatisierte Failover-Prozesse sind zentrale Bestandteile einer langfristigen Strategie für Netzwerkleistung und -resilienz.
Petrenkos Rat: „Dazu können redundante Hardware, Multi-Path-Netzwerkdesigns oder Cloud-basierte Failover-Systeme zählen. Achten Sie darauf, dass Ihre Redundanz keine unnötige Komplexität schafft, die selbst zur Fehlerquelle werden könnte.“
- Setzen Sie Veränderungen um: Jetzt ist die Zeit für die Umsetzung, beginnend mit den priorisierten Maßnahmen.
Petrenkos Rat: „Stellen Sie sicher, dass Sie Change-Management-Prozesse befolgen, um das Risiko neuer Probleme zu minimieren.“
- Überwachen und Anpassen: Kein Plan läuft jemals perfekt, daher sollten Sie bereit sein, sie während der Umsetzung anzupassen.
Petrenkos Rat: „Verfolgen Sie die Leistungskennzahlen kontinuierlich und passen Sie den Plan bei Bedarf an. Sie könnten automatische Alarme einsetzen, um schnell auf neue Probleme reagieren zu können.“
- Regelmäßige Weiterbildung durchführen: Jede groß angelegte Initiative zur Verringerung von Ausfallzeiten wird es mit sich bringen, dass Mitarbeiter neue Technologien und Prozesse erlernen müssen. Erwarten Sie nicht, dass das Team sich alles selbst aneignet.
Petrenkos Rat: „Führen Sie ein kontinuierliches Schulungsprogramm für Ihr Personal ein, damit Best Practices und neue Technologien aktuell bleiben. Dies sollte sowohl technische als auch prozessuale Schulungen umfassen, damit alle Teammitglieder vorbereitet sind, Ausfallzeiten vorzubeugen und darauf zu reagieren.“
- Führen Sie Disaster Recovery-Übungen durch: Wie bei jeder Notfallplanung hofft man natürlich, sie nie wirklich zu brauchen. Falls doch, sollten Sie Ihre Pläne durch simulierte Ausfälle und andere Szenarien getestet haben.
Petrenkos Rat: „Gestalten Sie diese Übungen möglichst realistisch, ohne dabei ein tatsächliches Downtime-Risiko einzugehen.“
- Verfolgen und berichten Sie den Fortschritt: Bewerten Sie regelmäßig Ihren Fortschritt in Richtung der Ziele (Schritt 2) und die Verbesserungen Ihrer Ausgangskennzahlen, und teilen Sie die Ergebnisse mit den Stakeholdern.
Petrenkos Rat: „Nutzen Sie in Ihren Berichten sowohl technische Kennzahlen als auch Messgrößen zum Geschäftseinfluss, um ein vollständiges Bild zu vermitteln.“
Tools zur Reduzierung von Netzwerkausfällen
Welche Software und andere Tools spielen eine entscheidende Rolle, um Ausfallzeiten zu minimieren und die Netzwerkintegrität und Performance insgesamt zu steigern? Wir haben Beispiele in jeder Kategorie aufgeführt.
1. Netzwerk-Monitoring-Tools
- SolarWinds Network Performance Monitor (NPM): Bietet umfassendes Netzwerkleistungs-Monitoring, Fehlererkennung und Alarmierung.
- Nagios: Liefert leistungsstarke Funktionen zur Netzwerküberwachung, Alarmierung und Berichterstellung.
- PRTG Network Monitor: Ein vielseitiges Tool, das alle Aspekte Ihrer Netzwerkinfrastruktur überwacht.
2. Netzwerkmanagement- und Konfigurationstools
- Cisco Prime Infrastructure: Hilft, Ihre Netzwerkinfrastruktur zu verwalten und zu optimieren.
- WhatsUp Gold: Bietet Netzwerküberwachung und -management, einschließlich Konfigurationsverwaltung.
3. Automatisierte Incident-Response-Tools
- PagerDuty: Integriert sich mit Überwachungstools, um Vorfallreaktion und automatisierte Alarmierung zu bieten.
- Opsgenie: Bietet Rufbereitschaftsmanagement, Incident Response und Warnmeldungen.
4. Fehlerverwaltungs-Tools
- Zabbix: Überwacht die Netzwerkleistung und hilft, Fehler zu erkennen und zu beheben.
- ManageEngine OpManager: Bietet Fehlerverwaltung, Leistungsüberwachung und Netzwerkvisualisierung.
5. Tools zur Sicherung und Wiederherstellung von Netzwerkkonfigurationen
- RANCID (Really Awesome New Cisco confIg Differ): Automatisiert das Backup und Management von Netzwerkkonfigurationen.
- SolarWinds Network Configuration Manager (NCM): Automatisiert Konfigurations-Backup und -Wiederherstellung und hilft, Compliance sicherzustellen.
6. Log-Management- und Analyse-Tools
- Splunk: Sammelt und analysiert Protokolle von Netzwerkgeräten, um Probleme zu erkennen und zu beheben.
- ELK Stack (Elasticsearch, Logstash, Kibana): Bietet leistungsstarkes Log-Management und Analysefunktionen.
7. Traffic-Analyse-Tools
- Wireshark: Ein Netzwerkprotokoll-Analysator, der hilft, Netzwerkprobleme zu diagnostizieren.
- NetFlow Analyzer: Überwacht Netzwerkverkehrsmuster und hilft, Engpässe zu identifizieren.
8. Hochverfügbarkeits- und Failover-Lösungen
- F5 BIG-IP: Bietet Load-Balancing, Failover und Hochverfügbarkeit für Netzwerkanwendungen.
- Cisco ASA: Bietet robuste Firewall- und Failover-Funktionen.
9. Leistungstest-Tools
- iPerf: Misst Netzwerkbandbreite und Leistung.
- SolarWinds WAN Killer: Simuliert Netzwerkverkehr, um die Netzwerkleistung unter verschiedenen Bedingungen zu testen.
10. Virtual Private Network (VPN)-Tools
- OpenVPN: Bietet sicheren Fernzugriff auf das Netzwerk und stellt Konnektivität während Ausfallzeiten sicher.
- Cisco AnyConnect: Eine sichere VPN-Lösung für den Fernzugriff auf Netzwerkressourcen.
11. Endpoint-Monitoring-Tools
- Sysdig: Überwacht und schützt containerisierte Umgebungen sowie Cloud-Infrastrukturen.
- Datadog: Bietet Full-Stack-Monitoring, einschließlich Netzwerk-, Server- und Anwendungsüberwachung.
12. Cloud-basierte Netzwerküberwachungstools
- ThousandEyes: Bietet End-to-End-Transparenz für die Netzwerkleistung über das Internet und in der Cloud.
- LogicMonitor: Ein cloudbasiertes Überwachungstool, das umfassende Netzwerküberwachungsfunktionen bietet.
Das Fazit
Netzwerkausfälle sind für die meisten Unternehmen eine Realität, aber das bedeutet nicht, dass Sie sie einfach hinnehmen sollten. Nutzen Sie den obigen Aktionsplan und die genannten Tools, um die Leistung Ihres Netzwerks zu steigern und kostspielige Ausfallzeiten zu minimieren.
Für weitere Einblicke rund ums Netzwerk abonnieren Sie unseren Newsletter. Wir unterstützen Sie dabei, SaaS-Teams und -Systeme aufzubauen, die skalierbar sind!
