Himmelhohe Ambitionen treffen auf Cloud-Realität: Hathora strebte schnelles Wachstum an, indem es auf Cloud-Infrastruktur setzte und auf AWS mit Kubernetes hostete und dabei Entwicklerteams von kleinen Gruppen bis zu großen Studios unterstützte.
MMO-Markt: Ein Milliarden-Dollar-Spielplatz: Der Markt für MMO-Spiele wird bis 2029 voraussichtlich um fast 30 Milliarden wachsen und bietet Unternehmen wie Hathora riesige Chancen, stellt sie aber auch vor große Infrastrukturherausforderungen.
Erfolg und Überforderung: Zu viel, zu schnell: Hathoras Plattform wurde von über 100 Studios schnell übernommen, aber die Anforderungen größerer Kunden deckten Schwächen und hohe Kosten des reinen Cloud-Ansatzes auf.
Strategie überdenken: Lernen auf die harte Tour: Nachdem Hathora die Mängel der Infrastruktur erkannt hatte, überdachte das Team seinen Geschäftsplan, um nachhaltige Wege zu finden, große Spieleentwickler zu unterstützen und dabei profitabel zu sein.
Lehren für Tech-Führungskräfte: Anpassung an Skalierung: Hathoras Erfahrung ist eine Lehre für Technologieführer über die Bedeutung von Infrastruktur-Skalierbarkeit sowie das Gleichgewicht zwischen Cloud-Kosten und Wachstumsstrategien.
Manchmal wird genau die Infrastruktur, die Ihrem Unternehmen zu einem erfolgreichen Start verholfen hat, später zur Bremse, wenn Ihr Geschäft abhebt.
Im Fall von Hathora war das sogar buchstäblich wahr und ein wenig ironisch: Das Unternehmen bietet kritische Infrastruktur und Server-Orchestrierung für Videospielstudios an, damit diese ihre Multiplayer-Online-Spiele hosten und skalieren können.
Das ist nach den meisten Maßstäben ein riesiger Markt. Das Marktforschungsunternehmen Technavio prognostizierte beispielsweise, dass der Markt für Massive Multiplayer Online (MMO)-Spiele zwischen 2025 und 2029 um fast 30 Milliarden Dollar wachsen wird. Andere Analysten erwarten in den kommenden fünf Jahren ein ähnliches Wachstum.
Hathora wollte seine Plattform schnell starten und skalieren und folgte dem inzwischen gängigen Ansatz vieler Start-ups, kleiner Teams und anderer Unternehmen: Voller Fokus auf die Cloud und der komplette Betrieb auf Amazon Web Services mit EKS, dem vollständig verwalteten Kubernetes-Dienst des Cloud-Riesen. Die Ambitionen kannten scheinbar keine Grenzen: Hathora wollte Spieleentwickler jeder Größe bedienen – vom kleinsten Team über die größten Studios bis hin zu allen dazwischen.
Und das funktionierte – bis zu einem gewissen Punkt. Mehr als 100 Spielestudios entschieden sich in den ersten sechs Monaten nach dem Start für die Hathora-Plattform. Dieser anfängliche Erfolg deckte jedoch ein grundlegendes Problem auf, angesichts des Ziels von Hathora, Studios aller Größen weltweit zu bedienen: Als das Unternehmen mit immer größeren Studios arbeitete, wurden die Kosten der rein cloudbasierten Infrastruktur schnell untragbar – so sehr, dass sie Gefahr liefen, einen großen, lukrativen Teil des Gesamtmarkts zu verlieren.
In dieser Fallstudie werfen wir einen direkten Blick darauf, wie Hathoras CTO und das Team ihre ursprüngliche Geschäfts- und Technologiestrategie grundlegend transformierten – und welche Lehren daraus andere Technologieführende branchenübergreifend ziehen können.
Das Unternehmen & der CTO
Unternehmen: Hathora, ein globaler Anbieter kritischer Infrastruktur und Server-Orchestrierung für Videospielstudios für das Hosting ihrer Multiplayer-Online-Spiele.
Der CTO: Harsh Pandey, der zugleich Gründer des Unternehmens ist:
„Wir haben Hathora gegründet, damit Studios jeder Größe Zugang zu Infrastruktur im globalen Maßstab bekommen, ohne sie selbst bauen zu müssen. Doch als wir Kostenkalkulationen für größere Studios angestellt haben, brach das Modell zusammen. Cloud-Kosten, insbesondere für den Datenausgang, machten unser Angebot für genau die Zielgruppe untragbar, die wir bedienen wollten.“
Hauptsitz: New York City
Kundenstamm: Heute betreut Hathora tatsächlich Kunden aus aller Welt – in 14 globalen Regionen auf sechs Kontinenten.
Das Geschäftsproblem
Große Ambitionen bringen meist auch große Herausforderungen mit sich – und genau das war bei Harsh und Hathora der Fall.
Ein Teil davon ist grundlegend für die Spielebranche: MMO-Spiele sind keine kleinen Läden mit planbarem Besucherverhalten. Stattdessen müssen Multiplayer-Spiele kontinuierlich Updates an jeden einzelnen verbundenen Spieler gleichzeitig in höchster Performance liefern.
Das bedeutet, dass ständig riesige Datenmengen zwischen Backend-Infrastruktur und den Spielern hin- und herbewegt werden – bei großen Spielen können das Millionen sein. Und wenn Sie denken, Ihre Kundinnen und Kunden seien anspruchsvoll, dann seien Sie versichert: Anspruchsvolle Gamer sind beim Thema Spiel-Performance und Nutzererlebnis besonders ungeduldig.
Das Ausführen von Gameserver-Workloads auf Hathoras rein cloudbasierter Plattform funktionierte gut für kleinere Studios. Als jedoch ein großes Studio mit einer Preisanfrage an das Unternehmen herantrat, wurde Harsh und seinem Team die Begrenztheit des bisherigen Finanzierungsmodells bewusst.
„Uns wurde klar, dass wir vor einer echten Herausforderung standen, als ein großes Spiele-Studio, das unsere Gameserver-Plattform für interne Tests nutzte, nach Preisen für den eigentlichen Launch fragte,“ berichtet Harsh. „Die geschätzte Bandbreiten-Rechnung lag bei über einer Million Dollar pro Monat.“
Das war laut Harsh viermal so viel wie die normalen, erwarteten Compute-Kosten für den Betrieb des Spiels. Das war weder für das Studio noch für Hathora tragbar. Damit stand das Unternehmen an einem Scheideweg: Sollte man an der reinen Cloud-Strategie festhalten und das Segment der großen Studios riskieren – oder etwas ändern?
„Das Problem lag klar auf der Hand: der Preis,“ sagt Harsh.
Die Lösung erforderte jedoch technisches Know-how: Hathora musste die eigene Infrastruktur transformieren, um die speziellen Anforderungen der Gameserver-Workloads besser zu erfüllen – und gleichzeitig ein Preismodell entwickeln, das auch die größten Studios nutzen können.
Was sie dagegen unternommen haben – und warum
Tech-Profis aller Art haben schon viele Argumente für die Vorteile der Migration von Infrastruktur und Workloads in die Cloud gehört oder sind sogar direkt als reines Cloud-Unternehmen gestartet. Das ist seit Jahren ein bedeutender Trend, und auch Hathora war da keine Ausnahme.
Hathora ging fast den entgegengesetzten Weg, um sein Großkunden-Problem zu lösen: Es setzte auf eine Hybrid-Cloud-Architektur und entschied sich letztlich für eine große Wette auf einen alten Klassiker: Bare-Metal-Server.
(Siehe auch unseren Artikel über diesen aktuellen Trend, Cloud-Umgebungen zu verlassen und zurück zu On-Premises-Infrastruktur zu gehen.)
Harsh berichtet über die Entwicklung des Unternehmens:
„Wir haben auf ein hybrides Modell umgestellt und die Infrastrukturkosten pro gleichzeitiger Sitzung, die Latenzleistung in allen globalen Regionen und den Ingenieuraufwand für den Betrieb verfolgt. Durch die Verlagerung von 80% unserer Workloads auf Bare-Metal können wir die Rechenkosten nahezu halbieren und die Bandbreitenkosten um mehr als 90% senken. Inzwischen verwalten wir über 30.000 Kerne in 14 Regionen mit einem relativ kleinen Entwicklerteam. Diese Effizienz und Reichweite wären mit unserer ursprünglichen Architektur unmöglich gewesen.“
Sie nutzen weiterhin Cloud-Infrastruktur für Skalierbarkeit und Nachfragespitzen – das entspricht etwa 20% der Workloads (statt vorher 100%). Aber Hathoras Stack setzt jetzt auf zwei Bare-Metal-Anbieter sowie AWS- und GCP-Cloud-Ressourcen, anstatt alles auf AWS laufen zu lassen. Harsh und sein Team entschieden sich für Talos Linux, eine minimalistische Distribution, speziell für Kubernetes-Umgebungen entwickelt, und Omni (ebenfalls von Sidero Labs) für das Orchestrieren aus einer einzigen Steuerungsebene über sämtliche hybriden Umgebungen hinweg.
Natürlich war das nicht so einfach, wie einen Lichtschalter umzulegen. Außerdem gab es Vor- und Nachteile abzuwägen. Das anfängliche Cloud-Only-Modell half Hathora, schnell und erfolgreich zu starten. Von diesem Modell abzuweichen, bedeutete zunächst, einige Vorteile der Cloud aufzugeben:
„Diese Veränderung bedeutete, viele der Annehmlichkeiten aufzugeben, die Cloud-Plattformen bieten“, sagt Harsh. „Wir würden einfaches Auto-Scaling, integriertes Monitoring und Managed Services verlieren. Das bringt zusätzliche operative Komplexität. Zudem mussten wir beweisen, dass wir die Cloud-Leistung erreichen oder sogar übertreffen können. Es gab keine Garantie, dass wir Anbieter oder Tools finden würden, die so funktionieren, wie wir es brauchen. Aber wir waren überzeugt: Kosten und Leistung in den Griff zu bekommen, ist entscheidend für unser Geschäftsmodell, und wir waren bereit, dieses Risiko einzugehen.“
Die Wette zahlt sich aus und ebnet den Weg für die nächste Wachstumsphase von Hathora: Das Unternehmen bedient inzwischen Kunden auf sechs Kontinenten. Es kann dieselbe kritische Infrastruktur den größten Studios nun zu deutlich geringeren Kosten anbieten. Außerdem bietet es granularere Steuerung für die individuellen Anforderungen von Spiele-Workloads – etwa Node-Level-Kontrolle mit Talos Linux und einheitliche Cluster-Orchestrierung mit Omni, unabhängig davon, wo Workloads laufen.
„Diese Tools sind minimalistisch, sicher und einfach auf verschiedenen Infrastrukturtypen zu bedienen“, sagt Harsh. „Wir haben unseren Stack nach Leistung, Kosten und Kontrollmöglichkeiten bewertet. Die neue Lösung ermöglicht es uns, mit einem kleinen Team zu arbeiten und weltweit zu skalieren, ohne an einen Anbieter gebunden zu sein.“
Tatsächlich ist das kleine Entwicklerteam von Hathora zu einer inoffiziellen Kennzahl geworden. Schon nach der Migration der ersten kompletten Region zum Hybridmodell zeigte sich sofortiger Leistungs- und Kostengewinn, und das Team konnte rasch skalieren (heute laufen 14 Regionen weltweit).
„Jedes Mal, wenn jemand erfährt, dass unsere Infrastruktur von nur wenigen Entwicklern gemanagt wird, ist das ein Moment, der uns zeigt, wie weit wir gekommen sind.“
Zentrale Erkenntnisse & Lektionen
Man muss nicht in der digitalen Infrastruktur- oder Gaming-Branche sein, um ähnliche Prinzipien und Lehren im eigenen Unternehmen anzuwenden.
- Hören Sie auf Ihre Kunden: Harsh und sein Team erkannten ihr Problem – und dass sie proaktiv daran arbeiten mussten – indem sie ihren Kunden zuhörten, insbesondere dem großen Studio, das Hathora intern testete und später Kostenkalkulationen für das tatsächliche Spiel anforderte. CTOs sind ebenso dafür verantwortlich, Kundenprobleme zu lösen wie technologische Lösungen zu entwickeln – beides geht Hand in Hand.
- Haben Sie keine Angst vor einem Kurswechsel. „Cloud first“, „cloud native“ und ähnliche Begriffe sollten als anpassungsfähige Strategien und nicht als Dogma betrachtet werden. Das gilt allgemein: Nur weil Sie mit einer bestimmten Strategie starten, müssen Sie nicht für immer daran festhalten. Hathora hätte bei der Cloud bleiben können – dies hätte jedoch ihr Wachstumspotenzial und letztlich auch die Performance der auf ihrer Infrastruktur laufenden Spiele begrenzt.
Der Wechsel zu einem hybriden Modell ermöglichte es dem Unternehmen, Kunden jeder Größe zu bedienen und die Leistung zu verbessern, da es eine größere Flexibilität und Kontrolle bei der Erfüllung der spezifischen Anforderungen von Spiele-Workloads bietet. Seitdem konnte Hathora eine Enterprise-Stufe einführen, die den größten Studios vorhersehbare Preisgestaltung und starke Leistungszusagen bietet.
- Seien Sie sorgfältig in Ihrer Analyse. Eine solche Transformation kann nicht durch bloßes Raten erreicht werden. Harsh und sein Team führten einen vollständigen Proof-of-Concept mit Talos und Omni durch, um ihre strategische Neuausrichtung auf die Probe zu stellen:
"Sobald wir bestätigt hatten, dass wir alles über ein System orchestrieren konnten, migrierten wir unsere erste vollständige Region. Die Leistungssteigerungen waren sofort spürbar. Daraufhin führten wir das Modell weltweit ein und fügten nach und nach weitere Anbieter und Standorte hinzu,“ sagte Harsh.
Sie analysierten die Vor- und Nachteile – einschließlich des anfänglichen Verlusts der Cloud-Vorteile, die Harsh oben dargelegt hat – um Überraschungen zu minimieren. Es war klar, dass eine Kubernetes-freundliche Lösung gefunden werden musste, die alles über mehrere Umgebungen und Regionen orchestrieren kann und grundsätzlich jede Maschine gleichbehandelt – ob sie nun auf Bare Metal oder in der Cloud betrieben wird.
Harsh merkte an, dass sie auch einen umfassenden Anbieter-Benchmark durchführten, AMD- und Intel-CPUs verglichen, die reale Netzwerkleistung testeten und die Anbieter danach beurteilten, wie gut sie gegenüber AWS’ Global Accelerator abschnitten.
„Wir haben sichergestellt, dass unsere neue Umgebung nicht nur günstiger, sondern auch schneller und zuverlässiger in den Regionen ist, auf die es ankommt.“
- Denken Sie langfristig: Transformative Kursänderungen wie diese dienen nicht nur dazu, einmalige Probleme zu lösen. Richtig gemacht, eröffnen sie immer mehr Möglichkeiten für die Zukunft. Diese langfristige Denkweise zahlt sich für Hathora bereits aus. Sie entwickeln weiterhin neue Funktionen für größere Studios, etwa dedizierte Cluster-Optionen, regionale Peering-Möglichkeiten für latenzarme Übergaben sowie eine verbesserte Beobachtbarkeit während Live-Events.
Harsh sagte außerdem, dass das neue Infrastrukturmodell von Hathora für Gaming auch in anderen Branchen Potenzial zeigt, in denen Echtzeitreaktionen und hohe Datendurchsätze erforderlich sind. Langfristig plant das Unternehmen, neue Lösungen auch für Entwickler außerhalb der Spielebranche bereitzustellen.
„Der Umstieg auf ein hybrides Modell hat uns langfristige Flexibilität gebracht. Wir können nun schnell neue Regionen erschließen, neue Hardware-Anbieter ohne Bindung testen und den Kunden mehr Kontrolle darüber geben, wie ihre Infrastruktur bereitgestellt wird. Die Plattform ist dadurch viel modularer und anpassungsfähiger geworden.“
Für weitere Fallstudien und Playbooks abonnieren Sie den Newsletter des CTO Clubs.
