Himmelhohe Ambitionen treffen Cloud-Realität: Hathora setzte für rasantes Wachstum auf Cloud-Infrastruktur, betrieb AWS mit Kubernetes und bediente sowohl kleine Spielestudios als auch große Entwicklerteams.
MMO-Markt: Ein Milliardengeschäft: Der MMO-Gaming-Markt soll bis 2029 um fast 30 Milliarden wachsen – enorme Chancen, aber auch erhebliche Infrastruktur-Herausforderungen für Firmen wie Hathora.
Erfolg und Belastung: Zuviel, zu schnell: Mehr als 100 Studios nutzten Hathoras Plattform rasch; die Anforderungen großer Kunden machten jedoch die Grenzen und Kosten des reinen Cloud-Ansatzes deutlich.
Strategiewechsel: Lernen auf die harte Tour: Nachdem sie die Mängel der Infrastruktur erkannt hatten, überdachte Hathoras Team den Geschäftsplan, um nachhaltige Wege für Unterstützung und Profit durch Großkunden zu finden.
Lektionen für Tech-Führungskräfte: Anpassung ans Wachstum: Hathoras Erfahrungen zeigen Tech-Führungskräften, wie wichtig Infrastruktur-Skalierbarkeit und die Balance zwischen Cloud-Kosten und Wachstumsstrategien sind.
Manchmal wird genau die Infrastruktur, die beim erfolgreichen Start hilft, später zum Hindernis, wenn Ihr Unternehmen rasant wächst.
Im Fall von Hathora war das sowohl buchstäblich wahr als auch ein wenig ironisch: Das Unternehmen bietet kritische Infrastruktur und Server-Orchestrierung für Videospielstudios an, damit diese ihre Online-Multiplayer-Spiele hosten und skalieren können.
Das ist nach den meisten Maßstäben ein riesiger Markt. So prognostizierte das Forschungsunternehmen Technavio, dass der Markt für Massive Multiplayer Online (MMO) Games um fast 30 Milliarden Dollar zwischen 2025 und 2029 wachsen wird. Auch andere Analysten gehen in den nächsten fünf Jahren von einem ähnlichen Wachstum aus.
Hathora wollte seine Plattform schnell einführen und skalieren, also verfolgte das Unternehmen den mittlerweile bewährten Ansatz vieler Startups, kleiner Teams und anderer Unternehmen: Es setzte ganz auf die Cloud und betrieb alles auf Amazon Web Services mit EKS, dem vollständig verwalteten Kubernetes-Dienst des Cloud-Giganten. Die Ambitionen waren scheinbar grenzenlos: Hathora wollte Spieleentwickler jeder Größe bedienen – von den kleinsten Teams über die größten Studios bis hin zu allen dazwischen.
Und das funktionierte – bis zu einem bestimmten Punkt. Mehr als 100 Spielestudios nutzten die Hathora-Plattform innerhalb von sechs Monaten nach dem ersten Start. Dieser anfängliche Erfolg offenbarte angesichts Hathoras Ziels, Studios jeder Größe weltweit zu bedienen, ein grundlegendes Problem: Als sie mit immer größeren Studios zusammenarbeiteten, wurden die Kosten für die reine Cloud-Infrastruktur schnell untragbar – so sehr, dass sie Gefahr liefen, ein großes, lukratives Marktsegment zu verlieren.
In dieser Fallstudie erhalten wir einen direkten Einblick, wie Hathoras CTO und Team ihre ursprüngliche Geschäfts- und Technologiestrategie grundlegend verändert haben – und welche Lehren andere Technologieverantwortliche branchenübergreifend daraus ziehen können.
Das Unternehmen & der CTO
Unternehmen: Hathora, ein globaler Anbieter von kritischer Infrastruktur und Server-Orchestrierung für Videospielstudios zum Hosting ihrer Online-Multiplayer-Spiele.
Der CTO: Harsh Pandey, der zugleich Gründer des Unternehmens ist:
„Wir haben Hathora gebaut, um Spielestudios jeder Größe Zugang zu einer global skalierbaren Infrastruktur zu ermöglichen, ohne dass sie diese selbst entwickeln müssen. Doch als wir begannen, für größere Studios Preise zu kalkulieren, brach die wirtschaftliche Grundlage weg. Cloud-Kosten, insbesondere Datenausgang, machten unser Angebot für genau die Kunden untragbar, die wir eigentlich bedienen wollten.“
Hauptsitz: New York City
Kundenbasis: Heute betreut Hathora buchstäblich Kunden auf der ganzen Welt aus 14 globalen Regionen auf sechs Kontinenten.
Das Geschäftsproblem
Große Ambitionen bringen meist große Herausforderungen mit sich – und genau so war es für Harsh und Hathora.
Das liegt zum Teil in der Natur der Gaming-Branche: MMO-Spiele sind keine Tante-Emma-Läden mit vorhersehbaren Zugriffsmustern. Vielmehr müssen Multiplayer-Spiele allen gleichzeitig verbundenen Spielern laufend Updates bieten – und das höchst performant.
Das bedeutet regelmäßig riesige Datenmengen, die ständig zwischen Backend-Infrastruktur und einzelnen Spielern übertragen werden – bei größeren Spielen können das Millionen Nutzer sein. Und falls Sie Ihre Kunden für anspruchsvoll halten – leidenschaftliche Gamer zeigen wenig Geduld, wenn es um Leistung und Benutzererlebnis geht.
Das Hosten von Spielservern auf Hathoras reiner Cloud-Plattform funktionierte für kleinere Studios gut. Als jedoch ein großes Studio bezüglich der Preise anfragte, erkannten Harsh und sein Team die Grenzen des bisherigen Geschäftsmodells.
„Wir wussten, dass wir vor einer Herausforderung stehen, als ein großes Spielestudio, das unsere Plattform für interne Playtests verwendete, nach Preisen für den Launch fragte,“ erzählt uns Harsh. „Die prognostizierte Bandbreitenrechnung lag bei über einer Million Dollar pro Monat.“
Das entsprach laut Harsh dem Vierfachen der zu erwartenden Compute-Kosten für den Betrieb des Spiels. Das war weder für das Studio noch für Hathora tragbar. Damit stand Hathora an einer entscheidenden Weggabelung: An der ursprünglichen Cloud-only-Strategie festhalten und das Großkundensegment riskieren – oder etwas verändern.
„Das Problem zu lösen, war eindeutig das Pricing. Ganz einfach,“ sagt Harsh.
Die Lösung war jedoch technisch: Hathora musste die eigene Infrastruktur transformieren, um besser auf die speziellen Anforderungen von Spielserver-Workloads einzugehen – und zugleich ein Preismodell schaffen, das auch für die größten Studios problemlos adaptiert werden konnte.
Was sie dagegen unternommen haben – und warum
Technologieexpert:innen aller Art haben zahlreiche Präsentationen über die Vorteile der Migration von Infrastrukturen und Workloads in die Cloud gehört oder darüber, einfach als reines Cloud-Unternehmen zu starten. Das ist seit Jahren ein entscheidender Trend — und Hathora bildete hier keine Ausnahme.
Hathora schlug beinahe den entgegengesetzten Weg ein, um sein Großkund:innen-Problem zu lösen: Das Unternehmen setzte auf eine Hybrid-Cloud-Architektur und wagte letztlich eine große Wette auf einen altbewährten Ansatz: Bare-Metal-Server.
(Lies auch unseren Artikel über diesen neueren Trend, Cloud-Umgebungen zugunsten von On-Premises-Infrastruktur zu verlassen.)
Harsh berichtet über die Entwicklung des Unternehmens:
„Wir sind auf ein hybrides Modell umgestiegen und haben die Infrastrukturkosten pro gleichzeitigem Zugriff, die Latenzperformance in globalen Regionen und den technischen Aufwand zur Verwaltung von allem verfolgt. Indem wir 80 % unserer Workloads auf Bare Metal verschoben haben, konnten wir die Rechenkosten nahezu halbieren und die Bandbreitenkosten um über 90 % senken. Wir verwalten mittlerweile mehr als 30.000 Kerne in 14 Regionen mit einem relativ kleinen Technikteam. Diese Effizienz und Reichweite wären mit unserer ursprünglichen Architektur unmöglich gewesen.“
Cloud-Infrastruktur nutzt das Unternehmen noch immer für Skalierung und bei Nachfragespitzen, etwa 20 % der Workloads (statt ehemals 100 %). Doch Hathoras Stack stützt sich nun auf zwei Bare-Metal-Anbieter sowie auf AWS- und GCP-Cloud-Ressourcen, statt alles auf AWS zu betreiben. Harsh und sein Team entschieden sich für Talos Linux, eine minimalistische Distribution speziell für Kubernetes-Umgebungen, und Omni (ebenfalls von Sidero Labs) für die Orchestrierung aus einer zentralen Steuerungsebene über alle hybriden Umgebungen hinweg.
Das war natürlich keineswegs so einfach wie das Betätigen eines Lichtschalters. Außerdem gab es Vor- und Nachteile abzuwägen. Der Cloud-only-Ansatz ermöglichte Hathora zunächst einen schnellen und erfolgreichen Start. Von diesem Modell wegzugehen, bedeutete jedoch, einige der Vorteile der Cloud zumindest anfänglich zu verlieren:
„Eine Umstellung bedeutete, viele der Annehmlichkeiten aufzugeben, die Cloud-Plattformen bieten“, sagt Harsh. „Wir würden einfaches Autoscaling, integriertes Monitoring und Managed Services verlieren. Das führte zu mehr Aufwand im Betrieb. Außerdem mussten wir erst beweisen, dass wir die Cloud-Performance erreichen oder übertreffen konnten. Es gab keine Garantie, dass wir Anbieter oder Tools finden würden, die so funktionieren, wie wir es benötigen. Aber wir waren davon überzeugt, dass Kosten und Leistung in den Griff zu bekommen für unser Geschäftsmodell entscheidend ist, und waren bereit, dieses Risiko einzugehen.“
Die Wette zahlt sich aus und ebnet den Weg für die nächste Wachstumsphase von Hathora: Das Unternehmen betreut mittlerweile Kund:innen auf sechs Kontinenten. Es kann die gleiche, geschäftskritische Infrastruktur für die größten Studios zu deutlich geringeren Kosten als zuvor bereitstellen. Zudem bietet es mehr Kontrolle über die speziellen Anforderungen von Spiele-Workloads (das ist auch ein wesentlicher Vorteil von Anforderungsmanagement-Software), und ermöglicht mit Talos Linux eine gezielte Steuerung auf Node-Ebene sowie eine einheitliche Cluster-Orchestrierung mit Omni, unabhängig davon, wo die Workloads laufen.
„Diese Tools sind minimalistisch, sicher und lassen sich einfach über verschiedene Infrastrukturen betreiben“, sagt Harsh. „Wir haben unseren Stack nach Performance, Kosten und Grad der Eigenkontrolle bewertet. Das neue Setup ermöglicht uns, mit einem kleinen Team global zu skalieren und unabhängig von einzelnen Anbietern zu bleiben.“
Tatsächlich ist das kleine Technikteam von Hathora inzwischen eine Art inoffizieller KPI geworden. Nach der Migration der ersten Region auf das Hybridmodell zeigte sich sofort eine Verbesserung bei Performance und Kosten, daraufhin wurde rasch skaliert (mittlerweile laufen 14 Regionen weltweit).
„Jedes Mal, wenn jemand erfährt, dass unsere Infrastruktur nur von wenigen Entwickler:innen verwaltet wird, ist das ein Moment, der zeigt, wie weit wir gekommen sind.“
Zentrale Erkenntnisse & Lektionen
Du musst weder in der digitalen Infrastrukturbranche noch in der Videospielindustrie tätig sein, um ähnliche Prinzipien und Learnings auf dein eigenes Unternehmen anzuwenden.
- Höre auf deine Kund:innen: Harsh und sein Team erkannten ihr Problem – und dass sie es proaktiv angehen mussten – indem sie auf Kund:innen hörten, insbesondere auf das große Studio, das Hathora zunächst zum internen Testen nutzte und später Kostenabschätzungen für den Live-Betrieb verlangte. CTOs sind gleichermaßen dafür verantwortlich, die Probleme der Kund:innen zu lösen wie technische Lösungen zu schaffen – beides geht Hand in Hand.
- Hab keine Angst, den Kurs zu wechseln. „Cloud first“, „cloud native“ und ähnliche Begriffe sollten als flexible Strategien behandelt werden, nicht als heilige Dogmen. Dasselbe Prinzip gilt allgemein: Nur weil du mit einer bestimmten Strategie beginnst, heißt das nicht, dass du ewig daran festhalten musst. Hathora hätte einfach in der Cloud bleiben können, aber dadurch wäre das Wachstumspotenzial sowie letztlich die Performance der Spiele auf ihrer Infrastruktur eingeschränkt gewesen.
Der Wechsel zu einem hybriden Modell ermöglichte es dem Unternehmen, Kunden jeder Größe zu bedienen und die Performance zu steigern, da es dadurch flexibler und kontrollierter auf die konkreten Anforderungen von Spiele-Workloads eingehen konnte. Hathora konnte seitdem eine Enterprise-Stufe einführen, die den größten Studios planbare Preise und starke Performance-Garantien bietet.
- Sei gründlich in deiner Analyse. Eine solche Transformation kann nicht einfach durch Raten erreicht werden. Harsh und das Team führten gemeinsam mit Talos und Omni ein vollständiges Proof-of-Concept durch, um den strategischen Wandel auf die Probe zu stellen:
„Sobald wir bestätigt hatten, dass wir alles über ein System orchestrieren können, haben wir unsere erste komplette Region migriert. Die Leistungsgewinne waren sofort spürbar. Von dort aus haben wir das Modell weltweit ausgerollt und nach und nach Anbieter und Standorte hinzugefügt,“ sagte Harsh.
Das Unternehmen analysierte die Vor- und Nachteile – einschließlich des anfänglichen Verlusts der Cloud-Vorteile, die Harsh oben beschrieb – um Überraschungen zu vermeiden. Es war klar, dass eine Kubernetes-freundliche Lösung nötig war, die alles über verschiedene Umgebungen und Regionen orchestrieren und im Grunde jede Maschine gleich behandeln kann, egal ob sie auf Bare Metal oder in der Cloud läuft.
Harsh erwähnte, dass sie auch umfassende Anbieterbenchmarks durchführten, AMD- und Intel-CPUs verglichen, reale Netzwerkperformance testeten und die Anbieter hinsichtlich ihrer Performance im Vergleich zu AWS’ Global Accelerator bewerteten.
„Wir haben sichergestellt, dass unser neues Setup nicht nur günstiger, sondern auch schneller und zuverlässiger in den wichtigen Regionen ist.“
- Setze auf eine langfristige Perspektive: Solche grundlegenden Kurswechsel lösen nicht einfach nur einmalige Probleme. Wenn man es richtig macht, eröffnen sich immer mehr neue Möglichkeiten. Die langfristige Denkweise zahlt sich für Hathora bereits aus. Sie entwickeln kontinuierlich neue Funktionen für große Studios, darunter dedizierte Cluster-Optionen, regionale Peering-Möglichkeiten für latenzarme Übergaben und verbesserte Beobachtbarkeit während Live-Events.
Harsh sagte außerdem, dass das neue Infrastrukturmodell für Gaming von Hathora auch in anderen Branchen, die eine Echtzeitreaktionsfähigkeit und hohen Datendurchsatz benötigen, vielversprechenden Mehrwert zeigt. Langfristig plant das Unternehmen, neue Lösungen auch für Entwickler außerhalb der Spieleindustrie einzuführen.
„Der Wechsel zu einem Hybridmodell hat uns langfristige Flexibilität verschafft. Wir können jetzt schnell neue Regionen erschließen, neue Hardware-Anbieter ohne Bindung testen und Kunden mehr Kontrolle darüber geben, wie ihre Infrastruktur bereitgestellt wird. Die Plattform ist deutlich modularer und anpassungsfähiger geworden.“
Für weitere Fallstudien und Playbooks abonniere den Newsletter des CTO Club.
