Zu Beginn des Jahres 2025 tauchen wir tiefer in unsere letzte Diskussion rund um das Thema Machine Learning ein und sprechen über den entscheidendsten Aspekt unserer Arbeit: die Entwicklung der Machine-Learning-Pipeline. Diese reicht vom Sammeln der Rohdaten bis hin zu den stündlich generierten Prognosen und Empfehlungen in unserem System.
Falls Sie den ersten Teil verpasst haben, in dem wir die Unterschiede zwischen KI und Machine Learning sowie deren Mehrwert für Ihr tägliches Hotelmanagement erklären, können Sie ihn hier nachlesen.
Wenn Sie außerdem daran interessiert sind, wie KI in der Branche eingesetzt wird und welche Potenziale sie in verschiedenen Bereichen (wie der Verbesserung von Planung, Effizienz und Gästekomfort) bietet, werfen Sie hier einen Blick auf unsere Blogpost-Serie von Emilia.
Schritt 1: Datenerfassung & -bereinigung
Jedes erfolgreiche Machine-Learning-Modell beginnt mit einer zentralen Zutat: qualitativ hochwertige Daten. In der sich rasant entwickelnden KI-Welt sind Daten nicht nur der Treibstoff, sondern das Fundament. Selbst die fortschrittlichsten Algorithmen und Teams können keine guten Ergebnisse erzielen, wenn die Daten unvollständig, inkonsistent oder irrelevant sind.
Aus diesem Grund ist die Datenerfassung und -bereinigung der wichtigste Schritt in unserer Pipeline, der die Basis für den gesamten Prozess legt. Wir beginnen mit der Erhebung umfassender Daten, die ein tiefes Verständnis eines Hotels und dessen Marktverhalten ermöglichen. Dazu gehören:
- PMS-Daten (Belegung, Umsatz, ADR, Stornierungen, Ankünfte und weitere KPIs)
- Markt-Daten von Preisen, Raten und Verfügbarkeiten von OTAs, Wettbewerbern und dem Hotelmarkt
- Bewertungen
- Suchtrends
- Wetterberichte
- Veranstaltungen und Feiertage
- ...
Aus diesen Quellen extrahieren wir zentrale Erkenntnisse, sogenannte Features, die genutzt werden, um individuelle und persönliche Machine-Learning-Modelle für jedes Hotel zu entwickeln. Nach der Erfassungs- und Aufbereitungs-Phase durchlaufen die Rohdaten vor ihrer Verwendung eine spezielle Aufbereitungs-Pipeline:
- Bereinigung: Wir entfernen Störungen und irrelevante Informationen, um sicherzustellen, dass nur qualitativ hochwertige und konsistente Daten verwendet werden.
- Interpolation: Bei der Bereinigung entstehen in der Regel Lücken in den Daten, die gefüllt werden müssen. Dazu rekonstruieren wir die fehlenden Informationen anhand der bereits vorhandenen Daten, um einen reibungslosen Übergang zu gewährleisten.
- Feature Engineering: Sobald wir die Daten bereinigt und vorbereitet haben, extrahieren wir neue Features, um den Modellen mit unserem Fachwissen im Revenue Management mehr Kontext zu liefern.
- Transformation: Sobald alle Daten vorliegen, werden sie weiter bearbeitet, um sie in einen Zustand bzw. eine Kodierung umzuwandeln, die das Machine-Learning-Modell leicht verstehen kann.
- Speicherung: Die letzte Phase unserer Datenaufbereitung, in der die Daten an einem sicheren Ort gespeichert werden, damit sie leicht zugänglich sind und später verwendet werden können. Sie werden dann später für die weitere Analyse und Integration in die Pipeline abgeholt.
Schritt 2: Datenanalyse
Nach der Erhebung, Bereinigung und Vorbereitung der Daten folgt die Analyse. Mittels Explorativer Datenanalyse (EDA) entdecken wir Muster, die uns helfen, Hypothesen darüber zu formulieren, wie gut das Modell auf den spezifischen Daten eines Hotels performen wird.
Hierzu erstellen wir Visualisierungen wie Histogramme, Scatterplots und Heatmaps, um Trends zu identifizieren und Schwachstellen in der Pipeline zu erkennen. In diesem Fall hilft uns die EDA bei der Erkennung von Mustern wie saisonalem Buchungsverhalten oder Spitzenzeiten beim Einchecken. Durch die Untersuchung der Muster von Wettbewerbern können wir auch regionale Präferenzen für bestimmte Saisons feststellen.
Anhand dieser Erkenntnisse lassen sich Anomalien und Ausreißer identifizieren, wie plötzliche Preissprünge oder ungewöhnlich hohe Buchungspreise. Diese signalisieren, dass bestimmte Zeiträume weiter untersucht werden sollten, da sie entweder problematisch für den Trainingsprozess sein könnten oder wertvolle, seltene Trends aufdecken, die bei richtiger Untersuchung zu einem erheblichen Informationsgewinn führen können.
Schritt 3: Modelltraining
Nach erfolgreicher Durchführung der Datenanalyse und Sicherstellung der hohen Datenqualität beginnen wir mit dem Modelltraining. In dieser Phase lernen unsere Modelle, auf Basis der erstellten Features fundierte Vorhersagen zu treffen.
Der erste Schritt im Modelltraining besteht darin, die Daten in drei separate Abschnitte aufzuteilen: Training, Validierung und Testen. Dieser Ansatz stellt sicher, dass das Modell auf einem Datensatz trainiert und auf völlig separaten Daten bewertet wird, um seine tatsächliche Leistung zu messen. Machine-Learning-Algorithmen tendieren dazu, den einfachsten Weg zur Maximierung der Genauigkeit zu suchen, was manchmal zu “Overfitting” führen kann - dem Auswendiglernen der Eingabedaten anstatt dem Erlernen von Mustern, die auf neue, unbekannte Daten anwendbar sind. Durch die Reservierung der Validierungs- und Testdatensätze können wir bewerten, wie gut das Modell über die Trainingsdaten hinaus generalisiert. Der Validierungsdatensatz wird während der Entwicklungsphase zur Feinabstimmung des Modells verwendet, während der Testdatensatz, der während des Trainings unberührt bleibt, eine abschließende, objektive Bewertung der Modellleistung unter realen Bedingungen ermöglicht.
Neben der manuellen Analyse der Daten und der Auswahl von Features, die wir als besonders einflussreich zur Erfassung von Trends und Mustern erachten, nutzen wir auch eine auf Machine Learning basierende Feature-Selektion. Dabei trainieren wir mehrere ML-Modelle mit unterschiedlichen Featuresets, um zu analysieren, welche Merkmale den größten Einfluss auf die Vorhersagen haben. Nach jedem Trainingslauf berechnen wir eine Wichtigkeitsmetrik für jedes Feature und wählen im letzten Durchlauf die Features mit dem höchsten durchschnittlichen Wert für das endgültige Modell aus. So werden unnötige und irrelevante Merkmale entfernt, die keinen Einfluss auf das Hotel haben. Beispielsweise könnten einige Hotels stark durch Wetterbedingungen und bestimmte Ereignisse beeinflusst werden, während bei anderen die Nachfrage unabhängig von den Wetterbedingungen der Region bleibt.
Nach Abschluss des Trainingsprozesses bewerten wir die Modellleistung sowohl quantitativ als auch qualitativ, um sicherzustellen, dass die Ergebnisse unseren Standards entsprechen und die festgelegten Ziele erreichen. Quantitativ messen wir Leistungskennzahlen wie Genauigkeit, Präzision und die mittlere quadratische Abweichung (Mean Squared Error, MSE), um die Vorhersagekraft objektiv zu bewerten.
Qualitativ analysieren wir hingegen die Vorhersagen des Modells im Marktumfeld, um sicherzustellen, dass die Ergebnisse unter Berücksichtigung des Fachwissens im Revenue Management sinnvoll sind. Dieser Prozess beinhaltet in der Regel die Zusammenarbeit mit internen Revenue-Managern bei Hotellistat, die ihr umfassendes Wissen in diesem Bereich einbringen. Dadurch stellen wir sicher, dass das Modell nicht nur mathematisch robust, sondern auch praktisch anwendbar ist.
Step 4: Full Integration & Automation
Nach erfolgreichem Abschluss des Modelltrainings ist der wichtigste Teil unserer Pipeline abgeschlossen und der Weg frei für den finalen Schritt: vollständige Integration und Automatisierung.
In diesem Stadium wird das erstellte Modell für die Implementierung freigegeben. Es wird in das System integriert und ist ab diesem Moment einsatzbereit, um täglich und stündlich neue Prognosen bereitzustellen. Unsere Preisempfehlungsmodelle arbeiten stündlich, um auf jede Veränderung im System oder Marktumfeld schnell reagieren zu können, während die Nachfrageprognosen täglich aktualisiert werden, um eine hohe Genauigkeit sicherzustellen und so viele relevante Faktoren wie möglich zu berücksichtigen.
Die Implementierung markiert jedoch nicht das Ende des Prozesses. Um eine optimale Leistung aufrechtzuerhalten, trainieren (Retraining) wir die Modelle regelmäßig für alle Hotels im System neu. In schnelllebigen Szenarien, wie bei neuen Hotels oder sich rasch ändernden Bedingungen, erfolgt das Retraining wöchentlich. In anderen Fällen wird es monatlich durchgeführt, um neue Trends zu erfassen und sicherzustellen, dass die Modelle sich weiterhin an die dynamischen Marktbedingungen anpassen.
Fazit
Wie Sie sehen, ist die Nutzung von Machine Learning ein komplexer Prozess, der Zeit, Fachwissen und kontinuierliche Weiterentwicklung erfordert. Der Begriff „Machine Learning“ selbst deutet darauf hin, dass das Modell lernen und trainiert werden muss. Dieser Prozess hängt jedoch nicht allein von Zeit ab - er erfordert auch Experten, die den Lernprozess überwachen und den „Lehrplan“ bei Bedarf anpassen können.
So wie jeder Schüler einzigartig ist und individuelle Stärken, Herausforderungen und Bedürfnisse mitbringt, ist auch jedes Hotel unverwechselbar. Jede Unterkunft agiert unter spezifischen Bedingungen, mit eigenen Datenmustern, Marktdynamiken und strategischen Zielen. Aus diesem Grund legt Hotellistat großen Wert auf einen ganzheitlichen Ansatz bei der Datenauswertung und trainiert jedes Modell Schritt für Schritt, maßgeschneidert auf die individuellen Anforderungen des jeweiligen Hotels.
Im Gegensatz zu universellen Algorithmen oder standardisierten Modellen liegt unsere Stärke - und die Stärke von Machine Learning - in der Personalisierung. Dieser individuelle Ansatz stellt sicher, dass wir die präzisesten und effektivsten Lösungen zur Optimierung des Revenue Managements in der Hotellerie anbieten können.