Versicherungstarifgestaltung anhand baumbasierter Methoden des maschinellen Lernens

Daten und quantitative Analysen spielen seit dem Aufkommen der Wahrscheinlichkeitstheorie und der Versicherungsmathematik im 17. Jahrhundert eine wichtige Rolle in der Versicherungsbranche. Die jüngsten technologischen Fortschritte haben den Einsatz von digitalen bzw. auf Algorithmen basierenden Analysemethoden vor allem im letzten Jahrzehnt erheblich beschleunigt. Durch die Digitalisierung und die zunehmende Bedeutung der Daten, ist es für ein Versicherungsunternehmen in der heutigen Zeit von großer Bedeutung, die zur Verfügung stehenden Daten sachgerecht und adäquat auszuwerten. Die bisher für die Tarifgestaltung eines Versicherungsunternehmens verwendeten verallgemeinerten linearen Modelle (GLM) bzw. verallgemeinerten additiven Modelle (GAM) gelten im Zeitalter der Echtzeit-Transaktionen und der permanenten Datenverfügbarkeit als verbesserungsfähig, da das Potential der Daten nur unzureichend ausgeschöpft wird.

Vor diesem Hintergrund untersucht die vorliegende Masterthesis die Anwendung der baumbasierten Methoden des maschinellen Lernens bei der Tarifgestaltung eines Versicherungsunternehmens. Dabei werden die klassischen GAM und GLM als Benchmark-Modelle verwendet, um einen potenziellen Mehrwert der baumbasierten Methoden des maschinellen Lernens evaluieren zu können. Ausgehend von einfachen Regressionsbäumen werden im Rahmen der Ensemble-Methoden verschiedene Baum-Kombinationen wie der Random-Forest oder die Gradient-Boosting-Machine vorgestellt, wobei die Wahl der optimalen Abstimmungsparameter anhand eines detaillierten Kreuzvalidierungsschemas erfolgt. Darüber hinaus werden Visualisierungswerkezuge illustriert, um die algorithmischen Erkenntnisse der baumbasierten Methoden des maschinellen Lernens in betriebswirtschaftlich interpretierbare Kennzahlen zu überführen. Im Rahmen der Tarifgestaltung ist die Gradient-Boosting-Machine bei der Prognose der Schadenshäufigkeit und der Schadensschwere die effizienteste Methode. Zudem kann eine adverse Selektion verhindert werden. Aufgrund der Komplexität bzw. der mangelnden Interpretierbarkeit erweist sich die Anwendung jedoch als problematisch.

Data and quantitative analysis have played an important role in the insurance industry since the advent of probability theory and actuarial science in the 17th century. Recent technological advances have significantly accelerated the use of digital or algorithm-based analytics, especially in the last decade. The digitalization and increasing importance of data in today’s world, requires insurance companies to evaluate the available data appropriately and adequately. In the age of real-time transactions and permanent data availability, the generalized linear models (GLMs) and generalized additive Models (GAMs) used to set tariff plans for insurance companies are considered capable of improvement, as the potential of the data is not sufficiently exploited.

Therefore, this master thesis investigates the application of tree-based machine learning methods in the tariff pricing of insurance companies. The classical GAMs and GLMs are used as benchmark models to evaluate the potential added value of tree-based machine learning methods. Starting from simple regression trees, different tree combinations such as the random forest or the gradient boosting machine are presented in the context of ensemble methods, with the selection of optimal tuning parameters based on a detailed cross-validation scheme. Furthermore, visualization tools are illustrated to transform the algorithmic insights of tree-based machine learning methods into actuarially interpretable metrics. In tariff pricing, the gradient-boosting machine is the most efficient method for predicting claim frequency and severity. In addition, adverse selection can be prevented. Nevertheless, due to the complexity and the lack of interpretability, the application is problematic.

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten