Modellbildung und Wirklichkeit
Mit dem Buchautor Gerd Kommer habe ich gerade eine Diskussion. Gerd Kommer meint, dass man anhand langer Zeitreihen die erwartete Rendite beispielsweise des DAX abschätzen kann. Schaut man sich die DAX-Renditen z.B. über die letzten 30 Jahre an und berechnet den statistischen Mittelwert von (sagen wir) 10%, so darf man- nach Gerd Kommer – auch für die nächsten 30 Jahre eine durchschnittliche DAX-Rendite von ca. 10% annehmen.
Ich hingegen kritisiere, dass dies ein Schluss von der Vergangenheit auf die Zukunft ist. Ein solcher Schluss ist nur zulässig, wenn bestimmte Voraussetzungen erfüllt sind. Und gerade bei Kapitalmarktrenditen habe ich meine Zweifel, dass diese Voraussetzungen erfüllt sind. Ich möchte meinen Gedankengang nachfolgend anhand einiger Beispiele darlegen…
Körpergrößen sind normalverteilt
Man stelle sich einmal folgende Situation vor. Einer Versuchsperson, nennen wir sie Frau B., werden 100 Zahlen aus einem bestimmten Bereich vorgelegt, beispielsweise:
(A) Körpergrößen verschiedener (zufällig ausgewählter) Mädchen zwischen 14 und 18 Jahren.
Der Versuch besteht aus drei Schritten:
- Frau B. erhält die ersten 100 Zahlen („Beobachtung“)
- Frau B soll sich eine Theorie ausdenken, wie es mit den nächsten 100 Zahlen weitergehen wird. Dabei darf sie die ersten 100 Zahlen verwenden. („Theoriebildung“).
- Dann kommen die zweiten 100 Zahlen und es wird überprüft, wie gut die Schätzung von Frau B war („emprische Überprüfung der Theorie“).
Die Körpergrößen der ersten 100 Mädchen zwischen 14 und 18 werden möglicherweise so aussehen:
170 cm, 165 cm, 166 cm, 159 cm, 169 cm, 152 cm, 173 cm, 164 cm, ….
Frau B. hat nun die Aufgabe, sich eine Theorie dazu zu überlegen. Bezogen auf diese Zahlenreihe kann nun Frau B. sehr einfach den Mittelwert bilden, sagen wir 166 cm. Wenn sich Frau B. mit Statistik auskennt, wird sie außerdem eine sogenannte Standardabweichung berechnen können, die beispielweise 6,4 cm beträgt. Wenn sich Frau B. sehr gut mit Statistik auskennt, wird sie vielleicht auf die Idee kommen, dass die (wie man so sagt) Zufallsvariable „Körpergröße eines Mädchens im Alter zwischen 14 und 18 Jahren“ normalverteilt ist. Nehmen wir an, dass das ihre Theorie am Ende sein wird.
Diese Theorie kann untermauert werden, indem Frau B. die Häufigkeiten der tatsächlich beobachteten Körpergrößen grafisch darstellt und die Gauß’sche Glockenkurve mit Mittelwert 166 cm und der Standarbweichung von 6,4 cm darüberlegt. Die tatsächlichen Häfuigkeiten (die Wirklichkeit) und die Glockenkurve (die hypothetische Thoerie) werden eine sehr ähnliche grafische Gestalt haben.
Aufgrund dieser Überlegungen wird Frau B folgende Voraussagen für die weiteren 100 Mädchen-Körpergrößen machen können:
- Auch für die nächsten 100 Körpergrößen von Mädchen zwischen 14 und 18 werden im Mittel etwa bei 166 cm liegen.
- Ferner wird sie (aufgrund ihrer hervorragenden statistischen Kenntnisse) abschätzen können, dass wohl in etwa 16% der Mädchen (des zweiten Durchlaufs) kleiner als 160 cm sein werden.
- Außerdem wird sie sagen können, dass von den 100 weiteren Mädchen voraussichtlich nur eines kleiner als 151 cm sein wird, und voraussichtlich nur eines größer als 181 cm.
All solche Aussagen (und mehr) kann man sich erschließen unter der Voraussetzung, dass Körpergrößen von Mädchen zwischen 14 und 18 normalverteilt sind.
Und mit sehr hoher Wahrscheinlichkeit wird die empirische Überprüfung all diese Voraussagen von Frau B. bestätigen. Denn durch frühere zahlreiche empirische Studien wissen wir, dass Körpergrößen von Menschen gut durch die Normalverteilung beschrieben werden. Die Wirklichkeit (d.h. die tatsächlichen Körpergrößen von Menschen) passt sehr gut zu der angenommenen Theorie (Normalverteilung).
Klar ist auch, dass die vor 5 Jahren berechnete Normalverteilung für Körpergrößen sehr stark übereinstimmen wird mit derjenigen, die man heute berechnen würde oder die man vor 10 Jahren berechnet hat. Diese Wahrscheinlichkeitsverteilung wird sich über die Zeit hinweg entweder gar nicht oder so gut wie nicht verändern.
Eine Theoriebildung bei Telefonnummern ist so gut wie unmöglich
Ändern wir den Versuch nun ein wenig ab. Frau B. muss sich nun nicht mehr mit Körpergrößen beschäftigen, sondern mit
(B) Telefonnummer von verschiedenen Münchnern, die den Nachnahmen „Müller“ haben.
Frau B. werden 100 verschiedene solche Telefonnummern vorgelegt. Danach wird sie aufgefordert, sich eine Theorie zu überlegen, wie es mit den folgenden 100 Müller-Telefonnummern wohl weitergehen wird.
Diese Aufgabe ist sehr schwer. Denn welche Telefonnummern ein Herr oder eine Frau Müller in München hat, hängt von allem Möglichen ab, aber sicher nicht mit der Tatsache, dass jemand „Müller“ heißt.
Vielleicht kommt Frau B. ähnlich wie vorhin auf die Idee einen Mittelwert zu bilden. Nehmen wir an, dieser Mittelwert über die ersten 100 Müller-Telefonnummern ist „18 73 26 00“ (habe ich tatsächlich selbst so nachgerechnet).
Wird ihr hier der Mittelwert weiterhelfen? Offensichtlich nicht. Natürlich kann sie den Mittelwert der ersten 100 Telefonnummer berechnen (das ist ja keine Kunst). Aber es ist nicht zu erwarten, dass dieser so ermittelte Mittelwert auch nur annähernd mit dem Mittelwert den nächsten Müller-Telefonnummern haben wird.
Frau B. wird anhand der ersten 100 Müller-Telefonnummern keinerlei Hinweis finden für eine Abschätzung der folgenden 100 Müller-Telefonnummern.Würde Frau B. tatsächlich auf die (seltsame) Idee kommen, dass die Müller-Telefonnummern normalverteilt sind, so kann sie diese Theorie natürlich aufstellen. Mit der Wirklichkeit wird das aber nichts zu tun haben.
Die als zweites zufällig gewählten 100 Müller-Telefonnummern werden so sehr einen anderen Mittelwert und so sehr eine andere Standardabweichung habne, dass die Annahme, Müller-Telefonnummern seien normalverteilt, sehr schnell widerlegt wäre. (Ich habe das getan, und bin beim zweiten Mal auf den Mittelwert 27 88 41 96 gekommen)
Außerdem ist beim besten Willen nicht davon auszugehen, dass die Wahrscheinlichkeitsverteilung für Müller-Telefonnumern, die wir vor 10 Jahren aufgestellt haben, noch mit der heutigen Übereinstimmen wird. Zu sehr hängt es von Zufällen ab, welche Müller heute noch dieselbe Telefonnummer hat, wer inzwischen weg- oder dazugezogen ist etc.
Die tatsächlichen Müller-Telefonnummern sind so beliebig und unvorhersehbar, dass es kaum einen Sinn macht, hier eine über die Zeit hinweg konstante Normalverteilung anzunehmen. Unter normalen Umständen, denke ich, würde auch niemand überhaupt auf eine solche Idee kommen.
Manchmal liefern kürzere Datenreichen bessere Schätzungen
Ändern wir die Versuchssituation noch ein drittes Mal. Diesmal werden Frau B. folgende Daten vorgelegt:
(C) Anzahl der Tore, die der FC Bayern München bei einem Bundesligaspiel erzielt.
Auch hier erhält Frau B. 100 tatsächlich in der Vergangenheit erzielte Ergebnisse. Auch hier kann Frau B., wenn sie will, einen Mittelwert bilden. Sagen wir mal, er liegt bei 1,3 Toren.
Doch auch hier könnte man Zweifeln, ob die nächsten 100 Spiele, die der FC Bayern München spielen wird, wieder im Schnitt bei 1,3 liegen wird. Zu sehr hängt das Ganze von Faktoren ab, die sich über die Zeit zu sehr ändern können: Trainer, Verfassung der Spieler, Stärke der anderen Fußballvereine, etc.
In diesem Beispiel liefert möglicherweise eine kürzere Datenreihe eine bessere Abschätzung für die nähere Zukunft. Wenn man beispielsweise in eine Spielsaison ist, Trainer, Verfassung der Spieler und Spielstärke der Gegner für ein paar Monate in etwas gleich bleibt, und bei den letzten 5 Spielen der FC Bayern recht gut gespielt hat, dann wird man wohl annehmen, dass er auch in den nächsten 5 Spielen einigermaßen gut davonkommen wird. Wie der FC Bayern aber in drei Jahren spielen wird, eine solche Prognose wird sich wahrscheinlich nicht einmal der größte Fußballkenner zutrauen – auch nicht auf der Datenbasis der Fußballergebnisse der letzten 30 Jahre.
Fazit
In diesen drei Besipielen hatten wir drei, wie man es in der Fachsprache nennt, Zufallsvariablen:
(A) Körpergrößen verschiedener (zufällig ausgewählter) Mädchen zwischen 14 und 18 Jahren.
(B) Telefonnummer von verschiedenen Münchnern, die den Nachnahmen „Müller“ haben.
(C) Anzahl der Tore, die der FC Bayern München bei einem Bundesligaspiel erzielt.
All diese Zufallsvariablen kann man
- zunächst beobachten,
- man kann sich in einem zweiten Schritt eine Theorie dazu überlegen, um weitere zukünftige Daten dieser Zufallsvariable abzuschätzen
- man kann die erstellte Theorie anhand der tatsächlich beobachteten Daten überprüfen.
Im Fall der Zufallsvariable (A) konnte man tatsächlich eine über die Zeit konstante Normalverteilung annehmen. Sie wird durch die Empirie gut belegt.
Bei der Zufallsvaribalen (B) ist dei allgemeine Theorie überhaupt nicht aufstellbar. Und wenn, dann ist klar, dass sie sich mit der Zeit verändern wird.
Bei der Zufallsvariablen (C) ist eine lange Zeitreihe eher ungeeignet. Eine kurze Zeitreihe ist aber möglicherweise besser geeignet, um die nähere Zukunft vorauszusagen. Eine ferne Zukunft erscheint vollkommen unabschätzbar.
Nun der Bezug zu der Diskussion mit Gerd Kommer: Woher wollen wir wissen, ob sich Kapitalmarktdaten eher wie die Zufallsvariable (A), (B) oder (C) verhält? Jedenfalls genügt es nicht, dass man einfach eine Theorie aufstellt, man muss sie auch an der Empirie belegen können. Und wenn die Theorie nicht mit den beobachteten Daten übereinstimmt, dann sollte man die Theorie in Zweifel stellen (und nicht die Empirie).
Ich werde in meinen nächsten Beiträgen erörtern, warum die Annahme einer über die Zeit hinweg konstanten Normalverteilung bei Kapitalmarktdaten nicht haltbar ist.
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!