Während ordinale Insolvenzprognosen lediglich eine Reihung von Unternehmen entsprechend den erwarteten Ausfallwahrscheinlichkeiten vornehmen, ordnen kardinale Insolvenzprognosen jedem Unternehmen explizit eine Ausfallwahrscheinlichkeit zu.[1]
Inhaltsverzeichnis |
Da sich Ausfallwahrscheinlichkeiten auch als Reihungskriterium interpretieren lassen, können kardinale Insolvenzprognosen hinsichtlich aller Gütekriterien bewertet werden, die auch für ordinale Insolvenzprognosen anwendbar sind: [2],[3]
Zusätzlich können aber auch Kriterien geprüft werden, bei denen die ex-ante Angabe von Ausfallwahrscheinlichkeiten zwingend erforderlich ist:
Kennzahlen die simultan von allen oder einigen dieser Eigenschaften kardinaler Insolvenzprognosen determiniert werden, werden im folgenden als Maße für die Präzision (accuracy) eines Verfahrens bezeichnet. Kennzahlen, welche die Präzision eines Prognoseverfahrens ins Verhältnis zur Präzision eines bestimmten Referenzverfahrens setzen, werden als Maße der Relativen Präzision (auch skill scores oder relative accuracy) bezeichnet.[4]
Kennzahlen die nur einzelne der oben aufgeführten Aspekte kardinaler Insolvenzprognosen messen, insbesondere den Aspekt der Kalibrierung, sind beispielsweise der Gruppierte Brier-Score oder der Rommelfanger-Index.
Der Gruppierte Brier-Score ist wie folgt definiert[5]
Formel 1: 
Anmerkung: Eine naheliegende Alternative zur Gleichgewichtung der ratingklassenspezifischen quadrierten Differenzen der prognostizierten und realisierten Ausfallquoten bei der Ermittlung des Scores besteht in der Berücksichtigung der relativen Belegungsstärken der einzelnen Ratingklassen:
Formel 1b: 
Trotz des ähnlichen Aufbaus unterscheiden sich der gruppierte Brier-Score und der Brier-Score, der im folgenden vorgestellt wird, grundlegend. Im Gegensatz zum Brier-Score (siehe unten) wird der gruppierte Brier-Score nur von der Güte der Kalibrierung eines Ratingverfahrens beeinflusst - nicht jedoch von allen anderen Kriterien kardinaler Schätzgütemaße.
Der Rommelfanger-Index ist wie folgt definiert[6]:
Formel 2: 
: relatives Volumen aller Kredite in der Validierungs-/ Lernstichprobe,Anmerkung: Es wird keine Aussage darüber getroffen, wie die „geeigneten Gewichte“ beschaffen sein müssen. Weitere Kritikpunkte an dieser Kenngröße, neben der ausschließlichen Fokussierung auf den Aspekt der Kalibrierung, sind die Abhängigkeit von irrelevanten Größen (Struktur der Lernstichprobe) und die Setzung von Anreizen zu systematischen Fehlprognose: da in den Klassen 1 … g-1 nur zu hohe und in der Klasse g nur zu niedrige Ausfallwahrscheinlichkeiten „bestraft“ werden, besteht ein Anreiz, alle Prognosen systematisch zu hoch (Ratingklasse 1 … g-1) bzw. zu niedrig (Ratingklasse g) anzusetzen.
Weitere Kenngrößen, die ausschließlich die Korrektheit der Kalibrierung einzelner oder aller Ratingklassen überprüfen, sind Teststatistiken des Binomialtests, des χ2-Tests oder des Normalverteilungstests.[8]
Die beiden im folgenden vorgestellten Präzisionsmaße kardinaler Insolvenzprognosen basieren auf einem einheitlichen Grundprinzip: sie vergleichen die individuellen prognostizierten Ausfallwahrscheinlichkeiten PDi,prog mit den realisierten Ausfallergebnissen Θi (mit Θi = 1 / Θi = 0 falls Schuldner i ausgefallen/ nicht ausgefallen ist) und belegen die dabei auftretenden Differenzen mit unterschiedlichen „Strafen“. Auf diese Weise werden sie von allen der oben aufgeführten fundamentalen Kriterien für die Bewertung von Ausfallprognosen beeinflusst - und nicht nur von einzelnen dieser Maße.
Im Gegensatz zu kategorialen Insolvenzprognosenverfahren, die nur die Extremprognosen „Ausfall“ vs. „Nichtausfall“ erlauben, ist bei stochastischen Ausfallprognosen (kardinalen Ausfallprognosen) zunächst fraglich, warum Abweichungen der individuellen Prognosen (Ausfallwahrscheinlichkeiten) und Ausfallrealisierung als Fehler „bestraft“ werden sollten. Schließlich können die Prognosen beliebige Werte zwischen 0% und 100% annehmen, während die Ausfallrealisierungen nur die Extremenwerte 1 („Ausfall“) oder 0 („Nichtausfall“) annehmen können. Selbst wenn die prognostizierten Ausfallwahrscheinlichkeiten „richtig“ sind, d.h. korrekt kalibriert sind, wenn also beispielsweise 5% aller Unternehmen ausfallen, bei denen das Verfahren eine Ausfallwahrscheinlichkeit von 5% vorhergesagt hat und 10% aller Unternehmen ausfallen, bei denen das Verfahren eine Ausfallwahrscheinlichkeit von 10% vorhergesagt hat, usw., werden die Verfahren „bestraft“, d.h. erhalten nicht die bestmögliche Ausprägung. „Bestraft“ wird in diesen Fällen jedoch die nicht perfekte Trennschärfe der Verfahren: ein Verfahren, das bei allen deutschen Unternehmen im Jahr 2003 eine Insolvenzwahrscheinlichkeit von 1,35% vorausgesagt hätte, wäre zwar perfekt kalibriert gewesen, hätte aber eine hohe „Strafe“ für seine nicht-trennscharfen Prognosen erhalten. Ein Verfahren hingegen, das bei 1,35% dieser Unternehmen eine Insolvenzwahrscheinlichkeit von 100% und bei den restlichen 98,65% eine Ausfallwahrscheinlichkeit von 0% vorhergesagt und mit diesen Prognosen auch immer recht gehabt hätte, hätte die bestmögliche Bewertung erhalten.[9]
Zwei übliche Präzisionsmaße für die Bewertung kardinaler Insolvenzprognosen, die sich nur hinsichtlich der konkreten Ausprägung ihrer „Straffunktionen“ unterscheiden, sind die bedingte Informationsentropie und der Brier-Score.
Die bedingte Informationsentropie (CIE, conditional information entropy) basiert auf einer logarithmischen „Straffunktion“. Die Entropie stellt ein aus der Thermodynamik entlehntes Konzept dar, welches das Ausmaß an Unordnung eines Systems messen soll. Im Kontext von Insolvenzprognosen soll die bedingte Informationsentropie das Ausmaß an Unsicherheit quantifizieren, das mit der mit einem Ratingmodell ermittelten Ausfallwahrscheinlichkeitenverteilung eines Portfolios von Unternehmen verbunden ist. [10]
Formel 3:
[11]
Formel 4: 
Formel 4b: 
Formel 5: 
Formel 6: 
Im Gegensatz zur bedingten Informationsentropie (CIE) basiert der Brier-Score auf einer quadratischen Funktion, mit der Abweichungen der prognostizierten Ausfallwahrscheinlichkeiten von den Ausfallrealisationen „bestraft“ werden. Er ist wie folgt definiert:
Formel 7:
[18]
Formel 8: 
Formel 8b: 
Formel 9:
mit
Formel 10: 
Die „Straffunktionen“ der bedingten Informationsentropie und des Brier-Scores sind als willkürlich in dem Sinne anzusehen, als dass sie nicht Bezug auf die letztendlich interessierenden (und möglicherweise differierenden) Nutzengrößen der Anwender des Prognoseverfahrens nehmen. Die Kenngrößen zeigen jedoch ein „plausibles“ Verhalten, so dass eine Korrelation mit den Nutzengrößen der potentiellen Anwender der Prognosen zumindest vermutet werden kann: Beide Scores „belohnen“ richtig kalibrierte [20] und trennfähige [21] Prognosen - und durch Umformungen der resultierenden Scorewerte lassen sich auch Bezüge zu den anderen Gütekriterien für kardinale Insolvenzprognosen, wie Auflösung, Feinheit, systematische Verzerrung, herstellen.[22]
Aus der in obiger Abbildung dargestellten Dekomposition des Brier-Scores wird jedoch eine problematische Eigenschaft des Brier-Scores (und anderer kardinaler Gütemaße) ersichtlich: die Abhängigkeit von der durchschnittlichen Ausfallrate der Grundgesamtheit. Je größer die Varianz der Umgebung (PD·(1-PD)) ist, desto größer (=schlechter) ist der Brier-Score, den ein Verfahren in der jeweiligen Umgebung erzielt.[23]. Um diese unerwünschte Umweltabhängigkeit kardinaler Gütemaße zu vermeiden, wird die Verwendung von Skillmaßen vorgeschlagen, die den ermittelten Gütewert in Relation zur Güte von naiven Prognosen in der gleichen Umgebung betrachten.[24]
Unerwünscht ist diese Abhängigkeit, weil sie den Performancevergleich unterschiedlicher Verfahren beeinträchtigt, wenn die Leistungsfähigkeit der Verfahren auf Grundgesamtheiten mit unterschiedlichen durchschnittlichen Ausfallhäufigkeiten gemessen werden. Empirisch und (modell-)theoretisch lässt sich jedoch zeigen, daß auch Skill-Scores umweltabhängig sind – während der Brier-Score (für PDi<50%) mit zunehmenden Ausfallwahrscheinlichkeiten immer „schlechter“ wird, werden die zugehörigen Skillscores aber paradoxerweise immer „besser“. [25] Schätzgütemaße für ordinale Insolvenzprognosen weisen diesen Nachteil nicht auf.[26]
Vereinzelt werden obige Gütemaße auch unter der Fiktion einer richtigen Kalibrierung verwendet, d.h. ex-post wird PDi,prog = PDi,tat für alle i gesetzt.[27] Die Formeln 4b und 8b vereinfachen sich dann zu:
Formel 4c: 
Formel 8c: 
Formel 8d:
Die so erhaltenen Gütemaße sind dann unempfindlich gegenüber möglichen Fehlkalibrierungen (oder gar fehlenden Kalibrierungen, wie im Fall ordinaler Insolvenzprognosen) - der mittlere Term („Kalibrierung“) in obiger Abbildung entfällt - und sie messen somit lediglich die Varianz der Umwelt und die Auflösung der Prognosen. Für portfolioübergreifende Vergleich sind sie aber aufgrund der Abhängigkeit von der durchschnittlichen Ausfallrate ungeeignet. Beim Vergleich verschiedener Prognoseverfahren auf Basis identischer Portfolien sind sie zwar nicht informativer als die üblichen Schätzgütemaße für ordinale Insolvenzprognosen wie Area under the ROC curve und Accuracy Ratio, sie können aber als zusätzliches Kriterium herangezogen werden, speziell im Fall von einander schneidenden ROC-Kurven. Deuten beim direkten Vergleich zweier Prognoseverfahren alle Indikatoren auf die Überlegenheit des gleichen Verfahrens, so wird der Entscheidungsträger – wenn er sich für dieses Verfahren entscheidet, in seiner Sicherheit bestärkt, das richtige Verfahren gewählt zu haben. Geben die verschiedenen Indikatoren widersprüchliche Signale, ist anzunehmen, dass der Entscheidungsträger zumindest keinen „großen Fehler“ macht, wenn er sich für ein beliebiges der beiden Verfahren entscheidet. Alternativ kann er dann auch sekundäre Entscheidungskriterien heranziehen wie die Kosten der Prognoseerstellung oder die Transparenz und Nachvollziehbarkeit der Prognoseverfahren.