Artikel mit ‘Extremwertstatistik’ getagged

It slices, dices…

Donnerstag, 12. Juni 2008

Wie die samples aufteilen, so dass homogenen Datenbestaende herauskommen?

Datengrundlage:

(stuendlich) Niederschlag, Temperatur, Windmaxima
(taeglich) Temperaturextrema, Windmaxima

Dimensionen

Zeit: 3 Monate fuer 10 Jahre in 2 Zeitscheiben
Raum: 200 x 200 Pixel in verschiedenen Hoehenlagen und Expositionen

Wir muessen teilen nach

* Hoehe
* Tageszeit
* Monat?

Klimadiagramm von Trier ( (c) www.klimadiagramme.de

Bild: www.klimadiagramme.de

Homogene Stichprobe

Zeit

Niederschlag

Das Klimadiagramm von Trier zeigt, dass sich ueber die fuer die Arbeit relevanten Monate 6, 7 und 8 die Niederschlagssumme kaum veraendert. Dadurch laesst sich argumentieren, man koenne die Niederschlagsmaxima der drei Monate gleich behandeln und in einer Gruppe belassen. Welche weiteren Prozesse sind in der Niederschlagsreihe zu erwarten? Frontendurchgaenge, bei konvektiven Ereignissen: Tagesgang.

Frontendurchgaenge

Die Wahrscheinlichkeit / Haeufigkeit von Frontendurchgaengen duerfte sich innerhalb der 3 Monate nicht signifikant aendern, oder?

Tagesgang

Gibt es eine Haeufigkeitsverteilung konvektiver Ereignisse im Tagesgang? A la “ab Sonnenaufgang ein Haufen Konvektion und Verdunstung bis dann nachmittags genug Wasser in der Atmosphaere ist um auszuregnen”? Ja, gibt es. Konvektive Niederschlaege haben ihr Maximum am spaeten Nachmittag / fruehen Abend (18 - 20). Also fallen auch die 2h Werte weg, oder? Alternativ sagen wir: Gut, es gibt konvektive Ereignisse, aber nicht nur. Also auch Fronten, die davon unabhaengig sind. Das passt dann schon?! Nein. Vor allem deswegen, weil die konvektiven Ereignisse wahrscheinlich einen grossen Teil des Gesamtniederschlags ausmachen.

Fixed window ist nicht interessant fuer die Statistik, da das grosse Problem die Niederschlaege der letzten X Stunden sind. Also ist ein moving window angebracht, zumindest bei Tageswerten. Ist das bei 2 oder 3 h Werten auch so?

Also, zweistuendige Niederschlagsmengen sind nicht repraesentativ, weil diese ueber den Tag nicht gleichverteilt sind. Wenn wir jetzt aber nur tageweise die maximale Menge in 2h nehmen? Warum dann nicht gleich den 24h Wert? (Siehe vorheriger Absatz) Oder running mean! Ein zweistuendig inkrementiertes 24h running mean der Niederschlagssumme. Damit ist der Tagesgang eliminiert und die Moeglichkeit erhalten, schwere Ereignisse die auch ueber einen ganzen Tag gehen zu behalten.

Temperatur

Probleme bereitet die Temperaturkurve, die eine Differenz von etwa 2.5 Grad C zwischen Juni und Juli aufweist. Wuerden mit dieser Reihe Temperaturmaxima berechnet dann waere es wahrscheinlicher, dass dass Temperaturmaximum aus Juli oder August kommt - die Monate waeren nicht gleich, die Stichprobe inhomogen.

Allerdings bezieht sich das auf langjaehrige Tagesmittelwerte. Es ist also durchaus moeglich, dass der Juni waermer als der Juli wird und das Maximum doch aus dem Juni stammt und nicht aus dem Juli oder August - aber eben nicht statistisch gleichbedeutend. Was hat das jetzt fuer Auswirkungen auf unsre Untersuchung?

Wir nehmen die Temperaturen der drei Monate ueber zehn Jahre, zeigen mit einem U-Test, dass sich die Mittelwerte nicht signifikant unterscheiden (wohl eher ne ANOVA) und nehmen dann entweder nur den Monat der Maxima oder alle 3…

Raum

Die Menge des gefallenen Niederschlages veraendert sich mit der Hoehenstufe. Es waere deswegen wohl sinnvoll, die Stichprobe mindestens in hoch / tief zu unterteilen. Allerdings ist sicherlich auch die Exposition / Lage innerhalb des Modellgebietes von Bedeutung, da die Leeseiten sowie weiter westlich gelegenen Regionen mehr Niederschlag erhalten werden. Den Niederschlag werden wir auf der ganzen Karte auswerten. Die beeinflussenden Parameter sind zu komplex als dass es Sinn machen wuerde daraus Gruppen zu bilden. Also machen wir es fuer jedes Pixel einzeln. Running mean auf 24h, dann Maxima bzw. peaks over threshold.

Das heisst also auch, dass wir die komplette Statistik auf jedes Pixel einzeln anwenden werden. Also dann:

* Niederschlag: Wir haben bereits festgestellt, dass wir die drei Monate gemeinsam behandeln koennen. Den Tagesgang koennen wir allerdings nicht vernachlaessigen. Also muessen wir aggregieren bis der Prozess nicht mehr sichtbar ist. –> Tagesmaxima erzeugt aus 3h running means. Die deswegen, weil vor allem die mehrstuendigen Ereignisse die spannenden Niederschlagsmengen bringen. Aufgrund des running means sind die Daten aber stark autokorreliert!!!

Was ist ein Extremwert?

Donnerstag, 05. Juni 2008

Die Frage stellt sich und ist gar nicht so einfach zu beantworten.

Nehmen wir an ich modelliere meine zwei Zeitscheiben wie geplant. Fuer das Beispiel Wind haette ich dann stuendliche Maximalwerte. Und davon (30 + 31 + 31) * 10 * 24 = 22080 Stueck. Das ist schon mal kein schlechtes n.

Sind das jetzt aber Extremwerte? Folgen die einer Extremwertverteilung?

Es sind die Maxima der stuendlichen Windverteilungsfunktion und damit Extrema. Allerdings entsprechen sie nicht der gleichen Wertemenge die eine “klassische” Peaks over threshold Methode erzeugen wuerde. Dazu wuerden ja alle Auspraegungen der Windgeschwindigkeit der 24 h * 3 Monate * 10 Jahre in einen Topf geworfen und dort dann das rechte Ende verwendet. Das ist nicht dasselbe wie stuendliche Extrema zu verwenden. Allerdings verhindern sie effektiv eine Menge von Einfluessen, die die asymptotische Annahme unterminieren wuerden: Die Zeitraeume aus denen Extrema kommen sind gleichverteilt, es gibt keine “Windsaison”.