It slices, dices…
Wie die samples aufteilen, so dass homogenen Datenbestaende herauskommen?
Datengrundlage:
(stuendlich) Niederschlag, Temperatur, Windmaxima
(taeglich) Temperaturextrema, Windmaxima
Dimensionen
Zeit: 3 Monate fuer 10 Jahre in 2 Zeitscheiben
Raum: 200 x 200 Pixel in verschiedenen Hoehenlagen und Expositionen
Wir muessen teilen nach
* Hoehe
* Tageszeit
* Monat?
Homogene Stichprobe
Zeit
Niederschlag
Das Klimadiagramm von Trier zeigt, dass sich ueber die fuer die Arbeit relevanten Monate 6, 7 und 8 die Niederschlagssumme kaum veraendert. Dadurch laesst sich argumentieren, man koenne die Niederschlagsmaxima der drei Monate gleich behandeln und in einer Gruppe belassen. Welche weiteren Prozesse sind in der Niederschlagsreihe zu erwarten? Frontendurchgaenge, bei konvektiven Ereignissen: Tagesgang.
Frontendurchgaenge
Die Wahrscheinlichkeit / Haeufigkeit von Frontendurchgaengen duerfte sich innerhalb der 3 Monate nicht signifikant aendern, oder?
Tagesgang
Gibt es eine Haeufigkeitsverteilung konvektiver Ereignisse im Tagesgang? A la “ab Sonnenaufgang ein Haufen Konvektion und Verdunstung bis dann nachmittags genug Wasser in der Atmosphaere ist um auszuregnen”? Ja, gibt es. Konvektive Niederschlaege haben ihr Maximum am spaeten Nachmittag / fruehen Abend (18 - 20). Also fallen auch die 2h Werte weg, oder? Alternativ sagen wir: Gut, es gibt konvektive Ereignisse, aber nicht nur. Also auch Fronten, die davon unabhaengig sind. Das passt dann schon?! Nein. Vor allem deswegen, weil die konvektiven Ereignisse wahrscheinlich einen grossen Teil des Gesamtniederschlags ausmachen.
Fixed window ist nicht interessant fuer die Statistik, da das grosse Problem die Niederschlaege der letzten X Stunden sind. Also ist ein moving window angebracht, zumindest bei Tageswerten. Ist das bei 2 oder 3 h Werten auch so?
Also, zweistuendige Niederschlagsmengen sind nicht repraesentativ, weil diese ueber den Tag nicht gleichverteilt sind. Wenn wir jetzt aber nur tageweise die maximale Menge in 2h nehmen? Warum dann nicht gleich den 24h Wert? (Siehe vorheriger Absatz) Oder running mean! Ein zweistuendig inkrementiertes 24h running mean der Niederschlagssumme. Damit ist der Tagesgang eliminiert und die Moeglichkeit erhalten, schwere Ereignisse die auch ueber einen ganzen Tag gehen zu behalten.
Temperatur
Probleme bereitet die Temperaturkurve, die eine Differenz von etwa 2.5 Grad C zwischen Juni und Juli aufweist. Wuerden mit dieser Reihe Temperaturmaxima berechnet dann waere es wahrscheinlicher, dass dass Temperaturmaximum aus Juli oder August kommt - die Monate waeren nicht gleich, die Stichprobe inhomogen.
Allerdings bezieht sich das auf langjaehrige Tagesmittelwerte. Es ist also durchaus moeglich, dass der Juni waermer als der Juli wird und das Maximum doch aus dem Juni stammt und nicht aus dem Juli oder August - aber eben nicht statistisch gleichbedeutend. Was hat das jetzt fuer Auswirkungen auf unsre Untersuchung?
Wir nehmen die Temperaturen der drei Monate ueber zehn Jahre, zeigen mit einem U-Test, dass sich die Mittelwerte nicht signifikant unterscheiden (wohl eher ne ANOVA) und nehmen dann entweder nur den Monat der Maxima oder alle 3…
Raum
Die Menge des gefallenen Niederschlages veraendert sich mit der Hoehenstufe. Es waere deswegen wohl sinnvoll, die Stichprobe mindestens in hoch / tief zu unterteilen. Allerdings ist sicherlich auch die Exposition / Lage innerhalb des Modellgebietes von Bedeutung, da die Leeseiten sowie weiter westlich gelegenen Regionen mehr Niederschlag erhalten werden. Den Niederschlag werden wir auf der ganzen Karte auswerten. Die beeinflussenden Parameter sind zu komplex als dass es Sinn machen wuerde daraus Gruppen zu bilden. Also machen wir es fuer jedes Pixel einzeln. Running mean auf 24h, dann Maxima bzw. peaks over threshold.
Das heisst also auch, dass wir die komplette Statistik auf jedes Pixel einzeln anwenden werden. Also dann:
* Niederschlag: Wir haben bereits festgestellt, dass wir die drei Monate gemeinsam behandeln koennen. Den Tagesgang koennen wir allerdings nicht vernachlaessigen. Also muessen wir aggregieren bis der Prozess nicht mehr sichtbar ist. –> Tagesmaxima erzeugt aus 3h running means. Die deswegen, weil vor allem die mehrstuendigen Ereignisse die spannenden Niederschlagsmengen bringen. Aufgrund des running means sind die Daten aber stark autokorreliert!!!
Tags: Auswertung, Extremwertstatistik, Statistik
