Verteilungsfunktionen
Definitionen
Wir hatten im ersten Teil dieses Tutorials bereits die Zuordnung des Ereignisraumes auf zufällige Veränderliche des reellen Zahlenraumes diskutiert. Hierbei wurde die Wahrscheinlichkeitsdichte $p(x)$ dadurch definiert, daß
\begin{displaymath}
\int_{\xi_{a}}^{\xi_{b}} dx p(x)= P(\xi_{a} \leq x \leq \xi_{b})
\end{displaymath} (1)

die Wahrscheinlichkeit ist, daß die zufällige Veränderliche $x$ in das Intervall $[\xi_{a},\xi_{b}]$ fällt. Für spätere Anwendungen definieren wir noch zusätzlich die integrale Verteilungsfunktion, indem wir $\xi_{a} = -\infty$ und $\xi_{b}$ durch $\xi$ ersetzen:
\begin{displaymath}
\int_{-\infty}^{\xi} dx p(x) = P(x \leq \xi) \equiv P(\xi) .
\end{displaymath} (2)

Dieses gibt die Wahrscheinlichkeit an, daß die zufällige Veränderliche $x$ einen Wert kleiner als den festen Wert $\xi$ annimmt. Diese Definition kann in einfacher Weise auf zufällige Vektoren ausgedehnt werden.
\begin{displaymath}
P(\vec{\xi}) = \int_{-\infty}^{\xi_{1}} dx_{1} \int_{-\infty...
...ot \int_{-\infty}^{\xi_{n}} dx_{n}
p(x_{1},x_{2}, ...,x_{n}).
\end{displaymath} (3)

gibt dann die Wahrscheinlichkeit an, einen Wert des zufälligen Vektors $(x_{1},x_{2},...,x_{n})$ zu finden mit $x_{1} \leq \xi_{1},
x_{2} \leq \xi_{2}, ..., x_{n} \leq \xi_{n}.$ Offensichtlich ist
\begin{displaymath}
\frac{\partial^{n} P(\xi_{1},\xi_{2},...,\xi_{n})}{\partial ...
...ot \cdot \cdot \partial \xi_{n}} = p(x_{1}, x_{2},..., x_{n}).
\end{displaymath} (4)

Daher gilt: Eine zufällige Veränderliche $\vec{x}$ wird als gegeben betrachtet, wenn eine dieser Funktionen, $p(\vec{x})$ oder $P(\vec{\xi})$, gegeben ist.

Wir werden im folgenden die Wahrscheinlichkeitsdichte $p(\vec{x})$ auch häufig als Verteilungsfunktion und $P(\vec{\xi})$ als integrale Verteilungsfunktion bezeichnen. Diese Bezeichnungen sind in der Statistik durchaus üblich. Streng genommen sollte man aber nur $P(\vec{\xi})$ als Verteilungsfunktion bezeichnen.

Für diskrete Veränderliche $k$ hatten wir keine Dichtefunktion definiert, sondern nur die Wahrscheinlichkeitsverteilung. Die integrale Verteilungsfunktion einer diskreten Veränderlichen wird definiert durch

\begin{displaymath}
P(\kappa) \equiv P(k \leq \kappa) = \sum_{k = -\infty}^{\kappa} P(k).
\end{displaymath} (5)

Beispiele.
Es gibt nur wenige Wahrscheinlichkeitsverteilungen und Dichtefunktionen, deren integrale Verteilungsfunktion geschlossen darstellbar ist. Nehmen wir z.B. die Normalverteilung,

\begin{displaymath}
p(x) = \frac{1}{\sqrt{2\pi} \sigma} e^{-x^{2}/2\sigma^{2}},
\end{displaymath}

so ist die integrale Verteilungsfunktion

\begin{displaymath}
P(\xi) = \frac{1}{\sqrt{2\pi} \sigma} \int_{-\infty}^{\xi} dx
e^{-x^{2}/2\sigma^{2}} ,
\end{displaymath}

ein Integral, das nicht in geschlossener Form gelöst werden kann. Wir hatten dieses Integral bereits im Zusammenhang mit dem Fehlerintegral diskutiert. In Abbildung 1 zeigen wir einen Screenshot aus einem Applet, in dem die integrale Verteilungsfunktion mit Hilfe einer Simulation numerisch bestimmt wird.


Abbildung 1: Simulation der Normalverteilung und deren integrale Verteilungsfunktion für $<x>=0$ und $\sigma =1$.

Ähnliches gilt für die Bernoulli Verteilung,

\begin{displaymath}
P(p,n;k) = \left( \begin{array}{c} n \\ k \end{array} \right)
p^{k} (1-p)^{n-k} ,
\end{displaymath}

deren integrale Verteilungsfunktion

\begin{displaymath}
P(p,n;\kappa ) = \sum_{k=0}^{\kappa} \left( \begin{array}{c} n \\ k
\end{array} \right) p^{k} (1-p)^{n - k}
\end{displaymath}

nicht mehr entscheidend in ihrer Form vereinfacht werden kann. Daher werden wir die integrale Verteilungsfunktion nicht in den Vordergrund unserer Betrachtungen stellen. In vielen Lehrbüchern der theoretischen Statistik wird fast ausschließlich mit der integralen Verteilungsfunktion gearbeitet. Der wesentliche Grund ist, daß dann in beiden Fällen, bei diskreten und bei kontinuierlichen Veränderlichen, mit Wahrscheinlichkeiten gearbeitet werden kann, die lästigen Fallunterscheidungen zwischen diskreten und kontinuierlichen Veränderlichen damit entfallen. Weiterhin sind die beiden Extremalbedingungen

\begin{displaymath}
P(\xi) = \{ \begin{array}{cl} 0 & \; \; \; f''ur \; \xi \to -\infty \\
1 & \; \; \; f''ur \; \xi \to +\infty \end{array}
\end{displaymath}

theoretisch sehr nützlich. Einige Beispiele von analytisch darstellbaren integralen Verteilungsfunktionen sollen im folgenden noch angeführt werden.

Die Gleichverteilung im Intervall $[0,1]$,

\begin{displaymath}
p(x) = \{ \begin{array}{cl} 1 & \; \; \; f''ur \; 0 < x < 1 \\
0 & \; \; \; sonst \end{array}\end{displaymath}

hat offenbar die integrale Verteilungsfunktion

\begin{displaymath}
P(\xi) = \{ \begin{array}{cl} 0 & \; \; \; f''ur \; \xi \leq...
...eq \xi \leq 1 \\ 1 & \; \; \; f''ur \; \xi \geq 1 .
\end{array}\end{displaymath}

Die integrale Verteilungsfunktion der Exponentialverteilung

\begin{displaymath}
p(x) = \{ \begin{array}{ll} \frac{1}{\tau} e^{-x/\tau} & \; ...
...f''ur \;
x \geq 0 \\ 0 & \; \; \; f''ur \; x \leq 0 \end{array}\end{displaymath}

ist

\begin{displaymath}
P(\xi) = \{ \begin{array}{ll} 1 - e^{-\xi /\tau} & \; \; \; ...
...\;
\xi \geq 0 \\ 0 & \; \; \; f''ur \; \xi \leq 0 , \end{array}\end{displaymath}

und ist in Abb.2 gezeigt.


Abbildung 2: Exponentialverteilung und integrale Exponentialverteilung für $\tau = 1$.

Randverteilungen
Wenn $P(\xi_{1},\xi_{2})$ die integrale Verteilungsfunktion eines zweidimensionalen zufälligen Vektors $\vec{x} = (x_{1},x_{2})$ ist,

\begin{displaymath}
P(\xi_{1},\xi_{2}) \equiv P(x_{1} \leq \xi_{1}, x_{2} \leq \...
..._{1}} dx_{1} \int_{-\infty}^{\xi_{2}}
dx_{2} p(x_{1},x_{2}) ,
\end{displaymath}

so kann man nach der Bedeutung der Funktion
\begin{displaymath}
P(\xi_{1}, +\infty) = \int_{-\infty}^{\xi_{1}} dx_{1}
\int_{-\infty}^{+\infty} dx_{2} p(x_{1},x_{2})
\end{displaymath} (6)

fragen. Diese Funktion nennt man die integrale Randverteilung der zufälligen Veränderlichen $x_{1}$ in der Verteilung von $(x_{1},x_{2})$. Da $\xi_{2} = \infty$ jetzt einen festen Wert annimmt, kann man auch schreiben
\begin{displaymath}
P_{1}(\xi_{1}) \equiv P(\xi_{1},+\infty) = \int_{-\infty}^{\xi_{1}}
dx_{1} p_{1}(x_{1}).
\end{displaymath} (7)

Zur Randverteilung $P_{1}(\xi_{1})$ gehört also die Dichteverteilung
\begin{displaymath}
p_{1}(x_{1}) = \int_{-\infty}^{\infty} dx_{2} p(x_{1},x_{2}).
\end{displaymath} (8)

Diese Definitionen lassen sich ohne weiteres auf $n$-dimensionale zufällige Vektoren übertragen. So ist z.B. die Funktion
\begin{displaymath}
P_{ij}(\xi_{i},\xi_{j}) = \int_{-\infty}^{\infty} dx_{1} ......
...j} ...
\int_{-\infty}^{\infty} dx_{n} p(x_{1},x_{2},...,x_{n})
\end{displaymath} (9)

die integrale Randverteilung der zweidimensionalen zufälligen Veränderlichen $(x_{i},x_{j})$ in der $n$-dimensionalen zufälligen Veränderlichen $\vec{x}=(x_{1},x_{2},...,x_{n})$. Die zugehörige Dichtefunktion ist entsprechend
$\displaystyle p_{ij}(x_{i},x_{j}) =$ $\textstyle \int_{-\infty}^{\infty} dx_{1} ...
\int_{-\infty}^{\infty} dx_{i-1} ...
...nfty}^{\infty} dx_{j+1} ...
\int_{-\infty}^{\infty} dx_{n} p(x_{1},...,x_{n}) .$   (10)

Beispiel.
Die allgemeine zentrale Normalverteilung zweier Veränderlicher $x_{1}$ und $x_{2}$ lautete:

\begin{displaymath}
p(x_{1},x_{2}) = \frac{1}{2\pi \sigma_{1} \sigma_{2} \sqrt{1...
...} x_{2}/
(\sigma_{1} \sigma_{2}) + x_{2}^{2}/\sigma_{2}^{2}} .
\end{displaymath}

Zur Bestimmung der Randverteilungen integrieren wir über eine der beiden Variablen. Wegen der Symmetrie ist es egal, über welche der beiden Veränderlichen integriert wird.

\begin{displaymath}
p_{1}(x_{1}) = \frac{1}{2\pi \sigma_{1} \sigma_{2} \sqrt{1-\...
...{1} x_{2}/(\sigma_{1} \sigma_{2}) + x_{2}^{2}/\sigma_{2}^{2})}
\end{displaymath}

Wir schreiben den Klammerausdruck im Exponenten des Integrals in der Form

\begin{displaymath}
(-2\rho \frac{x_{1}x_{2}}{\sigma_{1}\sigma_{2}} +
\frac{x_{...
...\sigma_{1}})^{2} -
\rho^{2} \frac{x_{1}^{2}}{\sigma_{1}^{2}},
\end{displaymath}

und substituieren

\begin{displaymath}
\eta = (\frac{x_{2}}{\sigma_{2}} - \rho \frac{x_{1}}{\sigma_{1}}).
\end{displaymath}

Nach kurzer Rechnung erhalten wir

\begin{displaymath}
p_{1}(x_{1}) = \frac{1}{\sqrt{2\pi} \sigma_{1}}
e^{x_{1}^{2}/2\sigma_{1}^{2}}.
\end{displaymath}

Die Dichtefunktion der Randverteilung einer zweidimensionalen Normalverteilung ist also wieder eine Normalverteilung.

Reduktion von Variablen.
Eine besondere Art von Randverteilung hatten wir bereits im ersten Teil kennengelernt, nämlich

\begin{displaymath}
q(\vec{y}) = \int_{\vec{\psi}(\vec{x})=\vec{y}} d\vec{x} p(\vec{x}).
\end{displaymath} (11)

Gemeint ist mit diesem Integral folgendes: Es soll eine Variablentransformation $\vec{y} = \vec{\psi}(\vec{x})$ von der Veränderlichen $\vec{x}=(x_{1},x_{2},...,x_{n})$ mit $n$ Komponenten zur Veränderlichen $\vec{y}=(y_{1},y_{2},...,y_{m})$ mit $m \leq n$ Komponenten durchgeführt werden. Hierzu werden zunächst Hilfstransformationen
$\displaystyle y_{m+1}$ $\textstyle =$ $\displaystyle x_{m+1}$  
$\displaystyle y_{m+2}$ $\textstyle =$ $\displaystyle x_{m+2}$  
  $\textstyle .$    
  $\textstyle .$    
$\displaystyle y_{n}$ $\textstyle =$ $\displaystyle x_{n}$  

eingeführt und nach Ausführung der Transformation über diese Hilfsvariablen
$(y_{m+1}, y_{m+2},...,y_{n}) = (x_{m+1},x_{m+2},...,x_{n})$ integriert.

Bedingte Verteilungen
Die zweidimensionale zufällige Veränderliche $(x_{1},x_{2})$ sei durch die Dichtefunktion $p(x_{1},x_{2})$ oder durch die integrale Verteilungsfunktion $P(\xi_{1},\xi_{2})$ gegeben. Wir fragen jetzt nach der Wahrscheinlichkeit, daß die Veränderliche $x_{1}$ in das Intervall $[-\infty,\xi_{1}]$ und die Veränderliche $x_{2}$ in das Intervall $[\xi_{2},\xi_{2}+h]$ fällt. Diese Wahrscheinlichkeit ist offenbar

\begin{displaymath}
P(x_{1} \leq \xi_{1},\xi_{2} \leq x_{2} \leq \xi_{2}+h)
= \...
...{1}} dx_{1} \int_{\xi_{2}}^{\xi_{2}+h} dx_{2}
p(x_{1},x_{2}).
\end{displaymath}

Dividiert man beide Seiten durch

\begin{displaymath}
\int_{\xi_{2}}^{\xi_{2}+h} dx_{2} p(x_{1},x_{2}),
\end{displaymath}

so erhält man die Wahrscheinlichkeit dafür, daß $x_{1} \leq \xi_{1}$ ist, aber nun unter der Voraussetzung, daß $x_{2}$ in das Intervall $[\xi_{2},\xi_{2}+h]$ fällt. Man nennt dieses die bedingte Wahrscheinlichkeit und schreibt dafür
$\displaystyle P(x_{1} \leq \xi_{1}\vert\xi_{2} \leq x_{2} \leq \xi_{2}+h)$ $\textstyle =$ $\displaystyle \frac{P(x_{1} \leq \xi_{1},\xi_{2} \leq x_{2} \leq \xi_{2}+h)}
{\int_{\xi_{2}}^{\xi_{2}+h} dx_{2} p(x_{1},x_{2})}$  
  $\textstyle =$ $\displaystyle \frac{\int_{-\infty}^{\xi_{1}} dx_{1} \int_{\xi_{2}}^{\xi_{2}+h} dx_{2}
p(x_{1},x_{2})}{\int_{\xi_{2}}^{\xi_{2}+h} dx_{2} p(x_{1},x_{2})}$  

Die letzte Formel kann offenbar auch geschrieben werden als
\begin{displaymath}
P(x_{1} \leq \xi_{1}\vert \xi_{2} \leq x_{2} \leq \xi_{2}+h)...
...xi_{1},\xi_{2})}{P(+\infty, \xi_{2}+h) - P(+\infty, \xi_{2})}.
\end{displaymath} (12)

Dieses ist eine eindimensionale Verteilung mit der Normierung

\begin{displaymath}
P(x_{1} \leq +\infty\vert \xi_{2} \leq x_{2} \leq \xi_{2}+h) = 1.
\end{displaymath}

Um die Dichtefunktion dieser Verteilung zu erhalten, dividieren wir Zähler und Nenner der rechten Seite von (12) durch $h$ und erhalten im Grenzübergang $h \to 0$:

\begin{displaymath}
P(x_{1} \leq \xi_{1}\vert x_{2} = \xi_{2}) =
\frac{\frac{\p...
..._{2})}{\frac{\partial}{\partial \xi_{2}} P(+\infty,\xi_{2})} .
\end{displaymath}

Da

\begin{displaymath}
P(\xi_{1},\xi_{2}) = \int_{-\infty}^{\xi_{1}} dx_{1} \int_{-\infty}^{\xi_{2}}
dx_{2} p(x_{1},x_{2}),
\end{displaymath}

erhält man
$\displaystyle \frac{\partial}{\partial \xi_{2}} P(\xi_{1},\xi_{2})$ $\textstyle =$ $\displaystyle \int_{-\infty}^{\xi_{1}} dx_{1} p(x_{1},x_{2})$  
$\displaystyle \frac{\partial}{\partial \xi_{2}} P(+\infty,\xi_{2})$ $\textstyle =$ $\displaystyle \int_{-\infty}^{\infty} dx_{1} p(x_{1},x_{2})$  

und daher
\begin{displaymath}
P(x_{1} \leq \xi_{1}\vert x_{2} = \xi_{2}) = \frac{\int_{-\i...
..._{1}, x_{2})}{\int_{-\infty}^{\infty} dx_{1} p(x_{1},x_{2})} .
\end{displaymath} (13)

Man nennt $P(x_{1} \leq \xi_{1}\vert x_{2} = \xi_{2}) \equiv P(\xi_{1}\vert\xi_{2})$ die bedingte Wahrscheinlichkeit dafür, daß $x_{1} \leq \xi_{1}$, unter der Voraussetzung, daß $x_{2} = \xi_{2}$. Die zugehörige Dichtefunktion kann man aus der vorigen Formel sofort ablesen:
\begin{displaymath}
p(x_{1}\vert x_{2}) = \frac{p(x_{1},x_{2})}{\int_{-\infty}^{\infty} dx_{1}
p(x_{1},x_{2})}.
\end{displaymath} (14)

Mit dieser Schreibweise ist dann auch
\begin{displaymath}
P(\xi_{1}\vert\xi_{2}) = \int_{-\infty}^{\xi_{1}} dx_{1} p(x_{1}\vert x_{2}),
\end{displaymath} (15)

wie es für eine eindimensionale Verteilung sein muß.

Der Begriff der bedingten Dichtefunktion kann leicht auf mehrere Veränderliche übertragen werden. Gegeben sei eine $n$-dimensionale Veränderliche $\vec{x}=(x_{1},x_{2},...,x_{n})$. Dann ist

\begin{displaymath}
p(x_{i},x_{j}\vert x_{1},...,x_{i-1},x_{i+1},...,x_{j-1},x_{...
...fty}
dx_{i} \int_{-\infty}^{\infty} dx_{j} p(x_{1},...,x_{n})}
\end{displaymath} (16)

die Dichtefunktion der Veränderlichen $x_{i}, x_{j}$ unter der Voraussetzung, daß die übrigen $n-2$ Veränderlichen die festen Werte $x_{1},...,x_{i-1},x_{i+1},...,x_{j-1},x_{j+1},...,x_{n}$ annehmen.

Beispiel.
Wir greifen wiederum die zweidimensionale zentrale Normalverteilung auf und fragen nach der Dichtefunktion für $x_{1}$ bei vorgegebenem, festgehaltenem $x_{2}$,

\begin{displaymath}
p(x_{1}\vert x_{2}) = \frac{p(x_{1},x_{2})}{\int_{-\infty}^{\infty} dx_{1}
p(x_{1},x_{2})}.
\end{displaymath}

Wegen

\begin{displaymath}
\int_{-\infty}^{\infty} dx_{1} p(x_{1},x_{2}) = p_{2}(x_{2})...
...rac{1}{\sqrt{2\pi} \sigma_{2}} e^{-x_{2}^{2}/2\sigma_{2}^{2}},
\end{displaymath}

folgt nach einfacher Umformung des Exponenten

\begin{displaymath}
p(x_{1}\vert x_{2}) = \frac{1}{\sqrt{2\pi} \sigma_{1} \sqrt{...
...^{2})} (x_{1}-
\rho \frac{\sigma_{1}}{\sigma_{2}} x_{2})^{2}}.
\end{displaymath}

Dieses ist eine Normalverteilung mit Erwartungswert

\begin{displaymath}
<x_{1}> = \rho \frac{\sigma_{1}}{\sigma_{2}} x_{2}
\end{displaymath}

und Varianz

\begin{displaymath}
<(x_{1}-<x_{1}>)^{2}> = \sigma_{1}^{2}(1-\rho^{2}).
\end{displaymath}

Unabhängige Veränderliche
Wir hatten zwei Veränderliche unabhängig voneinander genannt, wenn sich ihre Dichtefunktion faktorisieren läßt:

\begin{displaymath}
p(x_{1},x_{2}) = p_{1}(x_{1}) p_{2}(x_{2}).
\end{displaymath}

Unter dieser Voraussetzung ist aber

\begin{displaymath}
\int_{-\infty}^{\infty} dx_{1} p(x_{1},x_{2}) = p_{2}(x_{2})
\int_{-\infty}^{\infty} dx_{2} p_{1}(x_{1}) = p_{2}(x_{2})
\end{displaymath}

und damit auch
\begin{displaymath}
p(x_{1}\vert x_{2}) = p_{1}(x_{1}).
\end{displaymath} (17)

Die bedingte Wahrscheinlichkeit der Veränderlichen $x_{1}$ für festgehaltenes $x_{2}$ hängt in diesem Fall überhaupt nicht von $x_{2}$ ab. Für eine Dichtefunktion mehrerer Veränderlicher, die alle unabhängig voneinander sind,

\begin{displaymath}
p(x_{1},x_{2},...,x_{n}) = p_{1}(x_{1}) p_{2}(x_{2}) \cdot \cdot \cdot
p_{n}(x_{n}) ,
\end{displaymath}

folgt entsprechend
\begin{displaymath}
p(x_{i},x_{j}\vert x_{1},...,x_{i-1},x_{i+1},...,x_{j-1},x_{j+1},...,x_{n}) =
p_{i}(x_{i}) p_{j}(x_{j}).
\end{displaymath} (18)

Beispiel.
In unserem schon hinreichen bekannten Beispiel der zweidimensionalen Normalverteilung

\begin{displaymath}
p(x_{1},x_{2}) = \frac{1}{2\pi \sigma_{1}\sigma_{2}\sqrt{1-\...
...x_{1}x_{2}/(\sigma_{1}\sigma_{2}) + x_{2}^{2}/\sigma_{2}^{2})}
\end{displaymath}

sind $x_{1}$ und $x_{2}$ nicht unabhängig, solange der Korrelationskoeffizient $\rho \neq 0$ ist. Für $\rho=0$ läßt sich die Verteilung faktorisieren in

\begin{displaymath}
p(x_{1},x_{2}) = p_{1}(x_{1}) \cdot p_{2}(x_{2}) =
\frac{1}{...
...ac{1}{\sqrt{2\pi} \sigma_{2}} e^{-x_{2}^{2}/2\sigma_{2}^{2}} .
\end{displaymath}

$x_{1}$ und $x_{2}$ sind unter diesen Voraussetzungen unabhängig.

Für $\rho \neq 0$ können wir eine faktorisierte Dichtefunktion erreichen, indem wir vorher eine Transformation der Variablen durchgeführt haben. Dieses Verfahren wurde bereits in aller Länge im ersten Teil dieses Tutorials durchgerechnet. Wir wiederholen das Ergebnis. Die Transformation

$\displaystyle y_{1}$ $\textstyle =$ $\displaystyle \frac{1}{\sqrt{1-\rho^{2}}} (\frac{x_{1}}{\sigma_{1}} - \rho
\frac{x_{2}}{\sigma_{2}})$  
$\displaystyle y_{2}$ $\textstyle =$ $\displaystyle \frac{x_{2}}{\sigma_{2}}$  

führt auf die Dichtefunktion

\begin{displaymath}
q(y_{1},y_{2}) = \frac{1}{2\pi} e^{-\frac{1}{2}(y_{1}^{2}+y_{2}^{2})},
\end{displaymath}

die sich leicht fakrorisieren läßt. $y_{1}$ und $y_{2}$ sind unabhängig voneinander, $x_{1}$ und $x_{2}$ dagegen nicht. Diese Technik der Faktorisierung von abhängigen Veränderlichen nach Einführung einer geeigneten Transformation wird uns bei Aufgaben der Simulation nach häufiger beschäftigen.

Geordnete Statistik
In späteren Kapiteln werden wir wichtige Aussagen aus der Theorie der geordneten Statistik benötigen. Angenommen, wir messen eine zufällige Veränderliche mit der Dichtefunktion $p(x)$ und der integralen Verteilungsfunktion $P(\xi) = P(x \leq \xi)$. Bei $n$ unabhängigen Messungen erhalten wir die Ergebnisse $x_{1},x_{2},...,x_{n}$ mit der Dichtefunktion

\begin{displaymath}
p(x_{1},x_{2},...,x_{n}) = \prod_{\nu=1}^{n} p(x_{\nu}).
\end{displaymath} (19)

Wir ordnen jetzt die Messungen der Größe nach in aufsteigender Reihenfolge und bezeichnen die so erhaltenen Ergebnisse mit $x_{(1)},x_{(2)},...,x_{(n)}$. Dann gilt also:
\begin{displaymath}
-\infty \leq x_{(1)} \leq x_{(2)} \leq ..... \leq x_{(n)} \leq \infty.
\end{displaymath} (20)

Das Problem der geordneten Statistik ist das Auffinden der Dichtefunktion
$q(x_{(1)},x_{(2)},...,x_{(n)})$.

Die eindimensionalen Randverteilungen.
Zur Einführung in das angeschnittene allgemeine Problem stellen wir zunächst zwei einfache Fragen, nämlich die Verteilungen $q_{1}(x_{(1)})$ und $q_{n}(x_{(n)})$ des kleinsten und des größten Wertes $x_{(1)}$ und $x_{(n)}$.

Die Wahrscheinlichkeit dafür, daß $x_{(n)} \leq \xi_{(n)}$, ist gleichbedeutend mit der Wahrscheinlichkeit, daß alle $x_{\nu} \leq \xi_{(n)}$. In Formeln besagt diese Aussage, daß für die integrale Verteilungsfunktion

\begin{displaymath}
Q_{n}(\xi_{(n)}) = \int_{-\infty}^{\xi_{(n)}} dx_{(n)} q_{n}(x_{(n)})
\end{displaymath}

gilt:

\begin{displaymath}
Q_{n}(\xi_{(n)}) = P(x_{1} \leq \xi_{(n)}, x_{2} \leq \xi_{(n)},...,
x_{n} \leq \xi_{(n)}) = [P(\xi_{(n)})]^{n}.
\end{displaymath}

Daraus erhalten wir sofort die Dichtefunktion für den größten Wert zu
\begin{displaymath}
q_{n}(x_{(n)}) = \left( \frac{dQ_{n}(\xi_{(n)})}{d\xi_{(n)}}...
...}} =
n [ P(\xi_{(n)})]_{\xi_{(n)}=x_{(n)}}^{n-1} p(x_{(n)}).
\end{displaymath} (21)

Man erhält also ein Produkt aus der differentiellen und integralen Verteilungsfunktion. Aus ähnlichen Überlegungen erhält man für die Dichtefunktion des kleinsten Wertes $x_{(1)}$:
\begin{displaymath}
q_{1}(x_{(1)}) = n [1-P(\xi_{(1)})]_{\xi_{(1)}=x_{(1)}}^{n-1} p(x_{(1)}).
\end{displaymath} (22)

Allgemeiner ist die Wahrscheinlichkeit, daß für irgendein Index $r$ mit $0 < r \leq n$ das Ereignis $x_{(r)} \leq \xi_{(r)}$ eintritt, gleichbedeutend mit der Wahrscheinlichkeit, daß exakt $(r-1)$ der Zahlen $x_{1},x_{2},...,x_{n}$ kleiner als $\xi_{(r)}$ sein müssen, und umgekehrt $(n-r)$ der Zahlen größer als $\xi_{(r)}$ sein müssen. Offensichtlich muß die Dichtefunktion durch ein Produkt aus Faktoren ähnlich denen in Formel (21) und (22) darstellbar sein. Ohne Beweis schreiben wir das Endergebnis an:
\begin{displaymath}
q_{r}(x_{(r)}) = \frac{n!}{(r-1)! (n-r)!}
[P(\xi_{(r)})]_{\...
...r-1}
[1 - P(\xi_{(r)})]_{\xi_{(r)}=x_{(r)}}^{n-r} p(x_{(r)}).
\end{displaymath} (23)

Der Normierungsfaktor drückt die Tatsache aus, daß es nicht auf die Reihenfolge der $(r-1)$ kleinsten bzw $(n-r)$ größten Zahlen untereinander ankommt. Man prüft leicht nach, daß (21) und (22) als Spezialfälle in Formel (23) enthalten sind.

Mehrdimensionale Randverteilungen. In völlig analoger Weise kann man die Dichtefunktion zweier Veränderlicher $x_{(r)}$ und $x_{(s)}$ aus einer geordneten Zahlenfolge von $n$ Veränderlichen $x_{1},x_{2},...,x_{n}$ herleiten. Das Ergebnis ist:

$\displaystyle q_{rs}(x_{(r)},x_{(s)})$ $\textstyle =$ $\displaystyle \frac{n!}{(r-1)! (s-r-1)! (n-s)!}
[P(\xi_{(r)})]_{\xi_{(r)}=x_{(r...
...{r-1}
[P(\xi_{(s)})-P(\xi_{(r)})]_{\xi_{(s)}=x_{(s)},\xi_{(r)}=x_{(r)}}^{s-r-1}$  
  $\textstyle \cdot$ $\displaystyle [1-P(\xi_{(s)})]_{\xi_{(s)}=x_{(s)}}^{n-s} p(x_{(r)}) p(x_{(s)}), \; \; \;
x_{(r)} \leq x_{(s)}.$ (24)

Die Verallgemeinerung auf $m \leq n$ Veränderliche liegt auf der Hand und lautet:
$\displaystyle q_{r_{1},r_{2},...,r_{m}}(x_{(r_{1})},x_{(r_{2})},...,x_{(r_{m})})$ $\textstyle =$ $\displaystyle n! \frac{[P(\xi_{(r_{1})})]_{\xi_{(r_{1})}=x_{(r_{1})}}^{r_{1}-1}}{(r_{1}-1)!}$  
  $\textstyle \cdot$ $\displaystyle \left( \prod_{\nu=1}^{m} \frac{[P(\xi_{(r_{\nu})})
-P(\xi_{(r_{\n...
...u-1})}=
x_{(r_{\nu-1})}}^{r_{\nu}-r_{\nu-1}-1}}{(r_{\nu}-r_{\nu-1}-1)!} \right)$  
  $\textstyle \cdot$ $\displaystyle \frac{[1-P(\xi_{(r_{m})})]_{\xi_{(r_{m})}=x_{(r_{m})}}^{n-r_{m}}}
{(n-r_{m})!} \prod_{\nu=1}^{m} p(x_{(r_{\nu})}),$  
  $\textstyle m$ $\displaystyle \leq n, \; \; \; x_{(r_{1})} \leq x_{(r_{2})} \leq ... \leq x_{(r_{m})}.$  

Diese etwas komplizierte Formel kann man für viele Fälle stark vereinfachen. Für $m=n$ erhält man insbesondere die einfache Formel
\begin{displaymath}
q(x_{(1)},x_{(2)},...,x_{(n)}) = n! \prod_{\nu=1}^{n} p(x_{(\nu)}), \; \; \;
x_{(1)} \leq x_{(2)} \leq ... \leq x_{(n)}.
\end{displaymath} (25)

Man beachte die einschränkende Nebenbedingung für den Gültigkeitsbereich der Veränderlichen. Daher sind die $x_{(\nu)}$, im Gegensatz zu den $x_{\nu}$, auch nicht mehr unabhängig voneinander, obwohl man dieses fälschlicherweise aus der Form der Dichtefunktion schließen könnte.

Beispiel.
Zur Illustration rechnen wir den für unsere späteren Erörterungen wichtigsten Fall explizit durch. Wir erzeugen $n$ Zufallszahlen $u_{1},u_{2},...,u_{n}$ aus der Gleichverteilung im Intervall $[0,1]$. Die geordnete Reihe bezeichnen wir mit $u_{(1)},u_{(2)},...,u_{(n)}$. Die Dichtefunktion der ursprünglichen Zufallszahlen ist

\begin{displaymath}
p(u_{\nu}) = 1, \; \; \; \; \; 0 \leq u_{\nu} \leq 1, \; \nu=1,2,...,n,
\end{displaymath}

mit der integralen Verteilungsfunktion

\begin{displaymath}[P(\xi_{\nu})]_{\xi_{\nu}=u_{\nu}} = \{ \begin{array}{lll}
0 ...
...leq u_{\nu} \leq 1, \\
1 & f''ur & 1 \leq u_{\nu}. \end{array}\end{displaymath}

Die Dichtefunktion der $r$-ten geordneten Zufallszahl aus einer Reihe von $n$ Zufallszahlen ergibt sich damit zu

\begin{displaymath}
q_{r}(u_{(r)}) = \frac{n!}{(r-1)! (n-r)!} u_{(r)}^{r-1} (1-u_{(r)})^{n-r}.
\end{displaymath}

Insbesondere ist die Dichtefunktion des kleinsten und größten Wertes:
$\displaystyle q_{1}(u_{(1)})$ $\textstyle =$ $\displaystyle n (1-u_{(1)})^{n-1},$  
$\displaystyle q_{n}(u_{(n)})$ $\textstyle =$ $\displaystyle n u_{(n)}^{n-1}.$  

Die zweidimensionale Dichtefunktion in $u_{(r)}$ und $u_{(s)}$ kann man ebenfalls sofort hinschreiben.
$\displaystyle q_{rs}(u_{(r)},u_{(s)})$ $\textstyle =$ $\displaystyle \frac{n!}{(r-1)! (s-r-1)! (n-s)!}
u_{(r)}^{r-1} (u_{(s)}-u_{(r)})^{s-r-1} (1-u_{(s)})^{n-s},$  
  $\textstyle 0$ $\displaystyle \leq u_{(r)} \leq u_{(s)} \leq 1.$  

Wir benützen dieses Ergebnis, um die Dichtefunktion der Differenz $z_{(rs)} = u_{(s)}-u_{(r)}$ zu bestimmen. Dazu führen wir die naheliegende Transformation
$\displaystyle z_{(rs)}$ $\textstyle =$ $\displaystyle u_{(s)} - u_{(r)},$  
$\displaystyle z_{(r)}$ $\textstyle =$ $\displaystyle u_{(r)}$  

ein. Ausführung der Transformation liefert
$\displaystyle q_{rs}(z_{(rs)},z_{(r)})$ $\textstyle =$ $\displaystyle \frac{n!}{(r-1)! (s-r-1)! (n-s)!}
z_{(r)}^{r-1} z_{(rs)}^{s-r-1} (1-z_{(r)}-z_{(rs)})^{n-s},$  
  $\textstyle 0$ $\displaystyle \leq z_{(r)}, \; 0 \leq z_{(rs)}, \; z_{(r)}+z_{(rs)} \leq 1.$  

Die Randverteilung in $z_{(rs)}$ ist:

\begin{displaymath}
q_{rs}(z_{(rs)}) = \frac{n!}{(s-r-1)! (n-s+r)!} z_{(rs)}^{s-r-1}
(1-z_{(rs)})^{n-s+r}, \; \; \; \; \; 0 \leq z_{(sr)} \leq 1.
\end{displaymath}

Führt man noch $k=s-r$ und $z_{(k)} = z_{(rs)} = u_{(s)}-u_{(r)}$ ein, so erhält man die einfache Formel

\begin{displaymath}
q(z_{(k)}) = \frac{n!}{(k-1)! (n-k)!} z_{(k)}^{k-1} (1-z_{(k)})^{n-k},
\; \; \; \; \; 0 \leq z_{(k)} \leq 1.
\end{displaymath}

Diese Dichtefunktion hängt offenbar nicht von den speziellen Werten von $r$ und $s$, sondern nur von der Differenz $k=s-r$ ab. Für spätere Anwendungen bemerken wir noch, daß die Dichtefunktion $q(z_{(k)})$ ein Spezialfall der allgemeinen Betaverteilung

\begin{displaymath}
p(x) = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha) \Gamma(\beta)}
x^{\alpha-1} (1-x)^{\beta-1}
\end{displaymath}

mit $\alpha=k=s-r$ und $\beta=n-\alpha+1$ ist.

Wir haben dieses Beispiel in einem Applet programmiert. In einem Versuch werden jeweils 10 Zufallszahlen generiert und der Grösse nach sortiert. In einem Auswahlmenue kann der Benutzer Plots auswählen.

Beispiel. Ein zweites interessantes Beispiel im Zusammenhang mit der geordneten Statistik ist der radioaktive Zerfall. Wir denken uns eine Quelle mit $N$ radioaktiven Kernen. Die Zahl $N$ liegt in praktischen Anwendungen immer in der Größenordnung der Avogadroschen Zahl ( $N \approx 10^{23}$). Wir nehmen an, daß der Zerfall eines Kernes nicht von den anderen Kernen beeinflußt wird, die Zerfälle verschiedener Kerne also unabhängig voneinander ablaufen. Die Zerfallswahrscheinlichkeit eines Kernes als Funktion der Zeit wird durch die Dichtefunktion

\begin{displaymath}
p(x) = \frac{1}{\tau} e^{-x/\tau}, \; \; \; \; \; \tau > 0, \; x > 0,
\end{displaymath}

beschrieben. Die integrale Verteilungsfunktion ist:

\begin{displaymath}
P(\xi) = 1 - e^{-\xi/\tau}.
\end{displaymath}

In diesem Beispiel liefert uns die Natur bereits eine geordnete Statistik, d.h. $x_{1}=x_{(1)},x_{2}=x_{(2)},...,x_{n}=x_{(n)}$. Daher ist die Dichtefunktion des Vektors $(x_{1},x_{2},...,x_{n})$ durch

\begin{displaymath}
p(x_{1},x_{2},...,x_{n}) = \frac{n!}{\tau^{n}}
e^{-(x_{1}+x...
.../\tau}, \; \; \; 0 \leq x_{1} \leq x_{2} \leq ...
\leq x_{n},
\end{displaymath}

gegeben. Insbesondere ergibt sich für die zweidimensionale Verteilung
$\displaystyle p_{rs}(x_{r},x_{s})$ $\textstyle =$ $\displaystyle \frac{n!}{(r-1)! (s-r-1)! (n-s)!}
[1-e^{x_{r}/\tau}]^{r-1} [e^{-x_{r}/\tau} - e^{-x_{s}/\tau}]^{s-r-1}$  
    $\displaystyle [e^{-x_{s}/\tau}]^{n-s} \frac{1}{\tau^{2}} e^{-(x_{r}+x_{s})/\tau},$  
    $\displaystyle 0 \leq x_{r} \leq x_{s}.$  

Besonders interessant im Hinblick auf Messungen ist hierbei die Verteilung der Zeitdiffenez $x=x_{n}-x_{1}$ zwischen der ersten und der $n$-ten Zählermessung. Der Versuch sieht folgendermaßen aus: Ein Zähler und ein TDC (time digital converter) werden durch einen beliebigen Zerfall gestartet. Bei jedem weiteren Zerfall wird der Zähler um eins hochgesetzt. Bei der Zählrate $n$ wird der TDC gestoppt und die Zeitdifferenz gemessen. Aus der obigen Formel folgt für diesen speziellen Fall:

\begin{displaymath}
p_{1n}(x_{1},x_{n}) = \frac{n(n-1)}{\tau^{2}} [e^{-x_{1}/\ta...
...2} e^{-(x_{1}+x_{n})/\tau}, \; \; \; 0 \leq x_{1} \leq
x_{n}.
\end{displaymath}

Die Transformation
$\displaystyle v_{1}$ $\textstyle =$ $\displaystyle x_{n} + x_{1},$  
$\displaystyle v_{2}$ $\textstyle =$ $\displaystyle x_{n} - x_{1} = x,$  

führt nach Integration über $v_{1}$ auf die Randverteilung

\begin{displaymath}
p_{1n}(x) = \frac{n(n-1)}{\tau} e^{-x/\tau} (1-e^{-x/\tau})^{n-2}.
\end{displaymath}

Dieses ist eine wichtige Formel zur Messung der Lebensdauer $\tau$. Die Verteilung der Zeitdifferenz zwischen aufeinanderfolgenden Zerfällen ($n=2$) ist insbesondere

\begin{displaymath}
p_{12}(x) = \frac{1}{\tau} e^{-x/\tau},
\end{displaymath}

also identisch mit der ursprünglichen Dichtefunktion des radioaktiven Zerfalls. Die wesentliche Aussage ist: Die Zerfallswahrscheinlichkeit eines radioaktiven Kernes hängt nicht vom Zeitnullpunkt ab.

In manchen Lehrbüchern der Statistik wird die letztere Aussage als Postulat eingeführt und daraus das Zerfallsgesetz des radioaktiven Zerfalls hergeleitet.





Harm Fesefeldt
2006-05-05