Zufällige Veränderliche
Dichtefunktion
Im Mittelpunkt unserer bisherigen Erläuterungen stand der Ereignisraum mit endlich oder unendlich vielen Elementarereignissen $E_{\nu}$. Jedem dieser Elementarereignisse konnten wir eine Wahrscheinlichkeit $P(E_{\nu})$ zuordnen. Die Gesamtheit dieser Zahlenwerte heißt Wahrscheinlichkeitsverteilung. Es bleibt aber noch eine Besonderheit zu diskutieren, nämlich die Abbildung der Elementarereignisse $E_{\nu}$ auf eine Zahlenskala $x$. Diese Abbildung ist natürlich wichtig, wenn man mit den Wahrscheinlichkeiten analytisch rechnen will oder wenn man die Wahrscheinlichkeitsverteilung graphisch darstellen will. In vielen Fällen der Statistik ist diese Abbildung $E_{\nu} \rightarrow x^{(\nu)}$ bereits aus dem Problem heraus vorgegeben. Bei unserem Spielwürfel z.B. wird jedermann die Abbildung $E_{\nu} \rightarrow x^{(\nu)} = \nu$ ( $\nu=1,2,3,...,6$) durchführen. In diesem Fall geht man in Wahrheit eigentlich andersherum vor, man definiert die Wahrscheinlichkeiten als Funktion der zufälligen Veränderlichen $\nu$ und konstruiert daraus die logischen Ereignisse. In vielen anderen Fällen ist diese Abbildung dagegen außerordentlich schwierig zu konstruieren. Als Beispiel sei das Lottospiel ,,6 aus 49'' erwähnt. Wie soll man 6 beliebige Zahlen aus 49 möglichen auf eine geordnete Menge von Zahlen abbilden? Das einzige, was wir mit Sicherheit sagen können, ist, daß der gesamte Zahlenbereich der Abbildung die Zahlen 1 bis 13983816 umfaßt. Aber welche Zahlenkombination bezeichnen wir mit der Zahl 1, welche mit der Zahl 2 usw.? Lassen wir die Besonderheit dieses Beispiels außer acht, so ergibt sich folgende Situation. Wir ordnen jedem $E_{\nu}$ einen Zahlenwert $x^{(\nu)}$ zu. Diese Zuordnung kann man durch
\begin{displaymath}
x^{(\nu)} = \psi (E_{\nu}), \; \; \nu = 1,2,3,...,n
\end{displaymath} (1)

ausdrücken. Durch diese Zuordnung definieren wir eine zufällige Veränderliche $x$, die mit der Wahrscheinlichkeit $P(E_{\nu})$ die Werte $x^{(\nu)}$ annimmt. Man schreibt symbolisch
\begin{displaymath}
x = \psi (E)
\end{displaymath} (2)

und meint damit, daß, wenn $E$ den ,,Wert'' $E_{\nu}$ annimmt, nimmt x den Wert $x^{(\nu)}$ an. Diese Zuordnung kann man verallgemeinern. Ordnet man jedem Elementarereignis $E_{\nu}$ allgemeiner $m$ Zahlen zu, so ergibt sich die Darstellung in Abbildung 1.

Abbildung 1: Zuordnung von Ereignis und zufälliger Veränderlicher.

Oder, als Abbildung ausgedrückt,

\begin{displaymath}
x_{s}^{(\nu)} = \psi_{s}(E_{\nu}), \; \; s=1,2,....,m.
\end{displaymath} (3)

Jedem Elementarereignis sind also $m$ Zahlenwerte zugeordnet, die alle mit der gleichen Wahrscheinlichkeit auftreten, mit der auch das Elementarereignis $E_{\nu}$ auftritt. Diese Abbildung kann man kürzer als Vektor schreiben:
\begin{displaymath}
\vec{x} = \vec{\psi} (E).
\end{displaymath} (4)

Darin ist $\vec{x} = (x_{1},x_{2},....,x_{m})$ ein zufälliger Vektor oder eine $m$- dimensionale zufällige Veränderliche, die beim Eintreten des Elementarereignisses $E_{\nu}$ das feste $n$-Tupel

\begin{displaymath}
\vec{x}^{(\nu)} = (x_{1}^{(\nu)}, x_{2}^{(\nu)},....,x_{m}^{(\nu)})
\end{displaymath}

annimmt.

Wie müssen also in der Statistik unterscheiden zwischen zufälligen Ereignissen und zufälligen Veränderlichen. Ereignisse sind logische Größen, die mit Hilfe logischer Funktionen verknüpft werden können. Zufällige Veränderliche sind Größen aus dem Zahlenraum $N$ oder $R$. Zwischen den Ereignissen und den zufälligen Veränderlichen steht die Abbildung $\psi$. Die Bedeutung dieser Zuordnung liegt darin, daß mit ihrer Hilfe die ungeordnete Menge der Elementarereignisse auf eine geordnete Menge (ganze Zahlen oder reelle Zahlen) abgebildet wird, d.h. auf eine Menge, in der eine Ordnungsrelation (z.B. $<$, = oder $>$) definiert ist. Dadurch entsteht ein Ereignisraum mit geordneten Elementarereignissen. Im Falle eines endlichen Ereignisraumes führt man diese Abbildung im allgemeinen auf eine Teilmenge der ganzen Zahlen durch, bei unendlichen Ereignisräumen dagegen auf die Menge der reellen Zahlen. Die Wahrscheinlichkeitsverteilung $P(E)$ geht dann über in eine Wahrscheinlichkeitsverteilung für die zufällige Veränderliche $x$, die wir mit $p(x)$ bezeichnen und Dichtefunktion nennen. Man versucht die Abbildung $\psi$ so zu wählen, daß $p(x)$ eine stetige und differenzierbare Funktion wird, bzw. im Falle eines endlichen Ereignisraumes durch eine einfache Funktion dargestellt werden kann, die zu einer stetigen und differenzierbaren Funktion erweitert werden kann. Wie wir später noch genauer ausführen werden, braucht man in der Simulationstechnik beide Darstellungen, sowohl die Darstellung im logischen Ereignisraum wie die Darstellung im geordneten Zahlenraum. Eine kurze Bemerkung zur Schreibweise. Im folgenden werden wir uns bemühen, Ereignisse und Wahrscheinlichkeiten mit Großbuchstaben, zufällige Veränderliche und Wahrscheinlichkeitsdichten dagegen mit Kleinbuchstaben zu schreiben.

Wir fassen die Dichtefunktion noch einmal zusammen:
In einem unendlich großen Ereignisraum mit den Elementarereignissen $E_{\nu}, \nu \in R$ definieren wir eine Abbildung $\psi$ auf die Menge der reellen Zahlen gemäß

\begin{displaymath}
x = \psi(E), \; \; x \in R.
\end{displaymath} (5)

$x$ bezeichnen wir als die zugehörige zufällige Veränderliche. Wir postulieren, daß es eine Dichtefunktion $p(x)$ gibt, wobei
\begin{displaymath}
\int_{x_{1}}^{x_{2}} p(x) dx
\end{displaymath} (6)

die Wahrscheinlichkeit ist, die zufällige Veränderliche $x$ im Intervall von $x_{1}$ bis $x_{2}$ zu finden. Diese Wahrscheinlichkeit ist prinzipiell nicht bekannt, man kann ihr nur durch Messung der relativen Häufigkeiten beliebig nahe kommen,
\begin{displaymath}
h_{x \in [x_{1},x_{2}]} (n) \approx \int_{x_{1}}^{x_{2}} p(x) dx.
\end{displaymath} (7)

Experimentell mißt man fast immer eine diskrete Häufigkeitsverteilung, auch wenn die zugehörige Dichtefunktion kontinuierlich ist. Als Beispiel erwähnen wir die statistische Zählung der Altersstruktur der Bevölkerung. Hierzu bedient man sich der Einfachheit halber einer Stichprobe, d.h. man zählt nicht die Altersstruktur der Gesamtbevölkerung, sondern nur die Altersstruktur einer representativen Untergruppe. In Abbildung 2 haben wir die relativen Häufigkeiten $h_{l}(n)$ der Menschen mit einem bestimmten Alter $l$ aufgetragen ($n$ ist die Gesamtzahl der Menschen in der Stichprobe).

Abbildung 3: Altersstruktur von Menschen in einer Stichprobe.

Die Dichtefunktion $p(x)$ ist aber auch für Menschen mit nicht- ganzzahligem Alter definiert, und zwar so, daß

\begin{displaymath}
h_{l}(n) \approx \int_{x=l}^{x=l+1} p(x) dx.
\end{displaymath}

Wie schon öfters gesagt, die Wahrscheinlichkeiten und damit auch die Dichtefunktionen sind prinzipiell nicht bekannt. Hier behilft man sich jetzt häufig eines Modells. Man erstellt aus anderweitigen theoretischen Überlegungen eine Funktion $f(x)$, die der Häufigkeitsverteilung und damit auch der Dichtefunktion möglichst nahe kommt. Diese Funktion kann im allgemeinen noch von freien Parametern $a_{\mu}$ abhängen, sodaß wir schreiben können,
\begin{displaymath}
f(x;\vec{a}) \approx p(x) .
\end{displaymath} (8)

Wenn wir im folgenden von Dichtefunktion reden, so meinen wir im allgemeinen die Funktion $f(x,\vec{a})$, schreiben aber häufig dafür ebenfalls $p(x;\vec{a})$. Prinzipiell sind aber $p(x)$ und $f(x)$ völlig verschieden. Die Funktion $p(x)$ ist durch den Bedingungskomplex des Versuches eindeutig gegeben, die Funktion $f(x)$ beschreibt gerade das, was wir über den Bedingungskomplex des Versuches verstanden zu haben glauben.

Häufig kann man den Ereignisraum auf eine Teilmenge der ganzen Zahlen abbilden:

\begin{displaymath}
E_{k} \to k, \; \; \; \; k = 0, \pm 1, \pm 2,.....
\end{displaymath} (9)

Man spricht dann von der diskreten Veränderlichen $k$. In diesem Fall gibt es keine Wahrscheinlichkeitsdichte, sondern nur eine Wahrscheinlichkeitsverteilung $P(k)$. Eine Wahrscheinlichkeitsdichte $p(x))$ kann durch eine Wahrscheinlichkeitsverteilung $P(k)$ approximiert werden, indem man die reelle Zahlengerade in geeignet gewählte Intervalle einteilt und
\begin{displaymath}
P(k) = \int_{x_{k}}^{x_{k+1}} dx \; p(x)
\end{displaymath} (10)

setzt. Hiervon werden wir später sehr viel Gebrauch machen.

Mittelwerte
Eine zufällige Veränderliche ist gegeben, wenn ihre Dichtefunktion $p(x)$ gegeben ist. Diese Funktionen sind aber oft unbekannt und auch meßtechnisch nur schwer erfaßbar. Es kommt somit darauf an, solche Parameter der zufälligen Veränderlichen zu finden, die einerseits leicht gemessen werden können und mit deren Hilfe andererseits auf die Dichtefunktion $p(x)$ bzw. auf die Modellfunktion $f(x;\vec{a})$ geschlossen werden kann. Solche Parameter sind teils sehr einfache, häufig aber auch komplizierte Mittelwerte der Veränderlichen, die man allgemein als Momente bezeichnet. Wir beginnen mit dem einfachen Mittelwert.

Sind $x^{(\nu)}$ ($ \nu=1,2,...,m$) mögliche Zahlenergebnisse eines Versuches V, d.h. sind die $x^{(\nu)}$ die aus den Elementarereignissen $E_{\nu}$ hergeleiteten Veränderlichen, und sind $k^{(\nu)}$ die gemessenen Häufigkeiten für die Ergebnisse $x^{(\nu)}$, so nennt man

\begin{displaymath}
\overline{x} = \frac{1}{n} \sum_{\nu=1}^{m} x^{(\nu)} k^{(\nu)}
\end{displaymath} (11)

den arithmetischen Mittelwert. Hierbei ist

\begin{displaymath}
n= \sum_{\nu=1}^{m} k^{(\nu)}
\end{displaymath}

die Gesamtzahl der durchgeführten Versuche. Für sehr große Versuchszahlen $n$ stabilisiert sich die relative Häufigkeit $k^{(\nu)}/n$ des Zahlenwertes $x^{(\nu)}$ in der Nähe der Wahrscheinlichkeit $P(x^{(\nu)})$. Dann gilt
\begin{displaymath}
\overline{x} \approx <x> = \sum_{\nu=1}^{m} x^{(\nu)} P(x^{(\nu)}).
\end{displaymath} (12)

Ist $p(x)$ eine stetige Funktion, so können wir auch schreiben
\begin{displaymath}
<x> = \int_{-\infty}^{\infty} dx \; x p(x).
\end{displaymath} (13)

Wir bezeichnen mit $\overline{x}$ den arithmetischen Mittelwert einer Stichprobe, mit $<x>$ den mathematischen Erwartungswert. Man beachte die verschiedenen Bedeutungen des Querstriches über einer Größe in der Statistik. Bei zufälligen Ereignissen bedeutet es das komplementäre Ereignis, bei zufälligen Veränderlichen dagegen den arithmetischen Mittelwert. Beides hat offensichtlich nichts miteinander zu tun.

Für eine diskrete Veränderliche $k$ wird der Erwartungswert entsprechend durch

\begin{displaymath}
<k> = \sum_{k=-\infty}^{\infty} k P(k)
\end{displaymath} (14)

definiert. Für die Normierungen gilt
$\displaystyle \int_{-\infty}^{\infty} dx \; p(x)$ $\textstyle =$ $\displaystyle 1,$ (15)
$\displaystyle \sum_{k=-\infty}^{\infty} P(k)$ $\textstyle =$ $\displaystyle 1.$ (16)

Dieses drückt die Tatsache aus, daß die Wahrscheinlichkeit für das Eintreten irgendeines Ereignisses gleich 1 sein muß.

Im folgenden schreiben wir alle Formeln nur für stetige Veränderliche $x$. Die entsprechenden Formeln für diskrete Veränderliche erhält man mit der einfachen Ersetzung

\begin{displaymath}
\int dx \to \sum .
\end{displaymath} (17)

Momente
Man versteht unter einem Moment einen verallgemeinerten Mittelwert nach folgender Definition. Gegeben sei eine $n$- dimensionale zufällige Veränderliche $\vec{x}=(x_{1},x_{2},...,x_{n})$ mit der Dichtefunktion $p(x_{1},x_{2},...,x_{n})$. Dann ist ein gewöhnliches Moment der Ordnung $j=\sum_{\nu=1}^{n} j_{\nu}$ der Mittelwert

\begin{displaymath}
< x_{1}^{j_{1}} x_{2}^{j_{2}} \cdot \cdot \cdot x_{n}^{j_{n}...
..._{2}} \cdot \cdot \cdot x_{n}^{j_{n}} p(x_{1},x_{2},...,x_{n})
\end{displaymath} (18)

und das zentrale Moment der Ordnung $j=\sum_{\nu=1}^{n} j_{\nu}$ der Mittelwert
  $\textstyle <$ $\displaystyle (x_{1}- <x_{1}>)^{j_{1}} (x_{2} - <x_{2}>)^{j_{2}} \cdot \cdot \cdot
(x_{n} - <x_{n}>)^{j_{n}} >$  
  $\textstyle =$ $\displaystyle \int_{-\infty}^{\infty} dx_{1} dx_{2} \cdot
\cdot \cdot dx_{n}
(x...
...)^{j_{1}} \cdot \cdot \cdot
(x_{n} - <x_{n}>)^{j_{n}} p(x_{1},x_{2},...,x_{n}).$ (19)

Die wichtigsten Momente sind einmal die eigentlichen Mittelwerte $<x_{s}>$ selbst, sowie die beiden quadratischen zentralen Momente
$\displaystyle <(x_{s}-<x_{s}>)^{2}>$ $\textstyle =$ $\displaystyle D^{2}(x_{s})$ (20)
$\displaystyle <(x_{s}-<x_{s}>)(x_{t}-<x_{t}>)>$ $\textstyle =$ $\displaystyle Cov(x_{s},x_{t}).$ (21)

Die erstere nennt man die Varianz oder Dispersion. Sie ist ein Maß für die Stärke der Streuung der Werte von $x_{s}$ um den Mittelwert $<x_{s}>$. Die Kovarianz $Cov(x_{s},x_{t})$ ist eine wichtige Größe bei der Untersuchung der statistischen Unabhängigkeit der Veränderlichen $x_{s}$ und $x_{t}$. Auf diese Größe werden wir später in diesem Kapitel bei der Erläuterung des Korrelationskoeffizienten noch detailierter eingehen.

Bestimmt man diese Momente aus einer statistischen Stichprobe, so ist in den vorhergehenden Formeln $<x>$ durch $\overline{x}$ und die Integrale durch Summenbildungen über die relativen Häufigkeiten zu ersetzen. Man bezeichnet diese Größen dann als Momente der Stichprobe.

Rechenregeln
Die folgenden Rechenregeln folgen sofort aus der Integral- bzw. Summendefinition der Erwartungswerte.

1. Sei $\vec{x}=(x_{1},x_{2},...,x_{n})$ ein Vektor von zufälligen Veränderlichen mit der Dichtefunktion $p(x_{1},x_{2},...,x_{n})$, so ist

$\displaystyle < \sum_{\nu=1}^{n} x_{\nu} >$ $\textstyle =$ $\displaystyle \sum_{\nu=1}^{n} <x_{\nu}>$ (22)
$\displaystyle < a x_{\nu} >$ $\textstyle =$ $\displaystyle a <x_{\nu} >.$ (23)

2. Gilt für eine eindimensionale Veränderliche $<x^{2}> = 0$, so ist die Dichtefunktion durch die Diracsche $\delta$- Funktion gegeben, d.h.

\begin{displaymath}
<x^{2}> = 0 \longleftrightarrow p(x) = \delta (x).
\end{displaymath} (24)

Diese wichtige und interessante Aussage soll kurz bewiesen werden. Ist $<x^{2}> = 0$, so kann $p(x)$ nur für $x=0$ von Null verschieden sein. Da $p(x)$ normiert sein muß, d.h.

\begin{displaymath}
\int_{-\infty}^{\infty} dx \; p(x) = 1,
\end{displaymath}

erfüllt die Diracsche $\delta$- Funktion die Behauptung. Ist umgekehrt $p(x)=\delta(x)$, so ist nach Definition

\begin{displaymath}
<x^{2}> = \int_{-\infty}^{\infty} dx x^{2} \delta(x).
\end{displaymath}

Auf Grund der allgemeinen Beziehung

\begin{displaymath}
\int_{-\infty}^{\infty} dx f(x) \delta(y-x) = f(y)
\end{displaymath}

erhalten wir den Beweis der umgekehrten Folgerung.

3. Sind alle Komponenten des zufälligen Vektors $\vec{x}=(x_{1},x_{2},...,x_{n})$ mit der Dichtefunktion $p(x_{1},x_{2},...,x_{n})$ voneinander unabhängig, d.h. wenn gilt,

\begin{displaymath}
p(x_{1},x_{2},...,x_{n}) = p_{1}(x_{1}) p_{2}(x_{2}) ... p_{n}(x_{n}),
\end{displaymath} (25)

dann gilt auch
\begin{displaymath}
<x_{1}^{j_{1}} x_{2}^{j_{2}} \cdot \cdot \cdot x_{n}^{j_{n}}...
...1}^{j_{1}}> <x_{2}^{j_{2}}> \cdot \cdot \cdot <x_{n}^{j_{n}}>.
\end{displaymath} (26)

4. Sind zwei Komponenten $x_{s}$ und $x_{t}$ eines Vektors $\vec{x}=(x_{1},x_{2},...,x_{n})$ zufälliger Veränderlicher unabhängig voneinander, d.h. wenn

\begin{displaymath}
p(x_{1},x_{2},...,x_{s},..,x_{t},..,x_{n}) =
p_{s}(x_{1},x_{2},...,x_{s},...,x_{n})
p_{t}(x_{1},x_{2},...,x_{t},...,x_{n}),
\end{displaymath} (27)

wobei also $p_{s}$ nicht von $x_{t}$ und $p_{t}$ nicht von $x_{s}$ abhängt, dann gilt
\begin{displaymath}
Cov(x_{s},x_{t}) = <(x_{s}-<x_{s}>)(x_{t} - <x_{t}>)> = 0.
\end{displaymath} (28)

Für unabhängige Veränderliche $x_{s}$ und $x_{t}$ verschwindet die Kovarianz. Die Umkehrung dieser Behauptung braucht nicht richtig zu sein.

5. Sind alle Komponenten des zufälligen Vektors $\vec{x}=(x_{1},x_{2},...,x_{n})$ voneinander unabhängig, dann genügt die Dispersion einer Summe der Identität

\begin{displaymath}
D^{2}(\sum_{\nu=1}^{n} x_{\nu}) = \sum_{\nu=1}^{n} D^{2}(x_{\nu}).
\end{displaymath} (29)

6. Sind $x_{s}$ und $x_{t}$ zwei zufällige Veränderliche aus $\vec{x}=(x_{1},x_{2},...,x_{n})$, so gilt die Cauchy-Schwarzsche Ungleichung

\begin{displaymath}
<x_{s}^{2}> <x_{t}^{2}> \; \; \geq \; \; <x_{s} x_{t}>^{2}.
\end{displaymath} (30)

Korrelationskoeffizient
Ein Maß für die statistische Abhängigkeit zweier zufälliger Veränderlicher $x_{1}$ und $x_{2}$ wird durch den Korrelationskoeffizienten gegeben. Wir definieren diese Größe durch

\begin{displaymath}
\rho = \frac{<(x_{1}-<x_{1}>)(x_{2}-<x_{2}>)>}
{\sqrt{<(x_{1}-<x_{1}>)^{2}> <(x_{2}-<x_{2}>)^{2}>}}.
\end{displaymath} (31)

Der Korrelationskoeffizient hat drei bemerkenswerte Eigenschaften:

1. Für unabhängige Veränderliche $x_{1}$ und $x_{2}$ ist

\begin{displaymath}
\rho = 0.
\end{displaymath} (32)

2. Der Korrelationskoeffizient genügt stets der Ungleichung

\begin{displaymath}
-1 \leq \rho \leq +1.
\end{displaymath} (33)

Der Beweis erfolgt mit Hilfe der Cauchy-Schwarzschen Ungleichung.

3. Ist $\rho^{2} =1$, so sind die Veränderlichen $x_{1}$ und $x_{2}$ vollständig miteinander korreliert, d.h. es gilt

\begin{displaymath}
\rho^{2}=1 \longleftrightarrow x_{1} = a x_{2} + b
\end{displaymath} (34)

mit reellen Konstanten $a$ und $b$.

Kovarianzmatrix
Die Erläuterungen des vorhergehenden Abschnitts können auf mehrdimensionale Veränderliche $\vec{x}=(x_{1},x_{2},...,x_{n})$ übertragen werden. Stellt man die Kovarianzen $Cov(x_{s},x_{t})$ aller Komponentenpaare in einer Matrix zusammen,

\begin{displaymath}
M = \left( \begin{array}{cccc}
Cov(x_{1},x_{1}) & Cov(x_{1},...
...ov(x_{n},x_{2}) & ... & Cov(x_{n},x_{n}) \end{array}\right) ,
\end{displaymath}

so gilt der für die Anwendungen wichtige Satz:
Notwendig und hinreichend dafür, daß zwischen den Veränderlichen $x_{1},x_{2},...,x_{n}$ mit $Cov(x_{i},x_{j}) > 0 \; \forall i,j$ mindestens eine lineare Beziehung der Form $x_{t} = a x_{s} + b$ besteht, ist die Bedingung
\begin{displaymath}
det M = 0.
\end{displaymath} (35)

Dieses ist die Verallgemeinerung der dritten Behauptung des vorhergehenden Abschnitts.

Die Beweise für die Behauptungen dieses gesamten Abschnitts können in jedem Lehrbuch der Statistik nachgeschlagen werden.

Transformation von zufälligen Veränderlichen
In den Anwendungen kommt es häufig vor, daß einer gegebenen zufälligen Veränderlichen $x$ in ganz bestimmter Weise eine neue zufällige Veränderliche $y$ zugeordnet wird, und zwar gemäß einer Abbildung

\begin{displaymath}
y = \psi (x).
\end{displaymath} (36)

Wir nehmen an, daß auch die Umkehrfunktion existiert,
\begin{displaymath}
x = \psi^{-1} (y) = \phi (y).
\end{displaymath} (37)

Die Dichtefunktion $q(y)$ der zufälligen Veränderlichen $y$ findet man folgendermaßen. Wegen der Normierung der Dichtefunktion gilt

\begin{displaymath}
\int_{-\infty}^{\infty} dx \; p(x) = \int_{-\infty}^{\infty} dy \; q(y) = 1
\end{displaymath}

und

\begin{displaymath}
dx = \vert \frac{d \phi}{dy} \vert dy .
\end{displaymath}

Daher können wir schreiben

\begin{displaymath}
\int_{-\infty}^{\infty} dy \; p(\phi (y)) \vert \frac{d\phi}{dy} \vert dy
= \int_{-\infty}^{\infty} dy \; q(y) .
\end{displaymath}

Also ist
\begin{displaymath}
q(y) = p(\phi (y)) \vert \frac{d\phi}{dy} \vert
\end{displaymath} (38)

die Dichtefunktion der zufälligen Veränderlichen $y$.

Dieses Verfahren kann man auf zufällige Vektoren verallgemeinern. Sei $\vec{x}=(x_{1},x_{2},...,x_{n})$ ein Vektor von $n$ zufälligen Veränderlichen und $\vec{y} = (y_{1},y_{2},...,y_{n}$ ein anderer Vektor von $n$ zufälligen Veränderlichen. Seien ferner $\psi_{1}, \psi_{2},..., \psi_{n}$ umkehrbar eindeutige Abbildungen,

$\displaystyle y_{1}$ $\textstyle =$ $\displaystyle \psi_{1} (x_{1},x_{2},...,x_{n})$  
$\displaystyle y_{2}$ $\textstyle =$ $\displaystyle \psi_{2} (x_{1},x_{2},...,x_{n})$ (39)
  $\textstyle .$    
  $\textstyle .$    
  $\textstyle .$    
$\displaystyle y_{n}$ $\textstyle =$ $\displaystyle \psi_{n} (x_{1},x_{2},...,x_{n})$  

mit
$\displaystyle x_{1}$ $\textstyle =$ $\displaystyle \phi_{1} (y_{1},y_{2},...,y_{n})$  
$\displaystyle x_{2}$ $\textstyle =$ $\displaystyle \phi_{2} (y_{1},y_{2},...,y_{n})$ (40)
  $\textstyle .$    
  $\textstyle .$    
  $\textstyle .$    
$\displaystyle x_{n}$ $\textstyle =$ $\displaystyle \phi_{n} (y_{1},y_{2},...,y_{n}) ,$ (41)

dann kann die Dichtefunktion $q(y_{1},y_{2},...,y_{n})$ aus der Dichtefunktion $p(x_{1},x_{2},...,x_{n})$ berechnet werden gemäß
\begin{displaymath}
q(y_{1},..,y_{n}) = p(\phi_{1}(y_{1},..,y_{n}),...,
\phi_{n}...
...partial (x_{1},...,x_{n})}{\partial (y_{1},...,y_{n})} \vert .
\end{displaymath} (42)

Die darin auftretende Funktionaldeterminante lautet ausführlich geschrieben

\begin{displaymath}
\frac{\partial (x_{1},...,x_{n})}{\partial (y_{1},...,y_{n})...
...c{\partial \phi_{n}}{\partial y_{n}} \end{array} \right\vert .
\end{displaymath}

In (42) ist dann der Betrag dieser Determinante einzusetzen.

Häufig hat man es mit Transformationen der Art

$\displaystyle y_{1}$ $\textstyle =$ $\displaystyle \psi_{1} (x_{1},x_{2},...,x_{n})$  
$\displaystyle y_{2}$ $\textstyle =$ $\displaystyle \psi_{2} (x_{1},x_{2},...,x_{n})$  
  $\textstyle .$   (43)
  $\textstyle .$    
  $\textstyle .$    
$\displaystyle y_{m}$ $\textstyle =$ $\displaystyle \psi_{m}(x_{1},x_{2},...,x_{n}),$  

mit $m < n$ zu tun, d.h. man interessiert sich für die Verteilungsfunktion eines reduzierten Vektors von zufälligen Veränderlichen. Zur Lösung erweitern wir die Transformationen mit beliebigen, aber geeignet gewählten Hilfstransformationen. Die einfachste Wahl ist
$\displaystyle y_{m+1}$ $\textstyle =$ $\displaystyle \psi_{m+1}(x_{1},x_{2},...,x_{n}) = x_{m+1}$  
  $\textstyle .$    
  $\textstyle .$    
$\displaystyle y_{n}$ $\textstyle =$ $\displaystyle \psi_{n}(x_{1},x_{2},...,x_{n}) = x_{n}.$ (44)

Dann lautet die Umkehrfunktion:
$\displaystyle x_{1}$ $\textstyle =$ $\displaystyle \phi_{1} (y_{1},y_{2},...,y_{n})$  
$\displaystyle x_{2}$ $\textstyle =$ $\displaystyle \phi_{2} (y_{1},y_{2},...,y_{n})$  
  $\textstyle .$    
  $\textstyle .$   (45)
  $\textstyle .$    
$\displaystyle x_{m}$ $\textstyle =$ $\displaystyle \phi_{m}(y_{1},y_{2},...,y_{n})$  
$\displaystyle x_{m+1}$ $\textstyle =$ $\displaystyle \phi_{m+1}(y_{1},y_{2},...,y_{n}) = y_{m+1}$  
  $\textstyle .$    
  $\textstyle .$    
$\displaystyle x_{n}$ $\textstyle =$ $\displaystyle \phi_{n}(y_{1},y_{2},...,y_{n}) = y_{n}$  

Die weitere Rechnung geht wie Gleichung (42), nur muß noch über $y_{m+1},...,y_{n}$ integriert werden:
$\displaystyle q(y_{1},y_{2},...,y_{m}) = \int_{-\infty}^{\infty} dy_{m+1}...dy_{n}
p($ $\textstyle \phi_{1}$ $\displaystyle (y_{1},...,y_{n}),...,\phi_{m}(y_{1},...,y_{n}),$  
  $\textstyle y_{m+1}$ $\displaystyle ,...,y_{n})
\left\vert \frac{\partial(x_{1},...,x_{n})}{\partial(y_{1},...,y_{n})} \right\vert.$ (46)

Da $x_{i} = y_{i}$ für $ i > m$, gilt auch

\begin{displaymath}
\left\vert \frac{\partial(x_{1},...,x_{n})}{\partial(y_{1},....
...rtial(x_{1},...,x_{m})}{\partial(y_{1},...,y_{m})} \right\vert
\end{displaymath}

und damit
$\displaystyle q(y_{1},...,y_{m}) = \int_{-\infty}^{\infty} dx_{m+1}...dx_{n}
p($ $\textstyle \phi_{1}$ $\displaystyle (y_{1},...,y_{m},x_{m+1},..,x_{n}),...,$  
  $\textstyle \phi_{m}$ $\displaystyle (y_{1},...,y_{m},x_{m+1},..,x_{n}),$  
  $\textstyle x_{m+1}$ $\displaystyle ,..,x_{n})
\left\vert \frac{\partial(x_{1},...,x_{m})}{\partial(y_{1},...,y_{m})} \right\vert$ (47)

Dieses Integral schreibt man häufig in der saloppen, aber einprägsamen Form
\begin{displaymath}
q(\vec{y}) = \int_{\vec{\psi}(\vec{x}) = \vec{y}} d\vec{x} p...
...}) =
\int_{\vec{x} = \vec{\phi}(\vec{y})} d\vec{x} p(\vec{x}).
\end{displaymath} (48)

Die Einfachheit der numerischen Lösung der Transformation hängt manchmal von der Wahl der Hilfstransformationen ab. Bei einigen Problemen müssen diese daher verschieden von der Wahl (45) gewählt werden.

Beispiel
In der Simulation kommt es häufig vor, daß man abhängige Variable $x_{1}$und $x_{2}$ derart transformieren muß, daß die neuen Variablen $y_{1}$ und $y_{2}$ nicht mehr voneinender abhängig sind. Sei also $p(x_{1},x_{2})$ die Dichtefunktion einer zweidimensionalen Veränderlichen $(x_{1},x_{2})$ mit

\begin{displaymath}
p(x_{1},x_{2}) = \frac{1}{2 \pi \sigma_{1} \sigma_{2} \sqrt{...
...1} \sigma_{2}}
+ \frac{x_{2}^{2}}{\sigma_{2}^{2}} \rbrack } .
\end{displaymath} (49)

Man prüft leicht nach, daß $\sigma_{1}$ und $\sigma_{2}$ die Varianzen von $x_{1}$ und $x_{2}$ sind und daß $\rho$ der Korrelationskoeffizient ist. Der Faktor vor der Exponentialfunktion garantiert die richtige Normierung,

\begin{displaymath}
\int_{-\infty}^{\infty} dx_{1} dx_{2} p(x_{1},x_{2}) = 1.
\end{displaymath}

Wir schreiben den Ausdruck im Exponenten gemäß

\begin{displaymath}
\frac{x_{1}^{2}}{\sigma_{1}^{2}}
- 2 \rho \frac{x_{1} x_{2...
..._{2}})^{2}
+ (1 - \rho^{2}) \frac{x_{2}^{2}}{\sigma_{2}^{2}}
\end{displaymath}

und substituieren

\begin{displaymath}\begin{array}{ccccl}
y_{1} &=& \psi(x_{1},x_{2}) &=& \frac{1}...
...& \psi(x_{1},x_{2}) &=& \frac{x_{2}}{\sigma_{2}} .
\end{array} \end{displaymath}

Die Umkehrung ist eindeutig und ergibt

\begin{displaymath}\begin{array}{ccccl}
x_{1} &=& \phi_{1}(y_{1},y_{2}) &=&
\fr...
...} &=& \phi_{2}(y_{1},y_{2}) &=& \sigma_{2} y_{2} .
\end{array} \end{displaymath}

Die Funktionaldeterminante berechnet sich zu

\begin{displaymath}
\frac{\partial (x_{1},x_{2})}{\partial (y_{1},y_{2})}
= \sigma_{1} \sigma_{2} \sqrt{1-\rho^{2}} .
\end{displaymath}

Die transformierte Dichtefunktion lautet schließlich
\begin{displaymath}
q(y_{1},y_{2}) = \frac{1}{2 \pi} e^{-\frac{1}{2} (y_{1}^{2} + y_{2}^{2})}.
\end{displaymath} (50)

Hierin sind die zufälligen Veränderlichen $y_{1}$ und $y_{2}$ offensichtlich unabhängig. Dieses ist eine zweidimensionale Gaußverteilung mit den Varianzen $\sigma_{1} = \sigma_{2} = 1$ und dem Korrelationskoeffizienten $\rho = 0$.

Eine andere Transformation,

$\displaystyle y_{1}$ $\textstyle =$ $\displaystyle \frac{1}{\sigma_{1}\sigma_{2} \sqrt{1-\rho^{2}}}
(+x_{1} cos\Theta + x_{2} sin\Theta)$  
$\displaystyle y_{2}$ $\textstyle =$ $\displaystyle \frac{1}{\sigma_{1}\sigma_{2} \sqrt{1-\rho^{2}}}
(-x_{1} sin\Theta + x_{2} cos\Theta)$  
$\displaystyle x_{1}$ $\textstyle =$ $\displaystyle \sigma_{1}\sigma_{2} \sqrt{1-\rho^{2}}
(y_{1} cos\Theta - y_{2} sin\Theta)$  
$\displaystyle x_{2}$ $\textstyle =$ $\displaystyle \sigma_{1}\sigma_{2} \sqrt{1-\rho^{2}}
(y_{1} sin\Theta + y_{2} cos\Theta)$  

mit $tg(2\Theta) = 2 \rho \sigma_{1}\sigma_{2}/(\sigma_{1}^{2}-\sigma_{2}^{2})$ führt auf das gleiche Ergebnis. Diese Transformation ist zwar in ihrer Abhängigkeit von $x_{1}$ und $x_{2}$ bzw $y_{1}$ und $y_{2}$ symmetrischer, und damit ästhetisch schöner, rechentechnisch jedoch ungünstiger, da trigonometrische Funktionen auftreten.

Der Ausdruck (49) stellt eine Normalverteilung um die Erwartungswerte
$<x_{1}>=0$ und $<x_{2}>=0$ eines zweidimensionalen Vektors $\vec{x}=(x_{1},x_{2})$ dar. Die Normalverteilung läßt sich auf $n$- dimensionale Vektoren verallgemeinern:

\begin{displaymath}
p(\vec{x}) = \frac{\sqrt{det A}}{(2\pi)^{n/2}} e^{-\frac{1}{...
...\mu=1}^{n} A_{\nu\mu}(x_{\nu}-<x_{\nu}>)(x_{\mu}-<x_{\mu}>)} ,
\end{displaymath} (51)

wobei wir die Matrix $A=(A_{\nu\mu})$ eingeführt haben. Der Ausdruck vor der Exponentialfunktion garantiert die richtige Normierung,

\begin{displaymath}
\int_{-\infty}^{\infty} dx_{1} dx_{2} \cdot \cdot \cdot dx_{n} p(\vec{x}) = 1.
\end{displaymath}

Wir werden in einem späteren Kapitel noch detaillierter auf diese Verteilung eingehen. Im Augenblick soll die Bemerkung genügen, daß die Kovarianzmatrix des zufälligen Vektors $\vec{x}$ die zu $A$ inverse Matrix $A^{-1}$ ist, d.h.

\begin{displaymath}
(A^{-1})_{\nu\mu} = Cov(x_{\nu},x_{\mu})
= <(x_{\nu}-<x_{\nu}>)(x_{\mu}-<x_{\mu}>)> .
\end{displaymath}

Man muß also bei gegebener Kovarianzmatrix $A^{-1}$ zunächst die inverse Matrix $A$ bestimmen, um zu einem expliziten Ausdruck für die Dichtefunktion von normalverteilten Vektoren zu gelangen.

Für einen zweidimensionalen Vektor rechnen wir dieses Verfahren einmal explizit durch. Wir setzen $<x_{1}> = <x_{2}> = 0$ und erhalten

\begin{displaymath}
p(x_{1},x_{2}) = \frac{\sqrt{det A}}{2\pi} e^{-\frac{1}{2}
\sum_{\nu,\mu=1}^{2} A_{\nu\mu} x_{\nu} x_{\mu} }.
\end{displaymath} (52)

Die Kovarianzmatrix ist

\begin{displaymath}
A^{-1} = \left( \begin{array}{cc} <x_{1}x_{1}> & <x_{1}x_{2}> \\
<x_{2}x_{1}> & <x_{2}x_{2}> \end{array} \right) .
\end{displaymath}

Wir identifizieren
$\displaystyle \sigma_{1}^{2}$ $\textstyle =$ $\displaystyle <x_{1}x_{1}>$  
$\displaystyle \sigma_{2}^{2}$ $\textstyle =$ $\displaystyle <x_{2}x_{2}>$  
$\displaystyle \rho$ $\textstyle =$ $\displaystyle \frac{<x_{1}x_{2}>}{\sqrt{<x_{1}x_{1}> <x_{2}x_{2}>}}.$  

Daher können wir setzen

\begin{displaymath}
A^{-1} = \left( \begin{array}{cc} \sigma_{1}^{2} & \rho \sig...
... \sigma_{1} \sigma_{2} & \sigma_{2}^{2} \end{array} \right) .
\end{displaymath}

Die hierzu inverse Matrix ist, wie man leicht nachrechnen kann,

\begin{displaymath}
A = \frac{1}{1-\rho^{2}} \left( \begin{array}{cc} \frac{1}{\...
... \sigma_{2}}
& \frac{1}{\sigma_{2}^{2}} \end{array} \right) .
\end{displaymath}

Einsetzen dieser Matrix in (52) ergibt dann tatsächlich (49).

Anwendung
Als Anwendung betrachten wir ein Beispiel aus der Teilchenphysik. Wenn ein Teilchen durch Materie dringt, wird es durch vielfache elastische Streuungen mit den Atomen der Materie aus seiner geradliniegen Bahn abgelengt. Es hat beim Verlassen der Materieschicht nicht nur eine Richtungsänderung $\Theta$ gegenüber seiner ursprünglichen Richtung, sondern auch einen Versatz $X$ (siehe Abbildung 3). Die theoretische Behandlung dieses Problems müssen wir auf ein späteres Kapitel vertagen. Als Ergebnis erhält man

$\displaystyle < \Theta^{2} >$ $\textstyle =$ $\displaystyle c Z$  
$\displaystyle < \Theta X >$ $\textstyle =$ $\displaystyle \frac{1}{2} c Z^{2}$  
$\displaystyle < X^{2} >$ $\textstyle =$ $\displaystyle \frac{1}{3} Z^{3}$  

Abbildung 3: Teilchenbahn unter dem Einfluss der Vielfachstreuung.

$c$ ist hierbei eine materialabhängige Konstante und $Z$ ist die Dicke des Materials. Die Dichtefunktion in $\Theta$ und $X$ ist (siehe Aufgabe 1):

\begin{displaymath}
P(\Theta, X) = \frac{\sqrt{3}}{\pi c Z}
e^{-2(\Theta^{2}/c -3 \Theta X/cZ + 3 X^{2}/c Z^{2})}
\end{displaymath} (53)

Im folgenden Applet haben wir eine Simulation dieser Vielfachstreuung programmiert. Beim Laden des Applets wird zunächst die Bahn des Teilchens gezeigt. Im rechten Auswahlfeld kann man sich sich die simulierten Grössen für $\Theta$ und $x$ in einem zweidimensionalen Plot ansehen. Als Erweiterung haben wir auch noch die Möglichkeit, die Korrelationen für die Ablenkwinkel und Versätze bei zwei Orten $Z_{1}$ und $Z_{2}$ der Teichenbahn zu untersuchen. $t_{1} = \Theta_{1}$ bzw $t_{2} = \Theta_{2}$ sind dann die Ablenkwinkel bei den Schichtdicken $Z_{1}$ bzw $Z_{2}$, $x_{1}$ und $x_{2}$ die entsprechenden Versätze gegenüber der geradliniegen Bahn. Die Parameter des Teilchens, des Ansorbers und die Werte für $Z_{1}$ und $Z_{2}$ können im Eingabefeld verändert werden. Die theoretischen Erwartungswerte für die Messwerte bei verschiedenen Schichtdicken sind:
$\displaystyle <\Theta_{1} \Theta_{2}>$ $\textstyle =$ $\displaystyle c Z_{1}$  
$\displaystyle <X_{1} X_{2} >$ $\textstyle =$ $\displaystyle \frac{1}{6} c Z_{1}^{2}(3 Z_{2} - Z_{1})$  
$\displaystyle <X_{1} \Theta_{2} >$ $\textstyle =$ $\displaystyle \frac{1}{2} c Z_{1}^{2}$  
$\displaystyle <\Theta_{1} X_{2} >$ $\textstyle =$ $\displaystyle c Z_{1} (Z_{2} - Z_{1}/2)$  

Diese Ergebnisse sind als rote Korrelationsgeraden in die Plots eingezeichnet.

Übungen

Aufgabe 1: Beweisen Sie die Formel (53) für die zweidimensionale Dichtefunktion in der Vielfachstreuung.

Aufgabe 2: Zeichnen Sie die Kurve der Dichtefunktion

\begin{displaymath}
p(x) = \frac{1}{\sqrt{2 \pi} \sigma} e^{-(x-m)^{2}/2 \sigma^{2}}.
\end{displaymath}

a) Berechnen Sie die Wendepunkte. Wie groß ist die Wahrscheinlichkeit dafür, bei einer Messung der Veränderlichen $x$ einen Wert zwischen den Abzissen der Wendepunkte zu erhalten?
b) Der Wert für $m=<x>$ sei bekannt, z.B. $m=0$. Berechnen Sie die Dichtefunktion der zufälligen Veränderlichen $y=\vert x\vert$.

Aufgabe 3: Eine zweidimensionale zufällige Veränderliche möge die Dichtefunktion

\begin{displaymath}
p(x_{1},x_{2}) = \frac{1}{2 \pi \sigma_{1} \sigma_{2} \sqrt{...
...\sigma_{1} \sigma_{2}}
+ \frac{x_{2}^{2}}{\sigma_{2}^{2}} ] }
\end{displaymath}

besitzen. Wie lauten die Dichtefunktionen der zufälligen Veränderlichen
a) $r=\sqrt{x_{1}^{2}+x_{2}^{2}}$, $ \phi = arctg (\frac{x_{2}}{x_{1}})$
b) $y=x_{1} \cdot x_{2}$  
c) $y= \frac{x_{1}}{x_{2}}$ ?  

Aufgabe 4: Zwei Schützen A und B schießen auf eine Scheibe mit dem Mittelpunkt $x_{1}=0$, $x_{2}=0$. Die Wahrscheinlichkeit der Einschläge betrage

\begin{displaymath}
p(x_{1},x_{2}) = \frac{1}{2 \pi \sigma_{i}^{2}}
e^{(-x_{1}^{2}+x_{2}^{2})/\sigma_{i}^{2}}
\end{displaymath}

mit $i=A,B$. Sieger ist derjenige Schütze, dessen Schuß den geringsten Abstand vom Scheibenmittelpunkt hat. Wie groß ist die Wahrscheinlichkeit dafür, daß $B$ gewinnt?



Harm Fesefeldt
2005-02-25