Orthogonale Regression

In der Statistik dient die orthogonale Regression (genauer: orthogonale lineare Regression) zur Berechnung einer Ausgleichsgeraden für eine endliche Menge metrisch skalierter Datenpaare $(x_{i},y_{i})$ nach der Methode der kleinsten Quadrate. Wie in anderen Regressionsmodellen wird dabei die Summe der quadrierten Abstände der $(x_{i},y_{i})$ von der Geraden minimiert. Im Unterschied zu anderen Formen der linearen Regression werden bei der orthogonalen Regression nicht die Abstände in $x$ - bzw. $y$ -Richtung verwendet, sondern die orthogonalen Abstände. Dieses Verfahren unterscheidet nicht zwischen einer unabhängigen und einer abhängigen Variablen. Damit können – anders als bei der linearen Regression – Anwendungen behandelt werden, bei denen beide Variablen $x$ und $y$ messfehlerbehaftet sind.

Die orthogonale Regression ist ein wichtiger Spezialfall der Deming-Regression. Sie wurde erstmals 1840 im Zusammenhang mit einem geodätischen Problem von Julius Weisbach angewendet^[1]^[2], 1878 von Robert James Adcock in die Statistik eingeführt^[3] und in allgemeinerem Rahmen 1943 von W. E. Deming für technische und ökonomische Anwendungen bekannt gemacht.^[4]

Rechenweg

Es wird eine Gerade

$y=\beta _{0}+\beta _{1}x$

gesucht, die die Summe der quadrierten Abstände der $(x_{i},y_{i})$ von den zugehörigen Fußpunkten $(x_{i}^{*},y_{i}^{*})$ auf der Geraden minimiert. Wegen $y_{i}^{*}=\beta _{0}+\beta _{1}x_{i}^{*}$ berechnet man diese quadrierten Abstände zu $(y_{i}-\beta _{0}-\beta _{1}x_{i}^{*})^{2}+(x_{i}-x_{i}^{*})^{2}$ , deren Summe minimiert werden soll:

$SSR=\sum _{i=1}^{n}{\Big (}(y_{i}-\beta _{0}-\beta _{1}x_{i}^{*})^{2}+(x_{i}-x_{i}^{*})^{2}{\Big )}\ \to \ \min _{\beta _{0},\beta _{1},x_{i}^{*}}SSR$

Für die weitere Rechnung werden die folgenden Hilfswerte benötigt:

{\overline {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}

(arithmetisches Mittel der

x_{i}

)

{\overline {y}}={\frac {1}{n}}\sum _{i=1}^{n}y_{i}

(arithmetisches Mittel der

y_{i}

)

s_{x}^{2}={\tfrac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}

(Stichprobenvarianz der

x_{i}

)

s_{y}^{2}={\tfrac {1}{n-1}}\sum _{i=1}^{n}(y_{i}-{\overline {y}})^{2}

(Stichprobenvarianz der

y_{i}

)

s_{xy}={\tfrac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})(y_{i}-{\overline {y}})

(Stichprobenkovarianz der

(x_{i},y_{i})

)

Damit ergeben sich die Parameter zur Lösung des Minimierungsproblems:^[5]^[6]^[7]

\beta _{1}={\frac {s_{y}^{2}-s_{x}^{2}+{\sqrt {(s_{y}^{2}-s_{x}^{2})^{2}+4s_{xy}^{2}}}}{2s_{xy}}}

\beta _{0}={\overline {y}}-\beta _{1}{\overline {x}}

Die $x$ -Koordinaten der Fußpunkte berechnet man mit

x_{i}^{*}=x_{i}+{\frac {\beta _{1}}{\beta _{1}^{2}+1}}(y_{i}-\beta _{0}-\beta _{1}x_{i})

Alternativer Rechenweg

Abstand di eines Punktes P(xi;yi) zur Geraden y=mx+t

Der geometrische Abstand $d_{i}$ eines Messpunktes $P(x_{i}|y_{i})$ zu einer Ausgleichsgeraden

f(x)=mx+t

lässt sich wegen $d_{i}:(y_{i}-(mx_{i}+t))=1:{\sqrt {1+m^{2}}}$ wie folgt berechnen:

d_{i}^{2}={\frac {(y_{i}-(mx_{i}+t))^{2}}{1+m^{2}}}

Gesucht sind nun die Koeffizienten $m$ und $t$ mit der kleinsten Summe der Fehlerquadrate.

\min _{m,t}\sum _{i=1}^{N}d_{i}^{2}

Berechnung der partiellen Ableitung nach t

Die Gleichung

{\frac {\partial }{\partial t}}\sum _{i=1}^{N}{\frac {(y_{i}-(mx_{i}+t))^{2}}{1+m^{2}}}=0

ergibt als Lösung

t={\overline {y}}-m{\overline {x}}

Dabei wird als ${\overline {x}}$ der Mittelwert der $x$ -Koordinaten der Messpunkte bezeichnet. Analog dazu ist ${\overline {y}}$ der Mittelwert der $y$ -Koordinaten der Messpunkte. Diese Lösung hat auch zur Folge, dass der Punkt $P({\overline {x}}|{\overline {y}})$ stets auf der Ausgleichsgeraden liegt.

Berechnung der partiellen Ableitung nach m

Die Gleichung

{\frac {\partial }{\partial \,m}}\sum _{i=1}^{N}{\frac {(y_{i}-(mx_{i}+t))^{2}}{1+m^{2}}}=0

ergibt folgende quadratische Gleichung:

m^{2}S_{xy}+m(S_{xx}-S_{yy})-S_{xy}=0

Dabei sind

S_{xx}=\sum _{i=1}^{N}(x_{i}-{\overline {x}})^{2}\;

und

\;S_{yy}=\sum _{i=1}^{N}(y_{i}-{\overline {y}})^{2}

die Quadratsummen der Messwerte von $X$ und $Y$ und

S_{xy}=\sum _{i=1}^{N}(x_{i}-{\overline {x}})(y_{i}-{\overline {y}})

die Produktsumme zwischen $X$ und $Y$ .

Auf Grund des Steigungsverhaltens dieser Parabel ergibt sich für das Minimum hier die eine Lösung:

m={\frac {S_{yy}-S_{xx}+{\sqrt {(S_{xx}-S_{yy})^{2}+4(S_{xy})^{2}}}}{2S_{xy}}}

Die Gleichung der geometrischen Ausgleichsgeraden lautet somit:

f(x)=m(x-{\overline {x}})+{\overline {y}}

Beispiel

	$x_{i}$	$y_{i}$	$x_{i}-{\overline {x}}$	$y_{i}-{\overline {y}}$	$(x_{i}-{\overline {x}})^{2}$	$(x_{i}-{\overline {x}})(y_{i}-{\overline {y}})$	$(y_{i}-{\overline {y}})^{2}$
P1	1,0	2,0	−2,3	−2,1	5,29	4,83	4,41
P2	2,0	3,5	−1,3	−0,6	1,69	0,78	0,36
P3	4,0	5,0	0,7	0,9	0,49	0,63	0,81
P4	4,5	4,5	1,2	0,4	1,44	0,48	0,16
P5	5,0	5,5	1,7	1,4	2,89	2,38	1,96
Summe	$16{,}5$	$20{,}5$	$0{,}0$	$0{,}0$	$S_{xx}=11{,}8$	$S_{xy}=9{,}1$	$S_{yy}=7{,}7$
Mittelwert	${\overline {x}}=3{,}3$	${\overline {y}}=4{,}1$

m={\frac {-4{,}1+{\sqrt {4{,}1^{2}+4\cdot 9{,}1^{2}}}}{2\cdot 9{,}1}}

Es ergibt sich $m=0{,}8$ und die geometrische Ausgleichsgerade lautet daher wie folgt:

f(x)=0{,}8(x-3{,}3)+4{,}1

Einzelnachweise

↑ J. Weisbach: Bestimmung des Hauptstreichens und Hauptfallens von Lagerstätten. In: Archiv für Mineralogie, Geognosie, Bergbau und Hüttenkunde. Band 14, 1840, S. 159–174.
↑ D. Stoyan, T. Morel: Julius Weisbach's pioneering contribution to orthogonal linear regression. In: Historia Mathematica. Band 45, 2018, S. 75–84.
↑ R. J. Adcock: A problem in least squares. In: The Analyst. Band 5, Nr. 2. Annals of Mathematics, 1878, S. 53–54, doi:10.2307/2635758, JSTOR:2635758.
↑ W. E. Deming: Statistical adjustment of data. Wiley, NY (Dover Publications edition, 1985), 1943, ISBN 0-486-64685-8.
↑ P. Glaister: Least squares revisited. The Mathematical Gazette. Vol. 85 (2001), S. 104–107.
↑ G. Casella, R. L. Berger: Statistical Inference. 2. Auflage. Cengage Learning, Boston 2008, ISBN 978-0-495-39187-6.
↑ J. Hedderich, Lothar Sachs: Angewandte Statistik. Methodensammlung mit R. 15. Auflage. Springer Berlin, Heidelberg 2015, ISBN 978-3-662-45690-3.