 |
Lineaarinen regressioanalyysi |
Lineaarinen regressioanalyysi on
tilastollinen analyysimenetelmä, jossa aineiston perusteella estimoidaan tarkasteltavan vastemuuttujan lineaarista riippuvuutta selittävistä muuttujista. Menetelmää sovelletaan lähes kaikilla tieteenaloilla, joilla tehdään empiiristä tutkimusta.
Seuraavassa on esimerkki lineaarisesta regressianalyysista, jossa estimoidaan yhtälön
- ,
tuntemattomat parametrit
kun on havaittu selitettävän muuttujan
ja selittävän muuttujan
havainnot
. Kirjoitetaan:
missä on mallin jäännösvirhe eli residuaali. Kun mallin parametrit estimoidaan pienimmän neliösumman menetelmällä, valitaan estimaatit siten, että residuaalien neliöiden summa minimoidaan.
Yleensä lineaarisessa regressioanalyysissa tehdään Gauss-Markov -oletukset:
- Virhetermit ovat satunnaisia ja niiden odotusarvo on 0.
- Virhetermit ovat korreloimattomia (toisinaan tehdään vahvempi riippumattomuusoletus).
- Virhetermit ovat homoskedastisia eli niiden varianssi on vakio.
Gauss-Markov -teoreeman mukaan pienimmän neliösumman estimaattori on oletuksien vallitessa tehokkain harhaton lineaarinen estimaattori.
Parametrien estimointi
Kirjoittamalla malli lineaarisena yhtälösysteeminä, voidaan malli esittää matriisimuodossa, jolloin X aineistomatriisi, Y vastevektori ja parametrivektori. Matriisien i:nnes rivi sisältää aineiston rivit ja Tällöin malli voidaan kirjoittaa:
- ,
joka on matriisiena:
-
Nyt yhtälö voidaan kertoa vasemmalta matriisilla
-
Olettaen, että matriisi
on olemassa, voidaan yhtälö kertoa sillä vasemmalta puolelta:
-
Ottamalla odotusarvo ja ratkaisemalla yhtälö saadaan estimaatti:
-
Aiheesta muualla