Lähestymistapa
Tilastotieteen soveltaminen tarkasteltavaan tieteelliseen, teolliseen tai yhteiskunnalliseen ongelmaan alkaa populaation määrittelyllä. Kyseessä voi olla jonkin maan väestö tai tehtaan valmistamat tuotteet. Toisaalta voidaan havainnoida aineistoa tuottava prosessi eri ajankohtina, jolloin kyseessä on aikasarja.
Aineistoa on tavallisesti mahdollista kerätä vain populaatio osajoukosta, jolloin tutkimuksen kohteena on otos. Otoksesta voidaan kerätä aineistoa joko havainnoiden tai kokeellisessa asetelmassa. Kun aineisto on kerätty, siitä tehtävä analyysi voidaan jakaa kuvailuun ja päättelyyn, jotka tosin liittyvät usein toisiinsa läheisesti:
- Kuvaileva tilastollinen analyysi on aineiston esittämistä joko numeerisesti tai graafisesti. Tyypillisiä tunnuslukuja ovat keskiarvo ja keskihajonta. Histogrammi on taas esimerkki tilastollisesta kuvaajasta.
- Tilastollinen päättely on aineiston mallintamista, satunnaisuuden huomioon ottamista sekä aineistosta saatujen tuloksien yleistämistä populaatioon. Päättelyyn kuuluu muun muassa tilastollinen hypoteesin testaus, parametrien estimointiiden, korrelaatio tarkastelu sekä regressioanalyysi.
Tilastotieteessä on tärkeää tehdä ero
kausaliteetin ja korrelaation välillä. Kausaliteetti eli syy-seuraussuhde tarkoittaa tilastollisessa yhteydessä, että yhden muuttujan arvosta seuraa toisen muuttujan arvo. Kahden muuttujan välinen korrelaatio taas tarkoittaa, että niiden arvot vaihtelevat yhdessä aineistossa, mutta kausaliteetin suuntaan ei oteta kantaa. Esimerkiksi tulojen ja eliniän tutkimus voi osoittaa, että köyhät elävät rikkaita pidempään. Tällöin tulot ja elinikä ovat aineistossa korreloituneita. Tästä ei voida kuitenkaan johtaa kausaalisuhdetta, jonka mukaan varallisuus lisäisi elinikää. Korrelaatio voi syntyä kolmannen havaitsemattoman muuttujan vaikutuksesta, joka saattaisi olla esimerkiksi terveyspalveluiden saatavuus.
Jos tarkasteltava otos on edustava eli kuvaa populaatiota, voidaan tilastollinen päättely laajentaa otoksesta koko populaatioon. Keskeinen ongelma on se, missä määrin otos on edustava. Tilastotieteen menetelmät mahdollistavat satunnaisvaihtelun huomioimisen, joka syntyy otoksen keräämisestä eli otannasta. Toisaalta koesuunnittelun teoria tarkastelee kontrolloitujen kokeiden suorittamista.
Menetelmiä
Aineisto kerätään kiinnostuksen kohteena olevasta populaatiosta otantamenetelmän avulla. Satunnaisotannassa kullakin populaation jäsenellä on sama todennäköisyys tulla poimituksi. Ennen aineiston käsittelyä on tiedettävä, millä mitta-asteikolla kukin havainto on mitattu. Havaintojen perusteella pyritään tekemään päätelmiä kiinnostuksen kohteena olevan muuttujan jakaumasta .
Frekvenssi kertoo kuinka monta havaintoa on annetussa havaintoluokassa.
Aineistoa kuvailevia tunnuslukuja
Sijainnin tunnuslukuja eli keskilukuja:
Vaihtelun tunnuslukuja:
Riippuvuuden tunnuslukuja:
Tilastollisia testejä
Tilastollisilla testeillä testataan tunnusluvuille tai parametreille asetettuja
hypoteeseja. Testisuure lasketaan olettaen nollahypoteesin olevan totta. Jos aineiston perusteella laskettu tunnusluku poikkeaa nollahypoteesista ja aineiston vaihtelu on riittävän pientä suhteessa otoksen kokoon, nollahypoteesi voidaan hylätä valitulla merkisevyystasolla. Vaihtoehtoisesti nollahypoteesi jää voimaan. Merkitsevyystaso kuvaa testin todennäköisyyttä hylätä nollahypoteesi virheellisesti. Testin voima on todennäköisyys millä nollahypoteesi hylätän kun vaihtoehtoinen hypotessi on tosi.
Otantamenetelmiä
Tutkimusalueita
Ohjelmistoja
Vapaita tilasto-ohjelmistoja:
Kaupallisia tilasto-ohjelmistoja:
Katso myös