Milloin monivertailu täytyy huomioida tilastotieteellisissä analyyseissä?

Moni tutkija lienee törmännyt monivertailun ongelmaan. Tieteellisen artikkelin arviointiprosessissa ulkoinen arvioija saattaa huomauttaa artikkelissa tehdyistä useista tilastollisista testeistä, ja että tämä tulee huomioida tilastollisen merkitsevyystason määrityksessä.

Teknisesti tällainen huomiointi on helppo tehdä, mutta vaikeampaa on määrittää se, milloin on todellinen tarve tehdä tällainen huomiointi, ja mitä vaikutuksia tällä on.

Monivertailun ongelma

Tutkimuksissa tilastollinen päättely tehdään muodostamalla hypoteeseja jotka on tehty testattaviksi ja hylättäviksi. Testeille määritetään merkitsevyystaso (significance level), joka on virhemarginaali toden hypoteesin virheelliselle hylkäämiselle (tyypin 1 virhe, nollahypoteesin hylkäysvirhe, väärä positiivinen). Tämä marginaali halutaan pitää pienenä, jotta voidaan tietyllä varmuudella arvioida havaintojen todenmukaisuus. Merkitsevyystasona käytetään usein arvoa 5%, mutta myös muita arvoja (esimerkiksi 1%) käytetään.

Monivertailu (multiple comparisons) tilastotieteessä tarkoittaa, että samanaikaisesti tehdään useita muodollisia tilastotieteellisiä testejä. Mikäli jokaisessa yksittäisessä testissä käytetään esimerkiksi 5% merkitsevyystasoa, todennäköisyys tehdä vähintään yksi virheellinen hypoteesin hylkäys kasvaa (ja on näin siis kokonaisuudessaan suurempi kuin haluttu 5%).

Virheen todennäköisyys kasvaa testien lukumäärän mukaan. Jos samanaikaisesti tehdään kaksi testiä 5% merkitsevyystasolla, on todennäköisyys tehdä vähintään yksi virheellinen löydös yli 9%. Kolmen testin tapauksessa virhetodennäköisyys on yli 14%, ja jos testejä tehdään kaksikymmentä, on vähintään yhden virheellisen löydöksen todennäköisyys jo yli 64%.

Monivertailun huomioiminen

Monivertailu voidaan huomioida usealla eri tavalla niin, että merkitsevyystaso voidaan pitää kokonaisuutena hallinnassa. Käytännössä yksittäisten testien merkitsevyystasoa muokataan erilaisten algoritmien mukaan. Konservatiivinen (analyysien voimaa vähentävä) mutta teknisesti helppo tapa on ns. Bonferroni-korjaus, jossa tavoiteltu merkitsevyystaso jaetaan testien lukumäärällä, ja näin laskettua arvoa käytetään jokaisessa yksittäisessä testissä. Vähemmän konservatiivisia, ja vain hieman monimutkaisempia tapoja ovat Šidák-, Bonferroni-Holm- ja Benjamini-Hochberg-menetelmät.

On kuitenkin tärkeää huomioida, että analyysien voima heikkenee monivertailun huomioimisen myötä. Toisin sanoen todennäköisyys tehdä tyypin 2 virhe (hyväksymisvirhe, väärä negatiivinen; nollahypoteesi joka tulisi hylätä hyväksytään) kasvaa, ja oikeita eroavaisuuksia voi jäädä havaitsematta.

Milloin monivertailu tulee huomioida?

Onko kyseessä kokeellinen vai eksploratiivinen analyysi? Jos kokeellinen, tulee monivertailu ottaa huomioon primäärianalyysissä mielestäni poikkeuksetta. Tällaisessa tilanteessa tämä tarve on usein tunnistettu jo tutkimuksen suunnitteluvaiheessa, ja huomioitu voimalaskelmia tehtäessä sekä analyysisuunnitelmassa.

Jos taas analyysit ovat eksploratiivisia (niiden tarkoitus on havainnoida ilmiöitä datassa ja siten generoida uusia tutkimushypoteeseja), tarve huomioida monivertailu on vähäinen. Jos tutkija on valmis myöntämään, että tulokset täytyy varmistaa lisätutkimuksilla, analyysivoimaa ei kannata hukata monivertailun merkitsevyystasojen muokkaamisella.

Näiden kahden ääripään välillä on tapauksia, joissa ei ole selvää miten olisi paras toimia. Näihin kuuluu esimerkiksi kokeellisten tutkimusten ensisijaisen päätetapahtuman etukäteen määritetyt alaryhmäanalyysit (olen itse taipuvainen huomioimaan monivertailun näissä).

Nykyaikaisissa genominlaajuisissa assosiaatiotutkimuksissa (GWAS) monitestaus huomioidaan aina. Helpoksi, konservatiiviseksi käytännöksi testatessa satoja tuhansia tai miljoonia yhden emäksen polymorfismeja (SNP) on muodostunut ottaa merkitsevyystasoksi 5,0×10-8, jonka katsotaan vastaavan ihmisen koko genomissa olevien riippumattomien alueiden määrää. Useimmiten löydökset vielä varmistetaan riippumattomassa aineistossa.

Balanssi voiman ja merkitsevyystason välillä

Monivertailun huomiointi vähentää tilastollisten analyysien voimaa. Siksi täytyy tapauskohtaisesti miettiä, mitä tyypin 1 ja 2 virheiden tekeminen käytännössä tarkoittaa. Eksploratiivisessa analyysissä, jonka tulokset täytyy joka tapauksessa varmistaa muissa riippumattomissa tutkimuksissa se, onko suuri ongelma hylätä virheellisesti hypoteesi ja löytää jotain ei-todellista riippuu usein pitkälti siitä kuinka kalliiksi tulosten toistoyritys tulee. Ja vastaavasti voi pohtia, miten vakava virhe on kasvattaa tyypin 2 virheen todennäköisyyttä huomioimalla monivertailu, ja siten mahdollisesti jättää jotain todellista havaitsematta?

Merkitsevyystaso on lisäksi arbiträärinen raja-arvo. Myös tästä johtuen pyrin itse välttämään monivertailun huomiointia, ellei kyseessä ole selkeästi kokeellisen tutkimuksen ensisijaisen päätetapahtuman analysointi.

Leave a comment