hirdetés

TARTALOM

 VISSZA

 


Az adatok magukért beszélnek?


Singer Júlia, Reiczigel Jenő
| | |
 

Néha előfordul, hogy valamelyik kollégámtól vagy ismerősömtől e-mailben kapok adatokat egy rövid kérés kíséretében „légy szíves, nézd meg, hogy van-e szignifikáns különbség, a mellékletben küldöm az adatokat”.
Ilyenkor egy kicsit mindig bajban vagyok. Jobban érzem magam, ha mielőtt a számokat látom, valaki elmeséli a vizsgálatot az elejétől, sőt egészen a hipotézisek megszületésétől kezdve. Közeli ismerőseim, barátaim, akik már ismernek, nem is próbálkoznak ilyen „távelemzéssel”, inkább személyes találkozót kérnek, ahol elmesélik, miről szól a vizsgálatuk, és hogyan keletkeztek az adataik. Mit, miért és hogyan mértek, hogy választották ki a kísérleti alanyokat, és még azt is, hogy milyen eredményre számítottak, amikor a vizsgálatot tervezték.
A legjobb persze az, ha már a tervezéskor kikérik a statisztikus véleményét, de hektikus, rohanó életünkben ez sajnos nem mindig jön össze. Néha (szerencsére nem mindig) ez szomorú következményekkel járhat, amit Ronald Fisher híres mondásában elég sarkosan így fogalmazott: „Egy már befejezett kísérlet adataival keresni fel a statisztikust olyan, mintha kórboncnoki munkára kérnénk őt fel: jó esetben meg tudja mondani, hogy mitől múlt ki a vizsgálat" („To consult a statistician after an experiment is finished is often merely to ask him to conduct a post mortem examination. He can perhaps say what the experiment died of.").
Most vegyük azt az esetet, amikor az adatok már – így vagy úgy – megvannak. A címben szereplő „az adatok magukért beszélnek” meggyőzően hangzik, az ember úgy érzi, hogy ekkor már jobb, ha nem mi beszélgetünk, legyen inkább az adatoké a szó. Sajnos azonban az adatelemzés sokszor állítja válaszút elé az embert. Egyoldali vagy kétoldali próbát végezzek? A kezelt csoportokat csak a kontrollhoz hasonlítsam vagy egymáshoz is? Az átlagokat vagy inkább a mediánokat hasonlítsam össze? Ilyen kérdésekre hiába várjuk, hogy az adatok válaszoljanak (de még ha válaszolnának is – például az „átlag vagy medián?” kérdésre kérkedőn mutogatván ferdeségüket – akkor sem célszerű mindig rájuk hallgatnunk), és ezek a döntések bizony jócskán kihathatnak az eredményekre.
Az is fontos lehet a megfelelő elemzési módszer kiválasztásánál, hogy hogyan keletkeztek az adatok. Talán meglepően hangzik, de csupán a számokból – anélkül, hogy pontosan tudnánk, hogyan keletkeztek – nem lehet megmondani, hogy szignifikáns-e egy különbség vagy összefüggés. Aki nem statisztikus, talán ezt tudja legnehezebben elképzelni, ezért erre mutatnék egy nagyon egyszerű példát. Legyen a példa annyira egyszerű és könnyen átlátható, hogy ne is kelljen az adatokat a levélírónak a mellékletbe tennie, legyen szó csupán két számról, amelyek elférnek a levél szövegében.
„Arra szeretnélek megkérni, hogy nézd meg, az adatok (93 negatív és 5 pozitív vérminta) alátámasztják-e, hogy a … szeropozitivitás 10% alatti a populációban.”
Egyszerű eset, egzakt binomiális próba egyoldali ellenhipotézissel. A program máris kidobja az eredményt, p=0.0649, tehát nem szignifikáns. Megy a válasz, sajnos az adatok nem bizonyítják meggyőzően a 10% alatti fertőzöttséget.
Ismerősöm visszakérdez. „Mi az a binomiális próba? Hogyhogy nem khi-négyzet próbával csináltad? Itt egy kollégám azt mondta, hogy azzal kell. Azért is folytattuk egészen addig a mintavételt, amíg össze nem jött 5 pozitív minta, mert azt is mondta a kollégám, hogy a khi-négyzet próbához legalább annyi kell1.”
Ja vagy úgy?! Még szerencse, hogy ez kiderült. Ha úgy történt a mintavétel, ahogy írtad, akkor sem a binomiális próba, sem a khi-négyzet próba nem jó, mert mindkettő előre rögzített mintanagyságot tételez fel, nem pedig azt, hogy addig vesszük a mintákat, amíg valamilyen feltétel be nem következik. Ha úgy volt, ahogy írod, akkor viszont végezhetünk egy, a negatív binomiális eloszlásra alapozott ad hoc próbát (ennek nincs neve, mert nem egy szokásos eljárás). De remélem, már nem titkolsz semmit az adatok keletkezéséről!
Ezzel a – most már a mintavételi eljáráshoz illeszkedő – próbával p=0.0291 jön ki. Ismerősöm örül, mert kimondhatja, hogy a fertőzöttség 10% alatti, és ezt statisztikával is alá tudja támasztani.
Minden jó, ha a vége jó. Sajnos az életben nem mindig van happy end. Kevésbé egyszerű vizsgálatokban az adatok keletkezése a fenti példánál sokkal bonyolultabb folyamat, sok tényező, mintavételi módszerek, beválasztási feltételek stb. befolyásolják, és ezekről a fontos részletekről az adatok sajnos mindig hallgatnak.

Megjegyzések a történethez:
1. Azt a vizsgálati módszert, amikor nem előre rögzített mintaelemszámmal dolgozunk, hanem minden egyes egyed vizsgálata után döntünk arról, hogy megállunk-e, vagy további vizsgálatokat végzünk, szekvenciális elemzésnek nevezzük. A szekvenciális elemzés általában hatékonyabb, mint az azonos módszerrel, de rögzített mintaelemszámmal végzett elemzés. A hatékonyság azt jelenti, hogy átlagosan kisebb mintaelemszámmal érhetünk el azonos erőt2. (Azért „átlagosan”, mert a szekvenciális elemzésben a szükséges mintaelemszám változó.)
2. A szekvenciális elemzés az ipari minőségellenőrzésben népszerű, mert a roncsolásos vizsgálatoknál – amikor a vizsgálat a termék megsemmisülésével jár – az átlagosan kisebb szükséges mintaelemszám jelentős megtakarítást jelent. Orvosi-epidemiológiai vizsgálatokban csak ritkán szoktak szekvenciális elemzést végezni, mivel nagyon elnyújtaná a vizsgálatot, ugyanis a kezelések eredménye általában nem mérhető azonnal. A példabeli esetben sem realisztikus azt feltételezni, hogy a következő vérvétellel mindig megvárnák az előzőnek az eredményét. Újabban azonban egyre népszerűbbek az úgynevezett csoport-szekvenciális vizsgálatok, amelyekben néhány, vagy néhányszor tíz-száz vizsgálat után döntenek a megállásról vagy a kísérlet folytatásáról (hasonlóan ahhoz, ahogyan például rákgyógyszerek dóziskereső vizsgálataiban a következő dózist mindig az előző betegeken észlelt toxicitás alapján határozzák meg).
3. Éppen azért, mert az eredmény erősen függhet attól, hogy hogyan keletkeztek az adatok, a „tétre menő” vizsgálatoknál előre rögzíteni kell a protokollban a vizsgálat minden részletét, nehogy valaki utóbb – látván, hogy az adatok más tálalása szebb eredményre vezetne – átírhassa a történet egyes részeit.

1 Ez a tanács a khi-négyzet próba egy szokásos alkalmazhatósági feltételének félreértésén alapul.
2 Egy statisztikai próba erején annak a valószínűségét értjük, hogy a próba az ellenhipotézis fennállása esetén helyes döntésre (azaz a nullhipotézis elvetésére) vezet. Példánkban ez annak a valószínűsége, hogy a 10% alatti populációbeli fertőzöttséget a próba észreveszi (azaz 10% alatti fertőzöttség esetén szignifikáns eredményt ad).


Kulcsszavak

adat, statisztika, statisztikai próba, szignifikancia

Kapcsolódó anyagok

Újra teljes az Egészségügyi Szakmai Kollégium Ápolás és Szülésznő (szakdolgozói) Tagozat és Tanács

Az urogenitalis rendszer betegségei okozta halálozás területi adatai 2010-2014 között Magyarországon

Rövidülő kórházi várólisták

Bayesi és frekventista t-teszt és ANOVA

Hozzászólások:

Nincs hozzászólás ehhez a cikkhez.

A hozzászóláshoz be kell jelentkeznie.


Extra tartalom:

 
ROVAT TOVÁBBI CIKKEI

Új biostatisztikai rovat

Örömmel adjuk hírül olvasóinknak, hogy új rovattal bővült az oldalunk.

Tovább


Az adatok magukért beszélnek?