Erőelemzés, mintanagyság, hatásnagyság, szignifikanciaérték kapcsolata és szerepük a klinikai vizsgálatokban

A kutatási javaslatok és pályázatok, valamint a publikációk elfogadásához az erőelemzés (power analysis) és a mintanagyság (sample size) meghatározása manapság a tudományos életben való boldogulás legfontosabb tényezőivé váltak. Az etikai bizottságok gyakran kérik a klinikai vizsgálatok engedélyezéséhez az erőelemzés- és a mintanagyság-meghatározás bemutatását. Ezek nélkül ma már szinte lehetetlen empirikus tudományos cikket publikálni. Erkölcsi, morális és gazdasági szempontból ugyanis nem elfogadható olyan klinikai vizsgálat elvégzése, amelyről előre tudni lehet, hogy a megfelelő statisztikai erő hiányában eleve reménytelen a vizsgálat sikere, és a pácienseken fölöslegesen kísérleteznek. Hasonlóképpen az sem elfogadható, ha olyan vizsgálatot végeznek el több ezer emberen, amelyhez elegendő volna néhány száz ember vizsgálata is, mivel ez egyrészt indokolatlanul sok emberen való kísérletezést jelentene a kockázatokkal együtt, továbbá nagyon sokba kerülne és túl sokáig tartana az ilyen „overpowered” vizsgálat. A statisztikai erő annak a valószínűsége, hogy a kezelés, gyógyszer, beavatkozás tényleges hatását ki lehessen mutatni. Ha a próba ereje 0,8 (80%) vagy 0,9 (90%), akkor a ténylegesen meglévő hatást 80, illetve 90%-os valószínűséggel lehet kimutatni. A statisztikai erő, a statisztikai szignifikanciaszint (statistical significance level), a hatásnagyság (effect size) és a mintanagyság szoros összefüggésben vannak egymással. A (bio)statisztika szorosan összefügg a valószínűségszámítással, a kettő között azonban van egy kis különbség. A valószínűségszámítás esetében a „rendszer” ismert, például van egy vagy több konkrét érménk, amelyet földobunk, míg a statisztikában a rendszer nem ismert, mint például a biokémiai, kórélettani folyamatok, a lakosság választási preferenciái stb. A valószínűség fogalma is vitatott, ez vezetett a „frekventista” és a bayesi statisztikai iskolák kialakulásához (1, 2). A statisztikai szignifikanciavizsgálat célja döntések meghozatala az adatokkal kapcsolatos kérdések megválaszolásához. A statisztikai szignifikancia fogalmát először feltehetőleg Francis Ysidro Edgeworth (1845–1926) ír közgazdász és statisztikus vezette be, akinek a nyelvezete kissé nehézkes volt, ezért csak kevesen értették meg (3). Az igazi áttörést Sir Ronald Aylmer Fisher (1890–1962) angol matematikus, statisztikus és genetikus munkássága hozta meg. Fishert általában a modern statisztikai elmélet megalapítójának tekintik. Fisher a nullhipotézis ellen szóló bizonyíték erősségét mérő indexnek tekintette a p-értéket. A p<0,05 (5%-os szignifikanciaszint) küszöböt javasolta, mely alapján általában eldönthető, hogy van-e bizonyíték a vizsgált hipotézis ellen, de ezt nem gondolta abszolút mércének. Mindig is hangsúlyozta, hogy a p-érték interpretálása végső soron a kutató feladata. A 0,05 körüli p-értékkel előfordulhat, hogy nem a nullhipotézis elfogadásához vagy elvetéséhez vezet, hanem a vizsgálat megismétléséhez. Fisher három lépésben javasolta a statisztikai döntés meghozatalát (mai kifejezéssel a szignifikanciavizsgálat elvégzését). 1. Válasszunk ki megfelelő tesztet. 2. Fogalmazzuk meg a nullhipotézist (H0) és döntsük el, hogy egy- vagy kétoldali legyen-e a teszt. Az egyoldali teszt azt jelenti, hogy csak a megadott értéknél nagyobb, vagy esetleg csak a kisebb értékeket vizsgáljuk, míg a kétoldali teszt esetében a megadott értéknél nagyobb és kisebb értékeket egyaránt vizsgáljuk. 3. Számítsuk ki a teszt elméleti statisztikai valószínűségét. Egyoldali teszt esetén a teszt elméleti valószínűségét az 1. ábra illusztrálja. 1. ábra. Egyoldali teszt esetén a teszt elméleti valószínűsége Fisher eredményét Jerzy Neyman (1894–1981) és Egon Sharpe Pearson (1895–1980) fejlesztette tovább, és alapozták meg a statisztikai döntés elméletét, amelyet napjainkban is használunk (Neyman–Pearson-féle lemma). Paradox módon Fisher elméletében nem szerepelt a hatásnagyság. A hatásnagyság mérőszáma – a vizsgált probléma természetétől és a változók mérési szintjétől (4) függően – lehet a korrelációs koefficiens, a Cohen-féle d, az esélyhányados (odds ratio), a relatív kockázat (relative risk), a Cramer-féle V, stb. A fisheri megközelítésből egyértelműen következett, hogy elméletében nemcsak a hatásnagyság nem szerepelt, hanem éppúgy a statisztikai próba ereje, az alternatív hipotézis, valamint az első- és másodfajú hiba sem. A Neyman–Pearson-elmélet szerint két csoport, például a gyógyszerrel (verum) kezelt és a nem kezelt (placebo-) csoport összehasonlítása lehetséges a fisheri elmélet alkalmazásával, azonban némi módosítással és kiegészítéssel úgy, hogy a hatásnagyságról feltételezzük, hogy értéke zérus (H0 hipotézis). Ekkor azonban már nem elegendő a fisheri szignifikancia kiszámítása, hanem az alternatív hipotézist is meg kell vizsgálni. Ehhez azonban szükségképpen korábban nem ismert új fogalmakat kellett bevezetni! A Neyman–Pearson-elmélet a statisztikusok között kezdetben sokáig rendkívül heves ellenállásba ütközött, később pedig évtizedeken át szinte feltörhetetlen dogmává változott (5), amely újabban, más okok miatt, ismét a viták kereszttüzébe került. Tegyük fel, hogy van két kezelési csoport, mindkét csoportban vannak alacsony, közepes és magas antitestszinttel jellemezhető emberek. Tételezzük fel azt is, hogy a közepesekből van a legtöbb. A kezelt és a nem kezelt csoportban egyaránt az antitestszint a feltevés szerint valamilyen harang alakú, kvázi normális eloszlást követ. Egyébként a normális eloszlás esetén a szabadságfok (df = degrees of freedom) vagy más néven normalitási paraméter azért lényeges, mert a normális eloszlás szórása 30 szabadságfoknál kisebb érték esetén elkezd nőni, mivel a kis mintánál – érthető módon – a becslés bizonytalansága megnő, emiatt ún. nehézszélű eloszlások, gyakran t-eloszlások keletkeznek. Normális eloszlásból vett háromelemű minta (n = 3) esetén a szabadságfok df = 3–1. A df = ∞ (végtelen nagy minta) értékhez tartozó normális eloszláshoz viszonyítva df = 2 esetén az elméleti sűrűségfüggvény szélei megemelkednek, a közepe pedig ellaposodik. Ilyen típusú eloszlások gyakran keletkeznek bonyolult hálózatokkal, nehezen átlátható komplex folyamatokkal, komplex rendszerekkel kapcsolatosan, amelyek az orvostudományban, biológiában, ökológiában és a társadalomtudományokban is nagyon gyakran előfordulnak. A Neyman–Pearson-elmélet lényegét didaktikusan a 2. ábra illusztrálja. 2. ábra. A Neyman–Pearson-elmélet vizuális megjelenítése A szakemberek el szeretnék dönteni, hogy a kezelt és a nem kezelt csoport az antitestszint tekintetében különbözik-e egymástól. Szögezzük le, hogy itt egy elméleti, „mi lenne, ha?” típusú konstrukcióról, elgondolásról van szó, mégpedig a tényleges vizsgálat megkezdése előtt, tehát még a tervezés szakaszában. Mielőtt a részletekbe mennénk, előrevetítjük, hogy a Neyman–Pearson-elmélet megértésének egyik akadálya az, hogy ezzel kapcsolatban gyakran statikus képeket mutatnak be az olvasók számára. A 2. ábra azonban csupán didaktikus illusztráció. A különböző élethelyzetekben és forgatókönyvek esetén az ábrán szereplő minden egyes részlet mozog, a görbék alakjától, jellegétől, elhelyezkedésétől, formájától kezdve az összes lehetséges és kijelölt pontig. Komoly problémák forrása lehet az a körülmény, hogy a 2. ábrán szereplő összes elemnek és pontnak minden részlete csupán feltételezéseken alapul! A bal oldali görbe azt mutatja, hogy kezdetben feltételezzük (H0), miszerint a kétféle kezelés között a hatásnagyság (túlzott leegyszerűsítéssel: a két kezelés során kapott átlagos antitestszintek közötti különbség) zérus, tehát a kezelt és a nem kezelt csoport között az antitestszint tekintetében nincs különbség, a különbség zérus. Eszerint a kezelés hatástalan, ez felel meg a 2. ábrán a H0 Null átlag pontnak. Elképzelhető azonban, hogy bármely előzetes elképzelés, a különböző forgatókönyvek szerint eltérő mintanagyságokon végrehajtott ún. erőelemzés, illetve a kapcsolódó előzetes ún. mintanagyság meghatározás szerint a kezelésnek (verum) mégis van valamennyi hatása a placebóval szemben. Megjegyzendő, hogy a frekventista statisztikai elképzelés szerint az elképzelt végtelen nagyságú alapsokaságból a mintaátlagok szórása (SE, standard error, s_x ̅ ) függ a mintanagyságtól, mégpedig a következő módon: SE = s/√N , ahol s a minta szórása vagy más néven standard deviációja és N a mintanagyság. Ennélfogva a mintanagyság növekedésekor a fenti „kövér” görbék” elkezdenek soványabbá, keskenyebbé válni. A hatás nagyságának a növekedésekor emiatt a bal oldali görbéről egy hasonló görbe leválik és elkezd fokozatosan jobbra tolódni (H1). Amikor a mintanagyság elkezd növekedni, akkor a két görbe egyre „soványabb” lesz, és emiatt a két görbe elkezd egymástól egyre jobban „szétválni”, elkülönülni. Mindkét esetben, tehát (i) a hatásnagyság és (ii) a mintanagyság növekedése esetén egyaránt egyre inkább arra lehet következtetni, hogy a kezelésnek van hatása. A különböző előzetes forgatókönyvek szerint a H1 görbe mutatja az adott H1 alternatív (van hatás) hipotézis esetén kapott elméleti nem átlag null (Theoretical non-null value, tehát van hatás) értéket. Az any mean pont olyan önkényes emberi döntési pont (θ), amely meghatározza, hol húzzuk meg önkényesen azt a határt, ahol már elég távol van egymástól a két görbe ahhoz, hogy kijelentsük: adott szignifikanciaszint (Type 1 error, α) és erő (1-Type II error, Power=1-β) mellett a két görbe különböző, tehát a hatásnagyság nem nulla, másképpen kifejezve a verum (gyógyszer, beavatkozás) hatásos. A Neyman–Pearson-elmélet keretében szükségképpen megjelenik az első- és másodfajú hiba fogalma. Az elsőfajú hiba (Type 1 error, α) a 2. ábrán pirossal jelölve szerepel. Kétoldali teszt esetén viszont oldalanként nem α, hanem α/2 szerepel, mivel a bal oldali görbe bal szélén is van α/2 nagyságú hiba, amelyek összege α/2 + α/2 = α. Az elsőfajú hiba (Type 1, α) annak a valószínűsége, hogy a kutató a kezelés pozitív hatására következtet, jóllehet az valójában nem létezik (fals pozitív). A másodfajú hiba (Type 2 error, β) a 2. ábrán kékkel jelölve annak a hibának a valószínűsége, hogy a kutató a kezelés hatástalanságára következtet, jóllehet az létezik (fals negatív). Táblázatos formában mindez a következő módon jeleníthető meg (1. táblázat). 1. táblázat. Első- és másodfajú hiba A próba ereje tehát, mint említettük, annak a valószínűsége, hogy a ténylegesen létező hatást ki lehet mutatni. Az önkényes statisztikai döntéssel (H0 elutasítva vagy elfogadva) meghatározott elsőfajú hiba (szignifikanciaszint, α) és másodfajú hiba (β) és a vonatkozó erő (1 – β) nagysága, valamint a mintanagyság és a hatásnagyság a fenti elmélet logikájából következően szorosan összefüggő fogalmak. Az erőelemzés illusztrációja látható a 3. ábrán. A rajzon a rövidítés: es = effect size, hatásnagyság. 3. ábra. Erőelemzés illusztrációja A vízszintes tengelyen látható a mintanagyság (Number of Observations), a függőleges tengelyen pedig a statisztikai próba ereje (Power of Test), es a hatásnagyság három különböző forgatókönyv szerint (effect size =0,20, 0,50, 0,80). Látható, hogy a próba ereje a mintanagyság és a hatásnagyság növekedésével párhuzamosan egyre nagyobb lesz. A fentiekkel kapcsolatban néhány kérdést tisztázni kell. Honnan származnak az erőelemzéshez, illetve a mintanagyság-meghatározáshoz a hatásnagyságra vonatkozó adatok? Ezek az adatok rendszerint a más országokban elvégzett látszólag hasonló, bár eltérő mintanagyságú, különböző okok miatt pontosan nem mindig megismételhető, nem reprodukálható és különböző publikációkból származó klinikai vizsgálatokból származnak. A sok hasonló, de mégis eltérő klinikai vizsgálat eredményeinek az összehasonlításához segítséget nyújthatnak a CASP (Critical Appraisal Skills Programme), a metaanalízis és a bayesi evidenciaszintézis módszertana, valamint a „Helyes Klinikai Gyakorlat Irányelvei”-re vonatkozó ICH dokumentumok a statisztikai feldolgozások egységesítéséhez (6). Tekintettel arra, hogy a különböző forgatókönyvek szerint kiszámított erő és mintanagyság a minimális mintanagyságra vonatkozik, előfordulhat, hogy a management a statisztikusok által adott értékeket felülbírálja, például a minimális mintanagyságot megszorozza másféllel vagy kettővel. Ezt az eljárást indokolhatja vagy módosíthatja a rendelkezésre álló adatok bizonytalansága, az előre nem látható lemorzsolódás nagysága, nevezetesen a hatástalan kezelés miatt a vizsgálatból kilépő betegek száma, elköltözés, elhalálozás stb. következtében csökkenő mintanagyság és egyéb, a játékelmélet keretében leírható bizonytalansági tényezők, úgymint a költségek, konkurencia jelenléte, hatóságok döntése, félelem a távoli visszahatásoktól sikertelen vizsgálat esetén stb. A statisztikai erő, a mintanagyság és a statisztikaiszignifikancia-elmélet, amely azonban a gyakorlat próbáját nem mindig állja ki teljes mértékben (7). Az erőelemzéshez és a mintanagyság meghatározásához számos szoftveres eszköz (ingyenes és fizetős megoldások) áll rendelkezésre. Néhány ingyenes szoftveres megoldás: https://stats.oarc.ucla.edu/other/gpower/ https://www.statmethods.net/stats/power.html Néhány fizetős szoftveres megoldás: nQuery Advisor, SAS, Stata 19, Statgraphics Centurion 19, SPSS, Cytel software. Molnár D. László orvos-biostatisztikus Irodalomjegyzék 1. Dinya E, et al. Biometria a klinikai gyakorlatban. Bayesi megoldásokkal. Budapest: Medicina Kiadó; 2019. pp. 306. https://www.medicina-kiado.hu/kiadvanyaink/szak-es-tankonyvek/biofizika/biometria-a-klinikumban-bayesi/ 2. Molnár DL. (2016). Bayesi módszerek az orvostudományban; LAM 2016;26(1–2):33–47. https://elitmed.hu/kiadvanyaink/lege-artis-medicinae/bayesi-modszerek-az-orvostudomanyban 3. Stigler SM. Statistics on the Table. The History of Statistical Concepts and Methods. Harvard University Press; 1999 4. Stevens SS. (1946). On the Theory of Scales of Measurement. Science, New Series, Vol. 103, No. 2684 (Jun. 7, 1946), pp. 677-680. 5. Kuhn Thomas S. (1984). A tudományos forradalmak szerkezete. Budapest: Gondolat Kiadó; 1984. 6. https://ett.aeek.hu/wp-content/uploads/2016/09/gcp.pdf 7. Alan M. Batterham and Greg Atkinson (). Research without tears. How big does my sample need to be? A primer on the murky world of sample size estimation. Physical Therapy in Sport, Volume 2005;6(3): 153-163. https://doi.org/10.1016/j.ptsp.2005.05.004

Több mint egy éve indították útjára az interneten és különböző fórumokon azt a figyelmeztető hírt, hogy az étkezésre szánt konyhasó kálium-kloriddal kevert, dúsított, sőt akár 100%-ban csak azt tartalmazza. A hírközlő(k) és/vagy annak terjesztői még azt is kihangsúlyozták, összeesküvés elméletekhez illően, hogy ennek következtében a magyar lakosság tudtán és akaratán kívül nátriumszegény diétára van „fogva”. Még azt is megkockáztatták, hogy szerintük egy gyalázatos biológiai népirtásról van szó, hiszen csökken az „egészséges NaCl” bevitel és nő a szervezet számára igen „ártalmas KCl” fogyasztása. Ezáltal -írták embertársaik megsegítésére- számtalan betegségnek lehetünk áldozatai, sőt a krónikus bajainkból éppen ezért nem tudunk meggyógyulni (nemzőképtelenség, allergia, vesebetegség, magas vérnyomás).

Klinikum

Erőelemzés, mintanagyság, hatásnagyság, szignifikanciaérték kapcsolata és szerepük a klinikai vizsgálatokban

HOZZÁSZÓLÁSOK

A rovat további cikkei

Az inzulinrezisztencia gyógyszeres kezelése

A Janus-kináz-gátlás alapjai – mi történik a sejten belül? - A Figyelő 2017;1

A hyperuricaemia diétás vonatkozásai

A bél-agy-tengely újabb összefüggései

Problémák a Pfizer Covid-19 elleni vakcina vizsgálataiban

Kapcsolódó anyagok

A SARS-CoV-2-re adott antitest válasz COVID-19 betegekben

Valóban „egészségesebb” a patikai só? - Tények, tévhitek és ellentmondások a nátrium-kloriddal kapcsolatban

Enyhe tünetmentes SARS-CoV-2-fertőzött betegeknél észlelt íz- és illatérzékelés-változás

A hyperuricaemia diétás vonatkozásai

A drogok hatása az agyra