Är det verkligen så p-värden fungerar? Kan en miljon forskningsdokument baseras på ren slumpmässighet per år?

n_mu_sigma

2015-07-19 15:25:06 UTC

view on stackexchange narkive permalink

Jag är väldigt ny inom statistik och lär mig bara att förstå grunderna, inklusive $ p $ -värden. Men det finns ett stort frågetecken i mitt sinne just nu, och jag hoppas att min förståelse är fel. Här är min tankeprocess:

Är inte alla undersökningar runt om i världen något liknande aporna i den "oändliga apasatsen"? Tänk på att det finns 23887 universitet i världen. Om varje universitet har 1000 studenter är det 23 miljoner studenter varje år.

Låt oss säga att varje student varje år gör minst en undersökning med hypotesprovning med $ \ alpha = 0,05 $.

Betyder det inte att även om alla forskningsprover togs från en slumpmässig population skulle cirka 5% av dem "avvisa nollhypotesen ogiltig". Wow. Tänk på det. Det är ungefär en miljon forskningsdokument per år som publiceras på grund av "betydande" resultat.

Om det är så det fungerar är det skrämmande. Det betyder att mycket av den "vetenskapliga sanningen" som vi tar för givet är baserad på ren slumpmässighet.

En enkel del av R-koden verkar stödja min förståelse:

  bibliotek (data.table) dt <- data.table (p = sapply (1: 100000, funktion (x) t.test (rnorm (10,0,1)) $ p .värde)) dt [p<0.05,]

Så gör den här artikeln om framgångsrik $ p $ -fiske: Jag lurade miljoner att tänka choklad hjälper till viktminskning. Så här.

Är det verkligen allt som finns i det? Är det så som "vetenskap" ska fungera?

Det sanna problemet är potentiellt mycket värre än att multiplicera antalet sanna nollor med signifikansnivån, på grund av tryck för att hitta betydelse (om en viktig tidskrift inte publicerar icke-signifikanta resultat, eller om en domare kommer att avvisa ett papper som inte gör dethar betydande resultat, det finns tryck för att hitta ett sätt att uppnå betydelse ... och vi ser expeditioner med "betydelsejakt" i många frågor här);detta kan leda till verkliga signifikansnivåer som är ganska mycket högre än de verkar vara.

Å andra sidan är många nollhypoteser punktnullar, och de är mycket sällan faktiskt sanna.

Sammanfatta inte den vetenskapliga metoden med p-värden.Bland annat insisterar vetenskapen på * reproducerbarhet *.Således kan exempelvis [kall fusion] (https://en.wikipedia.org/wiki/Cold_fusion) publiceras (1989) men kall fusion har inte funnits som en hållbar vetenskaplig teori under det senaste kvartalet..Observera också att få forskare är intresserade av att arbeta i områden där den relevanta nollhypotesen faktiskt är * sant *.Din hypotes att "alla forskningsprover togs från [en] slumpmässig population" återspeglar alltså inte något realistiskt.

Obligatorisk hänvisning till [xkcd jelly beans cartoon] (https://xkcd.com/882/).Kort svar - detta händer tyvärr alltför ofta, och vissa tidskrifter insisterar nu på att en statistiker granskar varje publikation för att minska mängden "betydande" forskning som gör sin väg till allmänheten.Massor av relevanta svar och kommentarer [i denna tidigare diskussion] (http://stats.stackexchange.com/q/100151/45797)

Jag vill påpeka att även om många av svaren ger viktiga korrigeringar av affischens idé (om den vetenskapliga processen) är hans förståelse i grunden korrekt.Det * är * logiken med nollhypotesprov för att kontrollera sannolikheten för falska positiva, och det är inget fel med att överväga detta med avseende på det totala antalet studier som utförts under en given period, vilket leder till ett förväntat antal falska postiv.Det är därför imho hela verksamheten med "multipeljämförelsekorrigering" är principiell, eftersom det inte specificeras vad den relevanta enheten är.

Och naturligtvis kan man säga att många om inte alla dessa nollhypoteser är falska ändå - men varför testa dem då?

Vad sägs om de andra 19 miljoner tidningarna?

Jag kanske inte får klagomålet ... "Vi besegrade framgångsrikt 95% av falska hypoteser. De återstående 5% var inte så lätta att besegra på grund av slumpmässiga fluktuationer som ser ut som meningsfulla effekter. Vi bör titta närmare på dem och ignoreraövriga 95%. "Detta låter precis som rätt typ av beteende för allt som "vetenskap".

@whuber, bara om någon är intresserad, [här] (https://www.amherst.edu/media/view/141864/original/FLEISCHMANN1989-1.pdf) är tidningen om kall fusion.Det har ingen statistik alls, inga p-värden.

Läsning som krävs http://library.mpib-berlin.mpg.de/ft/gg/GG_Null_2004.pdf 'The Null Ritual What You Always Wanted to Know about Significance Testing but Were Fraid to Ask', Gerd Gigerenzer, Stefan Krauss ochOliver Vitouch

@Dale: Det här papperet av Gigerenzer (liksom många andra av honom om samma ämne) tycker jag är otroligt irriterande eftersom han bara fortsätter och fortsätter om hur man kombinerar Fisher och Neyman-Pearson till en "hybrid" leder till en "osammanhängande mishmash" ochhamrar det med sin favorit Freudian-analogi, men det är fortfarande inte klart varför detta borde vara så osammanhängande.Jag ställde en gång [en fråga om det] (http://stats.stackexchange.com/questions/112769) och ingen kunde övertyga mig.Betydelsestestningen "ritual" kan ha sina brister, men Gigerenzers antiritualritual är * åtminstone * lika irriterande.

OP antar implicit att alla / de flesta vetenskapliga publikationer baseras på ett signifikansprov och tillhörande p-värde, vilket är * helt * felaktigt.Inom områden som experimentell partikelfysik där statistiska tester är viktiga kommer du att se att de beräknar konfidensintervall och inte baserar sina slutsatser på p-värden.På andra områden finns det inga sådana statistiska tester eller de statistiska testerna är inte av central betydelse.

P-värdet beräknar P (O | H), dvs sannolikheten för observationen givet hypotesen.Den verkliga frågan du vill svara är P (H | O), sannolikheten för hypotesen med tanke på observationen.Det senare KAN INTE beräknas enbart från det förstnämnda!Du måste använda Bayes sats, som kräver en uppskattning av sannolikheten för hypotesen och sannolikheten för observationen.Utan dessa indikerar p-värdet ingenting, så du ifrågasätter dess betydelse i vetenskapen.

kanske detta kan hjälpa: http://stats.stackexchange.com/questions/166323/misunderstanding-a-p-value/166327#166327