Fråga:
Är det verkligen så p-värden fungerar? Kan en miljon forskningsdokument baseras på ren slumpmässighet per år?
n_mu_sigma
2015-07-19 15:25:06 UTC
view on stackexchange narkive permalink

Jag är väldigt ny inom statistik och lär mig bara att förstå grunderna, inklusive $ p $ -värden. Men det finns ett stort frågetecken i mitt sinne just nu, och jag hoppas att min förståelse är fel. Här är min tankeprocess:

Är inte alla undersökningar runt om i världen något liknande aporna i den "oändliga apasatsen"? Tänk på att det finns 23887 universitet i världen. Om varje universitet har 1000 studenter är det 23 miljoner studenter varje år.

Låt oss säga att varje student varje år gör minst en undersökning med hypotesprovning med $ \ alpha = 0,05 $.

Betyder det inte att även om alla forskningsprover togs från en slumpmässig population skulle cirka 5% av dem "avvisa nollhypotesen ogiltig". Wow. Tänk på det. Det är ungefär en miljon forskningsdokument per år som publiceras på grund av "betydande" resultat.

Om det är så det fungerar är det skrämmande. Det betyder att mycket av den "vetenskapliga sanningen" som vi tar för givet är baserad på ren slumpmässighet.

En enkel del av R-koden verkar stödja min förståelse:

  bibliotek (data.table) dt <- data.table (p = sapply (1: 100000, funktion (x) t.test (rnorm (10,0,1)) $ p .värde)) dt [p<0.05,]  

Så gör den här artikeln om framgångsrik $ p $ -fiske: Jag lurade miljoner att tänka choklad hjälper till viktminskning. Så här.

Är det verkligen allt som finns i det? Är det så som "vetenskap" ska fungera?

Det sanna problemet är potentiellt mycket värre än att multiplicera antalet sanna nollor med signifikansnivån, på grund av tryck för att hitta betydelse (om en viktig tidskrift inte publicerar icke-signifikanta resultat, eller om en domare kommer att avvisa ett papper som inte gör dethar betydande resultat, det finns tryck för att hitta ett sätt att uppnå betydelse ... och vi ser expeditioner med "betydelsejakt" i många frågor här);detta kan leda till verkliga signifikansnivåer som är ganska mycket högre än de verkar vara.
Å andra sidan är många nollhypoteser punktnullar, och de är mycket sällan faktiskt sanna.
Sammanfatta inte den vetenskapliga metoden med p-värden.Bland annat insisterar vetenskapen på * reproducerbarhet *.Således kan exempelvis [kall fusion] (https://en.wikipedia.org/wiki/Cold_fusion) publiceras (1989) men kall fusion har inte funnits som en hållbar vetenskaplig teori under det senaste kvartalet..Observera också att få forskare är intresserade av att arbeta i områden där den relevanta nollhypotesen faktiskt är * sant *.Din hypotes att "alla forskningsprover togs från [en] slumpmässig population" återspeglar alltså inte något realistiskt.
Obligatorisk hänvisning till [xkcd jelly beans cartoon] (https://xkcd.com/882/).Kort svar - detta händer tyvärr alltför ofta, och vissa tidskrifter insisterar nu på att en statistiker granskar varje publikation för att minska mängden "betydande" forskning som gör sin väg till allmänheten.Massor av relevanta svar och kommentarer [i denna tidigare diskussion] (http://stats.stackexchange.com/q/100151/45797)
Jag vill påpeka att även om många av svaren ger viktiga korrigeringar av affischens idé (om den vetenskapliga processen) är hans förståelse i grunden korrekt.Det * är * logiken med nollhypotesprov för att kontrollera sannolikheten för falska positiva, och det är inget fel med att överväga detta med avseende på det totala antalet studier som utförts under en given period, vilket leder till ett förväntat antal falska postiv.Det är därför imho hela verksamheten med "multipeljämförelsekorrigering" är principiell, eftersom det inte specificeras vad den relevanta enheten är.
Och naturligtvis kan man säga att många om inte alla dessa nollhypoteser är falska ändå - men varför testa dem då?
Vad sägs om de andra 19 miljoner tidningarna?
Jag kanske inte får klagomålet ... "Vi besegrade framgångsrikt 95% av falska hypoteser. De återstående 5% var inte så lätta att besegra på grund av slumpmässiga fluktuationer som ser ut som meningsfulla effekter. Vi bör titta närmare på dem och ignoreraövriga 95%. "Detta låter precis som rätt typ av beteende för allt som "vetenskap".
@whuber, bara om någon är intresserad, [här] (https://www.amherst.edu/media/view/141864/original/FLEISCHMANN1989-1.pdf) är tidningen om kall fusion.Det har ingen statistik alls, inga p-värden.
Läsning som krävs http://library.mpib-berlin.mpg.de/ft/gg/GG_Null_2004.pdf 'The Null Ritual What You Always Wanted to Know about Significance Testing but Were Fraid to Ask', Gerd Gigerenzer, Stefan Krauss ochOliver Vitouch
@Dale: Det här papperet av Gigerenzer (liksom många andra av honom om samma ämne) tycker jag är otroligt irriterande eftersom han bara fortsätter och fortsätter om hur man kombinerar Fisher och Neyman-Pearson till en "hybrid" leder till en "osammanhängande mishmash" ochhamrar det med sin favorit Freudian-analogi, men det är fortfarande inte klart varför detta borde vara så osammanhängande.Jag ställde en gång [en fråga om det] (http://stats.stackexchange.com/questions/112769) och ingen kunde övertyga mig.Betydelsestestningen "ritual" kan ha sina brister, men Gigerenzers antiritualritual är * åtminstone * lika irriterande.
OP antar implicit att alla / de flesta vetenskapliga publikationer baseras på ett signifikansprov och tillhörande p-värde, vilket är * helt * felaktigt.Inom områden som experimentell partikelfysik där statistiska tester är viktiga kommer du att se att de beräknar konfidensintervall och inte baserar sina slutsatser på p-värden.På andra områden finns det inga sådana statistiska tester eller de statistiska testerna är inte av central betydelse.
P-värdet beräknar P (O | H), dvs sannolikheten för observationen givet hypotesen.Den verkliga frågan du vill svara är P (H | O), sannolikheten för hypotesen med tanke på observationen.Det senare KAN INTE beräknas enbart från det förstnämnda!Du måste använda Bayes sats, som kräver en uppskattning av sannolikheten för hypotesen och sannolikheten för observationen.Utan dessa indikerar p-värdet ingenting, så du ifrågasätter dess betydelse i vetenskapen.
kanske detta kan hjälpa: http://stats.stackexchange.com/questions/166323/misunderstanding-a-p-value/166327#166327
Nio svar:
Peter Flom
2015-07-19 16:14:48 UTC
view on stackexchange narkive permalink

Detta är verkligen ett giltigt problem, men det är inte helt rätt.

Om 1 000 000 studier görs och alla nollhypoteser är sanna kommer cirka 50 000 att ha signifikanta resultat vid p < 0,05. Det är vad ett p-värde betyder. Men null är i princip aldrig strikt sant. Men även om vi lossar det till "nästan sant" eller "om rätt" eller något sådant skulle det innebära att de 1 000 000 studierna alla måste handla om saker som

  • Förhållandet mellan social trygghet antal och IQ
  • Är tårnas längd relaterad till ditt födelsestatus?

och så vidare. Dumheter.

Ett problem är naturligtvis att vi inte vet vilka nollor som är sanna. Ett annat problem är det som @Glen_b nämnde i sin kommentar - fillådeproblemet.

Det är därför jag så mycket gillar Robert Abelsons idéer som han lägger fram i Statistik som principiellt argument . Det vill säga statistiska bevis bör vara en del av ett principiellt argument för varför något är fallet och bör bedömas utifrån MAGIC-kriterierna:

  • Storlek: Hur stor är effekten?
  • Artikulering: Är den full av "ifs", "ands" och "buts" (det är dåligt)
  • Allmänt: Hur omfattar det?
  • Intressanta ​​li >
  • Trovärdighet: Otroliga påståenden kräver mycket bevis
Kan man till och med säga "om 1M-studier görs och _och_ om alla nollhypoteser är sanna, kommer cirka 50.000 att utföra typ 1-fel och felaktigt avvisa nollhypotesen? Om en forskare får p <0,05 vet de bara att "h0 är korrekt och en sällsynt händelse har inträffat ELLER h1 är felaktig".Det finns inget sätt att berätta vad det är genom att bara titta på resultaten av den här studien, eller hur?
Förutom att ha alfa vid 0,05 kommer den "sällsynta händelsen" inte att vara så sällsynt alls.Det är i 20. Det betyder att om jag samlar in 40 oberoende variabler i samma studie har jag goda chanser att få en p <0,05 på grund av buller - och fortsätta publicera resultatet (se chokladhistorien)
Du kan bara få falskt positivt om det positiva faktiskt är falskt.Om du valde 40 IVs som alla var buller, skulle du ha en god chans för ett typ I-fel.Men generellt väljer vi IV av en anledning.Och noll är falskt.Du kan inte göra ett typ I-fel om null är falskt.
Jag förstår inte ditt andra stycke, inklusive punkterna, alls.Låt oss säga för argumentets skull testade alla en miljon studier läkemedelsföreningar för att bota ett specifikt tillstånd.Nollhypotesen för var och en av dessa studier är att läkemedlet inte botar tillståndet.Så varför måste det vara "i princip aldrig strikt sant"?Varför säger du också att alla studier måste handla om meningslösa relationer, som ss # och IQ?Tack för alla ytterligare förklaringar som kan hjälpa mig att förstå din poäng.
Jag säger att null är aldrig helt sant för - ja, för det är det aldrig.Det kommer att finnas _vissa_ förhållanden mellan nästan vilken behandling som helst som kan prövas och nästan alla tillstånd som den kan prövas på, om du inte medvetet väljer nonsens.Heck, i hela befolkningen finns det säkert _något_ förhållande mellan IQ och SSN - det är förmodligen väldigt mycket litet, men det är där.Med tillräckligt stor N skulle det vara betydelsefullt.
För att göra @PeterFlom's-exempel konkreta: de tre första siffrorna i ett SSN (används för) kodar sökandens postnummer.Eftersom de enskilda staterna har något annorlunda demografi och tåstorleken kan vara korrelerad med vissa demografiska faktorer (ålder, ras, etc.), finns det nästan säkert ett samband mellan personnummer och tåstorlek - om man har tillräckligt med data.
Poängen med den vetenskapliga metoden är att vi aldrig bör lita på vår intuition för att avgöra om frågor som 'Finns det ett samband mellan SSN och IQ?'är nonsens.Det skulle flyga inför alla våra vetenskapliga teorier om en sådan relation skulle existera, men samma skulle kunna sägas om några av de största experimentella genombrotten i vår tid.
Det är sant att vi inte borde förlita oss bara på intuition, men det har inget att göra med min poäng: Vi gör inte experiment slumpmässigt.Vi väljer inte variabler slumpmässigt.Vi gör inte slumpmässiga teorier.
@MattKrause bra exempel.Jag föredrar fingerräkning efter kön.Jag är säker på att om jag tog en folkräkning av alla män och alla kvinnor skulle jag upptäcka att det ena könet i genomsnitt har fler fingrar än det andra.Utan att ta ett extremt stort urval har jag ingen aning om vilket kön som har fler fingrar.Dessutom tvivlar jag på att jag som handsktillverkare skulle använda fingerräkningsdata i handskdesign.
Jag uppmanar er att uttrycka er poäng om "MAGIC-kriterier" i de konkreta och ofelbara termerna i Bayes 'sats.Om vårt mål är att uppskatta P (H | O) (sannolikheten att hypotesen är sant) kan vi helt enkelt inte förlita oss på P (O | H) (p-värdet) på egen hand.Vi måste uppskatta P (H) och P (O)."Otroliga påståenden", en hypotes full av "ifs" och "buts", eller en hypotes som är "komplex", översätts till en låg P (H).En observation som är "inte intressant" kartlägger till en hög P (O).Att prata om P (H) och P (O), svårt att tilldela numeriska värden, skulle säkert ändå vara mer "vetenskapligt".
Om vi inte kan tilldela förnuftiga värden till P (H) är det säkert mer vetenskapligt att avstå från att göra det.Den större poäng som Abelson försöker göra är att statistik måste vara _del_ av ett principiellt argument, inte hela det.
Chelonian
2015-07-19 23:23:29 UTC
view on stackexchange narkive permalink

Är inte alla undersökningar runt om i världen något som "oändliga apasats" apor?

Kom ihåg att forskare är kritiskt INTE som oändliga apor, för deras forskningsbeteende - särskilt experiment - är allt annat än slumpmässigt. Experiment är (åtminstone tänkt att vara) otroligt noggrant kontrollerade manipulationer och mätningar som bygger på mekaniskt informerade hypoteser som bygger på en stor mängd tidigare forskning. De är inte bara slumpmässiga bilder i mörkret (eller apafingrar på skrivmaskiner).

Tänk på att det finns 23887 universitet i världen. Om varje universitet har 1000 studenter är det 23 miljoner studenter varje år. Låt oss säga att varje student gör minst en undersökning varje år,

Den uppskattningen för antalet publicerade forskningsresultat måste vara långt borta. Jag vet inte om det finns 23 miljoner "universitetsstudenter" (inkluderar det bara universitet eller högskolor också?) I världen, men jag vet att de allra flesta av dem aldrig publicerar några vetenskapliga rön. Jag menar, de flesta av dem är inte vetenskapliga huvudämnen, och även de flesta vetenskapliga huvudämnen publicerar aldrig fynd.

En mer sannolik uppskattning (en del diskussion) för antal vetenskapliga publikationer varje år cirka 1-2 miljoner.

Betyder det inte att även om alla forskningsprover togs från slumpmässig befolkning skulle cirka 5% av dem "avvisa nollhypotesen som ogiltig". Wow. Tänk på det. Det är ungefär en miljon forskningsdokument per år som publiceras på grund av "signifikanta" resultat.

Tänk på att inte all publicerad forskning har statistik där betydelsen är rätt vid värdet p = 0,05. Ofta ser man p-värden som p<0.01 eller till och med p<0.001. Jag vet naturligtvis inte vad "medel" p-värdet är över en miljon papper.

Om det är så det fungerar är det läskigt. Det betyder att mycket av den "vetenskapliga sanningen" som vi tar för givet bygger på ren slumpmässighet.

Tänk också på att forskare verkligen inte ska ta ett litet antal resultat vid p runt 0,05 som "vetenskaplig sanning". Inte ens i närheten. Forskare ska integreras över många studier, som alla har lämplig statistisk kraft, trolig mekanism, reproducerbarhet, effektstorlek etc., och införliva det i en preliminär modell för hur något fenomen fungerar.

Men betyder det att nästan all vetenskap är korrekt? Aldrig. Forskare är mänskliga och blir offer för fördomar, dålig forskningsmetodik (inklusive felaktiga statistiska metoder), bedrägerier, enkla mänskliga fel och otur. Förmodligen mer dominerande i varför en hälsosam del av publicerad vetenskap är fel är dessa faktorer snarare än konventionen p<0.05. I själva verket låt oss bara klippa rätt till jakten och göra ett ännu "skrämmande" uttalande än vad du har lagt fram:

Varför de mest publicerade forskningsresultaten är falska

Jag skulle säga att Ioannidis gör ett strikt argument som stöder frågan.Vetenskap görs inte lika bra som optimisterna som svarar här verkar tänka.Och mycket publicerad forskning replikeras aldrig.Dessutom, när replikering försöks, tenderar resultaten att backa upp Ioannidis-argumentet att mycket publicerad vetenskap i grunden är bollocks.
Det kan vara av intresse att i partikelfysik är vårt tröskelvärde för p-värde att hävda en upptäckt 0.00000057.
Och i många fall finns det inga p-värden alls.Matematik och teoretisk fysik är vanliga fall.
amoeba
2015-07-19 22:54:31 UTC
view on stackexchange narkive permalink

Din förståelse av $ p $ -värden verkar vara korrekt.

Liknande farhågor uttrycks ganska ofta. Det som är vettigt att beräkna i ditt exempel är inte bara antalet studier av 23 miljoner som kommer till falska positiva resultat utan också andelen studier som fick signifikant effekt som var falska. Detta kallas "falsk upptäckt". Det är inte lika med $ \ alpha $ och beror på olika andra saker som t.ex. andelen nollar i dina 23 miljoner studier. Detta är naturligtvis omöjligt att veta, men man kan gissa. Vissa säger att den falska upptäckten är minst 30%.

Se t.ex. den här senaste diskussionen av ett papper från 2014 av David Colquhoun: Förvirring med falsk upptäckt och multipeltestning (på Colquhoun 2014). Jag har argumenterat där mot denna "åtminstone 30%" uppskattning, men jag håller med om att falsk upptäckt i vissa forskningsområden kan vara mycket högre än 5%. Detta är verkligen oroande.

Jag tror inte att det att säga att null nästan aldrig är sant hjälper här; Typ S- och typ M-fel (som introducerats av Andrew Gelman) är inte mycket bättre än typ I / II-fel.

Jag tror vad det egentligen betyder är att man borde aldrig lita på ett isolerat "signifikant" resultat.

Detta är till och med sant i högenergifysik med deras superstränga $ \ alpha \ approx 10 ^ {- 7} $ -kriterium; vi tror upptäckten av Higgs-bosonen delvis för att den passar så bra till teoriprognosen. Detta är naturligtvis mycket mycket mer i vissa andra discipliner med mycket lägre konventionella betydelseskriterier ($ \ alpha = 0,05 $) och brist på mycket specifika teoretiska förutsägelser.

Bra studier, åtminstone inom mitt område, rapporterar inte ett isolerat $ p<0.05 $ resultat. Ett sådant resultat måste bekräftas av en annan (åtminstone delvis oberoende) analys och av ett par andra oberoende experiment. Om jag tittar på de bästa studierna inom mitt område ser jag alltid en hel massa experiment som tillsammans pekar på ett visst resultat; deras "kumulativa" $ p $ -värde (som aldrig beräknas uttryckligen) är mycket lågt.

För att uttrycka det annorlunda, tror jag att om en forskare får $ $ p<0.05 $, betyder det bara att han eller hon skulle gå och undersöka det vidare. Det betyder definitivt inte att det ska betraktas som "vetenskaplig sanning".

Re "kumulativa p-värden": Kan du bara multiplicera de enskilda p-värdena, eller behöver du göra några monströsa kombinationer för att få det att fungera?
@Kevin: kan man multiplicera enskilda $ p $ -värden, men man måste anpassa signifikansgränsen $ \ alpha $.Tänk på 10 slumpmässiga $ p $ -värden jämnt fördelade på [0,1] (dvs. genereras under nollhypotes);deras produkt kommer sannolikt att ligga under 0,05, men det skulle vara nonsens att avvisa noll.Leta efter Fishers metod för att kombinera p-värden;det finns många trådar om det här på CrossValidated också.
Patrick S. Forscher
2015-07-21 21:10:44 UTC
view on stackexchange narkive permalink

Din oro är precis den oro som ligger till grund för en stor del av den nuvarande vetenskapliga diskussionen om reproducerbarhet. Det verkliga läget är dock lite mer komplicerat än du föreslår.

Låt oss först skapa en terminologi. Nullhypotes-betydelsestest kan förstås som ett signaldetekteringsproblem - nollhypotesen är antingen sant eller falskt och du kan antingen välja att avvisa eller behålla den. Kombinationen av två beslut och två möjliga "sanna" situationer resulterar i följande tabell, som de flesta människor ser någon gång när de först lär sig statistik:

enter image description here

Forskare som använder nollhypotes-betydelsestest försöker maximera antalet korrekta beslut (visas i blått) och minimera antalet felaktiga beslut (visas i rött). Arbetande forskare försöker också publicera sina resultat så att de kan få jobb och utveckla sin karriär.

Naturligtvis, kom ihåg att, som många andra svarare redan har nämnt, är nollhypotesen inte vald vid slumpmässigt - istället väljs det vanligtvis specifikt för att forskaren, baserat på tidigare teori, anser att den är falsk . Tyvärr är det svårt att kvantifiera hur många gånger forskare har rätt i sina förutsägelser, men kom ihåg att när forskare har att göra med kolumnen "$ H_0 $ är falsk" borde de vara oroliga för falska negativa snarare än falska positiva.


Du verkar dock vara bekymrad över falska positiva, så låt oss fokusera på kolumnen "$ H_0 $ är sant". I denna situation, vad är sannolikheten för att en forskare publicerar ett falskt resultat?

Publikationsbias

Så länge som sannolikheten för publicering inte beror på om resultatet är "signifikant" är sannolikheten exakt $ \ alpha $ - .05, och ibland lägre beroende på fältet. Problemet är att det finns goda bevis för att sannolikheten för publicering inte beror på om resultatet är signifikant (se till exempel Stern & Simes, 1997; Dwan et al., 2008), antingen för att forskare bara lämnar signifikanta resultat för publicering (det så kallade fil-lådproblemet; Rosenthal, 1979) eller för att icke-signifikanta resultat lämnas in för publicering men gör det inte genom peer review.

Den allmänna frågan om sannolikheten för publicering beroende på den observerade $ p $ -värdet är vad som menas med publikationsbias . Om vi ​​tar ett steg tillbaka och tänker på konsekvenserna av publikationsbias för en bredare forskningslitteratur, kommer en forskningslitteratur som påverkas av publikationsbias fortfarande att innehålla verkliga resultat - ibland den nollhypotes som en forskare hävdar att vara falsk kommer verkligen att vara falsk, och beroende på graden av publikationsfördomar, ibland kommer en forskare att korrekt hävda att en given nullhypotes är sant. Forskningslitteraturen kommer emellertid också att vara rörig av en alltför stor andel av falska positiva (dvs. studier där forskaren hävdar att nollhypotesen är falsk när den verkligen är sant).

Forskare frihetsgrader

Publikationsbias är inte det enda sättet att sannolikheten att publicera ett betydande resultat under nollhypotesen är större än $ \ alpha $. När de används felaktigt kan vissa områden med flexibilitet i utformningen av studier och analys av data, som ibland är märkta forskare grader av frihet ( Simmons, Nelson, & Simonsohn, 2011), öka frekvensen av falska positiva, även om det inte finns någon publikationsbias. Om vi ​​till exempel antar att alla (eller vissa) forskare, när vi får ett icke-signifikant resultat, kommer att utesluta en avlägsen datapunkt om denna uteslutning kommer att ändra det icke-signifikanta resultatet till ett signifikant, kommer frekvensen av falska positiva att vara större än $ \ alpha $. Med tanke på närvaron av ett tillräckligt stort antal tvivelaktiga forskningsmetoder kan frekvensen av falska positiva gå så högt som .60 även om den nominella frekvensen sattes till 0,05 ( Simmons, Nelson, & Simonsohn, 2011).

Det är viktigt att notera att felaktig användning av forskares grader av frihet (som ibland kallas tvivelaktiga forskningsmetoder; Martinson, Anderson, & de Vries, 2005 ) är inte samma som att skapa data. I vissa fall är det rätta att utesluta avvikare, antingen på grund av att utrustningen misslyckas eller av någon annan anledning. Nyckelfrågan är att de beslut som fattas under analysen i närvaro av forskarnas frihetsgrader ofta beror på hur uppgifterna blir ( Gelman & Loken, 2014), även om forskarna i fråga är inte är medveten om detta faktum. Så länge forskare använder forskarnivåer av frihet (medvetet eller omedvetet) för att öka sannolikheten för ett signifikant resultat (kanske för att signifikanta resultat är mer "publicerbara"), kommer närvaron av forskargrader att överbefolka en forskningslitteratur med falska positiva effekter i på samma sätt som publikationsbias.


En viktig varning för ovanstående diskussion är att vetenskapliga artiklar (åtminstone inom psykologi, som är mitt område) sällan består av enstaka resultat. Mer vanligt är flera studier, var och en involverar flera tester - tonvikten ligger på att bygga ett större argument och utesluta alternativa förklaringar för det presenterade beviset. Den selektiva presentationen av resultat (eller närvaron av forskarens frihetsgrader) kan emellertid ge bias i en uppsättning resultat lika enkelt som ett enda resultat. Det finns bevis för att resultaten som presenteras i multistudier ofta är mycket renare och starkare än man kan förvänta sig även om alla förutsägelser i dessa studier var sanna ( Francis, 2013).


Slutsats>

I grund och botten håller jag med din intuition om att nollhypotesens betydelsestest kan gå fel. Jag skulle emellertid hävda att de verkliga synderna som producerar en hög grad av falska positiva är processer som publikationsbias och närvaron av forskargrader. Faktum är att många forskare är väl medvetna om dessa problem och att förbättra den vetenskapliga reproducerbarheten är ett mycket aktivt aktuellt diskussionsämne (t.ex. Nosek & Bar-Anan, 2012; Nosek, Spies, & Motyl , 2012). Så du är i gott sällskap med dina bekymmer, men jag tror också att det också finns skäl till viss försiktig optimism.


Referenser

Stern, JM, & Simes, RJ (1997). Publikationsbias: Bevis på försenad publicering i en kohortstudie av kliniska forskningsprojekt. BMJ, 315 (7109), 640–645. http://doi.org/10.1136/bmj.315.7109.640

Dwan, K., Altman, DG, Arnaiz, JA, Bloom, J., Chan, A ., Cronin, E., ... Williamson, PR (2008). Systematisk granskning av empiriska bevis för bias i studiepublikationer och resultatrapportering. PLoS ONE, 3 (8), e3081. http://doi.org/10.1371/journal.pone.0003081

Rosenthal, R. (1979). Fillådans problem och tolerans för nollresultat. Psychological Bulletin, 86 (3), 638–641. http://doi.org/10.1037/0033-2909.86.3.638

Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). Falsk-positiv psykologi: Oupptäckt flexibilitet i datainsamling och analys gör det möjligt att presentera någonting så viktigt. Psykologisk vetenskap, 22 (11), 1359–1366. http://doi.org/10.1177/0956797611417632

Martinson, B. C., Anderson, M. S., & de Vries, R. (2005). Forskare beter sig dåligt. Natur, 435, 737–738. http://doi.org/10.1038/435737a

Gelman, A., & Loken, E. (2014). Den statistiska krisen inom vetenskapen. American Scientist, 102, 460-465.

Francis, G. (2013). Replikering, statistisk konsistens och publikationsbias. Journal of Mathematical Psychology, 57 (5), 153–169. http://doi.org/10.1016/j.jmp.2013.02.003

Nosek, B. A., & Bar-Anan, Y. (2012). Vetenskaplig utopi: I. Inledande vetenskaplig kommunikation. Psykologisk undersökning, 23 (3), 217–243. http://doi.org/10.1080/1047840X.2012.692215

Nosek, B. A., Spies, J. R., & Motyl, M. (2012). Vetenskaplig utopi: II. Omstruktureringsincitament och metoder för att främja sanning över publiceringsbarhet. Perspectives on Psychological Science, 7 (6), 615–631. http://doi.org/10.1177/1745691612459058

+1.Trevlig samling länkar.Här är ett mycket relevant papper för ditt avsnitt "Forskare grader av frihet": [Trädgården med gaffelvägar: Varför flera jämförelser kan vara ett problem, även när det inte finns någon "fiskexpedition" eller "p-hacking" och forskningen hypotesen framställdes i förväg] (http://www.stat.columbia.edu/~gelman/research/unpublished/p_hacking.pdf) av Andrew Gelman och Eric Loken (2013).
Tack, @amoeba, för den intressanta referensen.Jag gillar särskilt poängen att Gelman och Loken (2013) gör att det inte behöver vara en medveten process att dra nytta av forskarens grader av frihet.Jag har redigerat mitt svar för att inkludera det papperet.
Jag hittade just den publicerade versionen av Gelman & Loken (2014) i American Scientist.
EdM
2015-07-19 17:17:09 UTC
view on stackexchange narkive permalink

En viktig kontroll av den viktiga frågan som tas upp i denna fråga är att "vetenskaplig sanning" inte baseras på enskilda, isolerade publikationer. Om ett resultat är tillräckligt intressant kommer det att uppmana andra forskare att följa konsekvenserna av resultatet. Det arbetet tenderar att bekräfta eller motbevisa det ursprungliga resultatet. Det kan finnas en 1/20 chans att avvisa en sann nullhypotes i en enskild studie, men bara en 1/400 av att göra det två gånger i rad.

Om forskare helt enkelt upprepade experiment tills de hittar " betydelse "och publicerade sedan sina resultat kan problemet vara så stort som OP föreslår. Men det är inte så vetenskapen fungerar, åtminstone i min nästan 50 års erfarenhet av biomedicinsk forskning. Vidare handlar en publik sällan om ett enda "signifikant" experiment utan baseras snarare på en uppsättning interrelaterade experiment (var och en måste vara "signifikant" ensam) som tillsammans ger stöd för en bredare, materiell hypotes. p>

Ett mycket större problem kommer från forskare som är alltför engagerade i sina egna hypoteser. De kan då övertolka konsekvenserna av enskilda experiment för att stödja deras hypoteser, engagera sig i tvivelaktig dataredigering (som att godtyckligt avlägsna outliers), eller (som jag har sett och hjälpt till att fånga) bara göra upp data.

Vetenskap är dock en mycket social process, oavsett mytologin om galna forskare som gömmer sig högt uppe i elfenbenstorn. Ge och ta bland tusentals forskare som bedriver sina intressen, baserat på vad de har lärt sig av andras arbete, är det ultimata institutionella skyddet mot falska positiva effekter. Ibland kan falska upptäckter förbli i flera år, men om en fråga är tillräckligt viktig kommer processen så småningom att identifiera de felaktiga slutsatserna.

Uppskattningen $ 1/4000 $ kan vara vilseledande.Om man är i färd med att upprepa experiment tills man uppnår "betydelse" och sedan publicerar, är det förväntade antalet experiment som behövs för att publicera ett initialt "signifikant" resultat och att följa upp det med ett andra "signifikant" resultat är bara $ 40 $.
Av 23M-studier kunde vi fortfarande inte berätta om 5.000 resultat avvisar nollhypotes bara på grund av buller, eller hur? Det är verkligen också ett skalproblem.När du har miljontals undersökningar är typ 1-fel vanligt.
Om det bara fanns 5000 felaktiga slutsatser av 23.000.000 studier skulle jag verkligen kalla det * ovanligt *!
På nästan 50 år av vetenskap och kunskap om andra forskare kan jag inte tänka på någon som upprepade experiment förrän de uppnått "betydelse".Den teoretiska möjligheten som @whuber väcker är enligt min erfarenhet inte ett stort praktiskt problem.Det mycket större praktiska problemet är att skapa data, antingen indirekt genom att kasta bort "outliers" som inte passar en förutfattad uppfattning, eller genom att bara skapa "data" till att börja med.Dessa beteenden har jag sett från första hand, och de kan inte fixas genom att justera _p_-värden.
@EdM "Det kan finnas en 1/20 chans att avvisa en sann nollhypotes i en enskild studie, men bara en 1/4000 av att göra det två gånger i rad."Hur fick du det andra numret?
@whuber om * upprepning av experiment tills man uppnår "betydelse" * åh ja, jfr.http://www.explainxkcd.com/wiki/index.php/882
@Aksakal Jag fick det andra numret med tryckfel när jag försökte skriva ett svar på en iPad.Jag menade 1/400 (1/20 x 1/20) och har nu fixat det i mitt redigerade svar, som nu innehåller en del av kommentarerna
Antoine
2015-07-19 19:18:52 UTC
view on stackexchange narkive permalink

Bara för att lägga till diskussionen är här ett intressant inlägg och efterföljande diskussion om hur människor ofta missförstår p-värde.

Vad som bör hållas i alla fall är att ett p-värde bara är ett mått på bevisens styrka för att avvisa en given hypotes. Ett p-värde är definitivt inte en hård tröskel under vilken något är "sant" och över vilket det bara beror på slumpen. Som förklaras i det inlägg som det hänvisas till ovan:

resultat är en kombination av verkliga effekter och slump, det är inte antingen / eller

kanske detta kommer att bidra till förståelsen av p-värden: http://stats.stackexchange.com/questions/166323/misunderstanding-a-p-value/166327#166327
Count Iblis
2015-07-19 21:21:23 UTC
view on stackexchange narkive permalink

Som också påpekats i de andra svaren kommer detta bara att orsaka problem om du selektivt kommer att överväga de positiva resultaten där nollhypotesen utesluts. Det är därför forskare skriver granskningsartiklar där de betraktar tidigare publicerade forskningsresultat och försöker utveckla en bättre förståelse för ämnet baserat på det. Det finns emellertid fortfarande ett problem, vilket beror på den så kallade "publikationsbias", dvs. forskare är mer benägna att skriva upp en artikel om ett positivt resultat än om ett negativt resultat, även en artikel om ett negativt resultat är mer benägna att bli avvisade för publicering än en artikel om ett positivt resultat.

Speciellt inom områden där statistiskt test är mycket viktigt kommer detta att vara ett stort problem, medicinområdet är ett ökänt exempel. Det var därför det gjordes obligatoriskt att registrera kliniska prövningar innan de genomförs (t.ex. här). Så du måste förklara inställningen, hur den statistiska analysen ska utföras, etc. etc. innan rättegången börjar. De ledande medicinska tidskrifterna kommer att vägra att publicera artiklar om de försök de rapporterar om inte registreras.

Tyvärr, trots denna åtgärd, fungerar systemet inte så bra.

kanske detta kommer att bidra till förståelsen av p-värden: http://stats.stackexchange.com/questions/166323/misunderstanding-a-p-value/166327#166327
Cort Ammon
2015-07-20 20:14:47 UTC
view on stackexchange narkive permalink

Detta ligger nära ett mycket viktigt faktum om den vetenskapliga metoden: den betonar förfalskbarhet. Vetenskapens filosofi som är mest populär idag har Karl Poppers koncept om förfalskbarhet som en hörnsten.

Den grundläggande vetenskapliga processen är alltså:

  • Vem som helst kan göra anspråk på vilken teori de vill när som helst. Vetenskapen kommer att erkänna alla teorier som är "förfalskningsbara". Den mest bokstavliga betydelsen av det ordet är att, om någon annan inte gillar påståendet, är den personen fri att spendera resurserna för att motbevisa påståendet. Om du inte tror att argyle-strumpor botar cancer är du fri att använda din egen medicinska avdelning för att motbevisa den.

  • Eftersom detta fält för entré är monumentalt lågt är det traditionellt att "vetenskap" som en kulturell grupp inte kommer att underhålla någon idé förrän du har gjort ett "bra försök" för att förfalska din egen teori.

  • Accept av idéer tenderar att gå in steg. Du kan få ditt koncept i en tidningsartikel med en studie och ett ganska lågt p-värde. Det som köper dig är publicitet och viss trovärdighet. Om någon är intresserad av din idé, till exempel om din vetenskap har tekniska tillämpningar, kanske de vill använda den. Vid den tiden är det mer sannolikt att de finansierar en ytterligare förfalskningsrunda.

  • Denna process fortsätter, alltid med samma inställning: tro vad du vill, men att kalla det vetenskap måste jag kunna motbevisa det senare.

Denna låga stapel för inträde är det som gör att den kan vara så innovativ. Så ja, det finns ett stort antal teoretiskt "felaktiga" tidskriftsartiklar där ute. Nyckeln är dock att varje publicerad artikel är i teorin förfalskbar, så när som helst kan någon spendera pengarna för att testa dem.

Detta är nyckeln: tidskrifter innehåller inte bara saker som klarar ett rimligt p-test, men de innehåller också nycklarna för andra att demontera det om resultaten visar sig vara falska.

Detta är väldigt idealistiskt.Vissa människor är oroliga för att alltför fel papper kan skapa för lågt signal-brusförhållande i litteraturen och allvarligt sakta ner eller vilseleda den vetenskapliga processen.
@amoeba Du tar upp en bra poäng.Jag ville verkligen fånga det perfekta fallet eftersom jag tycker att det ofta går förlorat i bullret.Utöver det tycker jag att frågan om SNR i litteraturen är en giltig fråga, men åtminstone är den en som bör vara balanserad.Det finns redan begrepp med bra tidskrifter jämfört med dåliga tidskrifter, så det finns några tips om att den balanseringshandlingen har pågått under en tid.
Detta grepp om vetenskapens filosofi verkar vara flera årtionden föråldrade.Poppers förfalskbarhet är bara "populär" i betydelsen att vara en * vanlig * urban myt om hur vetenskapen händer.
@EnergyNumbers Kan du upplysa mig om det nya sättet att tänka?Filosofin SE har en helt annan åsikt än din.Om man tittar på fråghistoriken där borta är förfalskbarhet i Popper * den * definierande egenskapen för vetenskapen för majoriteten av dem som talade sin röst.Jag skulle gärna vilja lära mig ett nyare sätt att tänka och ta med det där borta!
Ny?Kuhn motbevisade Popper för årtionden sedan.Om du inte har någon post Popperian på filosofi.se, verkar det vara en förlorad sak att uppdatera det - lämna det bara på 1950-talet.Om du vill uppdatera dig själv, bör någon grundläggande grundfärg från 2000-talet om vetenskapens filosofi komma igång.
@EnergyNumbers Tack så mycket för den länken.Jag citerade partilinjen om vetenskapens förfalskbarhet eftersom det var det enda samförstånd jag hade sett.Som det visar sig har jag argumenterat Kuhns ståndpunkt till punkt och pricka under de senaste tre åren i stora samhällen (inklusive vetenskapliga) och vanligtvis funnit fientlighet mot mina åsikter.Du är den första som påpekar att mina idéer inte var nya!Tack!
Det är förvånande hur man kan tro att Kuhn helt motbevisar poppers filosofi, och ändå anses hans åsikter fortfarande kättare i många läger.
vilket just motiverar vad Kuhn självklart sa, på vissa sätt.Massor av människor kom efter Kuhn.Bas van Fraassen kan vara din nästa sak att läsa.Kolla in med Lakatos också (tidigare men intressant).Och Feyerabend.
Det handlar om hur man skiljer bra signal från brus.@Cort_Ammon väcker en bra poäng.Jag "upp" detta svar.Det här är så meta.
@EnergyNumbers-ekonomer namngav fortfarande Popper hela tiden.
Aksakal
2015-07-20 00:29:09 UTC
view on stackexchange narkive permalink

Är det så som "vetenskap" ska fungera?

Så fungerar många samhällsvetenskaper. Inte så mycket med fysik. Tänk på det här: du skrev din fråga på en dator. Människor kunde bygga dessa komplicerade odjur som kallas datorer med hjälp av kunskapen om fysik, kemi och andra fysiska vetenskapsområden. Om situationen var så dålig som du beskriver skulle ingen av elektroniken fungera. Eller tänk på saker som en elektronmassa, som är känd med vansinnig precision. De passerar miljarder logikgrindar i en dator över en över, och din dator fungerar fortfarande och fungerar i flera år.

UPPDATERING: För att svara på de nedröster jag fick kände jag mig inspirerad att ge dig ett par av exempel.

Den första är från fysik: Bystritsky, VM, et al. " Mätning av de astrofysiska S-faktorerna och tvärsnitten av p (d, γ) 3He-reaktionen i ultralåg energiregion med användning av ett zirkonium-deuteridmål." Partikelfysik och kärnkraftsbokstäver 10.7 (2013): 717-722.

Som jag skrev tidigare låtsar dessa fysiker inte ens göra någon statistik utöver beräkning av standardfelen. Det finns en massa grafer och tabeller, inte ett enda p-värde eller till och med konfidensintervall. Det enda beviset på statistik är exempelvis standardfelanteckningarna som $ 0,237 \ pm 0,061 $.

Mitt nästa exempel är från ... psykologi: Paustian-Underdahl, Samantha C., Lisa Slattery Walker och David J. Woehr. " Kön och uppfattningar om ledarskapseffektivitet: En metaanalys av kontextuella moderatorer." Journal of Applied Psychology, 2014, Vol. 99, nr 6, 1129 –1145.

Dessa forskare har alla vanliga misstänkta: konfidensintervall, p-värden, $ \ chi ^ 2 $ etc.

Titta nu på några tabeller från papper och gissa vilka papper de är från:

enter image description here enter image description here

Det är svaret varför i ett fall behöver du "cool" statistik och i ett annat inte: för att uppgifterna är antingen skit eller inte. När du har bra data behöver du inte mycket statistik utöver standardfel.

UPDATE2: @ PatrickS.Forscher gjorde ett intressant uttalande i kommentaren:

Det är också sant att samhällsvetenskapsteorier är "mjukare" (mindre formella) än fysikteorier.

Jag måste inte hålla med. Inom ekonomi och finans är teorierna inte alls "mjuka". Du kan slumpmässigt slå upp ett papper i dessa fält och få något liknande:

enter image description here

och så vidare.

Det är från Schervish, Mark J. , Teddy Seidenfeld och Joseph B. Kadane. " Utvidgningar av förväntad nytteteori och vissa begränsningar av parvisa jämförelser." (2003). Ser det här mjukt ut för dig?

Jag upprepar min poäng här att när dina teorier inte är bra och data är skit, kan du använda den svåraste matematiken och ändå få ett skitresultat.

I den här artikeln talar de om verktyg, konceptet som lycka och tillfredsställelse - absolut inte observerbart. Det är som vad är ett nytta av att ha ett hus kontra att äta en ostburgare? Förmodligen finns det den här funktionen, där du kan ansluta "äta ostburgare" eller "bo i eget hus" och funktionen kommer att spotta ut svaret i vissa enheter. Så galet som det låter så är det vad modern eknomik bygger på, tack till von Neuman.

+1 Inte säker på varför detta nedröstades två gånger.Du påpekar i princip att upptäckter i fysik kan testas med experiment, och de flesta "upptäckter" inom samhällsvetenskapen kan inte vara, vilket inte hindrar dem från att få massor av medieuppmärksamhet.
De flesta experiment involverar i slutändan någon form av statistiskt test och lämnar fortfarande utrymme för typ 1-fel och missförhållanden som p-värdefiske.Jag tycker att det är lite av märket att utse socialvetenskap.
Egentligen har de flesta experiment inga statistiska tester.De nämner ofta bara standardavvikelsen för fel.
@Flounderer, vissa områden inom naturvetenskap lider av samma problem, t.ex.klimatvetenskap.Det är vanligtvis fallet med observationsstudier eller när experimenten är väldigt dyra, till exempel inom kosmologi.
För att ändra lite vad @GuilhermeKenjiChihaya säger kan standardavvikelsen för felen antagligen användas för att utföra ett statistiskt test i fysiska experiment.Förmodligen skulle detta statistiska test komma till samma slutsats som författarna når när de tittar på grafen med dess felstaplar. Den huvudsakliga skillnaden med fysikpapper är alltså den underliggande mängden buller i experimentet, en skillnad som är oberoende av omlogiken bakom användningen av p-värden är giltig eller ogiltig.
@Flounderer, du verkar också använda termen "experiment" på ett sätt som jag inte känner till, eftersom samhällsvetenskapsmän gör "experiment" (dvs. randomisering av enheter till förhållanden) hela tiden.Det är sant att samhällsvetenskapliga experiment är svåra att kontrollera i samma grad som i fysikförsök.Det är också sant att samhällsvetenskapsteorier är "mjukare" (mindre formella) än fysikteorier.Men dessa faktorer är oberoende av om en given studie är ett "experiment".
@PatrickS.Forscher uppdaterade mitt svar
@PatrickS.Forscher Du har rätt.Jag menar i betydelsen "testa något i den verkliga världen och se om det fungerar", inte i betydelsen statistik.
Det är ovanligt, skulle jag säga, att använda svårigheten att matte används som ett kriterium för hård mot mjuk.Det har skett en målmedveten trend från ekonomer mot att använda mer avancerad matematik, och jag slår vad om att en del av motivationen är att ses som "svår".Jag tycker inte att det har fungerat för bra, eftersom överdriven användning av matematik lätt är en indikator på falskhet eller en hottaktik, som ett sätt att dölja att du inte gör mycket.Ur den synvinkeln är ekonomin inte ens mjuk, utan en pseudovetenskap.
För övrigt tror jag inte att någon av författarna till det papper du citerar själv identifierar sig som ekonom.Seidenfield är inom filosofi- och statistikavdelningarna och de andra två finns i statistikavdelningen.Det betyder inte att deras arbete inte ligger inom ekonomins område, men jag tycker det är intressant att ditt huvudsakliga exempel på hur "hård" ekonomi är, förlitar sig på ett papper från statistiker och en filosof som studerar beslutsteori.Jag tvivlar på att kritiker av ekonomi som hård vetenskap verkligen attackerar sådana områden som är kraftigt överlappande med datavetenskap, matematik och statistik.
@Aksakal medan jag inte håller med -1, är jag också delvis oense med din kritiker av samhällsvetenskap.Ditt exempel på ekonomiskt papper är inte heller ett bra exempel på vad samhällsvetenskapsmän gör dagligen eftersom nytteteorin är ett strikt ekonomiskt / matematiskt / statistiskt begrepp (så det har redan * matte) och det liknar inte t.ex.psykologiska teorier som testas experimentellt ... Men jag håller med om att det ofta är så att statistik används löst inom många forskningsområden, inklusive samhällsvetenskap.
Det faktum att samhällsvetenskapsteorier inte är mjukare är något som har stört mig i flera år och i slutändan fått mig att undvika den doktorsexamen i ekonomi som jag trodde jag hade velat.
@ssdecontrol "Ordet" modell "låter mer vetenskapligt än" fabel "eller" saga ", men jag ser inte mycket skillnad mellan dem" från Ariel Rubinsteins [anteckningar] (http://arielrubinstein.tau.ac.il/Rubinstein2007.pdf) på mikro
@Aksakal Jag har hört den känslan uttryckt på några få ställen.Jag är säker på att Rubinstein tror på det, men mycket av tiden kom det till som en instans av "gör som jag säger, inte som jag gör."
Varje intervall kan definieras i termer av ett test och ett p-värde och varje test och p-värde kan användas (och används ofta) för att definiera ett intervall.Så tanken att man på något sätt undviker de 'statistiska' problemen med tester och p-värden genom att titta på 'icke-statistiska' intervall istället är bara dumt.
Och tanken att "det finns denna funktion, där du kan plugga" äta ostburgare "eller" bo i eget hus "och funktionen kommer att spotta ut svaret i vissa enheter" är "vad modern eknomik bygger på, tack till von Neuman."är bara falskt.För von Neumann och Morgenstern kommer varje rationell individ att agera som om de * var och en * hade en sådan funktion.Men inte bara är dessa funktioner bara analytiska konstruktioner från observerade val - så * inte * nödvändigtvis något som "lycka eller tillfredsställelse" - men funktionerna kommer inte ens vara jämförbara mellan individer.
@conjugateprior, Du har fel när du säger att p-värde definieras för varje intervall.Du behöver ett distributionsantagande för det.I exemplet från fysik finns det inget om sannolikheter, och det var mitt påstående: en stor majoritet av fysikforskningen bryr sig inte om sannolikheter.
Accepterar du bara för argumentets skull att "det enda beviset för statistik är standardfelen" tror du verkligen att inget distributionsantag har gjorts när du beräknar ett standardfel?
@conjugateprior, det är kvadratroten av variansen.Har du andra definitioner?
Åh, jag vet inte, kanske den här: http://mathworld.wolfram.com/StandardError.html eller den här https://en.wikipedia.org/wiki/Standard_error
Det är inte heller "kvadratroten av variansen".Det är standardavvikelsen du tänker på.
@conjugateprior, samma sak.Socialforskare älskar små detaljer om statistik eftersom deras data är skitna och "experiment" inte kan repeteras.I den stora majoriteten av fysikforskningen spelar det ingen roll om du använder en partisk eller opartisk variansuppskattare.Det finns aldrig en diskussion om dessa detaljer, de pratar om substans.Crappier data - mer statistik du behöver, det är därför samhällsvetare är så mer utbildade i statistik.


Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 3.0-licensen som det distribueras under.
Loading...