(Mycket) novell
Lång historia kort, i någon mening är statistik som alla andra tekniska områden: Det finns ingen snabbspårning▶ att det är ganska svårt att packa allt som behövs för att lära sig statistik väl in i en läroplan. Detta gäller särskilt vid universitet som har betydande allmänna utbildningskrav.
Att utveckla nödvändiga färdigheter (matematiska, beräknings- och intuitiva) tar mycket ansträngning och tid. Statistik kan börja förstås på en ganska anständig "operativ" nivå när eleven har behärskat kalkyl och en anständig mängd linjär och matrisalgebra. Men någon tillämpad statistiker vet att det är ganska lätt att hitta sig i territorium som inte överensstämmer med en cookie-cutter eller receptbaserad strategi för statistik. För att verkligen förstå vad som händer under ytan krävs som en förutsättning matematisk och i dagens värld beräkningsmognad som bara verkligen kan uppnås under de senare åren av grundutbildningen. Detta är en anledning till att riktig statistisk utbildning mestadels börjar vid M.S. nivå i USA (Indien med deras dedikerade ISI är lite annorlunda. Ett liknande argument kan göras för en del kanadensisk utbildning. Jag känner inte tillräckligt till europeisk eller ryskbaserad grundutbildning för statistik för att ha en informerat yttrande.)
Nästan alla (intressanta) jobb skulle kräva en MS nivåutbildning och de riktigt intressanta (enligt min mening) jobben kräver i princip en doktorandutbildning.
Eftersom du har en doktorsexamen i matematik, även om vi inte vet inom vilket område, här är mina förslag på något närmare en utbildning på MS-nivå. Jag tar med några parentesanmärkningar för att förklara valen.
- D. Huff, Hur man ligger med statistik . (Mycket snabb, lättläst. Visar många av de konceptuella idéerna och fallgroparna, särskilt när de presenterar statistik för lekmannen.)
- Mood, Graybill och Boes, Introduktion till teorin om statistik , 3: e upplagan, 1974. (MS-nivå introduktion till teoretisk statistik. Du lär dig om samplingsfördelningar, poänguppskattning och hypotesprovning i ett klassiskt, frekventistiskt ramverk. Min åsikt är att detta i allmänhet är bättre, och lite mer avancerad än moderna motsvarigheter som Casella & Berger eller Rice.)
- Seber & Lee, Linjär regressionsanalys , 2: a upplagan. (Lägger teorin bakom poängskattning och hypotesprovning för linjära modeller, vilket förmodligen är det viktigaste ämnet att förstå i tillämpad statistik. Eftersom du förmodligen har en bra linjär algebrabakgrund bör du omedelbart kunna förstå vad som händer geometriskt , som ger mycket intuition. Har också bra information relaterad till bedömningsfrågor i modellval, avvikelser från antaganden, förutsägelse och robusta versioner av linjära modeller.)
- Hastie, Tibshirani och Friedman, Elements of Statistical Learning , 2: a upplagan, 2009. (Denna bok har en mycket mer tillämpad känsla än den förra och omfattar i stort sett många moderna maskininlärningsämnen. Det största bidraget här är att tillhandahålla statistiska tolkningar av många maskininlärningsidéer, som lönar sig särskilt när det gäller att kvantifiera osäkerhet i sådana modeller. Det här är något som tenderar att tas upp i typiska maskininlärningsböcker. Lagligt tillgänglig gratis rong> här .)
- A. Agresti, Kategorisk dataanalys , 2: a upplagan (Bra presentation av hur man hanterar diskreta data i en statistisk ram. Bra teori och bra praktiska exempel. Kanske på den traditionella sidan i vissa avseenden.)
- Boyd & Vandenberghe, Konvex optimering . (Många av de mest populära moderna statistiska uppskattnings- och hypotesprovningsproblemen kan formuleras som konvexa optimeringsproblem. Detta gäller också många maskininlärningstekniker, t.ex. SVM. Att ha en bredare förståelse och förmågan att känna igen sådana problem som konvexa program tycker jag är ganska värdefullt. Lagligt tillgängligt gratis här . )
- Efron & Tibshirani, En introduktion till Bootstrap . (Du borde åtminstone känna till bootstrap och relaterade tekniker. För en lärobok är det en snabb och enkel läsning.)
- J. Liu, Monte Carlo Strategies in Scientific Computing eller P. Glasserman, Monte Carlo Methods in Financial Engineering . (Det senare låter väldigt riktat till ett visst applikationsområde, men jag tror att det kommer att ge en bra översikt och praktiska exempel på alla de viktigaste teknikerna. Finansiella tekniska applikationer har drivit en hel del Monte Carlo-forskning under det senaste decenniet eller så .)
- E. Tufte, Visuell visning av kvantitativ information . (Bra visualisering och presentation av data är [mycket] underskattad, även av statistiker.)
- J. Tukey, Exploratory Data Analysis . (Standard. Oldie, men godis. Vissa kan säga föråldrade, men ändå värda att titta på det.)
Komplement
Här är några andra böcker, mestadels av lite mer avancerade, teoretiska och / eller hjälpande karaktärer, som är användbara.
- F. A. Graybill, Theory and Application of the Linear Model . (Gammaldags, fruktansvärd satsning, men täcker hela samma mark som Seber & Lee och mer. Jag säger gammaldags för att modernare behandlingar antagligen skulle använda SVD för att förena och förenkla många tekniker och bevis.)
- F. A. Graybill, Matriser med tillämpningar i statistik . (Ledsagande text till ovanstående. En mängd bra matrisalgebra resultat som är användbara för statistik här. Stor skrivbordsreferens.)
- Devroye, Gyorfi och Lugosi, En probabilistisk teori om mönsterigenkänning . (Strikt och teoretisk text om kvantifiering av prestanda i klassificeringsproblem.)
- Brockwell & Davis, Time Series: Theory and Methods . (Klassisk tidsserieanalys. Teoretisk behandling. För mer tillämpade är Box, Jenkins & Reinsel eller Ruey Tsays texter anständiga.)
- Motwani och Raghavan, Slumpmässiga algoritmer . (Probabilistiska metoder och analys för beräkningsalgoritmer.)
- D. Williams, Sannolikhet och Martingales och / eller R. Durrett, Sannolikhet: Teori och exempel . (Om du har sett måttteori, säg, på nivån för DL Cohn, men kanske inte sannolikhetsteori. Båda är bra för att snabbt komma i fart om du redan känner till måttteori.)
- F . Harrell, Regression Modeling Strategies . (Inte lika bra som Elements of Statistical Learning [ESL], men har en annan och intressant uppfattning. Täcker mer "traditionella" tillämpade statistikämnen än ESL och så värt att veta om säkert.)
Mer avancerade texter (doktorsexamen)
-
Lehmann och Casella , Theory of Point Estimation . (Behandling på doktorsexamen av poänguppskattning. En del av utmaningen med den här boken är att läsa den och ta reda på vad som är ett skrivfel och vad som inte är. När du ser dig själv känna igen dem snabbt vet du att du förstår. Det finns gott om övning av denna typ där inne, speciellt om du dyker in i problemen.)
-
Lehmann och Romano, Testa statistiska hypoteser . (Behandling av doktornivå av hypotesprov. Inte så många stavfel som TPE ovan.)
-
A. van der Vaart, Asymptotisk statistik . (En vacker bok om den asymptotiska teorin om statistik med goda tips om tillämpningsområden. Inte en tillämpad bok men. Mitt enda gräl är att någon ganska bisarr notation används och detaljer ibland borstas under mattan.)