Hur skiljer sig PCA och klassisk MDS från varandra? Vad sägs om MDS kontra icke-metrisk MDS? Finns det en tid då du föredrar varandra? Hur skiljer sig tolkningarna?
Hur skiljer sig PCA och klassisk MDS från varandra? Vad sägs om MDS kontra icke-metrisk MDS? Finns det en tid då du föredrar varandra? Hur skiljer sig tolkningarna?
Classic Torgerson s metriska MDS görs faktiskt genom att omvandla avstånd till likheter och utföra PCA (egennedbrytning eller singular-värde-nedbrytning) på dessa. [Det andra namnet på denna procedur (
Icke-metrisk MDS baseras på iterativ ALSCAL- eller PROXSCAL-algoritm (eller algoritm liknande dem) vilket är en mer mångsidig kartläggningsteknik än PCA och kan också tillämpas på metriska MDS. PCA behåller m viktiga dimensioner för dig, men ALSCAL / PROXSCAL passar konfigurationen till m dimensioner (du fördefinierar m ) och det reproducerar olikheter på kartan mer direkt och exakt än vad PCA vanligtvis kan (se illustrationen nedan).
Således är MDS och PCA förmodligen inte på samma nivå att vara i linje eller mittemot varandra. PCA är bara en metod medan MDS är en analysklass. Som kartläggning är PCA ett särskilt fall av MDS. Å andra sidan är PCA ett särskilt fall av faktoranalys som, som en datareduktion, är mer än bara en kartläggning, medan MDS bara är en kartläggning.
När det gäller din fråga om metrisk MDS vs icke -metrisk MDS finns det lite att kommentera eftersom svaret är enkelt. Om jag tror att mina ingångsskillnader är så nära euklidiska avstånd att en linjär transformation räcker för att kartlägga dem i m-dimensionellt utrymme, föredrar jag metrisk MDS. Om jag inte tror, är monoton transformation nödvändig, vilket innebär användning av icke-metrisk MDS.
En anmärkning om terminologi för en läsare. Term Classic (al) MDS (CMDS) kan ha två olika betydelser i en stor litteratur om MDS, så det är tvetydigt och bör undvikas. En definition är att CMDS är en synonym för Torgersons metriska MDS. En annan definition är att CMDS är vilken MDS som helst (med vilken algoritm som helst; metrisk eller icke-metrisk analys) med enkel matrisingång (för det finns modeller som analyserar många matriser samtidigt - Individuell "INDSCAL" -modell och replikerad modell).
Illustration till svaret . Några moln av punkter (ellips) kartläggs på en endimensionell mds-karta. Ett par punkter visas i röda prickar.
Iterativ eller "sann" MDS syftar rakt till att rekonstruera parvisa avstånd mellan objekt. För det är uppgiften för alla MDS. Olika stress- eller felanpassningskriterier kan minimeras mellan o riginala avstånd och avstånd på m ap: $ \ | D_o-D_m \ | _2 ^ 2 $ , $ \ | D_o ^ 2-D_m ^ 2 \ | _1 $ , $ \ | D_o-D_m \ | _1 $ . En algoritm kan (icke-metrisk MDS) eller inte (metrisk MDS) inkludera monoton transformation på detta sätt.
PCA-baserad MDS (Torgersons eller PCoA) är inte rak. Det minimerar kvadratiska avstånd mellan objekt i originalutrymmet och deras bilder på kartan. Detta är inte riktigt äkta MDS-uppgift; det är framgångsrikt, som MDS, endast i den utsträckning som de kasserade junior huvudaxlarna är svaga. Om $ P_1 $ förklarar mycket mer varians än $ P_2 $ kan den förra enbart väsentligen återspegla parvisa avstånd i moln, särskilt för punkter som ligger långt ifrån varandra längs ellipsen. Iterativ MDS kommer alltid att vinna, och särskilt när kartan önskas mycket lågdimensionell. Iterativ MDS kommer också att lyckas mer när en molnellips är tunn, men kommer att uppfylla MDS-uppgiften bättre än PCoA. Av egenskapen för dubbelcentreringsmatrisen (beskrivs här) verkar det som om PCoA minimerar $ \ | D_o \ | _2 ^ 2- \ | D_m \ | _2 ^ 2 $ , vilket skiljer sig från någon av ovanstående minimeringar.
Återigen projicerar PCA molnets poäng på det mest fördelaktiga underområdet för alla företag. Det projicerar inte parvisa avstånd , relativa platser för punkter i ett underområde som mest sparar i som respekterar, som iterativ MDS gör det. Ändå anses PCoA / PCA historiskt bland metoderna för metrisk MDS.
Uhm ... ganska annorlunda. I PCA får du multivariata kontinuerliga data (en multivariatvektor för varje ämne), och du försöker lista ut om du inte behöver så många dimensioner för att begreppsmässigt. I (metrisk) MDS får du matrisen för avstånden mellan objekten och du försöker ta reda på vad platserna för dessa objekt i rymden är (och om du behöver ett 1D, 2D, 3D, etc. utrymme). I icke-metriska MDS vet du bara att objekt 1 och 2 är mer avlägsna än objekt 2 och 3, så du försöker kvantifiera det, förutom att hitta dimensionerna och platserna.
Med en anmärkningsvärd sträcka av fantasi kan du säga att ett gemensamt mål för PCA och MDS är att visualisera objekt i 2D eller 3D. Men med tanke på hur olika ingångarna är kommer dessa metoder inte att diskuteras som ens avlägset relaterade i någon multivariat lärobok. Jag skulle gissa att du kan konvertera data som är användbara för PCA till data som kan användas för MDS (säg genom att beräkna Mahalanobis avstånd mellan objekt, med hjälp av provkovariansmatrisen), men det skulle omedelbart resultera i förlust av information: MDS definieras bara upp till plats och rotation, och de två senare kan göras mer informativt med PCA.
Om jag kort skulle visa någon resultaten av icke-metrisk MDS och ville ge dem en grov uppfattning om vad den gör utan att gå i detalj kan jag säga:
Med tanke på de mått på likhet eller olikhet som vi har försöker vi kartlägga våra objekt / ämnen på ett sådant sätt att de "städer" de gör upp har avstånd mellan dem som ligger så nära dessa likhetsåtgärder som vi kan göra dem. Vi kunde bara kartlägga dem perfekt i $ n $ -dimensionellt utrymme, dock, så jag representerar de två mest informativa dimensionerna här - ungefär som vad du skulle göra i PCA om du visade en bild med de två ledande huvudkomponenterna.
Uppgiften för metrisk flerdimensionell skalning (MDS) kan formuleras abstrakt enligt följande: ges en $ n \ gånger n $ matris $ \ mathbf D $ av parvisa avstånd mellan $ n $ poäng, hitta en lågdimensionell inbäddning av datapunkter i $ \ mathbb R ^ k $ så att euklidiska avstånd mellan dem approximerar de angivna avstånden: $$ \ | \ mathbf x_i - \ mathbf x_j \ | \ approx D_ {ij }. $$
Om "ungefärlig" här förstås i den vanliga betydelsen av rekonstruktionsfel, dvs. om målet är att minimera kostnadsfunktionen som kallas "stress": $$ \ text {Stress} \ sim \ Big \ | \ mathbf D - \ | \ mathbf x_i - \ mathbf x_j \ | \ Big \ | ^ 2, $$ då är lösningen inte motsvarande PCA. Lösningen ges inte av någon sluten formel och måste beräknas med en dedikerad iterativ algoritm.
"Klassisk MDS", även känd som "Torgerson MDS", ersätter denna kostnadsfunktion med en relaterad men inte motsvarande en, kallad "stam": $$ \ text {Stam} \ sim \ Big \ | \ mathbf K_c - \ langle \ mathbf x_i, \ mathbf x_j \ rangle \ Big \ | ^ 2, $ $ som försöker minimera rekonstruktionsfel hos centrerade skalära produkter istället för avstånd. Det visar sig att $ \ mathbf K_c $ kan beräknas från $ \ mathbf D $ (om $ \ mathbf D $ är euklidiska avstånd) och att minimera rekonstruktionsfel på $ \ mathbf K_c $ är exakt vad PCA gör, som visas i nästa avsnitt.
Låt data samlas i matris $ \ mathbf X $ av $ n \ gånger k $ storlek med observationer i rader och funktioner i kolumner. Låt $ \ mathbf X_c $ vara den centrerade matrisen med subtraherade kolumnmedel.
Då uppgår PCA till att göra sönderdelning av singulärt värde $ \ mathbf X_c = \ mathbf {USV ^ \ top} $, med kolumner med $ \ mathbf {US} $ som huvudkomponenter. Ett vanligt sätt att få dem är via en egen sammansättning av kovariansmatrisen $ \ frac {1} {n} \ mathbf X_c ^ \ top \ mathbf X ^ \ vphantom {\ top} _c $, men ett annat möjligt sätt är att utföra en egen sammansättning av Gram-matrisen $ \ mathbf K_c = \ mathbf X ^ \ vphantom {\ top} _c \ mathbf X ^ \ top_c = \ mathbf U \ mathbf S ^ 2 \ mathbf U ^ \ top $: huvudkomponenterna är dess egenvektorer skalade av kvadratrötterna för respektive egenvärden.
Det är lätt att se att $ \ mathbf X_c = (\ mathbf I - \ frac {1} {n} \ mathbf 1_n) \ mathbf X $, där $ \ mathbf 1_n $ är en $ n \ gånger n $ matris av sådana. Från detta får vi omedelbart att $$ \ mathbf K_c = \ left (\ mathbf I - \ frac {\ mathbf 1_n} {n} \ right) \ mathbf K \ left (\ mathbf I - \ frac {\ mathbf 1_n} { n} \ höger) = \ mathbf K - \ frac {\ mathbf 1_n} {n} \ mathbf K - \ mathbf K \ frac {\ mathbf 1_n} {n} + \ frac {\ mathbf 1_n} {n} \ mathbf K \ frac {\ mathbf 1_n} {n}, $$ där $ \ mathbf K = \ mathbf X \ mathbf X ^ \ top $ är en Gram-matris av ocentrerad data. Detta är användbart: om vi har Gram-matrisen med ocentrerad data kan vi centrera den direkt utan att komma tillbaka till $ \ mathbf X $ själv. Denna operation kallas ibland dubbelcentrering : lägg märke till att det uppgår till att subtrahera radmedel och kolumn betyder från $ \ mathbf K $ (och lägga till det globala medelvärdet som subtraheras två gånger), så att båda raderna medel och kolumnmedel för $ \ mathbf K_c $ är lika med noll.
Tänk nu på $ n \ gånger n $ matris $ \ mathbf D $ av parvisa euklidiska avstånd med $ D_ {ij} = \ | \ mathbf x_i - \ mathbf x_j \ | $. Kan denna matris konverteras till $ \ mathbf K_c $ för att utföra PCA? Visar sig att svaret är ja.
Faktum är att enligt lagen om cosinus ser vi att \ begin {align} D_ {ij} ^ 2 = \ | \ mathbf x_i - \ mathbf x_j \ | ^ 2 & = \ | \ mathbf x_i - \ bar {\ mathbf x} \ | ^ 2 + \ | \ mathbf x_j - \ bar {\ mathbf x} \ | ^ 2 - 2 \ langle \ mathbf x_i - \ bar {\ mathbf x}, \ mathbf x_j - \ bar {\ mathbf x} \ rangle \\ & = \ | \ mathbf x_i - \ bar {\ mathbf x} \ | ^ 2 + \ | \ mathbf x_j - \ bar {\ mathbf x} \ | ^ 2 - 2 [K_c] _ {ij}. \ end {align} Så $ - \ mathbf D ^ 2/2 $ skiljer sig från $ \ mathbf K_c $ endast med vissa rad- och kolumnkonstanter (här betyder $ \ mathbf D ^ 2 $ elementvis kvadrat!). Det betyder att om vi dubbelcentrerar det får vi $ \ mathbf K_c $: $$ \ mathbf K_c = - \ left (\ mathbf I - \ frac {\ mathbf 1_n} {n} \ right) \ frac {\ mathbf D ^ 2} {2} \ left (\ mathbf I - \ frac {\ mathbf 1_n} {n} \ right). $$
Vilket innebär att utgående från matrisen för parvisa euklidiska avstånd $ \ mathbf D $ kan vi utföra PCA och få huvudkomponenter. Detta är exakt vad klassisk (Torgerson) MDS gör: $ \ mathbf D \ mapsto \ mathbf K_c \ mapsto \ mathbf {US} $, så dess resultat motsvarar PCA.
Naturligtvis, om någon annan avståndsmått väljs istället för $ \ | \ mathbf x_i - \ mathbf x_j \ | $, då kommer klassisk MDS att resultera i något annat.
Referens: Elementen för statistiskt lärande , avsnitt 18.5.2.
PCA ger EXAKT samma resultat som klassisk MDS om Euklidiskt avstånd används.
Jag citerar Cox & Cox (2001), s 43-44:
Det finns en dualitet mellan en huvudkomponentanalys och PCO [huvudkoordinatanalys, aka klassisk MDS] där skillnader ges genom euklidiskt avstånd. Cox & Cox förklarar det ganska tydligt:
- Föreställ dig att du har $ X $ = attribut på $ n $ produkter med $ p $ dimensioner, medelcentrerad
- PCA uppnås av hitta egenvektorer för kovariansmatrisen ~ $ X'X $ (dividerat med n-1) - anropa egenvektorerna $ \ xi $ och egenvärden $ \ mu $.
- MDS uppnås genom att först konvertera $ X $ i avståndsmatris, här, euklidiskt avstånd, dvs $ XX '$, och hitta sedan egenvektorerna - kalla egenvektorerna $ v $ och egenvärden $ \ lambda $.
- s 43: "Det är ett välkänt resultat att egenvärdena på $ XX '$ är desamma som de för $ X'X $, tillsammans med en n extra n-p noll egenvärden. " Så för $ i < p $, $ \ mu_i $ = $ \ lambda_i $
- Gå tillbaka till definitionen av egenvektorer, överväg $ i ^ {th} $ egenvärden. $ X'Xv_i = \ lambda_i v_i $
- Fördubbel $ v_i $ med $ X '$, vi får $ (X'X) X'v_i = \ lambda_i X'v_i $
- Vi har också $ X'X \ xi_i = \ mu_i \ xi_i $. Eftersom $ \ lambda_i = \ mu_i $ får vi den $ \ xi_i = X'v_i $ för $ i<p $.
Jämförelse: "Metrisk MDS ger samma resultat som PCA" - procedurellt - när vi tittar på hur SVD används för att uppnå det bästa. Men de bevarade högdimensionella kriterierna är olika. PCA använder en centrerad kovariansmatris medan MDS använder en grammatris erhållen genom dubbelcentreringsavståndsmatriser.
Sätter skillnaden matematiskt: PCA kan ses som maximera $ Tr (X ^ T (I- \ frac {1} {n} ee ^ T) X) $ över $ X $ under begränsningar att $ X $ är ortogonal, vilket ger axlar / huvudkomponenter. I flerdimensionell skalning beräknas en grammatris (en p.s.d-matris som kan representeras som $ Z ^ TZ $) från euklidiskt avstånd mellan raderna i $ X $ och följande minimeras över $ Y $. minimera: $ || G-Y ^ TY || _ {F} ^ {2} $.