Vad är skillnaden mellan huvudkomponentanalys och flerdimensionell skalning?

ttnphns

2011-08-09 05:34:04 UTC

view on stackexchange narkive permalink

Classic Torgerson s metriska MDS görs faktiskt genom att omvandla avstånd till likheter och utföra PCA (egennedbrytning eller singular-värde-nedbrytning) på dessa. [Det andra namnet på denna procedur ( avstånd mellan objekt ->-likheter mellan dem -> PCA , varigenom belastningar är de sökta koordinaterna) är huvudkoordinatanalys eller PCoA .] Så, PCA kan kallas algoritmen för den enklaste MDS.

Icke-metrisk MDS baseras på iterativ ALSCAL- eller PROXSCAL-algoritm (eller algoritm liknande dem) vilket är en mer mångsidig kartläggningsteknik än PCA och kan också tillämpas på metriska MDS. PCA behåller m viktiga dimensioner för dig, men ALSCAL / PROXSCAL passar konfigurationen till m dimensioner (du fördefinierar m ) och det reproducerar olikheter på kartan mer direkt och exakt än vad PCA vanligtvis kan (se illustrationen nedan).

Således är MDS och PCA förmodligen inte på samma nivå att vara i linje eller mittemot varandra. PCA är bara en metod medan MDS är en analysklass. Som kartläggning är PCA ett särskilt fall av MDS. Å andra sidan är PCA ett särskilt fall av faktoranalys som, som en datareduktion, är mer än bara en kartläggning, medan MDS bara är en kartläggning.

När det gäller din fråga om metrisk MDS vs icke -metrisk MDS finns det lite att kommentera eftersom svaret är enkelt. Om jag tror att mina ingångsskillnader är så nära euklidiska avstånd att en linjär transformation räcker för att kartlägga dem i m-dimensionellt utrymme, föredrar jag metrisk MDS. Om jag inte tror, är monoton transformation nödvändig, vilket innebär användning av icke-metrisk MDS.

En anmärkning om terminologi för en läsare. Term Classic (al) MDS (CMDS) kan ha två olika betydelser i en stor litteratur om MDS, så det är tvetydigt och bör undvikas. En definition är att CMDS är en synonym för Torgersons metriska MDS. En annan definition är att CMDS är vilken MDS som helst (med vilken algoritm som helst; metrisk eller icke-metrisk analys) med enkel matrisingång (för det finns modeller som analyserar många matriser samtidigt - Individuell "INDSCAL" -modell och replikerad modell).

Illustration till svaret . Några moln av punkter (ellips) kartläggs på en endimensionell mds-karta. Ett par punkter visas i röda prickar.

Iterativ eller "sann" MDS syftar rakt till att rekonstruera parvisa avstånd mellan objekt. För det är uppgiften för alla MDS. Olika stress- eller felanpassningskriterier kan minimeras mellan o riginala avstånd och avstånd på m ap: $ \ | D_o-D_m \ | _2 ^ 2 $ , $ \ | D_o ^ 2-D_m ^ 2 \ | _1 $ , $ \ | D_o-D_m \ | _1 $ . En algoritm kan (icke-metrisk MDS) eller inte (metrisk MDS) inkludera monoton transformation på detta sätt.

PCA-baserad MDS (Torgersons eller PCoA) är inte rak. Det minimerar kvadratiska avstånd mellan objekt i originalutrymmet och deras bilder på kartan. Detta är inte riktigt äkta MDS-uppgift; det är framgångsrikt, som MDS, endast i den utsträckning som de kasserade junior huvudaxlarna är svaga. Om $ P_1 $ förklarar mycket mer varians än $ P_2 $ kan den förra enbart väsentligen återspegla parvisa avstånd i moln, särskilt för punkter som ligger långt ifrån varandra längs ellipsen. Iterativ MDS kommer alltid att vinna, och särskilt när kartan önskas mycket lågdimensionell. Iterativ MDS kommer också att lyckas mer när en molnellips är tunn, men kommer att uppfylla MDS-uppgiften bättre än PCoA. Av egenskapen för dubbelcentreringsmatrisen (beskrivs här) verkar det som om PCoA minimerar $ \ | D_o \ | _2 ^ 2- \ | D_m \ | _2 ^ 2 $ , vilket skiljer sig från någon av ovanstående minimeringar.

Återigen projicerar PCA molnets poäng på det mest fördelaktiga underområdet för alla företag. Det projicerar inte parvisa avstånd , relativa platser för punkter i ett underområde som mest sparar i som respekterar, som iterativ MDS gör det. Ändå anses PCoA / PCA historiskt bland metoderna för metrisk MDS.

(+1) Jag gillade båda svaren, den här antagligen lite mer.

Länken till PDF relaterad till PCoA.Den finns på webbarkivet: http://web.archive.org/web/20160315120635/http://forrest.psych.unc.edu/teaching/p230/Torgerson.pdf

@ReneBt, snälla redigera inte detta svar: Jag tycker att dina deländringar av detta svar snedvrider betydelsen.Jag avbröt dina senaste ändringar.

Ursäkta, jag hade justerat någon annans redigeringar men tydligt saknade jag en aspekt av den som du tycker är viktig.

Som en hyllning till detta svar, och med all respekt, igår redigerade jag, första stycket, första stycket, i en subtenens-nivå, särskilt genom att omorganisera subcenteces, handling som inte berör meningen. Min åsikt är att ett inledande stycke (som det första) måste vara det mindre knepiga (av alla).Särskilt: I första stycket finns parenteser som är kapslade inom parentes (rundade parenteser kapslade i kvadratiska parenteser), mer än genomsnittliga komplexitet för ett stycke.(fortsättning ...)

(fortsättning ...) I första meningen ges initialt namnet på metoden och förklaras sedan.I den andra meningen (den i kvadratiska parenteser) påminnes initialt (läsaren) (om förklaringen) och läggs sedan till ett underfall eller en tillämpning av det ('varigenom belastningarna är [...]'). Men eftersom den andra meningen (den i kvadratiska parenteser) i huvudsak är en jämförelse (den informerar om ett underfall eller en applikation), är det bättre att börja med, antingen skillnaden (underfallet / applikationen) ellernamnet på detta underfall ('Principal Coordinate Analysis or PcoA').

StasK

2011-08-09 02:41:42 UTC

view on stackexchange narkive permalink

Uhm ... ganska annorlunda. I PCA får du multivariata kontinuerliga data (en multivariatvektor för varje ämne), och du försöker lista ut om du inte behöver så många dimensioner för att begreppsmässigt. I (metrisk) MDS får du matrisen för avstånden mellan objekten och du försöker ta reda på vad platserna för dessa objekt i rymden är (och om du behöver ett 1D, 2D, 3D, etc. utrymme). I icke-metriska MDS vet du bara att objekt 1 och 2 är mer avlägsna än objekt 2 och 3, så du försöker kvantifiera det, förutom att hitta dimensionerna och platserna.

Med en anmärkningsvärd sträcka av fantasi kan du säga att ett gemensamt mål för PCA och MDS är att visualisera objekt i 2D eller 3D. Men med tanke på hur olika ingångarna är kommer dessa metoder inte att diskuteras som ens avlägset relaterade i någon multivariat lärobok. Jag skulle gissa att du kan konvertera data som är användbara för PCA till data som kan användas för MDS (säg genom att beräkna Mahalanobis avstånd mellan objekt, med hjälp av provkovariansmatrisen), men det skulle omedelbart resultera i förlust av information: MDS definieras bara upp till plats och rotation, och de två senare kan göras mer informativt med PCA.

Om jag kort skulle visa någon resultaten av icke-metrisk MDS och ville ge dem en grov uppfattning om vad den gör utan att gå i detalj kan jag säga:

Med tanke på de mått på likhet eller olikhet som vi har försöker vi kartlägga våra objekt / ämnen på ett sådant sätt att de "städer" de gör upp har avstånd mellan dem som ligger så nära dessa likhetsåtgärder som vi kan göra dem. Vi kunde bara kartlägga dem perfekt i $ n $ -dimensionellt utrymme, dock, så jag representerar de två mest informativa dimensionerna här - ungefär som vad du skulle göra i PCA om du visade en bild med de två ledande huvudkomponenterna.

Används inte en PCA på en korrelationsmatris motsvarande en MDS med euklidiska avstånd beräknade på standardiserade variabler?

Så om jag kort skulle visa någon resultaten av icke-metrisk MDS och ville ge dem en grov uppfattning om vad det gör utan att gå i detalj, kan jag säga "det här gör något liknande PCA" utan att vara vilseledande?

Jag skulle säga, "Med tanke på de mått på likhet eller olikhet som vi har försöker vi kartlägga våra föremål / ämnen på ett sådant sätt att de" städer "som de utgör har avstånd mellan dem som är så nära dessa likhetsåtgärder som vi kan göra dem. Vi kunde bara kartlägga dem perfekt i $ n $ -dimensionellt utrymme, så jag representerar de mest informativa dimensionerna här - ungefär som vad du skulle göra i PCA om du visade en bild med de två ledande huvudkomponenterna " .

+1 Cool - för mig binder den här kommentaren ditt svar snyggt. Tack.

amoeba

2015-01-09 05:30:13 UTC

view on stackexchange narkive permalink

Två typer av metriska MDS

Uppgiften för metrisk flerdimensionell skalning (MDS) kan formuleras abstrakt enligt följande: ges en $ n \ gånger n $ matris $ \ mathbf D $ av parvisa avstånd mellan $ n $ poäng, hitta en lågdimensionell inbäddning av datapunkter i $ \ mathbb R ^ k $ så att euklidiska avstånd mellan dem approximerar de angivna avstånden: $$ \ | \ mathbf x_i - \ mathbf x_j \ | \ approx D_ {ij }. $$

Om "ungefärlig" här förstås i den vanliga betydelsen av rekonstruktionsfel, dvs. om målet är att minimera kostnadsfunktionen som kallas "stress": $$ \ text {Stress} \ sim \ Big \ | \ mathbf D - \ | \ mathbf x_i - \ mathbf x_j \ | \ Big \ | ^ 2, $$ då är lösningen inte motsvarande PCA. Lösningen ges inte av någon sluten formel och måste beräknas med en dedikerad iterativ algoritm.

"Klassisk MDS", även känd som "Torgerson MDS", ersätter denna kostnadsfunktion med en relaterad men inte motsvarande en, kallad "stam": $$ \ text {Stam} \ sim \ Big \ | \ mathbf K_c - \ langle \ mathbf x_i, \ mathbf x_j \ rangle \ Big \ | ^ 2, $ $ som försöker minimera rekonstruktionsfel hos centrerade skalära produkter istället för avstånd. Det visar sig att $ \ mathbf K_c $ kan beräknas från $ \ mathbf D $ (om $ \ mathbf D $ är euklidiska avstånd) och att minimera rekonstruktionsfel på $ \ mathbf K_c $ är exakt vad PCA gör, som visas i nästa avsnitt.

Klassisk (Torgerson) MDS på euklidiska avstånd motsvarar PCA

Låt data samlas i matris $ \ mathbf X $ av $ n \ gånger k $ storlek med observationer i rader och funktioner i kolumner. Låt $ \ mathbf X_c $ vara den centrerade matrisen med subtraherade kolumnmedel.

Då uppgår PCA till att göra sönderdelning av singulärt värde $ \ mathbf X_c = \ mathbf {USV ^ \ top} $, med kolumner med $ \ mathbf {US} $ som huvudkomponenter. Ett vanligt sätt att få dem är via en egen sammansättning av kovariansmatrisen $ \ frac {1} {n} \ mathbf X_c ^ \ top \ mathbf X ^ \ vphantom {\ top} _c $, men ett annat möjligt sätt är att utföra en egen sammansättning av Gram-matrisen $ \ mathbf K_c = \ mathbf X ^ \ vphantom {\ top} _c \ mathbf X ^ \ top_c = \ mathbf U \ mathbf S ^ 2 \ mathbf U ^ \ top $: huvudkomponenterna är dess egenvektorer skalade av kvadratrötterna för respektive egenvärden.

Det är lätt att se att $ \ mathbf X_c = (\ mathbf I - \ frac {1} {n} \ mathbf 1_n) \ mathbf X $, där $ \ mathbf 1_n $ är en $ n \ gånger n $ matris av sådana. Från detta får vi omedelbart att $$ \ mathbf K_c = \ left (\ mathbf I - \ frac {\ mathbf 1_n} {n} \ right) \ mathbf K \ left (\ mathbf I - \ frac {\ mathbf 1_n} { n} \ höger) = \ mathbf K - \ frac {\ mathbf 1_n} {n} \ mathbf K - \ mathbf K \ frac {\ mathbf 1_n} {n} + \ frac {\ mathbf 1_n} {n} \ mathbf K \ frac {\ mathbf 1_n} {n}, $$ där $ \ mathbf K = \ mathbf X \ mathbf X ^ \ top $ är en Gram-matris av ocentrerad data. Detta är användbart: om vi har Gram-matrisen med ocentrerad data kan vi centrera den direkt utan att komma tillbaka till $ \ mathbf X $ själv. Denna operation kallas ibland dubbelcentrering : lägg märke till att det uppgår till att subtrahera radmedel och kolumn betyder från $ \ mathbf K $ (och lägga till det globala medelvärdet som subtraheras två gånger), så att båda raderna medel och kolumnmedel för $ \ mathbf K_c $ är lika med noll.

Tänk nu på $ n \ gånger n $ matris $ \ mathbf D $ av parvisa euklidiska avstånd med $ D_ {ij} = \ | \ mathbf x_i - \ mathbf x_j \ | $. Kan denna matris konverteras till $ \ mathbf K_c $ för att utföra PCA? Visar sig att svaret är ja.

Faktum är att enligt lagen om cosinus ser vi att \ begin {align} D_ {ij} ^ 2 = \ | \ mathbf x_i - \ mathbf x_j \ | ^ 2 & = \ | \ mathbf x_i - \ bar {\ mathbf x} \ | ^ 2 + \ | \ mathbf x_j - \ bar {\ mathbf x} \ | ^ 2 - 2 \ langle \ mathbf x_i - \ bar {\ mathbf x}, \ mathbf x_j - \ bar {\ mathbf x} \ rangle \\ & = \ | \ mathbf x_i - \ bar {\ mathbf x} \ | ^ 2 + \ | \ mathbf x_j - \ bar {\ mathbf x} \ | ^ 2 - 2 [K_c] _ {ij}. \ end {align} Så $ - \ mathbf D ^ 2/2 $ skiljer sig från $ \ mathbf K_c $ endast med vissa rad- och kolumnkonstanter (här betyder $ \ mathbf D ^ 2 $ elementvis kvadrat!). Det betyder att om vi dubbelcentrerar det får vi $ \ mathbf K_c $: $$ \ mathbf K_c = - \ left (\ mathbf I - \ frac {\ mathbf 1_n} {n} \ right) \ frac {\ mathbf D ^ 2} {2} \ left (\ mathbf I - \ frac {\ mathbf 1_n} {n} \ right). $$

Vilket innebär att utgående från matrisen för parvisa euklidiska avstånd $ \ mathbf D $ kan vi utföra PCA och få huvudkomponenter. Detta är exakt vad klassisk (Torgerson) MDS gör: $ \ mathbf D \ mapsto \ mathbf K_c \ mapsto \ mathbf {US} $, så dess resultat motsvarar PCA.

Naturligtvis, om någon annan avståndsmått väljs istället för $ \ | \ mathbf x_i - \ mathbf x_j \ | $, då kommer klassisk MDS att resultera i något annat.

Referens: Elementen för statistiskt lärande , avsnitt 18.5.2.

Jag måste erkänna att jag ännu inte tänkt igenom detta: men här är en "rimlighetskontroll" jag undrar: från måtten på matriserna, borde inte din Gram-matris vara $ \ mathbf X \ mathbf X ^ T $ som är$ n \ gånger n $?

Tack, @cbeleites, naturligtvis har du rätt - det är bara ett stavfel.Kommer att fixa det nu.Låt mig veta om du ser andra misstag (eller gärna redigera direkt).

+1.Och tack för att du med matematik visade vad som stod i mitt svar första stycket.

+1 Jag önskar att detta var det accepterade / bästa svaret.Jag tycker att det lätt förtjänar att vara.

user1705135

2013-01-16 05:36:22 UTC

view on stackexchange narkive permalink

PCA ger EXAKT samma resultat som klassisk MDS om Euklidiskt avstånd används.

Jag citerar Cox & Cox (2001), s 43-44:

Det finns en dualitet mellan en huvudkomponentanalys och PCO [huvudkoordinatanalys, aka klassisk MDS] där skillnader ges genom euklidiskt avstånd. Cox & Cox förklarar det ganska tydligt:

Föreställ dig att du har $ X $ = attribut på $ n $ produkter med $ p $ dimensioner, medelcentrerad

PCA uppnås av hitta egenvektorer för kovariansmatrisen ~ $ X'X $ (dividerat med n-1) - anropa egenvektorerna $ \ xi $ och egenvärden $ \ mu $.

MDS uppnås genom att först konvertera $ X $ i avståndsmatris, här, euklidiskt avstånd, dvs $ XX '$, och hitta sedan egenvektorerna - kalla egenvektorerna $ v $ och egenvärden $ \ lambda $.

s 43: "Det är ett välkänt resultat att egenvärdena på $ XX '$ är desamma som de för $ X'X $, tillsammans med en n extra n-p noll egenvärden. " Så för $ i < p $, $ \ mu_i $ = $ \ lambda_i $

Gå tillbaka till definitionen av egenvektorer, överväg $ i ^ {th} $ egenvärden. $ X'Xv_i = \ lambda_i v_i $

Fördubbel $ v_i $ med $ X '$, vi får $ (X'X) X'v_i = \ lambda_i X'v_i $

Vi har också $ X'X \ xi_i = \ mu_i \ xi_i $. Eftersom $ \ lambda_i = \ mu_i $ får vi den $ \ xi_i = X'v_i $ för $ i<p $.

Jag gjorde lite kodning i R och använde cmdscale som en implementering av klassisk MDS och prcomp för PCA - men resultatet är dock inte detsamma ... är det någon sak som jag saknar?!

"samma resultat som klassisk MDS".Med "klassisk MDS" måste du mena Torgersons MDS här.Då är uttalandet verkligen sant, för Torgersons MDS _är egentligen PCA (börjar bara från avståndsmatrisen).Om "klassisk MDS" definieras annorlunda (se mitt svar) är uttalandet inte sant.

Vänta, hur i hela världen ger XX 'euklidiskt avstånd ??XX 'är en inre produkt - om matrisen var standardiserad skulle den ge cosinuslikheten.Euklidiskt avstånd kräver subtraktion och kvadratrot.

@user1705135 Jag är förvirrad av din poäng 5. Borde det inte vara $ XX'v_i = \ lambda_i v_i $?

hearse

2012-08-23 17:33:03 UTC

view on stackexchange narkive permalink

Jämförelse: "Metrisk MDS ger samma resultat som PCA" - procedurellt - när vi tittar på hur SVD används för att uppnå det bästa. Men de bevarade högdimensionella kriterierna är olika. PCA använder en centrerad kovariansmatris medan MDS använder en grammatris erhållen genom dubbelcentreringsavståndsmatriser.

Sätter skillnaden matematiskt: PCA kan ses som maximera $ Tr (X ^ T (I- \ frac {1} {n} ee ^ T) X) $ över $ X $ under begränsningar att $ X $ är ortogonal, vilket ger axlar / huvudkomponenter. I flerdimensionell skalning beräknas en grammatris (en p.s.d-matris som kan representeras som $ Z ^ TZ $) från euklidiskt avstånd mellan raderna i $ X $ och följande minimeras över $ Y $. minimera: $ || G-Y ^ TY || _ {F} ^ {2} $.