Internet ablakok Android

Korrelációs mátrix. Rendszerszintű üzleti optimalizálási és minőségirányítási központ – faktorelemzési korrelációs mátrix a faktorelemzéshez

Statisztikai eljárások összessége, amelyek célja, hogy egy adott változókészletből olyan változók részhalmazait vonják ki, amelyek egymással szorosan összefüggenek (korrelálnak). Az egyik részhalmazba tartozó és egymással korrelált, de a többi részhalmaz változóitól nagymértékben független változók alkotják. A faktoranalízis célja a nyíltan megfigyelhető tényezők azonosítása különféle megfigyelhető változók segítségével. A kiválasztott faktorok számának ellenőrzésének további módja az eredetihez közeli korrelációs mátrix kiszámítása, ha a tényezőket helyesen választottuk ki. Ezt a mátrixot hívják reprodukálják korrelációs mátrix. Ha látni szeretné, hogy ez a mátrix hogyan tér el az eredeti korrelációs mátrixtól (amivel az elemzés elkezdődött), kiszámolhatja a köztük lévő különbséget. A reziduális mátrix jelezheti az "egyet nem értést", vagyis azt, hogy a figyelembe vett korrelációs együtthatók a rendelkezésre álló tényezők alapján nem kaphatók meg kellő pontossággal. A főkomponensek és a faktoranalízis módszereiben nincs olyan külső kritérium, amely lehetővé tenné a megoldás helyességének megítélését. A második probléma abban rejlik, hogy a faktorok kiválasztása után végtelen számú, azonos kezdeti változóra épülő, de eltérő megoldást adó forgatási lehetőség adódik (a faktorstruktúrákat kissé eltérő módon határozzák meg). A matematikailag ekvivalens megoldások végtelen halmazán belüli lehetséges alternatívák közötti végső választás az értelmezési eredmények kutatóinak értelmes megértésétől függ. S mivel a különféle megoldások értékelésére nincs objektív kritérium, a megoldásválasztás javasolt indoklása megalapozatlannak és nem meggyőzőnek tűnhet.


Meg kell jegyezni, hogy nincsenek egyértelmű statisztikai kritériumok a faktorizálás teljességére. Ennek ellenére alacsony értékei, például 0,7-nél kisebbek, azt jelzik, hogy kívánatos a jellemzők számának csökkentése vagy a tényezők számának növelése.

Met Valamely jellemző és egy általános tényező kapcsolatának együtthatóját, amely egy tényezőnek a tulajdonságra gyakorolt ​​hatásának mértékét fejezi ki, egy adott jellemző faktorterhelésének nevezzük ennél az általános tényezőnél.

A faktorbetöltésekből álló mátrixot, amelyben az oszlopok száma megegyezik a közös tényezők számával, a sorok száma pedig az eredeti jellemzők számával, faktormátrixnak nevezzük.

A faktormátrix kiszámításának alapja az eredeti jellemzők páros korrelációs együtthatóinak mátrixa.

A korrelációs mátrix rögzíti az egyes jellemzőpárok közötti kapcsolat mértékét. Hasonlóképpen, a faktormátrix rögzíti az egyes jellemzők lineáris kapcsolatának mértékét minden közös tényezővel.

A faktoriális terhelés nagysága nem haladja meg a modulus egységét, előjele pedig pozitív vagy negatív kapcsolatot jelez egy tulajdonság és egy tényező között.

Minél nagyobb egy adott tényező faktorterhelésének abszolút értéke egy adott tényezőhöz, ez a tényező annál inkább meghatározza ezt a jellemzőt.

Valamely tényező faktorterhelésének nullához közeli értéke arra utal, hogy ez a tényező gyakorlatilag nem befolyásolja ezt a tulajdonságot.

A faktormodell lehetővé teszi a faktorok hozzájárulásának kiszámítását az összes jellemző teljes szórásához. Összegezve a faktorterhelések négyzetét az egyes tényezőkre az összes jellemzőre vonatkozóan, megkapjuk annak hozzájárulását a jellemzőrendszer teljes szórásához: minél nagyobb ennek a hozzájárulásnak a részaránya, annál szignifikánsabb és jelentősebb ez a tényező.

Ugyanakkor azonosítható az optimális számú közös tényező, amely kellően jól leírja a kezdeti jellemzők rendszerét.

Egy faktor értékét (megnyilvánulási mértékét) egy egyedi objektumban az objektum faktorsúlyának nevezzük erre a faktorra. A faktorsúlyok lehetővé teszik az objektumok rangsorolását és sorrendbe állítását az egyes tényezőkhöz.

Minél nagyobb egy bizonyos tárgy faktorsúlya, annál inkább megnyilvánul benne a jelenségnek vagy mintázatnak az az oldala, amit ez a faktor tükröz.

A faktorsúlyok lehetnek pozitívak vagy negatívak.

Tekintettel arra, hogy a faktorok standardizált értékek, amelyek átlagos értéke nulla, a nullához közeli faktorsúlyok a faktor átlagos megnyilvánulási fokát jelzik, a pozitívak - ha ez a mérték magasabb az átlagosnál, a negatívak - erről. akkor az átlag alatt van.

A gyakorlatban, ha a már talált főkomponensek (vagy tényezők) száma nem több, mint m/ 2, az általuk magyarázott variancia nem kevesebb, mint 70%, a következő komponens pedig legfeljebb 5%-kal járul hozzá a teljes szóráshoz, a faktormodell elég jónak tekinthető.

Ha meg szeretné találni a tényezők értékeit, és további változóként szeretné elmenteni őket, kapcsolja be a Pontszámok ... (Értékek) kapcsolót. A faktorérték általában a -3 és +3 tartományban van.

A faktoranalízis erősebb és összetettebb eszköz, mint a fő módszere

komponens, ezért alkalmazzák abban az esetben, ha az eredményeket

az alkatrészelemzés nem teljesen kielégítő. De mivel ez a két módszer

ugyanazokat a problémákat oldja meg, össze kell hasonlítani a komponens eredményeit és


faktorelemzések, azaz terhelési mátrixok, valamint regressziós egyenletek

főbb összetevők és közös tényezők, megjegyzéseket a hasonlóságok és különbségek

eredmények.

A lehetséges tényezők maximális száma m adott számú funkcióhoz R az egyenlőtlenség határozza meg

(p + m)<(р-m)2,

A faktoranalízis teljes eljárásának végén matematikai transzformációk segítségével az fj faktorokat a kezdeti előjeleken keresztül fejezzük ki, azaz a lineáris diagnosztikai modell paramétereit explicit formában kapjuk meg.

A főkomponens- és faktorelemzési módszerek statisztikai eljárások összessége, amelyek célja, hogy egy adott változóhalmazból olyan változók részhalmazait vonják ki, amelyek egymással szorosan összefüggenek (korrelálnak). Az egy részhalmazba tartozó változók, amelyek korrelálnak egymással, de nagymértékben függetlenek a többi részhalmaz változóitól, alaktényezők 1 ... A faktoranalízis célja a nyíltan megfigyelhető tényezők azonosítása különféle megfigyelhető változók segítségével.

Általános kifejezés erre j-a faktor így írható fel:

ahol Fj (j 1-től ig terjed k) általános tényezők, Ui- jellemző, Aij- lineáris kombinációban használt állandók k tényezőket. A közös tényezők nem feltétlenül korrelálnak egymással és a közös tényezőkkel.

A kapott adatokra alkalmazott faktoranalitikai feldolgozási eljárások eltérőek, de az elemzés felépítése (algoritmusa) azonos fő szakaszokból áll: 1. A kiindulási adatmátrix elkészítése. 2. A jellemzők kapcsolatának mátrixának kiszámítása. 3. Faktorizáció(ebben az esetben a faktoriális megoldás során azonosított tényezők számát és a számítási módot szükséges feltüntetni). Ebben a szakaszban (és a következőben is) azt is meg lehet becsülni, hogy a kapott faktoriális megoldás mennyire közelíti egymáshoz a kiindulási adatokat. 4. Rotáció - tényezők átalakítása, értelmezésük elősegítése. 5. Tényezőértékek számítása minden egyes megfigyelési tényezőre. 6. Adatok értelmezése.

a faktoranalízis feltalálása éppen azzal az igénysel függött össze, hogy egyidejűleg nagyszámú, különböző léptékű korrelációs együtthatót kellett egymással elemezni. A főkomponensek és a faktoranalízis módszereivel kapcsolatos egyik probléma, hogy nincsenek olyan kritériumok, amelyek lehetővé tennék a talált megoldás helyességének ellenőrzését. Például a regressziós elemzésben összehasonlíthatóak a függő változók empirikusan kapott mutatói a javasolt modell alapján elméletileg számított mutatókkal, és a köztük lévő korreláció a korreláció szerinti megoldás helyességének kritériumaként használható. elemzési séma két változókészlethez. A diszkriminanciaanalízisben a döntés helyessége azon alapul, hogy mennyire pontosan jósolják meg az alanyok egyik vagy másik osztályhoz való tartozását (ha összehasonlítjuk a valós élethez való tartozással). Sajnos a főkomponensek és a faktoranalízis módszereiben nincs olyan külső kritérium, amely lehetővé tenné a megoldás helyességének megítélését. A második probléma az, hogy a faktorok kiválasztása után végtelen számú forgatási lehetőség merül fel, a ugyanazok a kezdeti változók, de különböző megoldásokat adnak (a faktorstruktúrák kissé eltérő módon vannak definiálva). A matematikailag ekvivalens megoldások végtelen halmazán belüli lehetséges alternatívák közötti végső választás az értelmezési eredmények kutatóinak értelmes megértésétől függ. S mivel a különféle megoldások értékelésére nincs objektív kritérium, a megoldásválasztás javasolt indoklása megalapozatlannak és nem meggyőzőnek tűnhet.

A harmadik probléma az, hogy a faktoranalízist gyakran használják egy rosszul megtervezett tanulmány megmentésére, amikor világossá válik, hogy egyetlen statisztikai eljárás sem hozza meg a kívánt eredményt. A főkomponensek és a faktoranalízis ereje lehetővé teszi számukra, hogy rendezett koncepciót építsenek fel a kaotikus információkból (ami kétes hírnevet ad nekik).

A kifejezések második csoportja a megoldás részeként felépített és értelmezett mátrixokra vonatkozik. Fordulat A tényezők egy adott számú tényezőre a legkönnyebben értelmezhető megoldás megtalálásának folyamata. A fordulatoknak két fő osztálya van: ortogonálisés ferde... Az első esetben minden tényezőt eleve úgy választanak ki, hogy ortogonálisak legyenek (egymással nem korrelálnak), és megszerkesztik. faktorterhelési mátrix, amely a megfigyelt változók és tényezők közötti kapcsolatok mátrixa. A terhelések nagysága tükrözi az egyes megfigyelt változók és az egyes tényezők közötti kapcsolat mértékét, és a megfigyelt változó és a tényező (látens változó) közötti korrelációs együtthatóként értelmezhető, ezért -1 és 1 között változik. Az ortogonális elforgatást a faktorterhelések mátrixának elemzése alapján értelmezzük, azonosítva, hogy a tényezők közül melyik kapcsolódik leginkább egy adott megfigyelhető változóhoz. Így minden faktorról kiderül, hogy az elsődleges változók egy csoportja adja meg, amelyek a legnagyobb faktorterheléssel rendelkeznek.

Ha ferde elforgatást hajtunk végre (azaz a tényezők közötti korreláció lehetősége eleve megengedett), akkor több további mátrixot szerkesztünk. Tényezőkorrelációs mátrix tényezők közötti összefüggéseket tartalmazza. Tényezőterhelési mátrix A fent említett két részre oszlik: kapcsolatok szerkezeti mátrixa tényezők és változók között és faktorleképező mátrix, amely az egyes megfigyelt változók és az egyes faktorok közötti lineáris kapcsolatot fejezi ki (anélkül, hogy figyelembe venné egyes tényezők egymásra hatását, amelyet a tényezők egymással való korrelációja fejez ki). A faktorok értelmezése a ferde forgatás után az elsődleges változók csoportosításán alapul (hasonlóan a fent leírtakhoz), de mindenekelőtt a faktorleképezési mátrix felhasználásával.

Végül mindkét forgatásnál a faktorérték együttható mátrix, amelyet a regressziós típusú speciális egyenletekben használnak a faktorértékek (tényezőpontok, mutatók faktoronkénti) kiszámításához minden megfigyeléshez az elsődleges változók értékei alapján.

A főkomponensek és a faktoranalízis módszereit összevetve a következőket jegyezzük meg. A főkomponens-analízis elvégzése során olyan modellt építenek, amely a lehető legjobban magyarázza (reprodukciós maximalizálása) az összes változóra kapott kísérleti adatok teljes varianciáját. Ennek eredményeként az "összetevők" kiemelésre kerülnek. A faktoranalízis során feltételezzük, hogy minden változót számos hipotetikus általános tényező (minden változóra hatással van) és jellemző tényező (minden változónál eltérő) magyaráz (meghatároz). A számítási eljárásokat pedig úgy hajtják végre, hogy mind a mérési hibából adódó, mind a konkrét tényezőkkel magyarázott szórásoktól megszabaduljanak, és csak a hipotetikusan létező általános tényezők által magyarázott szórásokat elemezzék. Az eredmény faktoroknak nevezett objektumok. Azonban, mint már említettük, tartalom-pszichológiai szempontból ennek a matematikai modellek különbségének nincs szignifikáns jelentése, ezért a jövőben, ha nem adnak külön magyarázatot arra, hogy melyik esetről beszélünk a „tényező” kifejezés az összetevők és a tényezők vonatkozásában.

Mintaméretek és hiányzó adatok. Minél nagyobb a minta, annál nagyobb a kapcsolati mutatók megbízhatósága. Ezért nagyon fontos, hogy elég nagy minta legyen. A szükséges mintanagyság függ attól is, hogy a sokaság egészére jellemző mutatók milyen összefüggésben állnak egymással és a tényezők számával: erős és megbízható kapcsolat és kis számú jól definiált tényező esetén elegendő egy kis minta is.

Így egy 50 alanyból álló minta nagyon rossznak, 100 - rossznak, 200 - átlagosnak, 300 -nak - jónak, 500 -nak - nagyon jónak és 1000 -nek - kiválónak minősül. Comrey, Lee, 1992). Ezen megfontolások alapján általános elvként legalább 300 alanyból álló minták vizsgálata javasolt. Elegendő számú markerváltozón alapuló, nagy faktorterhelésű (> 0,80) megoldáshoz körülbelül 150 alanyból álló minta ( Guadagnoli, Velicer, 1988). a normalitást minden változó esetében külön ellenőrzi aszimmetriák(mennyivel tolódik el a vizsgált eloszlás görbéje jobbra vagy balra az elméletileg normális görbéhez képest) ill. többlet(a meglévő eloszlás „harangjának” felfelé vagy lefelé hajlásának mértéke, vizuálisan ábrázolva a frekvenciadiagramban, összehasonlítva a sűrűséggráf „harangjával”, amely a normál eloszlásra jellemző). Ha egy változó szignifikáns aszimmetriával és görbülettel rendelkezik, akkor egy új változó bevezetésével (a figyelembe vett egy egyértékű függvényeként) átalakítható oly módon, hogy ez az új változó normális eloszlású legyen (további részletekért lásd: Tabachnik, Fidell, 1996, ch. 4).

Sajátvektorok és a megfelelő sajátértékek
a kérdéses esettanulmányhoz

1. sajátvektor

2. sajátvektor

Sajátérték 1

2. sajátérték

Mivel a korrelációs mátrix diagonalizálható, a sajátvektorok és sajátértékek mátrixalgebrája alkalmazható rá, hogy megkapjuk a faktoranalízis eredményeit (lásd 1. melléklet). Ha a mátrix átlósítható, akkor a faktoriális szerkezettel kapcsolatos minden lényeges információ átlós formában van. A faktoranalízis során a sajátértékek megfelelnek a faktorok által magyarázott varianciának. A legnagyobb sajátértékkel rendelkező tényező magyarázza a legnagyobb szórást, és így tovább, egészen addig, amíg olyan kis vagy negatív sajátértékű tényezőkről van szó, amelyeket általában nem vesznek figyelembe az elemzésben. A faktorterhelési mátrix a tényezők és a változók közötti kapcsolatok mátrixa (korrelációs együtthatóként értelmezve). Az első oszlop az első tényező és az egyes változók közötti összefüggéseket tartalmazza: utalvány költsége (-.400), a komplexum kényelme (.251), levegő hőmérséklet (.932), vízhőmérséklet(.956). A második oszlop a második tényező és az egyes változók közötti összefüggéseket tartalmazza: utalvány költsége (.900), a komplexum kényelme(-.947), levegő hőmérséklet (.348), vízhőmérséklet(.286). A faktort a vele erősen kapcsolódó (azaz nagy terhelésű) változók alapján értelmezzük. Tehát az első tényező főként "éghajlati" ( levegő és víz hőmérséklete), míg a második „gazdasági” ( a túra költsége és a komplexum kényelme).

Ezen faktorok értelmezésekor figyelni kell arra, hogy a nagy terhelésű változók az első tényezőre ( levegő hőmérsékletés vízhőmérséklet), pozitívan kapcsolódnak egymáshoz, míg a második tényező nagy terhelésű változói ( utalvány költségeés a komplexum kényelme), negatívan kapcsolódnak egymáshoz (egy olcsó üdülőhelytől nem várhatunk nagy kényelmet). Az első tényezőt unipolárisnak nevezik (minden változó egy póluson van csoportosítva), a második pedig kétpólusú(a változók két csoportra oszlanak, jelentésükben ellentétes - két pólus). A plusz előjelű faktoriális terhelésű változók pozitív, a mínusz előjelűek negatív pólust alkotnak. Ebben az esetben a „pozitív” és „negatív” pólus elnevezése a faktor értelmezésekor nem rendelkezik „rossz” és „jó” értékelő jelentéssel. Az előjel kiválasztása véletlenszerűen történik a számítások során. Ortogonális forgatás

A forgatást általában a faktorálás után alkalmazzák a magas korrelációk maximalizálása és az alacsony korrelációk minimalizálása érdekében. A forgatásnak számos módja létezik, de a leggyakrabban használt forgatás az varimax, amely egy varianciamaximalizálási eljárás. Ez a forgatás maximalizálja a faktorterhelések szórását, így a nagy terhelések magasabbak, az alacsonyabbak pedig alacsonyabbak minden egyes tényezőnél. Ezt a célt azzal érjük el transzformációs mátrixok Λ:

Transzformációs mátrix a Ψ elforgatási szög szinuszainak és koszinuszainak mátrixa. (Innen az átalakítás neve - fordulat, mert geometriai szempontból a tengelyek a faktortér origója körül forognak.) Miután elvégeztük a forgatást és megkaptuk a forgatás utáni faktorterhelések mátrixát, további mutatók sora elemezhető (lásd 4. táblázat). Változó közössége a faktorterhelések felhasználásával számított variancia. Ez a faktoriális modell által előrejelzett változó másodfokú többszörös korrelációja. Az általánosság kiszámítása az összes tényező változójára vonatkozó faktorterhelések (SKN) négyzeteinek összegeként történik. asztal 4 közös a túra költségét egyenlő (-.086) 2 + (. 981) 2 = .970, azaz 97%-os szórás a túra költségét az 1. és 2. faktorral magyarázható.

A faktor varianciájának töredéke az összes változóra a faktor SKN-je, osztva a változók számával (ortogonális elforgatás esetén) 7 ... Az első tényező esetében a variancia törtrésze egyenlő:

[(-.086)2+(-.071)2+(.994)2+(.997)2]/4 = 1.994/4 = .50,

vagyis az első faktor a változók szórásának 50%-át magyarázza. A második faktor a változók szórásának 48%-át magyarázza, és (a forgás ortogonalitása miatt) a két tényező együttesen a változók szórásának 98%-át.

A faktorterhelések, közösségek, SKN,
ortogonális tényezők varianciája és kovariancia forgatás után

Közösségek ( h2)

Az utalvány költsége

∑a2=.970

Komfort szint

∑a2=.960

Levegő hőmérséklet

∑a2=.989

Vízhőmérséklet

∑a2=.996

∑a2=1.994

∑a2=1.919

Százalékos eltérés

Kovariancia töredéke

A faktorral magyarázott megoldás szórásának törtrésze a tört kovariancia egy tényező SKN-je, osztva az általánosságok összegével (az SKN-nek a változók feletti összegével). Az első tényező a megoldás variancia 51%-át magyarázza (1,994 / 3,915); a második - 49% (1,919 / 3,915); a két tényező együtt magyarázza a kovariancia egészét.

Eigenval - a megfelelő számú tényező szórásának értékét tükrözi. Gyakorlatként javasoljuk, hogy írja fel ezeket a képleteket a változók számított értékeinek eléréséhez. Például az első válaszolónak:

1.23 = -.086(1.12) + .981(-1.16)

1.05 = -.072(1.12) - .978(-1.16)

1.08 = .994(1.12) + .027(-1.16)

1.16 = .997(1.12) - .040(-1.16)

Vagy algebrai formában:

Z a túra költsége = a 11F 1 + a 12F 2

Z komfort a komplexumban = a 2l F 1 + a 22F 2

Z levegő hőmérséklet = a 31F 1 + a 32F 2

Z vízhőmérséklet = a 41F 1 + a 42F 2

Minél nagyobb a terhelés, annál nagyobb bizalommal feltételezhetjük, hogy a változó határozza meg a tényezőt. Comrie és Lee ( Comrey, Lee, 1992) azt sugallják, hogy a 0,71-nél nagyobb terhelések (az eltérés 50%-át magyarázza) kiválóak, a szórás 0%-a nagyon jó, 0% jó, 0% kielégítő, és 0,32 (az eltérés 10%-át magyarázza) variancia) gyengék.

Tegyük fel, hogy egy (kissé "hülye") tanulmányt végez, amelyben száz ember magasságát méri meg hüvelykben és centiméterben. Így két változója van. Ha tovább szeretné vizsgálni például a különböző táplálék-kiegészítők növekedésre gyakorolt ​​hatását, továbbra is használni fogja mindkét változók? Valószínűleg nem, hiszen a magasság az ember egyik jellemzője, függetlenül attól, hogy milyen mértékegységekben mérik.

A változók közötti függőség a segítségével fedezhető fel szórványok... Az illesztéssel kapott regressziós egyenes grafikusan ábrázolja az összefüggést. Ha a diagramon látható regressziós egyenes alapján definiál egy új változót, akkor egy ilyen változó mindkét változó legjelentősebb jellemzőit tartalmazza. Tehát valójában csökkentette a változók számát, és kettőt cserélt eggyel. Vegye figyelembe, hogy az új tényező (változó) valójában a két eredeti változó lineáris kombinációja.

A faktoranalízis a matematikai statisztika egyik ága. Célja a matematikai statisztika más ágaihoz hasonlóan olyan modellek, fogalmak és módszerek kidolgozása, amelyek lehetővé teszik kísérleti vagy megfigyelt adatok tömbeinek elemzését és értelmezését, függetlenül azok fizikai formájától.

A kísérleti adatok bemutatásának egyik legtipikusabb formája a mátrix, amelynek oszlopai különböző paramétereknek, tulajdonságoknak, teszteknek stb., a sorok pedig egyedi objektumoknak, jelenségeknek, módoknak felelnek meg, amelyeket meghatározott paraméterértékek halmaza ír le. . A gyakorlatban a mátrix mérete meglehetősen nagynak bizonyul: például ennek a mátrixnak a sorainak száma több tíztől több százezerig változhat (például szociológiai felmérésekben), az oszlopok száma pedig egy-két-több száz. Ekkora méretű mátrixok közvetlen, „vizuális” elemzése lehetetlen, ezért a matematikai statisztikában számos olyan megközelítés és módszer jelent meg, amelyek a mátrixban található kezdeti információk megfigyelhető méretűre „tömörítésére”, a „leglényegesebb” kinyerésére szolgálnak. a kezdeti információból, a "másodlagos", "véletlen" elvetésével.

A mátrix formájában bemutatott adatok elemzésekor kétféle probléma merül fel. Az első típusú feladatok az objektumok eloszlásának „rövid leírását” célozzák, míg a második típus feladatai a paraméterek közötti kapcsolat feltárását célozzák.

Nem szabad megfeledkezni arról, hogy ezeknek a problémáknak a megjelenésének fő ösztönzője nemcsak és nem annyira a számok nagy tömbjének rövid idejű kódolásának vágyában rejlik, hanem egy sokkal alapvetőbb, módszertani jellegű körülményben: amint röviden le lehetett írni a számok nagy tömbjét, akkor elhihetjük, hogy feltárult egy bizonyos objektív szabályszerűség, ami egy rövid leírás lehetőségéhez vezetett; és éppen az objektív minták keresése az a fő cél, amelyre általában adatgyűjtés történik.

Az adatmátrix feldolgozásának említett megközelítései és módszerei abban különböznek egymástól, hogy milyen típusú adatfeldolgozási problémát kívánnak megoldani, és milyen méretű mátrixokra alkalmazhatók.

Ami a paraméterek közötti kapcsolatok rövid leírásának problémáját illeti ezen paraméterek átlagos számával, akkor ebben az esetben a megfelelő korrelációs mátrix több tíz vagy száz számot tartalmaz, és önmagában még nem szolgálhat a meglévő „rövid leírásaként”. a paraméterek közötti kapcsolatokat, de ennek szükséges, hogy további feldolgozáson menjen keresztül.

A faktoranalízis csak modellek és módszerek összessége, amelyek célja a korrelációs mátrixban található információk "tömörítése". A faktoranalízis különféle modelljei a következő hipotézisre épülnek: a megfigyelt vagy mért paraméterek csak közvetett jellemzői a vizsgált objektumnak vagy jelenségnek, valójában léteznek belső (rejtett, nem közvetlenül megfigyelhető) paraméterek vagy tulajdonságok, amelyek száma kicsi, és amelyek meghatározzák a megfigyelt paraméterek értékeit. Ezeket a belső paramétereket általában faktoroknak nevezik. A faktoranalízis feladata a megfigyelt paraméterek bemutatása a tényezők lineáris kombinációi és esetleg néhány további, "jelentéktelen" érték - "zaj" formájában. Figyelemre méltó, hogy bár maguk a faktorok nem ismertek, ilyen dekompozíciót kaphatunk, sőt, meghatározhatók ilyen tényezők, pl. minden objektumnál meg lehet adni az egyes tényezők értékeit.

A faktoranalízis, függetlenül az alkalmazott módszerektől, egy tesztsorozaton kapott interkorrelációs táblázat, az úgynevezett korrelációs mátrix feldolgozásával kezdődik, és egy faktormátrix megszerzésével zárul, azaz. táblázat, amely bemutatja az egyes tényezők súlyát vagy terhelését az egyes vizsgálatokhoz. Az 1. táblázat egy hipotetikus faktormátrix csak két tényezővel.

A faktorok a táblázat felső sorában szerepelnek a legjelentősebbtől a legkevésbé jelentősig, súlyukat pedig a 10 teszt mindegyikében a megfelelő oszlopokban adjuk meg.

Asztal 1

Hipotetikus faktoriális mátrix

Koordinátatengelyek. Szokás a tényezőket geometriailag koordinátatengelyek formájában ábrázolni, amelyekhez viszonyítva minden tesztet pontként lehet ábrázolni. Rizs. Az 1. ábra ezt az eljárást ismerteti. Ezen a grafikonon az 1. táblázatban látható 10 teszt mindegyike pontként jelenik meg két tényezőhöz képest, amelyek az I. és II. tengelynek felelnek meg. Így az 1. tesztet egy pont képviseli, amelynek koordinátái az I tengely mentén 0,74, a II tengely mentén pedig 0,54. A fennmaradó 9 tesztet reprezentáló pontok hasonló módon épülnek fel, a táblázat súlyértékeinek felhasználásával. 1.

Megjegyzendő, hogy a koordinátatengelyek helyzetét az adatok nem rögzítik. Az eredeti korrelációs táblázat csak a tesztek helyzetét határozza meg (az 1. ábra pontjait) egymáshoz képest. Ugyanazok a pontok a koordinátatengelyek tetszőleges pozíciójával egy síkon ábrázolhatók. Emiatt a faktoranalízis során elterjedt a tengelyek elforgatása, amíg a legmegfelelőbb és legkönnyebben értelmezhető megjelenítést nem kapjuk.

Rizs. 1. Egy hipotetikus faktorleképezés, amely a 10 teszt mindegyikéhez két csoporttényező súlyát mutatja.

ábrán. Az 1. ábrán az elforgatás után kapott I "és II" tengely szaggatott vonallal látható. Ez a forgatás a Thurstone által javasolt kritériumok szerint történik pozitív változatosság és egyszerű szerkezet. Az első a tengelyek olyan helyzetbe forgatását jelenti, ahol minden jelentős negatív súly megszűnik. A legtöbb pszichológus úgy ítéli meg, hogy a negatív faktorterhelések logikailag összeegyeztethetetlenek a képességtesztekkel, mivel az ilyen terhelés azt jelenti, hogy minél magasabb egy egyén pontszáma egy adott tényezőre, annál alacsonyabb pontszámot kap a megfelelő teszten. Az egyszerű tervezési kritérium lényegében azt jelenti, hogy minden tesztnek a lehető legkevesebb tényezőt kell terhelnie.

Mindkét kritérium teljesítése a legkönnyebben és legegyértelműbben értelmezhető tényezőket ad. Ha egy teszt nagy terhelést jelent egy tényezőre, és nincs jelentős terhelése más tényezőkre, akkor ennek a tesztnek a tartalmát megvizsgálva megtudhatunk valamit ennek a faktornak a természetéről. Ellenkezőleg, ha egy teszt hat tényezőre közepes vagy alacsony terhelést tartalmaz, akkor ezek egyikének természetéről keveset árul el.

ábrán. 1 jól látható, hogy a koordinátatengelyek elforgatása után minden verbális teszt (1-5) az I-tengely mentén vagy ahhoz nagyon közel helyezkedik el, a numerikus tesztek (6-10) pedig szorosan a II- tengely köré csoportosulnak. tengely". Az elforgatott tengelyekhez képest mért új tényezőterhelések a táblázatban láthatók. 2. Tényezőterhelések a táblázatban. 2-nek nincs negatív értéke, kivéve az elhanyagolható értékeket, amelyek egyértelműen mintavételi hibának tulajdoníthatók. Minden verbális teszt nagy terhelést jelent az I. faktoron "és gyakorlatilag nulla - a II. faktoron". A numerikus tesztek viszont nagy terhelést jelentenek a II. faktor esetében, „és elhanyagolhatóak az I. faktor esetében”. Így a koordinátatengelyek elforgatása jelentősen leegyszerűsítette mindkét tényező azonosítását és elnevezését, valamint az egyes tesztek faktorösszetételének leírását. A gyakorlatban gyakran kiderül, hogy a faktorok száma kettőnél több, ami természetesen bonyolítja geometriai ábrázolásukat és statisztikai elemzésüket, de a vizsgált eljárás lényegén nem változtat.

2. táblázat

Tényezőmátrix elforgatás után

Egyes kutatókat az elméleti modell, mint a tengelyek elforgatásának elve vezérli. Figyelembe veszi ugyanazon tényezők fennmaradását vagy megerősítését is a függetlenül elvégzett, de összehasonlítható vizsgálatokban.

A tényezők értelmezése. Miután megkaptuk a faktoriális megoldást (vagy egyszerűbben a faktoriális mátrixot) a rotációs eljárás után, folytathatjuk a faktorok értelmezését és megnevezését. A munka ezen szakasza inkább pszichológiai intuíciót igényel, mint statisztikai képzést. Egy adott faktor természetének megértéséhez nincs más dolgunk, mint megvizsgálni azokat a teszteket, amelyek erre a faktorra nagy terhelést jelentenek, és megpróbálunk közös pszichológiai folyamatokat találni számukra. Minél több nagy terhelésű tesztet végeznek erre a tényezőre, annál könnyebben feltárható a természete. Asztalból. A 2-es faktor például azonnal világos, hogy az I. faktor "verbális, a II. faktor" pedig számszerű. táblázatban megadva. A 2 faktoros terhelés is tükrözi az egyes tesztek faktorral való összefüggését.

Alapvető rendelkezések

A faktoranalízis a többváltozós statisztikai elemzés egyik újabb területe. Ezt a módszert eredetileg a bemeneti paraméterek közötti összefüggés magyarázatára fejlesztették ki. A korrelációs elemzés eredménye a korrelációs együtthatók mátrixa. Kis számú jellemzővel (változóval) a mátrix vizuális elemzése elvégezhető. A jelek számának növekedésével (10 vagy több) a vizuális elemzés nem ad pozitív eredményt. Kiderült, hogy az összefüggések sokfélesége több általánosított faktor hatásával magyarázható, amelyek a vizsgált paraméterek függvényei, míg maguk a faktorok ismeretlenek, de a vizsgált tulajdonságokon keresztül kifejezhetők. A faktoranalízis megalapítója L. Thurstone amerikai tudós.

A modern statisztikusok a faktoranalízis alatt olyan módszerek összességét értik, amelyek a jellemzők között valóban létező kapcsolat alapján lehetővé teszik a szervezeti struktúra látens (rejtett) általánosító jellemzőinek azonosítását, a vizsgált jelenségek és folyamatok fejlődési mechanizmusait.

Példa: tegyük fel, hogy n autót 2 kritérium szerint értékelnek:

x 1 - az autó költsége,

x 2 - a motor élettartamának időtartama.

Ha x 1 és x 2 korrelál, akkor a koordinátarendszerben egy irányított és meglehetősen sűrű ponthalmaz jelenik meg, amelyet formálisan az új tengelyek és (5. ábra) jelenítenek meg.

6. ábra

Kiemelkedő tulajdonság F 1 és F 2 az, hogy sűrű pontcsoportokon mennek keresztül, és ezzel korrelálnak x 1 x 2.Maximum

az új tengelyek száma egyenlő lesz az elemi jellemzők számával. A faktoranalízis továbbfejlesztése megmutatta, hogy ez a módszer sikeresen alkalmazható az objektumok csoportosítási és osztályozási problémáiban.

Információk bemutatása faktoranalízisben.

A faktoranalízis elvégzéséhez az információkat m x n mátrix formájában kell bemutatni:

A mátrix sorai a megfigyelési objektumoknak (i ​​=), az oszlopok pedig a jellemzőknek (j =) felelnek meg.

Az objektumot jellemző tulajdonságok különböző dimenziókkal rendelkeznek. Az azonos dimenzióba hozás és a jellemzők összehasonlíthatósága érdekében a kiindulási adatok mátrixát általában egyetlen skála bevezetésével normalizálják. A normalizálás leggyakoribb módja a szabványosítás. A változóktól a változókig

Átlagos j jel,

Szórás.

Ezt az átalakítást szabványosításnak nevezzük.

Alapvető faktorelemzési modell

A faktoranalízis alapmodellje a következő:

z j - j-edik előjel (véletlenszerű érték);

F 1 , F 2 , ..., F p- általános tényezők (véletlenszerű értékek, normál eloszlású);

u j- jellemző tényező;

j1 , j2 , …, jp az egyes tényezők befolyásának jelentőségét jellemző terhelési tényezők (meghatározandó modellparaméterek);

A közös tényezők elengedhetetlenek az összes tulajdonság elemzéséhez. A jellemző tényezők azt mutatják, hogy csak az adott tulajdonságra vonatkozik, ez az attribútum sajátossága, amely nem fejezhető ki faktorokon keresztül. Tényezőterhelések j1 , j2 , …, jp jellemezze egy vagy másik általános tényező befolyásának nagyságát egy adott tulajdonság változásában. A faktoranalízis fő feladata a faktorterhelések meghatározása. Variancia S Mindegyik jellemző j 2-je 2 komponensre osztható:

    az első rész meghatározza a közös tényezők hatását - a h j 2 általánosságát;

    a második rész egy jellemző tényező - karakter - d j 2 hatását határozza meg.

Minden változó standardizált formában jelenik meg, ezért a variancia - állam jele S j 2 = 1.

Ha az általános és a jellemző tényezők nem korrelálnak egymással, akkor a j-edik jellemző szórása a következőképpen ábrázolható:

ahol a tulajdonság szórásának a töredéke annak tulajdonítható k faktor.

Bármely tényező teljes hozzájárulása a teljes szóráshoz:

Az összes közös tényező hozzájárulása a teljes szóráshoz:

A faktoranalízis eredményeit célszerű táblázat formájában bemutatni.

Tényezőterhelések

Közösségek

a 11 a 21 … A p1

a 12 a 22 a p2

… … … …

a 1 m a 2 m a délután

tényezőket

V 1 V 2 ... V p

A- tényezőterhelési mátrix. Sokféle módon beszerezhető, jelenleg a főkomponensek vagy főtényezők módszere a legelterjedtebb.

A főtényezők módszerének számítási eljárása.

A probléma főkomponensekkel történő megoldása a kezdeti adatmátrix lépésről lépésre történő átalakítására redukálódik x :

NS- kiindulási adatok mátrixa;

Z- szabványos jellemzőértékek mátrixa,

R- páronkénti korrelációk mátrixa:

Saját (karakterisztikus) számok átlós mátrixa,

j karakterisztikus egyenlet megoldásával találjuk meg

E– egységmátrix,

 j az egyes főkomponensek diszperziós indexe,

a kiindulási adatok szabványosításának függvényében, akkor = m

U- sajátvektorok mátrixa, amelyek az egyenletből származnak:

Ez valóban döntést jelent m lineáris egyenletrendszerek mindegyikéhez

Azok. minden sajátérték egy egyenletrendszernek felel meg.

Akkor találd meg V- normalizált sajátvektorok mátrixa.

Az A faktorleképezési mátrixot a következő képlettel számítjuk ki:

Ezután megtaláljuk a főkomponensek értékeit az ekvivalens képletek egyikével:

A négy ipari vállalkozás aggregátumát három jellemző alapján értékeljük:

    egy alkalmazottra jutó átlagos éves kibocsátás x 1;

    jövedelmezőségi szint x 2;

Az eszközök megtérülési szintje x 3.

Az eredményt szabványosított mátrixban mutatjuk be Z:

Mátrix szerint Z a páronkénti korrelációk mátrixát kapjuk R:

    Keressük meg a páronkénti korrelációk mátrixának determinánsát (például Faddeev-módszerrel):

    Szerkesszük meg a karakterisztikus egyenletet:

    Ezt az egyenletet megoldva azt kapjuk, hogy:

Így az eredeti x 1, x 2, x 3 elemi jellemzők három fő komponens értékével általánosíthatók, és:

F 1 elmagyarázza az egész variációt,

F 2 -, és F 3 -

Mindhárom fő összetevő a variáció 100%-át teszi ki.

Ezt a rendszert megoldva a következőket találjuk:

A  2 és  3 rendszerei hasonló módon épülnek fel.  2 rendszermegoldáshoz:

Sajátvektor mátrix U a következő formát ölti:

    A mátrix minden elemét elosztjuk a j-edik elemeinek négyzetösszegével

oszlopban kapjuk a normalizált mátrixot V.

Vegye figyelembe, hogy az egyenlőség = E.

    A faktorleképezés mátrixát a mátrixrelációból kapjuk

=

A mátrix egyes elemeinek értelmében A az eredeti jellemző közötti korrelációs mátrix parciális együtthatóit jelenti x j és fő összetevői F r. Ezért az összes elem.

Az egyenlőség magában foglalja a feltételt r- az alkatrészek száma.

Az egyes tényezők teljes hozzájárulása a jellemzők teljes varianciájához:

A faktorelemzési modell a következő formában lesz:

Keresse meg a főkomponensek értékeit (mátrix F) a képlet szerint

A főkomponensek értékeinek eloszlási középpontja a (0,0,0) pontban van.

Továbbá a számítások eredményein alapuló analitikus következtetések következnek, miután döntés születik a szignifikáns jellemzők számáról és a főkomponensek megnevezésének fő összetevőiről. A fő komponensek felismerésének, nevük meghatározásának problémáit szubjektív módon oldjuk meg a leképezési mátrix súlyegyütthatói alapján. A.

Fontolja meg a fő összetevők nevének megfogalmazásának kérdését.

jelöljük w 1 - jelentéktelen súlytényezők halmaza, amely nullához közeli elemeket tartalmaz,,

w 2 - jelentős súlyok készlete,

w 3 - jelentős súlyok részhalmaza, amelyek nem vesznek részt a főkomponens nevének kialakításában.

w 2 - w 3 - a névképzésben szerepet játszó súlyozó tényezők egy részhalmaza.

Minden fő tényezőhöz kiszámítjuk az információtartalom együtthatóját

A magyarázható jellemzők halmaza akkor tekinthető kielégítőnek, ha az informativitási együtthatók értéke 0,75-0,95 tartományba esik.

a 11 =0,776 a 12 =-0,130 a 13 =0,308

a 12 =0,904 a 22 =-0,210 a 23 =-0,420

a 31 =0,616 a 32 =0,902 a 33 =0,236

j = 1 esetén w 1 = ,w 2 ={a 11 ,a 21 ,a 31 },

.

j = 2 esetén w 1 ={a 12 ,a 22 }, w 2 ={ a 32 },

j = 3 esetén w 1 ={a 33 }, w 2 ={a 13 ,a 33 },

Funkcióértékek x 1 , x 2 , x 3, a főkomponens összetételét 100%-ban határozzák meg. ebben az esetben a jellemző legnagyobb hozzájárulása x 2, amelynek jelentése jövedelmezőség. helyes a funkció neve F 1 lesz termelési hatékonyság.

F 2-t a komponens határozza meg x 3 (eszközök megtérülése), nevezzük így az állóeszközök hatékony felhasználása.

F 3 a komponensek határozzák meg x 1 ,x 2 - nem vehetők figyelembe az elemzésben, mert a teljes eltérésnek csak 10%-át magyarázza.

Irodalom.

    A. A. Popov

Excel: Gyakorlati útmutató, DESS COM.-M.-2000.

    Dyakonov V.P., Abramenkova I.V. Mathcad7 a matematikában, a fizikában és az interneten. "Nomidzh" kiadó, M.-1998, 2.13. Regresszió végrehajtása.

    L.A. Soshnikova, V.N. Tomashevich et al., Többváltozós statisztikai elemzés a közgazdaságtanban, szerk. V.N. Tomashevics – M. – Nauka, 1980.

    V.A. Kolemajev, O.V. Staroverov, V.B. Turundajevszkij Valószínűségszámítás és matematikai statisztika. –M. - Felsőiskola - 1991.

    Iberlának. Faktorelemzés -M. Statisztika.-1980.

A normál általános sokaság két átlagának összehasonlítása, amelyek varianciái ismertek

Legyen az X és Y általános sokaság normális eloszlású, és szórása ismert (például korábbi tapasztalatokból vagy elméletileg megállapított). Az ezekből a populációkból kivont, n és m térfogatú független minták esetében a minta átlaga x in és y in.

A nullhipotézist a mintaátlagok alapján egy adott szignifikanciaszinten tesztelni kell, ami abból áll, hogy a vizsgált sokaságok általános átlagai (matematikai elvárásai) megegyeznek egymással, azaz H 0: M (X) = M (Y).

Figyelembe véve, hogy a mintaátlagok az általános átlagok torzítatlan becslései, azaz M (x in) = M (X) és M (y in) = M (Y), a nullhipotézis a következőképpen írható fel: H 0: M ( x in ) = M (y in).

Így ellenőrizni kell, hogy a mintaátlagok matematikai elvárásai egyenlőek-e egymással. Ez a feladat azért van, mert a minta átlagai általában eltérőek. Felmerül a kérdés: szignifikánsan vagy jelentéktelen mértékben térnek el a mintaátlagok?

Ha kiderül, hogy a nullhipotézis igaz, vagyis az általános átlagok megegyeznek, akkor a mintaátlagok különbsége jelentéktelen, és véletlenszerű okokkal, és különösen a mintaobjektumok véletlenszerű kiválasztásával magyarázható.

Ha a nullhipotézist elvetjük, vagyis az általános átlagok nem azonosak, akkor a mintaátlagok különbsége szignifikáns, és nem magyarázható véletlenszerű okokkal. És ez azzal magyarázható, hogy maguk az általános átlagok (matematikai elvárások) eltérőek.

A nullhipotézis tesztjeként veszünk egy valószínűségi változót.

Z kritérium – normalizált normál valószínűségi változó. Valójában a Z mennyiség normális eloszlású, mivel az X és Y normális eloszlású mennyiségek lineáris kombinációja; maguk ezek az értékek általában az általános populációkból vett mintákból származó mintaátlagokként vannak elosztva; Z normalizált érték, mert M (Z) = 0, ha a nullhipotézis igaz, D (Z) = 1, mivel a minták függetlenek.

A kritikus terület a versengő hipotézis típusától függően kerül kialakításra.

Első eset... H 0 nullhipotézis: M (X) = M (Y). H 1 versengő hipotézis: M (X) ¹M (Y).

Ebben az esetben egy kétoldalú kritikus területet szerkesztünk meg abból a követelményből kiindulva, hogy a kritérium ebbe a tartományba kerülésének valószínűsége a nullhipotézis érvényességét feltételezve egyenlő legyen az elfogadott szignifikanciaszinttel.

A kritérium legnagyobb ereje (annak valószínűsége, hogy a kritérium a versengő hipotézis érvényessége mellett a kritikus tartományba kerül) akkor érhető el, ha a „bal” és „jobb” kritikus pontot úgy választjuk meg, hogy a kritérium mindegyikbe esésének valószínűsége a kritikus tartomány intervalluma egyenlő:

P (Z< zлев.кр)=a¤2,

P (Z> z jobb cr) = a¤2. (1)

Mivel Z egy normalizált normál mennyiség, és egy ilyen mennyiség eloszlása ​​szimmetrikus a nullára, a kritikus pontok szimmetrikusak nullára.

Így ha a kétoldali kritikus tartomány jobb határát zcr-n keresztül jelöljük, akkor a bal oldali határ -zcr.

Tehát elég megtalálni a megfelelő határt, hogy megtaláljuk a nagyon kétoldalú Z kritikus tartományt< -zкр, Z >zcr és a nullhipotézis elfogadási területe (-zcr, zcr).

Mutassuk meg, hogyan találjuk meg a zcr-t - a kétoldali kritikus tartomány jobb oldali határát a Ф (Z) Laplace-függvény segítségével. Ismeretes, hogy a Laplace-függvény meghatározza egy normalizált normál valószínűségi változó, például Z elütésének valószínűségét a (0; z) intervallumban:

P (0< Z

Mivel Z eloszlása ​​nulla körül szimmetrikus, annak a valószínűsége, hogy Z a (0; ¥) intervallumba kerül, 1/2. Ezért, ha ezt az intervallumot a zcr ponttal felosztjuk a (0, zcr) és (zcr, ¥) intervallumokra, akkor a P (0) összeadás tételével< Z < zкр)+Р(Z >zcr) = 1/2.

Az (1) és (2) alapján azt kapjuk, hogy Ф (zcr) + a / 2 = 1/2. Ezért Ф (zкр) = (1-a) / 2.

Ebből arra a következtetésre jutunk, hogy a kétoldali kritikus tartomány (zcr) megfelelő határának megtalálásához elegendő megtalálni a Laplace-függvény argumentumának értékét, amely megfelel az (1-) függvény értékének. a) / 2.

Ekkor a kétoldali kritikus tartományt a Z egyenlőtlenségek határozzák meg< – zкр, Z >zcr, vagy az ekvivalens ½Z1> zcr egyenlőtlenség, és a nullhipotézis elfogadásának tartománya a - zcr egyenlőtlenséggel< Z < zкр или равносильным неравенством çZ ç< zкр.

Jelöljük zobl-on keresztül a megfigyelési adatokból számolt kritérium értékét, és fogalmazzuk meg a nullhipotézis tesztelésének szabályát.

Szabály.

1. Számítsa ki a kritérium megfigyelt értékét!

2. A Laplace-függvény táblázatából keresse meg a kritikus pontot az Ф (zкр) = (1-a) / 2 egyenlőséggel.

3. Ha ç zobl ç< zкр – нет оснований отвергнуть нулевую гипотезу.

Ha ç zobl ç> zcr - a nullhipotézist elvetik.

Második eset... Н0 nullhipotézis: M (X) = M (Y). H1 versengő hipotézis: M (X)> M (Y).

A gyakorlatban ez a helyzet akkor, ha szakmai szempontok szerint az egyik populáció általános átlaga nagyobb, mint a másiké. Például, ha egy folyamatfejlesztést vezetnek be, akkor természetes az a feltételezés, hogy az a kibocsátás növekedéséhez vezet.

Ebben az esetben egy jobb oldali kritikus területet szerkesztünk meg azon követelmény alapján, hogy a kritérium ebbe a területbe kerülésének valószínűsége a nullhipotézis érvényességét feltételezve egyenlő az elfogadott szignifikancia szinttel:

P (Z> zcr) = a. (3)

Mutatjuk meg, hogyan találjuk meg a kritikus pontot a Laplace függvény segítségével. Használjuk a relációt

P (0 zcr) = 1/2.

A (2) és (3) alapján Ф (zcr) + a = 1/2. Ezért Ф (zкр) = (1-2a) / 2.

Ebből arra a következtetésre jutottunk, hogy a jobb oldali kritikus tartomány (zcr) határának megtalálásához elegendő a Laplace-függvény (1-2a) / 2 értékét megtalálni. Ekkor a jobb oldali kritikus tartományt a Z> zcr egyenlőtlenség, a nullhipotézis elfogadásának tartományát pedig a Z egyenlőtlenség határozza meg.< zкр.

Szabály.

1. Számítsa ki a zobl kritérium megfigyelt értékét!

2. A Laplace-függvény táblázatából keresse meg a kritikus pontot az Ф (zкр) = (1-2a) / 2 egyenlőségből.

3. Ha Z obs< z кр – нет оснований отвергнуть нулевую гипотезу. Если Z набл >z cr - a nullhipotézist elvetjük.

Harmadik eset.Н0 nullhipotézis: M (X) = M (Y). H1 versengő hipotézis: M (X)

Ebben az esetben egy bal oldali kritikus területet építünk ki azon követelmény alapján, hogy mekkora valószínűséggel esik a kritérium ebbe a területbe,

a nullhipotézis érvényességi pozíciója megegyezett az elfogadott P szignifikancia szinttel (Z< z’кр)=a, т.е. z’кр= – zкр. Таким образом, для того чтобы найти точку z’кр, достаточно сначала найти “вспомогательную точку” zкр а затем взять найденное значение со знаком минус. Тогда левосторонняя критическая область определяется неравенством Z < -zкр, а область принятия нулевой гипотезы – неравенством Z >-zcr.

Szabály.

1. Számítsa ki Zobl.

2. A Laplace-függvénytáblázat szerint keresse meg a zcr „segédpontot” az Ф (zcr) = (1-2a) / 2 egyenlőséggel, majd tegye z'cr = -zcr értékét.

3. Ha Zobl> -zcr, nincs ok a nullhipotézis elutasítására.

Ha Zobl< -zкр, – нулевую гипотезу отвергают.

Alapegyenletek

Korábban szinte minden faktoranalízissel foglalkozó tankönyv és monográfia magyarázatot adott arra, hogyan kell az alapvető számításokat „kézi” vagy a legegyszerűbb számolóeszközzel (összeadógép vagy számológép) elvégezni. Manapság az összefüggések mátrixának felépítéséhez, a faktorok elkülönítéséhez és forgatásához szükséges bonyolultság és nagy mennyiségű számítás miatt valószínűleg nincs olyan ember, aki ne használna nagy teljesítményű számítógépeket és megfelelő programokat a faktoranalízis során.

Ezért elsősorban arra fogunk koncentrálni, hogy a faktoranalízis során melyek a legjelentősebb mátrixok (adatsorok), ezek hogyan kapcsolódnak egymáshoz és hogyan használhatók fel az adatok értelmezésére. Minden szükséges számítás elvégezhető bármilyen számítógépes programmal (például SPSS vagy STADIA).

V lapon. 1 felsorolja a főkomponens-elemzés és a faktoranalízis legfontosabb mátrixait. Ez a lista főleg kapcsolati mátrixokat tartalmaz (változók között, faktorok között, változók és faktorok között), standardizált értékeket (változókhoz és faktorokhoz), regressziós súlyokat (a faktorértékek kiszámításához a változók értékeivel) és faktort. faktorok és változók közötti kapcsolatok mátrixainak feltérképezése ferde elforgatás után. V lapon. 1 a sajátértékek mátrixai és a megfelelő sajátvektorok is megadva vannak. A sajátértékeket (sajátértékeket) és a sajátvektorokat a faktorok kiválasztásában betöltött fontosságuk, a nagyszámú speciális kifejezés használatára tekintettel írjuk le, valamint a sajátértékek és a variancia szoros kapcsolatát a statisztikai vizsgálatokban. .

Asztal 1

A faktoranalízisben leggyakrabban használt mátrixok

Kijelölés Név A méret Leírás
R Kapcsolati mátrix p x p Változók közötti kapcsolatok
D Nem szabványosított adatmátrix N x p Elsődleges adatok - az elsődleges változók nem szabványosított megfigyelési értékei
Z Szabványosított adatmátrix N x p Az elsődleges változók szabványosított megfigyelési értékei
F Tényezőérték-mátrix N x f Szabványosított megfigyelési értékek faktor szerint
A Tényezőbetöltő mátrix Tényezőleképezési mátrix p x f A közös tényezők regressziós együtthatói, feltételezve, hogy a megfigyelt változók a tényezők lineáris kombinációja. Ortogonális elforgatás esetén a változók és tényezők közötti kapcsolat
V Tényezőérték-együttható mátrix p x f Regressziós együtthatók a faktorértékek kiszámításához változó értékek használatával
S Strukturális mátrix p x f Változók és tényezők közötti kapcsolatok
F Tényezőkorrelációs mátrix f x f Tényezők közötti összefüggések
L Sajátérték mátrix (átlós) f x f Sajátértékek (jellegzetes, látens gyökerek); minden tényezőnek van egy megfelelő száma
V Sajátvektor mátrix f x f Saját (karakterisztikus) vektorok; minden sajátérték egy sajátvektornak felel meg

Jegyzet. A méret megadásakor a sorok száma x az oszlopok száma kerül megadásra: R- a változók száma, N- a megfigyelések száma, f- a tényezők vagy összetevők száma. Ha a kapcsolatok mátrixa R nem degenerált, és rangja egyenlő R, akkor valójában kiemelkedik R sajátértékek és sajátvektorok, nem f... Azonban csak f tőlük. Ezért a maradék p - f nem jelennek meg.

A mátrixokhoz Sés F csak ferde forgatást alkalmaz, a többire - merőleges és ferde.

A faktoranalízishez készített adatsor nagyszámú alany (válaszadó) méréseinek (lekérdezéseinek) eredményeiből áll bizonyos skálák (változók) szerint. V lapon. 2 adattömböt adunk meg, amely feltételesen a faktoranalízis követelményeit kielégítőnek tekinthető.

Öt válaszadónak, akik utazási irodához fordultak egy tengerparti üdülőhely jegyének megvásárlása érdekében, kérdéseket tettek fel négy feltétel (változó) jelentőségéről a nyári üdülési célpont kiválasztásában. Ezek a változó feltételek a következők voltak: az utalvány ára, a komplexum kényelme, a levegő hőmérséklete, a víz hőmérséklete. Minél több, a válaszadó szempontjából ennek vagy annak az állapotnak a jelentősége a számára, annál nagyobb jelentőséget tulajdonított neki. A kutatási feladat a változók közötti kapcsolat modelljének tanulmányozásából és az üdülőhelyválasztást meghatározó okok feltárásából állt. (A példa természetesen szemléltető és oktatási célból rendkívül leegyszerűsített, érdemi szempontból nem szabad komolyan venni.)

Kapcsolati mátrix ( lapon. 2) korrelációként számítottuk ki. Ügyeljen a benne lévő kapcsolatok szerkezetére, amelyeket függőleges és vízszintes vonalak emelnek ki. A bal felső és a jobb alsó kvadránsok magas korrelációi azt mutatják, hogy a jegy költségére és a komplexum kényelmére vonatkozó becslések, valamint a levegő hőmérsékletére és a víz hőmérsékletére vonatkozó becslések összefüggenek. A másik két kvadráns azt mutatja, hogy a komplexum léghőmérséklete és komfortérzete, valamint a komplexum komfortérzete és a víz hőmérséklete összefügg.

Próbáljuk meg most faktoranalízissel megtalálni a korrelációknak ezt a struktúráját, amely szabad szemmel is jól látható egy kis korrelációs mátrixban (nagy mátrixban ez nagyon nehezen kivitelezhető).

2. táblázat

Tényezőelemzési adatok (esettanulmány)

Turisták Változók
Az utalvány költsége Komfort szint Levegő hőmérséklet Vízhőmérséklet
T1
T2
T3
T4
T5

Korrelációs mátrix

Az utalvány költsége Komfort szint Levegő hőmérséklet Vízhőmérséklet
Az utalvány költsége 1,000 -0,953 -0,055 -0,130
Komfort szint -0,953 1,000 -,091 -0,036
Levegő hőmérséklet -0,055 -0,091 1,000 0,990
Vízhőmérséklet -0,130 -0,036 0,990 1,000

Faktorizáció

A mátrixalgebra egyik fontos tétele kimondja, hogy bizonyos feltételeket kielégítő mátrixok diagonalizálhatók, pl. mátrixsá alakítjuk, amelynek főátlóján számok, minden más helyen nullák találhatók. A kapcsolati mátrixok pontosan a diagonalizálható mátrixok típusai. Az átalakítás a következő képlet szerint történik:

azok. Az R mátrix diagonalizálását úgy hajtjuk végre, hogy először (bal oldalon) megszorozzuk a transzponált V mátrixszal, amelyet V'-vel jelölünk, majd (jobb oldalon) a V mátrixszal.

A V mátrix oszlopait sajátvektoroknak, az L mátrix főátlóján lévő értékeket pedig sajátértékeknek nevezzük. Az első sajátvektor megegyezik az első sajátértékkel, és így tovább. (további részletekért lásd az 1. mellékletet).

Tekintettel arra, hogy az adott példában négy változót veszünk figyelembe, négy sajátértéket kapunk a hozzájuk tartozó sajátvektorokkal. De mivel a faktoranalízis célja a kapcsolati mátrix általánosítása a lehető legkevesebb tényező felhasználásával, és minden sajátérték különböző potenciális tényezőknek felel meg, általában csak a nagy sajátértékű tényezőket veszik figyelembe. Egy "jó" faktoriális megoldásnál az e korlátozott faktorkészlet felhasználásával kapott számított összefüggések mátrixa gyakorlatilag megduplázza az összefüggések mátrixát.

Példánkban, amikor nincs megszorítás a faktorok számára, a 2,02, 1,94, 0,04 és ,00 sajátértékeket a rendszer a négy lehetséges tényező mindegyikére kiszámítja. Csak az első két tényező esetében a sajátértékek elég nagyok ahhoz, hogy további megfontolás tárgyává váljanak. Ezért csak az első két tényezőt emeljük ki újra. Sajátértékük 2,00 és 1,91, a táblázat szerint. 3. A (6) egyenlet felhasználásával és a fenti példából származó értékek beillesztésével kapjuk:

(Minden számítógéppel számított érték megegyezik; a kézi számítások eltérhetnek a kerekítési pontatlanságok miatt.)

A sajátvektorok mátrixának a transzponált mátrixszal való bal oldali szorzata adja az E azonosságmátrixot (egyesekkel a főátlón és más nullákkal). Ezért azt mondhatjuk, hogy a kapcsolatok mátrixának a (6) képlet szerinti átalakítása önmagában nem változtat, hanem csak az elemzés számára kényelmesebb formává alakítja át:

Például:

3. táblázat

Sajátvektorok és megfelelő sajátértékek az esettanulmányhoz

1. sajátvektor 2. sajátvektor
-.283 .651
.177 -.685
.658 .252
.675 .207
Sajátérték 1 2. sajátérték
2.00 1.91

Mivel a korrelációs mátrix diagonalizálható, a sajátvektorok és sajátértékek mátrixalgebrája alkalmazható rá, hogy megkapjuk a faktoranalízis eredményeit (lásd 1. melléklet). Ha a mátrix átlósítható, akkor a faktoriális szerkezettel kapcsolatos minden lényeges információ átlós formában van. A faktoranalízis során a sajátértékek megfelelnek a faktorok által magyarázott varianciának. A legnagyobb sajátértékkel rendelkező tényező magyarázza a legnagyobb szórást stb., egészen addig, amíg kis vagy negatív sajátértékű tényezőkről van szó, amelyeket általában nem veszünk figyelembe az elemzésben. A sajátértékek és sajátvektorok kiszámítása nagyon munkaigényes, és a számításuk képessége nem feltétlenül szükséges egy pszichológus számára, aki saját gyakorlati céljaira sajátítja el a faktoranalízist. Ennek az eljárásnak az ismerete azonban nem árt, ezért az 1. függelékben példát adunk a sajátértékek és sajátvektorok kis mátrixon történő kiszámítására.

A pxp négyzetmátrix sajátértékeinek megtalálásához meg kell találni a p fokú polinom gyökereit, és meg kell találni a sajátvektorokat - p egyenletet kell megoldani p ismeretlennel további oldalmegkötésekkel, ami p> 3 esetén ritkán kézzel történik. A sajátvektorok és a sajátértékek megtalálása után a faktoranalízis (vagy a főkomponens-analízis) többi része többé-kevésbé egyértelművé válik (lásd a 8-11. egyenleteket).

A (6) egyenlet a következőképpen ábrázolható: R = V'LV, (8)

azok. az összekapcsolások mátrixa három mátrix szorzatának tekinthető - a sajátértékek mátrixa, a megfelelő sajátvektorok mátrixa és transzponálva rá.

A transzformáció után az L sajátértékek mátrixa a következőképpen ábrázolható:

és ezért: R = VÖLÖL V ’(10)

vagy (ami ugyanaz): R = (VÖL) (ÖL V ’)

Jelöljük: A = (VÖL), és A ’= (ÖL V’), akkor R = AA ’(11)

azok. a kapcsolati mátrix két mátrix szorzataként is ábrázolható, amelyek mindegyike sajátvektorok és sajátértékek négyzetgyökeinek kombinációja.

A (11) egyenletet gyakran az alapvető faktorelemzési egyenletnek nevezik. Azt az állítást fejezi ki, hogy a kapcsolati mátrix az (A) faktorterhelési mátrix szorzata, és arra transzponált.

A (10) és (11) egyenletek azt is mutatják, hogy a faktoranalízis módszereiben és a főkomponensekben végzett számítások jelentős része a sajátértékek és sajátvektorok meghatározásából áll. Ha ismertek, a forgatás előtti faktoriális mátrixot közvetlen mátrixszorzással kapjuk meg:

Példánkban:

A faktorterhelési mátrix a tényezők és a változók közötti kapcsolatok mátrixa (korrelációs együtthatóként értelmezve). Az első oszlop az első tényező és az egyes változók közötti összefüggéseket tartalmazza: a jegy költsége (-.400), a komplexum komfortérzete (.251), a levegő hőmérséklete (.932), a víz hőmérséklete (. 956). A második oszlop a második tényező és az egyes változók közötti összefüggéseket tartalmazza: az utazás költsége (.900), a komplexum kényelme (-.947), a levegő hőmérséklete (.348), a víz hőmérséklete (.286) . A faktort a vele erősen kapcsolódó (azaz nagy terhelésű) változók alapján értelmezzük. Tehát az első tényező főként "klimatikus" (levegő és víz hőmérséklete), míg a második "gazdaságos" (a jegy költsége és a komplexum kényelme).

Ezen tényezők értelmezésekor figyelni kell arra, hogy az első tényezőnél (levegő hőmérséklet és vízhőmérséklet) nagy terhelésű változók pozitívan kapcsolódnak egymáshoz, míg a második tényező (az utazás költsége, ill. a komplexum kényelme) negatívan kapcsolódnak egymáshoz (egy olcsó üdülőhelytől nem várhatunk nagy kényelmet). Az első tényezőt unipolárisnak nevezik (az összes változó egy póluson van csoportosítva), a másodikat pedig bipolárisnak (a változók két, egymással ellentétes jelentésű csoportra oszlanak - két pólus). A plusz előjelű faktoriális terhelésű változók pozitív, a mínusz előjelűek negatív pólust alkotnak. Ebben az esetben a „pozitív” és „negatív” pólus elnevezése a faktor értelmezésekor nem rendelkezik „rossz” és „jó” értékelő jelentéssel. Az előjel kiválasztása véletlenszerűen történik a számítások során. Az összes jel ellentétesre cserélése (minden plusz a mínuszhoz, és minden mínusz a pluszhoz) nem változtat a megoldáson. A jelek elemzése csak a csoportok azonosításához szükséges (mi az, amivel szemben). Ugyanilyen sikerrel az egyik pólust jobbnak, a másikat balnak nevezhetjük. Példánkban az utalvány változó költsége a pozitív (jobb) póluson mutatkozott meg, szemben a negatív (bal) póluson lévő komplex változó kényelmével. Ez a tényező pedig úgy értelmezhető (nevezhető), hogy „Kényelmi gazdaság”. A válaszadók, akik számára jelentős a megtakarítási probléma, a jobb oldalon álltak - pluszjellel faktorértékeket kaptak. Az üdülőhely kiválasztásakor inkább az olcsósága és kevésbé a kényelem vezérli őket. Azok a válaszadók, akik nem spórolnak a nyaraláson (nem sokat törődnek az utalvány árával), és akik elsősorban kényelmes körülmények között szeretnének pihenni, a bal oldalon voltak - faktorértékeket kaptak mínusz előjellel. .

Mindazonáltal szem előtt kell tartani, hogy minden változó erősen korrelál mindkét tényezővel. Ezen az egyszerű példán belül az értelmezés kézenfekvő, de valós adatok esetén nem ilyen egyszerű. Általában egy tényező könnyebben értelmezhető, ha a változóknak csak egy kis része kapcsolódik hozzá erősen, a többi pedig nem.

Ortogonális forgatás

A forgatást általában a faktorálás után alkalmazzák a magas korrelációk maximalizálása és az alacsony korrelációk minimalizálása érdekében. A forgatásnak számos módja létezik, de a leggyakrabban használt forgatás a varimax, amely egy varianciamaximalizálási eljárás. Ez a pivot maximalizálja a faktorterhelések szórását, így a magas terhelések magasabbak, az alacsonyabbak alacsonyabbak, mint az egyes tényezők napján. Ezt a célt azzal érjük el transzformációs mátrix Л:

A fordulás előtt L = A fordulás után,

azok. a lengés előtti faktoriális terhelési mátrixot megszorozzuk a transzformációs mátrixszal, és az eredmény a lengés utáni faktoriális terhelések mátrixa. Példánkban:

Hasonlítsa össze a mátrixokat a forgatás előtt és után. Megjegyzendő, hogy a forgatás utáni mátrix tényezőterhelése kisebb és nagyobb, mint a forgatás előtti mátrixé. A hangsúlyos terheléskülönbség megkönnyíti a faktor értelmezését, lehetővé teszi a vele szorosan összefüggő változók egyértelmű kiválasztását.

A transzformációs mátrix elemeinek speciális geometriai értelmezése van:

A transzformációs mátrix az elforgatandó ψ szög szinuszainak és koszinuszainak mátrixa. (Innen a transzformáció neve - forgatás, mert geometriai szempontból a tengelyek a faktortér origója körül forognak.) Példánkban ez a szög megközelítőleg 19 fok: cos19 ° = .946 és sin19 ° = .325. Geometriailag ez a faktortengelyek 19 fokkal az origó körüli elforgatásának felel meg. (A forgatás geometriai vonatkozásairól bővebben lásd alább.)

Nemzeti Kutató Nukleáris Egyetem "MEPhI"
Vállalkozásinformatikai és Menedzsment Kar
összetett rendszerek
Közgazdasági és Gazdálkodási Tanszék
az iparban (71. sz.)
Matematikai és műszeres feldolgozási módszerek
statisztikai információkat
Kireev V.S.,
Ph.D., egyetemi docens
Email:
Moszkva, 2017
1

Normalizálás

Tizedes skálázás
Minimális normalizálás
Normalizálás standard transzformációval
Normalizálás elemenkénti transzformációkkal
2

Tizedes skálázás

Vi
"
Vi k, max (Vi) 1
10
"
3

Minimális normalizálás

Vi
Vi min (Vi)
"
én
max (Vi) min (Vi)
én
én
4

Normalizálás szórással

Vi
"
V
V
Vi V
V
- szelektív
az átlagos
- minta átlagnégyzet
eltérés
5

Normalizálás elemenkénti transzformációkkal

Vi f Vi
"
Vi 1
"
log Vi
, Vi log Vi
"
Vi exp Vi
"
Vi Vi, Vi 1 y
Vi
"
y
"
6

Faktoranalízis

(FA) olyan módszerek gyűjteménye, amelyek
az elemzett jellemzők valóban létező összefüggései, maguk az összefüggések alapján
megfigyelhető objektumok, lehetővé teszik a rejtett (implicit, látens) azonosítását
a szervezeti felépítés és fejlesztési mechanizmus általánosító jellemzői
jelenségeket, folyamatokat tanulmányozta.
A kutatási gyakorlatban elsősorban a faktorelemzési módszereket alkalmazzák
Az információ tömörítésének módja érdekében szerezzen be néhány általánosítót
az elemi jellemzők variabilitását (varianciáját) (faktoranalízis R-technika) vagy a megfigyelt objektumok változékonyságát (Q-technika) magyarázó jellemzők
faktoranalízis).
A faktorelemzési algoritmusok a redukált használaton alapulnak
páronkénti korrelációk (kovariancia) mátrixai. A redukált mátrix egy mátrix be van kapcsolva
melynek főátlója nem a teljes korreláció mértékegységei (becslései), ill
a teljes variancia becslései, és ezek csökkentett, némileg redukált értékei. Nál nél
feltételezik, hogy az elemzés nem fogja megmagyarázni az összes eltérést
a vizsgált jellemzők (objektumok), és annak egy része, általában egy nagy. Többi
a variancia megmagyarázhatatlan része a specificitásból fakadó specifitás
megfigyelt objektumok, vagy a jelenségek, folyamatok regisztrálásakor elkövetett hibák,
azok. a bemeneti adatok megbízhatatlansága.
7

FA módszerek osztályozása

8

Főkomponens módszer

(MGK) a méret csökkentésére szolgál
a megfigyelt vektorok terét anélkül, hogy ez jelentős veszteséget okozna
informativitás. A PCA előfeltétele a normál eloszlási törvény
többdimenziós vektorok. Az MGK-ban a valószínűségi változók lineáris kombinációi vannak definiálva
jellegzetes
vektorok
kovariancia
mátrixok.
A fő
komponensek egy ortogonális koordináta-rendszert képviselnek, amelyben a szórások
komponensek jellemzik statisztikai tulajdonságaikat. Az MGK nem minősül FA-nak, bár igen
hasonló algoritmust és hasonló elemzési problémákat old meg. Fő különbsége
abban rejlik, hogy nem a redukált, hanem a szokásos mátrixot kell feldolgozni
páronkénti korrelációk, kovariancia, melynek főátlóján egységek találhatók.
Legyen adott az Lk lineáris tér X vektorainak kezdeti halmaza. Alkalmazás
főkomponensek módszere lehetővé teszi, hogy áttérjünk az Lm (m≤k) tér bázisára, pl
hogy: az első komponens (a bázis első vektora) a menti iránynak felel meg
amelynél az eredeti halmaz vektorainak szórása maximális. Második irány
komponenseit (a második bázisvektor) úgy választjuk meg, hogy a kezdeti varianciája legyen
vektorok mentén maximális volt az első vektorra való ortogonalitás feltétele mellett
alapon. A többi bázisvektor is hasonlóan van definiálva. Ennek eredményeként az irányokat
A bázisvektorokat úgy választjuk meg, hogy maximalizáljuk a kezdeti halmaz varianciáját
az első komponensek mentén, amelyeket főkomponenseknek (vagy főkomponenseknek) neveznek
Kiderül, hogy az eredeti vektorhalmaz vektorainak fő változékonysága
az első néhány komponens képviseli, és ez a kidobással válik lehetővé
kevésbé lényeges alkatrészeket, menjen egy alacsonyabb dimenziójú térbe.
9

10. A főkomponensek módszere. Rendszer

10

11. A főkomponensek módszere. Számlák mátrixa

A T pontmátrix megadja az eredeti minták vetületeit (J -dimenziós
vektorok
x1, ..., xI)
tovább
altér
a fő
összetevő
(A-dimenziós).
A T mátrix t1,…, tI sorai a minták koordinátái az új koordinátarendszerben.
A T mátrix t1, ..., tA oszlopai ortogonálisak, és az összes minta vetületét jelentik
egy új koordinátatengely.
Az adatok PCA módszerrel történő vizsgálatakor kiemelt figyelmet fordítanak a grafikonokra
fiókok. Munkájuk megértéséhez hasznos információkat hordoznak
adat. A számlagrafikonon minden minta koordinátákkal (ti, tj) van ábrázolva, leggyakrabban
- (t1, t2), PC1 és PC2 jelöléssel. Két pont közelsége a hasonlóságukat jelenti, azaz.
pozitív korreláció. A derékszögű pontok az
nem korrelált, és átlósan ellentétes helyen található - van
negatív korreláció.
11

12. A főkomponensek módszere. Betöltési mátrix

A P terhelési mátrix az átmenet mátrixa az eredeti térből
x1,… xJ (J-dimenziós) változókat a főkomponensek terébe (A-dimenziós). Minden egyes
a P mátrix sora a t és x változókat összekötő együtthatókból áll.
Például az a-edik egyenes az összes x1, ... xJ változó vetülete a fő tengely a-edik tengelyére.
összetevő. P minden oszlopa a megfelelő xj változó vetülete egy újra
koordináta-rendszer.
A terhelési grafikon a változók szerepének vizsgálatára szolgál. Ezen
A grafikonon minden xj változó például pontként jelenik meg koordinátákban (pi, pj).
(p1, p2). A számlák grafikonjához hasonlóan elemezve megértheti, hogy mely változókat
kapcsolódó és amelyek függetlenek. Páros számladiagramok közös feltárása és
terhelések is sok hasznos információval szolgálhatnak az adatokról.
12

13. A főkomponensek módszerének jellemzői

A főkomponens-elemzés a következő feltételezéseken alapul:
feltételezzük, hogy az adatdimenzió hatékonyan lecsökkenthető
lineáris transzformációval;
az a feltételezés, hogy az információ nagy részét azok az irányok hordozzák, amelyekben
a bemeneti adatok szórása maximális.
Könnyen belátható, hogy ezek a feltételek nem mindig teljesülnek. Például,
ha a bemeneti halmaz pontjai a hiperszféra felületén helyezkednek el, akkor nem
A lineáris transzformáció nem csökkenthető (de könnyen kezelhető
nemlineáris transzformáció egy pont és a gömb középpontja közötti távolság alapján).
Ez a hátrány minden lineáris algoritmusra egyformán jellemző, és lehet is
leküzdeni további álváltozók használatával
nemlineáris függvények a bemeneti adatkészlet elemeiből (ún. kernel-trükk).
A főkomponens módszer második hátránya, hogy az irányok
A variancia maximalizálása nem mindig maximalizálja az információtartalmat.
Például egy maximális szórással rendelkező változó szinte nem tartalmazhat
információt, míg a minimális szórással rendelkező változó lehetővé teszi
teljesen szétválasztani az osztályokat. A főkomponensek módszere ebben az esetben megadja
az első (kevésbé informatív) változó preferálása. Minden további
a vektorhoz kapcsolódó információ (például, hogy a kép az egyikhez tartozik-e
osztályok) figyelmen kívül hagyja.
13

14. Példaadatok az MGK-hoz

K. Esbensen. Többdimenziós adatok elemzése, röv. per. angolról alatt
szerk. O. Rodionova, Iz-in IPKhF RAS, 2005
14

15. Példa az IGC adataira. Megnevezések

Magasság
Magasság: centiméterben
Súly
Súly: kilogrammban
Haj
Haj: rövid: -1 vagy hosszú:
+1
Cipők
Cipő: európai méretű
alapértelmezett
Kor
Életkor: években
Jövedelem
Bevétel: évi ezer euróban
Sör
Sör: évi fogyasztás literben
Bor
Bor: évi fogyasztás literben
Szex
Nem: férfi: -1, vagy nő: +1
Erő
Erősség: egy index alapján
testi képességek próbája
Vidék
Régió: Észak: -1, vagy Dél: +1
IQ
IQ,
standard teszttel mérjük
15

16. Számlák mátrixa

16

17. Terhek mátrixa

17

18. Kiválasztás tárgyai az új komponensek terében

A nőket (F) a ● és ● körök jelölik, valamint
férfiak (M) - ■ és ■ négyzetek szerint. észak (É)
■ kékkel, déli (S) pirossal ábrázolva
szín ●.
A szimbólumok mérete és színe a jövedelmet tükrözi – hogyan
minél nagyobb és könnyebb, annál nagyobb. Számok
kort képviselnek
18

19. Kezdeti változók az új komponensek terében

19

20. Esztályos telek

20

21. A főbb tényezők módszere

A fő tényezők módszerének paradigmájában az attribútum dimenziójának csökkentésének problémája
tér úgy néz ki, mint n jellemző magyarázható egy kisebb
az m-látens jellemzők száma - közös tényezők, ahol m<kezdeti jellemzők és bevezetett általános tényezők (lineáris kombinációk)
az úgynevezett karakterisztikus tényezők felhasználásával kell figyelembe venni.
bevonásával végzett statisztikai kutatás végső célja
a faktoranalízis apparátusa általában az azonosításból és az értelmezésből áll
látens közös tényezők, amelyek egyidejűleg minimalizálják, hogyan
a fajlagos maradék véletlenszerűségük száma és a függőség mértéke
összetevő.
Minden jel
az eredmény
hatása m hipotetikus közös és
egy jellemző tényező:
X 1 a11 f1 a12 f 2 a1m f m d1V1
X a f a f a f d V
2
21 1
22 2
2 m m
2
X n a n1 f1 a n 2 f 2 a nm f m d nVn
21

22. A tényezők rotációja

A forgatás az előző lépésben kapott tényezők átalakításának módja,
értelmesebbekké. A forgatás a következőkre oszlik:
grafikus (tengelyek rajzolása, nem érvényes, ha több mint kétdimenziós
elemzés),
analitikus (egy bizonyos forgatási kritériumot választanak, különböztet meg az ortogonális és a
ferde) és
mátrix-közelítő (a forgatás egy adott adott megközelítéséből áll
célmátrix).
A forgás eredménye a tényezők másodlagos szerkezete. Elsődleges
faktorstruktúra (elsődleges terhelésekből áll (az előző
szakasz) valójában pontok vetületei az ortogonális koordinátatengelyekre. Ez nyilvánvaló
ha a vetületek nullák, a szerkezet egyszerűbb lesz. És az előrejelzések nullák lesznek,
ha a pont valamilyen tengelyen fekszik. Így a forgatást átmenetnek tekinthetjük
egyik koordinátarendszerről a másikra ismert koordinátákkal egy rendszerben (
elsődleges tényezők) és iteratívan kiválasztott koordináták egy másik rendszerben
(másodlagos tényezők). Másodlagos szerkezet megszerzésekor hajlamosak ilyenekre menni
koordinátarendszer annak érdekében, hogy a lehető legtöbb tengelyt húzzuk át a pontokon (objektumokon), így
annyi vetület (és így terhelés) nulla volt. Ráadásul tudnak
szüntesse meg az ortogonalitás korlátozásait, és csökkentse a szignifikanciát az elsőtől az utolsóig
az elsődleges szerkezetre jellemző tényezők.
22

23. Ortogonális forgatás

azt jelenti, hogy forgatni fogjuk a tényezőket, de nem
megsértjük egymáshoz való ortogonalitásukat. Ortogonális forgatás
azt jelenti, hogy az elsődleges terhelések eredeti mátrixát meg kell szorozni az ortogonálissal
R mátrix (olyan mátrix,
V = BR
Általában az ortogonális forgatás algoritmusa a következő:
0. B - elsődleges tényezők mátrixa.
1.
Keres
ortogonális
mátrix
RT
méret
2*2
számára
kettő
a B mátrix bi és bj oszlopai (tényezői) úgy, hogy a mátrix kritériuma
R a maximum.
2.
Cserélje ki a bi és bj oszlopokat oszlopokra
3.
Ellenőrizze, hogy minden oszlop ki van-e rendezve. Ha nem, akkor lépjen az 1-re.
4.
Ellenőrizzük, hogy a teljes mátrix kritériuma nőtt-e. Ha igen, akkor lépjen az 1-re. Ha
nem, akkor az algoritmus vége.
.
23

24. Varimax forgatás

Ez a kritérium a formalizálást használja
a változó terhelések négyzeteinek szórása:
nehézségek
faktor a
át
Ekkor a kritérium általános formában a következőképpen írható fel:
Ugyanakkor a faktorterhelések normalizálhatók, hogy megszabaduljanak tőlük
az egyes változók hatása.
24

25. Negyed-max forgatás

Formalizáljuk az i-edik változó q faktoriális komplexitásának fogalmát
faktorterhelések négyzeteinek szórása:
ahol r a faktormátrix oszlopainak száma, bij a j-edik faktorterhelése
tényező az i-edik változón, az átlagérték. A Quartimax kritérium megpróbálja
maximalizálja a teljes változókészlet komplexitását annak érdekében, hogy elérje
a tényezők egyszerű értelmezhetősége (az oszlopok leírásának megkönnyítésére törekszik):
Tekintve, hogy
egy állandó (a mátrix sajátértékeinek összege
kovariancia) és az átlagérték megnyitása (és azt is figyelembe véve, hogy a hatványfüggvény
az érveléssel arányosan nő), megkapjuk a kritérium végső formáját
maximalizálás:
25

26. A tényezők számának meghatározásának kritériumai

A faktoranalízis fő problémája a kiválasztás és az értelmezés
főbb tényezők. A komponensek kiválasztásakor a kutató általában azzal szembesül
jelentős nehézségeket okoz, mivel nincs egyértelmű azonosítási kritérium
tényezők, ezért itt elkerülhetetlen az eredmények értelmezésének szubjektivitása.
Számos általánosan használt kritérium létezik a tényezők számának meghatározására.
Némelyikük alternatíva másoknak, és vannak ezek
A kritériumok együtt használhatók a másik kiegészítésére:
Kaiser teszt vagy sajátérték teszt. Ez a kritérium javasolt
Kaiser, és valószínűleg a legszélesebb körben használt. Csak kiválasztott
olyan tényezők, amelyek sajátértéke egyenlő vagy nagyobb, mint 1. Ez azt jelenti, hogy ha
a faktor nem különböztet meg legalább az egyik szórásával egyenértékű varianciát
változó, ez kimarad.
Eszközkritérium vagy átvilágítási kritérium. Ő van
Grafikus módszer, amelyet először Cattell pszichológus javasolt. Saját
az értékek egyszerű grafikonként jeleníthetők meg. Cattel felajánlotta, hogy talál ilyet
azon a helyen a grafikonon, ahol a sajátértékek balról jobbra történő csökkenése maximális
lelassul. Feltételezhető, hogy csak
"Factorial talus" - "talus" egy geológiai kifejezés, amely jelöli
a sziklás lejtő alján felhalmozódó törmelék.
26

27. A tényezők számának meghatározásának kritériumai. Folytatás

Jelentősségi kritérium. Ez különösen hatékony, ha az általános modell
az aggregátum ismert, és nincsenek másodlagos tényezők. De a kritérium nem érvényes
változásokat keresni a modellben, és csak a módszerrel végzett faktoranalízisben valósulnak meg
legkisebb négyzetek vagy a maximális valószínűség.
A reprodukálható variancia arányának kritériuma. A tényezők részesedés szerint vannak rangsorolva
determinisztikus variancia, amikor a variancia százaléka jelentéktelennek bizonyul,
a kiválasztást le kell állítani. Kívánatos, hogy a kiválasztott tényezők megmagyarázzák
a terjedés több mint 80%-a. A kritérium hátrányai: egyrészt a kiválasztás szubjektivitása, másrészt az adatok sajátosságai olyanok lehetnek, hogy az összes fő tényező nem tud
kumulatívan magyarázza meg a kívánt varianciaszázalékot. Ezért a fő tényezők
együtt kell magyaráznia a variancia legalább 50,1%-át.
Az értelmezhetőség és változatlanság kritériuma. Ez a kritérium kombinálja
statisztikai pontosság szubjektív érdekekkel. Elmondása szerint a fő tényezők
mindaddig megkülönböztethetők, amíg világos értelmezésük lehetséges. Ő, benne
fordulat, a faktorterhelések nagyságától függ, vagyis ha a faktor tartalmaz legalább
egy erős terhelés, ez értelmezhető. Az ellenkezője is lehetséges -
ha erős terhelések vannak, az értelmezés nehézkes, ettől
komponenseket lehetőleg eldobjuk.
27

28. Példa az MGK használatára

Legyen
vannak
a következő
mutatók
gazdasági
tevékenységek
vállalkozások: munkaerő-intenzitás (x1), vásárolt termékek részesedése a termelésben (x2),
berendezések pótlási aránya (x3), a munkavállalók aránya a vállalkozásban
(x4), bónuszok és munkavállalónkénti javadalmazás (x5), jövedelmezőség (y). Lineáris
a regressziós modell a következő:
y = b0 + b1 * x1 + b2 * x2 + b3 * x3 + b4 * x4 + b5 * x5
x1
x2
x3
x4
x5
y
0,51
0,2
1,47
0,72
0,67
9,8
0,36
0,64
1,27
0,7
0,98
13,2
0,23
0,42
1,51
0,66
1,16
17,3
0,26
0,27
1,46
0,69
0,54
7,1
0,27
0,37
1,27
0,71
1,23
11,5
0,29
0,38
1,43
0,73
0,78
12,1
0,01
0,35
1,5
0,65
1,16
15,2
0,02
0,42
1,35
0,82
2,44
31,3
0,18
0,32
1,41
0,8
1,06
11,6
0,25
0,33
1,47
0,83
2,13
30,1
28

29. Példa az MGK használatára

Regressziós modell felépítése statisztikai csomagban azt mutatja
az X4 együttható nem szignifikáns (p-Érték> α = 5%), és kizárható a modellből.
mit
Az X4 kizárása után a modellépítési folyamat újraindul.
29

30. Példa az MGK használatára

A Kaiser-kritérium a PCA-hoz azt mutatja, hogy 2 komponenst hagyhat megmagyarázva
az eredeti szórás körülbelül 80%-a.
A kiválasztott komponensekhez egyenleteket készíthet az eredeti koordináta-rendszerben:
U1 = 0,41 * x1 - 0,57 * x2 + 0,49 * x3 - 0,52 * x5
U2 = 0,61 * x1 + 0,38 * x2 - 0,53 * x3 - 0,44 * x5
30

31. Példa a CIM használatára

Most új regressziós modellt építhet az új komponensekben:
y = 15,92 - 3,74 * U1 - 3,87 * U2
31

32. Szinguláris érték dekompozíció (SVD)

Beltramit és Jordant tartják az egyes szám elméletének megalapítóinak
bomlás. Beltrami - amiért elsőként adott ki egy művet erről
egyedülálló érték, Jordan pedig eleganciája és teljessége miatt
munka. Beltrami munkája a Journal of Mathematics című folyóiratban jelent meg
az olasz egyetemek hallgatóinak felhasználása ”1873-ban, a fő
melynek célja az volt, hogy a tanulókat megismertesse
bilineáris formák A módszer lényege egy n méretű A mátrix felbontásában rejlik
x m ranggal d = rang (M)<= min(n,m) в произведение матриц меньшего
rang:
A = UDVT,
ahol az U n x d méretű és V m x d méretű mátrixok állnak
ortonormális oszlopok, amelyek sajátvektorai
az AAT és ATA mátrixok nullától eltérő sajátértékei, és
UTU = V TV = I, és a d x d méretű D egy átlós mátrix
pozitív átlós elemeket rendezve
csökkenő sorrend. Az U mátrix oszlopai
az A mátrix és az oszlopok oszlopterének ortonormális bázisa
A V mátrix az A mátrix sorterének ortonormális bázisa.
32

33. Szinguláris érték dekompozíció (SVD)

Az SVD-bontás egyik fontos tulajdonsága, hogy ha
Villa csak k legnagyobb átlós elemből, és azt is
Az U és V mátrixban csak az első k oszlopot hagyjuk meg, majd a mátrixot
Ak = UkDkVkT
tekintetében az A mátrix legjobb közelítése lesz
Frobenius-normák az összes k rangú mátrix között.
Ez a csonkítás először is csökkenti a vektor méretét
helyet, csökkenti a tárolási és számítástechnikai igényeket
modell követelményei.
Másodszor, kis egyes számok elvetése, kicsi
az adatokban lévő zajból eredő torzulások eltávolításra kerülnek, így elhagyják
csak a legerősebb hatások és trendek ebben a modellben.