Internet Windows Android

Matricea de corelație. Centrul pentru Optimizarea Sistemică a Afacerilor și Managementul Calității - Analiza factorială Matricea de corelație pentru analiza factorială

Sunt un set de proceduri statistice care vizează extragerea dintr-un set dat de variabile subseturi de variabile care sunt strâns legate (corelate) între ele. Variabile incluse într-un subset și corelate între ele, dar în mare măsură independente de variabilele din alte subseturi, factori de formă. Scopul analizei factorilor este de a identifica factorii observabili în mod deschis folosind o varietate de variabile observabile. O modalitate suplimentară de verificare a numărului de factori selectați este calcularea matricei de corelație, care este apropiată de cea inițială, dacă factorii sunt selectați corect. Această matrice se numește reprodus matricea de corelare. Pentru a vedea cum se abate această matrice de la matricea de corelație inițială (cu care a început analiza), puteți calcula diferența dintre ele. Matricea reziduală poate indica „dezacord”, adică faptul că coeficienții de corelație considerați nu pot fi obținuți cu suficientă acuratețe pe baza factorilor disponibili. În metodele componentelor principale și analiza factorială, nu există un astfel de criteriu extern care să facă posibilă aprecierea corectitudinii soluției. A doua problemă constă în faptul că în urma selecției factorilor apar un număr infinit de opțiuni de rotație, bazate pe aceleași variabile inițiale, dar dând soluții diferite (structurile factorilor sunt determinate într-un mod ușor diferit). Alegerea finală între alternativele posibile într-un set infinit de soluții echivalente matematic depinde de înțelegerea semnificativă de către cercetători a rezultatelor interpretării. Și întrucât nu există un criteriu obiectiv de evaluare a diverselor soluții, justificările propuse pentru alegerea unei soluții pot părea nefondate și neconvingătoare.


Trebuie remarcat faptul că nu există criterii statistice clare pentru caracterul complet al factorizării. Cu toate acestea, valorile sale scăzute, de exemplu, mai mici de 0,7, indică dezirabilitatea reducerii numărului de caracteristici sau creșterii numărului de factori.

Met Coeficientul relației dintre o trăsătură și un factor general, care exprimă măsura influenței unui factor asupra unei trăsături, se numește sarcina factorială a unei trăsături date pentru acest factor general.

O matrice constând din încărcări factoriale și având numărul de coloane egal cu numărul de factori comuni și numărul de rânduri egal cu numărul de caracteristici originale se numește matrice factorială.

Baza pentru calcularea matricei factorilor este matricea coeficienților de corelație perechi ai caracteristicilor originale.

Matricea de corelație surprinde gradul de relație dintre fiecare pereche de caracteristici. În mod similar, matricea factorilor fixează gradul de relație liniară a fiecărei caracteristici cu fiecare factor comun.

Mărimea sarcinii factoriale nu depășește unitatea în modul, iar semnul său indică o relație pozitivă sau negativă între o trăsătură și un factor.

Cu cât este mai mare valoarea absolută a sarcinii factoriale a unei caracteristici pentru un anumit factor, cu atât acest factor determină mai mult această caracteristică.

Valoarea sarcinii factorilor pentru un anumit factor, aproape de zero, sugerează că acest factor practic nu afectează această caracteristică.

Modelul factorilor face posibilă calcularea contribuțiilor factorilor la varianța totală a tuturor caracteristicilor. Însumând pătratele încărcărilor factorilor pentru fiecare factor pentru toate caracteristicile, obținem contribuția acestuia la varianța totală a sistemului de caracteristici: cu cât este mai mare ponderea acestei contribuții, cu atât acest factor este mai semnificativ și mai semnificativ.

În același timp, este posibil să se identifice numărul optim de factori comuni care descriu suficient de bine sistemul de caracteristici inițiale.

Valoarea (măsura manifestării) unui factor dintr-un obiect individual se numește ponderea factorială a obiectului pentru acest factor. Greutățile factorilor vă permit să clasați, să ordonați obiectele pentru fiecare factor.

Cu cât este mai mare greutatea factorială a unui anumit obiect, cu atât mai mult se manifestă în el acea latură a fenomenului sau acel tipar, ceea ce se reflectă de acest factor.

Ponderile factorilor pot fi fie pozitive, fie negative.

Datorită faptului că factorii sunt valori standardizate cu o valoare medie egală cu zero, ponderile factorilor apropiate de zero indică gradul mediu de manifestare a factorului, pozitiv - că acest grad este mai mare decât media, negativ - cam atât . atunci este sub medie.

În practică, dacă numărul componentelor (sau factorilor) principali deja găsiți nu este mai mare de m/ 2, varianța explicată de acestea nu este mai mică de 70%, iar următoarea componentă contribuie la varianța totală nu mai mult de 5%, modelul factorilor este considerat a fi destul de bun.

Dacă doriți să găsiți valorile factorilor și să le salvați ca variabile suplimentare, activați comutatorul Scoruri ... (Valori) Valoarea factorului, de regulă, se află în intervalul de la -3 la +3.

Analiza factorială este un aparat mai puternic și mai complex decât metoda principalului

componentă, deci se aplică în cazul în care rezultatele

analiza componentelor nu este pe deplin satisfăcătoare. Dar din moment ce aceste două metode

rezolva aceleași probleme, este necesar să se compare rezultatele componentei și


analize factoriale, adică matrice de încărcare, precum și ecuații de regresie pentru

componentele principale și factori comuni, comentați asemănările și diferențele

rezultate.

Număr maxim posibil de factori m pentru un anumit număr de caracteristici R este definit de inegalitate

(p + m)<(р-m)2,

La finalul întregii proceduri de analiză factorială, folosind transformări matematice, factorii fj sunt exprimați prin semnele inițiale, adică parametrii modelului de diagnostic liniar sunt obținuți într-o formă explicită.

Metodele de analiză a componentelor principale și factorilor sunt un set de proceduri statistice care vizează extragerea dintr-un set dat de variabile subseturi de variabile care sunt strâns legate (corelate) între ele. Variabile incluse într-un subset și corelate între ele, dar în mare măsură independente de variabilele din alte subseturi, factori de formă 1 ... Scopul analizei factorilor este de a identifica factorii observabili în mod deschis folosind o varietate de variabile observabile.

Expresie generală pentru j--lea factor poate fi scris astfel:

Unde Fj (j variază de la 1 la k) sunt factori generali, Ui- caracteristic, Aij- constante utilizate în combinație liniară k factori. Factorii comuni pot să nu se coreleze între ei și cu factori comuni.

Procedurile de prelucrare analitică factorială aplicate datelor obținute sunt diferite, dar structura (algoritmul) analizei constă din aceleași etape principale: 1. Pregătirea matricei de date inițiale. 2. Calculul matricei relației de caracteristici. 3. Factorizarea(în acest caz, este necesar să se indice numărul de factori identificați în cursul soluției factoriale și metoda de calcul). În această etapă (precum și în următoarea), se poate estima și cât de bine apropie datele inițiale de soluția factorială obținută. 4. Rotația - transformarea factorilor, facilitând interpretarea acestora. 5. Calculul valorilor factorilor pentru fiecare factor pentru fiecare observație. 6. Interpretarea datelor.

inventarea analizei factoriale a fost asociată tocmai cu necesitatea analizei simultane a unui număr mare de coeficienți de corelație de diverse scale între ei. Una dintre problemele asociate cu metodele componentelor principale și analiza factorială este că nu există criterii care să vă permită să verificați corectitudinea soluției găsite. De exemplu, în analiza de regresie, este posibil să se compare indicatorii pentru variabile dependente obținuți empiric cu indicatorii calculați teoretic pe baza modelului propus și să se utilizeze corelația dintre aceștia ca criteriu de corectitudine a soluției conform schema de analiza a corelatiei pentru doua seturi de variabile. În analiza discriminantă, corectitudinea deciziei se bazează pe cât de precis este prezisă apartenența subiecților la una sau alta clasă (în comparație cu apartenența reală la viață). Din păcate, în metodele componentelor principale și analiza factorială nu există un astfel de criteriu extern care să permită să se judece corectitudinea soluției. A doua problemă este că, după selectarea factorilor, apar un număr infinit de opțiuni de rotație, bazate pe aceleași variabile inițiale, dar oferind soluții diferite (structurile factorilor sunt definite într-un mod ușor diferit). Alegerea finală între alternativele posibile într-un set infinit de soluții echivalente matematic depinde de înțelegerea semnificativă de către cercetători a rezultatelor interpretării. Și întrucât nu există un criteriu obiectiv de evaluare a diverselor soluții, justificările propuse pentru alegerea unei soluții pot părea nefondate și neconvingătoare.

A treia problemă este că analiza factorială este adesea folosită pentru a salva un studiu prost conceput atunci când devine clar că nicio procedură statistică nu produce rezultatul dorit. Puterea componentelor principale și a analizei factorilor le permite să construiască un concept ordonat din informații haotice (ceea ce le conferă o reputație dubioasă).

Al doilea grup de termeni se referă la matrice care sunt construite și interpretate ca parte a unei soluții. Întoarce-te factori este procesul de găsire a soluției cel mai ușor de interpretat pentru un anumit număr de factori. Există două clase principale de ture: ortogonalăși oblic... În primul caz, toți factorii sunt a priori aleși să fie ortogonali (nu corelați între ei) și construiți matricea de încărcare a factorilor, care este o matrice a relațiilor dintre variabilele și factorii observați. Mărimea sarcinilor reflectă gradul de conexiune dintre fiecare variabilă observată și fiecare factor și este interpretată ca coeficient de corelație dintre variabila observată și factorul (variabila latentă), și deci variază de la -1 la 1. Soluția obținută după rotația ortogonală este interpretată pe baza analizei matricei factoriale.încărcări prin identificarea care dintre factori este cel mai asociat cu o anumită variabilă observabilă. Astfel, fiecare factor se dovedește a fi dat de un grup de variabile primare care au cele mai mari încărcări de factori pentru el.

Dacă se efectuează rotația oblică (adică posibilitatea de corelare între factori este permisă a priori), atunci se construiesc mai multe matrici suplimentare. Matricea de corelație factorială conţine corelaţii între factori. Matricea de încărcări factoriale, menționat mai sus, se împarte în două: matricea structurală a relaţiilorîntre factori şi variabile şi matricea de cartografiere a factorilor, care exprimă relația liniară dintre fiecare variabilă observată și fiecare factor (fără a ține cont de influența suprapunerii unor factori asupra altora, exprimată prin corelarea factorilor între ei). După rotația oblică, interpretarea factorilor se bazează pe gruparea variabilelor primare (asemănătoare celei descrise mai sus), dar folosind, în primul rând, matricea de cartografiere a factorilor.

În cele din urmă, pentru ambele rotații, matricea coeficientului valorii factorilor, utilizate în ecuații speciale de tip regresie pentru a calcula valorile factorilor (puncte factori, indicatori pe factori) pentru fiecare observație pe baza valorilor variabilelor lor primare.

Comparând metodele componentelor principale și analiza factorială, notăm următoarele. În cursul efectuării unei analize a componentelor principale, se construiește un model pentru a explica cel mai bine (maximizarea reproducerii) varianța totală a datelor experimentale obținute pentru toate variabilele. Ca urmare, „componentele” sunt evidențiate. În analiza factorială, se presupune că fiecare variabilă este explicată (determinată) printr-un număr de factori generali ipotetici (care afectează toate variabilele) și factori caracteristici (diferiți pentru fiecare variabilă). Iar procedurile de calcul sunt efectuate în așa fel încât să scape atât de varianța rezultată din eroarea de măsurare, cât și de varianța explicată de factori specifici și să analizeze doar variațiile explicate de factori generali existenți ipotetic. Rezultatul sunt obiecte numite factori. Totuși, așa cum sa menționat deja, din punct de vedere psihologic al conținutului, această diferență între modelele matematice nu are o semnificație semnificativă, prin urmare, în viitor, dacă nu se oferă explicații speciale despre care caz anume vorbim, vom folosiți termenul „factor” ca în raport cu componente și în raport cu factori.

Dimensiunile eșantioanelor și datele lipsă. Cu cât eșantionul este mai mare, cu atât mai mare este fiabilitatea indicatorilor de relație. Prin urmare, este foarte important să aveți o probă suficient de mare. Mărimea eșantionului necesară depinde și de gradul de relație dintre indicatorii din populația în ansamblu și de numărul de factori: cu o relație puternică și de încredere și un număr mic de factori bine definiți, un eșantion mic va fi suficient.

Astfel, un eșantion de 50 de subiecți este evaluat drept foarte rău, 100 - rău, 200 - mediu, 300 - bun, 500 - foarte bun și 1000 - excelent ( Comrey, Lee, 1992). Pe baza acestor considerații, se recomandă studierea eșantioanelor de cel puțin 300 de subiecți ca principiu general. Pentru o soluție bazată pe un număr suficient de variabile marker cu încărcări mari de factori (> 0,80), un eșantion de aproximativ 150 de subiecți ( Guadagnoli, Velicer, 1988). normalitatea pentru fiecare variabilă separat este verificată de asimetrii(cât de mult este deplasată curba distribuției studiate la dreapta sau la stânga în comparație cu curba normală teoretic) și exces(gradul de alungire în sus sau îndoit în jos al „clopotului” distribuției existente, reprezentat vizual în diagrama de frecvență, în comparație cu „clopotul” graficului densității, caracteristic distribuției normale). Dacă o variabilă are asimetrie și curtoză semnificative, atunci ea poate fi transformată prin introducerea unei noi variabile (ca funcție cu o singură valoare a celei luate în considerare) în așa fel încât această nouă variabilă să fie distribuită în mod normal (pentru mai multe detalii, vezi: Tabachnik, Fidell, 1996, cap. 4).

Vectori proprii și valori proprii corespunzătoare
pentru studiul de caz în cauză

Vectorul propriu 1

Vectorul propriu 2

Valoare proprie 1

Valoare proprie 2

Deoarece matricea de corelație este diagonalizabilă, i se poate aplica algebra matriceală a vectorilor proprii și a valorilor proprii pentru a obține rezultatele analizei factoriale (vezi Anexa 1). Dacă matricea este diagonalabilă, atunci toate informațiile esențiale despre structura factorială sunt conținute în forma sa diagonală. În analiza factorială, valorile proprii corespund varianței explicate de factori. Factorul cu cea mai mare valoare proprie explică cea mai mare varianță și așa mai departe, până când vine vorba de factori cu valori proprii mici sau negative, care de obicei nu sunt luați în considerare în analiză. Matricea de încărcări factoriale este o matrice de relații (interpretate ca coeficienți de corelație) între factori și variabile. Prima coloană reprezintă corelațiile dintre primul factor și fiecare variabilă pe rând: cost voucher (-.400), confortul complexului (.251), temperatura aerului (.932), temperatura apei(.956). A doua coloană reprezintă corelațiile dintre al doilea factor și fiecare variabilă: cost voucher (.900), confortul complexului(-.947), temperatura aerului (.348), temperatura apei(.286). Factorul este interpretat pe baza variabilelor puternic legate de el (adică având sarcini mari asupra acestuia). Deci, primul factor este în principal „climatic” ( temperatura aerului si a apei), în timp ce al doilea „economic” ( costul turului și confortul complexului).

Atunci când interpretăm acești factori, trebuie să acordăm atenție faptului că variabilele cu sarcini mari pentru primul factor ( temperatura aeruluiși temperatura apei), sunt interconectate pozitiv, în timp ce variabilele cu sarcini mari pentru al doilea factor ( cost voucherși confortul complexului), sunt interconectate negativ (nu se poate aștepta un confort deosebit de la o stațiune ieftină). Primul factor se numește unipolar (toate variabilele sunt grupate la un pol), iar al doilea este bipolar(variabilele se împart în două grupe, opuse în sens - doi poli). Variabilele care au sarcini factoriale cu semnul plus formează un pol pozitiv, iar cele cu semnul minus formează un pol negativ. În acest caz, denumirile polilor „pozitiv” și „negativ” la interpretarea factorului nu au sensul evaluativ de „rău” și „bun”. Alegerea semnului are loc la întâmplare în timpul calculelor. Rotație ortogonală

Rotația se aplică de obicei după factoring pentru a maximiza corelațiile ridicate și pentru a le minimiza pe cele scăzute. Există numeroase metode de rotație, dar cea mai des folosită rotație este varimax, care este o procedură de maximizare a varianței. Această rotație maximizează varianța sarcinilor factorilor, făcând sarcinile mari mai mari și cele inferioare mai mici pentru fiecare factor. Acest obiectiv este atins cu matrice de transformare Λ:

Matricea de transformare este matricea sinusurilor și cosinusurilor unghiului Ψ de rotire. (De aici și numele transformării - întoarce, deoarece din punct de vedere geometric, axele se rotesc în jurul originii spațiului factorilor.) După ce s-a efectuat rotația și s-a obținut matricea sarcinilor factoriale după rotație, se pot analiza o serie de alți indicatori (vezi Tabelul 4). Caracterul comun al unei variabile este varianța calculată folosind încărcările factorilor. Aceasta este corelația multiplă pătratică a variabilei prezise de modelul factorial. Generalitatea este calculată ca suma pătratelor încărcărilor factoriale (SKN) pentru variabila pentru toți factorii. Masa 4 comunitate pentru costul turului este egal cu (-.086) 2 + (. 981) 2 = .970, adică 97% din varianță costul turului se explică prin factorii 1 și 2.

Fracția varianței factorului pentru toate variabilele este SKN pentru factor împărțit la numărul de variabile (în cazul rotației ortogonale) 7 ... Pentru primul factor, fracția de varianță este egală cu:

[(-.086)2+(-.071)2+(.994)2+(.997)2]/4 = 1.994/4 = .50,

adică primul factor explică 50% din varianţa variabilelor. Al doilea factor explică 48% din varianța variabilelor și (datorită ortogonalității rotației) cei doi factori explică împreună 98% din varianța variabilelor.

Relația dintre încărcările factorilor, comunități, SKN,
varianța și covarianța factorilor ortogonali după rotație

Comunitățile ( h2)

Costul voucherului

∑a2=.970

Nivel de confort

∑a2=.960

Temperatura aerului

∑a2=.989

Temperatura apei

∑a2=.996

∑a2=1.994

∑a2=1.919

Procentul de varianță

Fracția de covarianță

Fracția varianței soluției explicată de factor este fracția covarianta este SKN pentru un factor, împărțit la suma generalităților (suma SKN peste variabile). Primul factor explică 51% din varianța soluției (1,994 / 3,915); al doilea - 49% (1,919 / 3,915); cei doi factori împreună explică toată covarianța.

Eigenval - reflectă valoarea varianței numărului corespunzător de factori. Ca exercițiu, vă recomandăm să scrieți toate aceste formule pentru a obține valori calculate pentru variabile. De exemplu, pentru primul răspuns:

1.23 = -.086(1.12) + .981(-1.16)

1.05 = -.072(1.12) - .978(-1.16)

1.08 = .994(1.12) + .027(-1.16)

1.16 = .997(1.12) - .040(-1.16)

Sau sub formă algebrică:

Z costul turului = A 11F 1 + A 12F 2

Z confortul complexului = A 2l F 1 + A 22F 2

Z temperatura aerului = A 31F 1 + A 32F 2

Z temperatura apei = A 41F 1 + A 42F 2

Cu cât sarcina este mai mare, cu atât putem presupune mai multă încredere că variabila determină factorul. Comrie și Lee ( Comrey, Lee, 1992) sugerează că sarcinile mai mari de 0,71 (explica 50% din variație) sunt excelente, 0% din varianță) sunt foarte bune, 0%) sunt bune, 0%) sunt satisfăcătoare și 0,32 (explica 10% din variație). varianţă) sunt slabe.

Să presupunem că faci un studiu (oarecum „prost”) în care măsori înălțimea a o sută de oameni în inci și centimetri. Astfel, aveți două variabile. Dacă doriți să investigați în continuare, de exemplu, efectele diferitelor suplimente nutritive asupra creșterii, veți continua să utilizați ambii variabile? Probabil că nu, deoarece înălțimea este o caracteristică a unei persoane, indiferent de unitățile în care se măsoară.

Dependența dintre variabile poate fi descoperită folosind diagrame de dispersie... Linia de regresie obținută prin potrivire oferă o reprezentare grafică a relației. Dacă definiți o nouă variabilă pe baza liniei de regresie prezentată în această diagramă, atunci o astfel de variabilă va include cele mai semnificative caracteristici ale ambelor variabile. Deci, de fapt, ați redus numărul de variabile și ați înlocuit două cu una. Rețineți că noul factor (variabilă) este de fapt o combinație liniară a celor două variabile originale.

Analiza factorială este o ramură a statisticii matematice. Scopul său, ca și scopul altor ramuri ale statisticii matematice, este de a dezvolta modele, concepte și metode care să permită analizarea și interpretarea rețelelor de date experimentale sau observate, indiferent de forma lor fizică.

Una dintre cele mai tipice forme de prezentare a datelor experimentale este o matrice, ale cărei coloane corespund diverșilor parametri, proprietăți, teste etc., iar rândurile corespund obiectelor, fenomenelor, modurilor individuale descrise de un set de valori specifice parametrilor. . În practică, dimensiunea matricei se dovedește a fi destul de mare: de exemplu, numărul de rânduri ale acestei matrice poate varia de la câteva zeci la câteva sute de mii (de exemplu, în anchetele sociologice), iar numărul de coloane - de la una sau două până la câteva sute. Analiza directă, „vizuală” a matricelor de această dimensiune este imposibilă, prin urmare, în statistica matematică, au apărut multe abordări și metode menite să „comprima” informațiile inițiale conținute în matrice la o dimensiune observabilă, pentru a extrage cele mai „esențiale” din informațiile inițiale, eliminând „secundar”, „accidental”.

La analiza datelor prezentate sub forma unei matrice, apar două tipuri de probleme. Sarcinile de primul tip au ca scop obținerea unei „descriere scurtă” a distribuției obiectelor, în timp ce sarcinile de al doilea tip au ca scop dezvăluirea relației dintre parametri.

Trebuie avut în vedere că principalul stimulent pentru apariția acestor probleme constă nu numai și nu atât în ​​dorința de a codifica în scurt timp o gamă largă de numere, ci într-o împrejurare mult mai fundamentală de natură metodologică: de îndată ce s-a putut descrie pe scurt o gamă largă de numere, atunci se poate crede că a fost dezvăluită o anumită regularitate obiectivă, ceea ce a condus la posibilitatea unei scurte descrieri; și căutarea modelelor obiective este scopul principal pentru care, de regulă, sunt colectate date.

Abordările și metodele menționate pentru prelucrarea unei matrici de date diferă în ceea ce privește tipul de problemă de prelucrare a datelor pe care intenționează să o rezolve și în ce matrice de dimensiune sunt aplicabile.

În ceea ce privește problema unei scurte descrieri a relațiilor dintre parametrii cu un număr mediu al acestor parametri, atunci în acest caz matricea de corelație corespunzătoare conține câteva zeci sau sute de numere și, prin ea însăși, nu poate servi încă ca o „descriere scurtă” a existentei. relațiile dintre parametri, dar ar trebui, cu aceasta pentru a fi supus prelucrării ulterioare.

Analiza factorială este doar un set de modele și metode menite să „comprima” informațiile conținute în matricea de corelație. Diverse modele de analiză factorială se bazează pe următoarea ipoteză: parametrii observați sau măsurați sunt doar caracteristici indirecte ale obiectului sau fenomenului studiat, de fapt, există parametri sau proprietăți interni (ascunși, neobservați direct), al căror număr. este mic și care determină valorile parametrilor observați. Acești parametri interni sunt de obicei numiți factori. Sarcina analizei factorilor este de a prezenta parametrii observați sub formă de combinații liniare de factori și, poate, unele valori suplimentare, „nesemnificative” - „zgomot”. Este remarcabil că, deși factorii în sine nu sunt cunoscuți, se poate obține o astfel de descompunere și, în plus, se pot determina astfel de factori, adică. pentru fiecare obiect pot fi indicate valorile fiecărui factor.

Analiza factorială, indiferent de metodele utilizate, începe cu prelucrarea tabelului de intercorelație obținut pe un set de teste, cunoscut sub numele de matrice de corelație, și se termină cu obținerea unei matrice factoriale, adică. un tabel care arată greutatea sau sarcina fiecărui factor pentru fiecare test. Tabelul 1 este o matrice de factori ipotetici cu doar doi factori.

Factorii sunt enumerați în rândul de sus al tabelului de la cel mai semnificativ la cel mai puțin semnificativ, iar ponderile lor în fiecare dintre cele 10 teste sunt date în coloanele corespunzătoare.

tabelul 1

Matrice factorială ipotetică

Axele de coordonate. Se obișnuiește să se reprezinte factorii geometric sub formă de axe de coordonate, în raport cu care fiecare test poate fi reprezentat ca punct. Orez. 1 explică această procedură. În acest grafic, fiecare dintre cele 10 teste prezentate în Tabelul 1 este afișat ca un punct relativ la doi factori care corespund axelor I și II. Astfel, testul 1 este reprezentat de un punct cu coordonatele 0,74 de-a lungul axei I și 0,54 de-a lungul axei II. Punctele reprezentând cele 9 teste rămase sunt construite în mod similar, folosind valorile greutăților din Tabel. 1.

Trebuie remarcat faptul că poziția axelor de coordonate nu este fixată de date. Tabelul original de corelații determină doar poziția testelor (adică punctele din Fig. 1) relativ unul față de celălalt. Aceleași puncte pot fi trasate pe un plan cu orice poziție a axelor de coordonate. Din acest motiv, atunci când se efectuează analiza factorială, este obișnuit să se rotească axele până se obține afișajul cel mai potrivit și ușor de interpretat.

Orez. 1. O mapare ipotetică a factorilor care arată ponderile a doi factori de grup pentru fiecare dintre cele 10 teste.

În fig. 1, axele I „și II” obținute după rotație sunt prezentate în linii întrerupte. Aceasta rotatie se realizeaza dupa criteriile propuse de Thurstone varietate pozitivă și structură simplă. Primul implică rotirea axelor într-o poziție în care toate greutățile negative semnificative sunt eliminate. Majoritatea psihologilor consideră că încărcările negative ale factorilor sunt inconsistente din punct de vedere logic cu testele de abilități, deoarece o astfel de încărcare înseamnă că cu cât scorul unui individ pentru un anumit factor este mai mare, cu atât scorul său este mai scăzut la testul corespunzător. Criteriul de proiectare simplu înseamnă în esență că fiecare test ar trebui să aibă sarcini pe cât mai puțini factori posibil.

Îndeplinirea ambelor criterii oferă factori care pot fi interpretați cel mai ușor și fără ambiguitate. Dacă un test are o sarcină mare asupra unui factor și nu are sarcini semnificative asupra altor factori, putem afla ceva despre natura acestui factor examinând conținutul acestui test. Dimpotrivă, dacă un test are sarcini medii sau scăzute pe șase factori, atunci ne va spune puțin despre natura oricăruia dintre ei.

În fig. 1 se vede clar că după rotirea axelor de coordonate toate testele verbale (1-5) sunt situate de-a lungul sau foarte aproape de axa I”, iar testele numerice (6-10) sunt strâns grupate în jurul axei II- axă". Noi sarcini factoriale, măsurate în raport cu axele rotite, sunt prezentate în tabel. 2. Factorizați sarcinile în tabel. 2 nu au valori negative, cu excepția valorilor neglijabile care sunt în mod clar atribuibile erorilor de eșantionare. Toate testele verbale au sarcini mari pe factorul I „și practic zero – pe factorul II”. Testele numerice, pe de altă parte, au sarcini mari pentru factorul II „și neglijabile pentru factorul I”. Astfel, rotirea axelor de coordonate a simplificat semnificativ identificarea și denumirea ambilor factori, precum și descrierea compoziției factorilor a fiecărui test. În practică, numărul de factori se dovedește adesea a fi mai mult de doi, ceea ce, desigur, complică reprezentarea geometrică și analiza statistică a acestora, dar nu schimbă esența procedurii luate în considerare.

masa 2

Matricea factorilor după rotație

Unii cercetători sunt ghidați de modelul teoretic ca principiu de rotație a axelor. De asemenea, ia în considerare persistența sau confirmarea acelorași factori în studii efectuate independent, dar comparabile.

Interpretarea factorilor. După ce am primit soluția factorială (sau, mai simplu, matricea factorială) după procedura de rotație, putem trece la interpretarea și denumirea factorilor. Această etapă a muncii necesită mai degrabă intuiție psihologică decât pregătire statistică. Pentru a înțelege natura unui anumit factor, nu avem de ales decât să studiem testele care au sarcini mari pentru acest factor și să încercăm să găsim procese psihologice comune pentru ele. Cu cât sunt mai multe teste cu sarcini mari asupra acestui factor, cu atât este mai ușor să-i dezvălui natura. De la masă. 2, de exemplu, este imediat clar că factorul I este „verbal, iar factorul II” este numeric. Date în tabel. Încărcările cu 2 factori reflectă, de asemenea, corelarea fiecărui test cu un factor.

Dispoziții de bază

Analiza factorială este una dintre cele mai noi domenii ale analizei statistice multivariate. Această metodă a fost dezvoltată inițial pentru a explica corelația dintre parametrii de intrare. Rezultatul analizei de corelație este o matrice de coeficienți de corelație. Cu un număr mic de caracteristici (variabile), poate fi efectuată o analiză vizuală a acestei matrice. Cu o creștere a numărului de semne (10 sau mai mult), analiza vizuală nu va da rezultate pozitive. Rezultă că întreaga varietate de corelații poate fi explicată prin acțiunea mai multor factori generalizați, care sunt funcții ale parametrilor studiați, în timp ce factorii înșiși pot fi necunoscuți, dar pot fi exprimați prin caracteristicile studiate. Fondatorul analizei factoriale este savantul american L. Thurstone.

Statisticienii moderni înțeleg analiza factorială ca un set de metode care, pe baza unei legături cu adevărat existente între trăsături, face posibilă identificarea caracteristicilor generalizatoare latente (ascunse) ale structurii organizaționale și ale mecanismelor de dezvoltare a fenomenelor și proceselor studiate.

Exemplu: să presupunem că n mașini sunt evaluate în funcție de 2 criterii:

x 1 - costul mașinii,

x 2 - durata de viață a motorului.

Dacă x 1 și x 2 sunt corelate, în sistemul de coordonate apare un grup de puncte direcționat și destul de dens, afișat formal de noile axe și (Fig. 5).

Fig. 6

Trăsătură proeminentă F 1 și F 2 este că trec prin grupuri dense de puncte și, la rândul lor, se corelează cu X 1 X 2.Maximum

numărul de axe noi va fi egal cu numărul de trăsături elementare. Dezvoltarea ulterioară a analizei factorilor a arătat că această metodă poate fi aplicată cu succes în problemele de grupare și clasificare a obiectelor.

Prezentarea informațiilor în analiza factorială.

Pentru a efectua analiza factorială, informațiile trebuie prezentate sub forma unei matrice m x n:

Rândurile matricei corespund obiectelor de observație (i =), iar coloanele corespund trăsăturilor (j =).

Atributele care caracterizează obiectul au dimensiuni diferite. Pentru a le aduce la aceeași dimensiune și a asigura comparabilitatea caracteristicilor, matricea datelor inițiale este de obicei normalizată prin introducerea unei singure scale. Cel mai comun mod de normalizare este standardizarea. De la variabile la variabile

Rău j semn,

Deviație standard.

Această transformare se numește standardizare.

Model de analiză factorială de bază

Modelul de bază al analizei factorilor este următorul:

z j - j-al-lea semn (valoare aleatorie);

F 1 , F 2 , ..., F p- factori generali (valori aleatorii, distribuite normal);

u j- un factor caracteristic;

j1 , j2 , …, jp factori de sarcină care caracterizează semnificația influenței fiecărui factor (parametrii modelului urmează a fi determinați);

Factorii comuni sunt esențiali pentru analiza tuturor atributelor. Factorii caracteristici arată că se referă doar la atributul dat, acesta este specificul atributului, care nu poate fi exprimat prin factori. Factorizarea sarcinilor j1 , j2 , …, jp caracterizează amploarea influenței unuia sau altuia factor general în variația unei trăsături date. Sarcina principală a analizei factorilor este de a determina încărcările factorilor. Varianta S j 2 din fiecare caracteristică pot fi împărțite în 2 componente:

    prima parte determină acțiunea factorilor comuni - generalitatea lui h j 2;

    a doua parte determină acțiunea unui factor caracteristic - caracter - d j 2.

Toate variabilele sunt prezentate într-o formă standardizată, deci varianța - semn de stat S j 2 = 1.

Dacă factorii generali și caracteristici nu se corelează între ei, atunci varianța caracteristicii j-a poate fi reprezentată ca:

unde este fracția din varianța caracteristicii atribuibile k al-lea factor.

Contribuția totală a oricărui factor la variația totală este:

Contribuția tuturor factorilor comuni la varianța totală:

Este convenabil să prezentați rezultatele analizei factoriale sub forma unui tabel.

Factorizarea sarcinilor

Comunitățile

A 11 A 21 … A p1

A 12 A 22 A p2

… … … …

A 1m A 2m A p.m

factori

V 1 V 2 ... V p

A- matricea încărcărilor factoriale. Poate fi obținut în diverse moduri, în prezent metoda componentelor principale sau a factorilor principali este cea mai răspândită.

Procedura de calcul a metodei factorilor principali.

Rezolvarea problemei folosind componentele principale se reduce la o transformare pas cu pas a matricei de date inițiale X :

NS- matricea datelor initiale;

Z- o matrice a valorilor caracteristicilor standardizate,

R- matricea corelațiilor perechi:

Matricea diagonală a numerelor proprii (caracteristice),

j se găsesc prin rezolvarea ecuaţiei caracteristice

E-Matricea unitatii,

 j este indicele de dispersie al fiecărei componente principale,

sub rezerva standardizării datelor inițiale, apoi = m

U- matricea vectorilor proprii, care se gasesc din ecuatia:

Asta înseamnă cu adevărat o decizie m sisteme de ecuații liniare pentru fiecare

Acestea. fiecărei valori proprii îi corespunde un sistem de ecuaţii.

Atunci găsește V- matricea vectorilor proprii normalizaţi.

Matricea de mapare a factorilor A este calculată prin formula:

Apoi găsim valorile componentelor principale folosind una dintre formulele echivalente:

Agregatul a patru întreprinderi industriale este evaluat în funcție de trei trăsături caracteristice:

    producția medie anuală per angajat x 1;

    nivelul de rentabilitate x 2;

Nivelul rentabilității activelor x 3.

Rezultatul este prezentat într-o matrice standardizată Z:

După matrice Z se obţine matricea corelaţiilor perechi R:

    Să găsim determinantul matricei de corelații perechi (de exemplu, folosind metoda Faddeev):

    Să construim ecuația caracteristică:

    Rezolvând această ecuație, găsim:

Astfel, caracteristicile elementare originale x 1, x 2, x 3 pot fi generalizate prin valorile a trei componente principale și:

F 1 explică despre întreaga variație,

F 2 -, și F 3 -

Toate cele trei componente principale reprezintă 100% din variație.

Rezolvând acest sistem, găsim:

Sistemele pentru  2 și  3 sunt construite într-un mod similar. Pentru soluția de sistem  2:

Matricea vectorului propriu U ia forma:

    Împărțim fiecare element al matricei la suma pătratelor elementelor j-lea

coloană, obținem matricea normalizată V.

Rețineți că egalitatea = E.

    Matricea mapării factorilor se obține din relația matriceală

=

În sensul fiecărui element al matricei A reprezintă coeficienții parțiali ai matricei de corelație între caracteristica originală X j și componentele principale F r. Prin urmare, toate elementele.

Egalitatea implică condiția r- numarul de componente.

Contribuția totală a fiecărui factor la variația totală a caracteristicilor este:

Modelul de analiză factorială va lua forma:

Găsiți valorile componentelor principale (matricea F) conform formulei

Centrul de distribuție al valorilor componentelor principale este în punctul (0,0,0).

În plus, concluziile analitice bazate pe rezultatele calculelor urmează după ce a fost luată o decizie cu privire la numărul de caracteristici semnificative și principalele componente ale determinării denumirilor componentelor principale. Problemele de recunoaștere a componentelor principale, determinarea denumirilor acestora sunt rezolvate subiectiv pe baza coeficienților de greutate din matricea de cartografiere A.

Luați în considerare întrebarea privind formularea numelor componentelor principale.

Notăm w 1 - un set de coeficienți de greutate nesemnificativi, care include elemente apropiate de zero ,,

w 2 - un set de greutăți semnificative,

w 3 - un subset de ponderi semnificative care nu sunt implicate în formarea denumirii componentei principale.

w 2 - w 3 - un subset al factorilor de ponderare implicați în formarea numelui.

Calculăm coeficientul de conținut informațional pentru fiecare factor principal

Setul de caracteristici explicabile este considerat satisfăcător dacă valorile coeficienților de informativitate sunt în intervalul 0,75-0,95.

A 11 =0,776 A 12 =-0,130 A 13 =0,308

A 12 =0,904 A 22 =-0,210 A 23 =-0,420

A 31 =0,616 A 32 =0,902 A 33 =0,236

Pentru j = 1 w 1 = ,w 2 ={A 11 ,A 21 ,A 31 },

.

Pentru j = 2 w 1 ={A 12 ,A 22 }, w 2 ={ A 32 },

Pentru j = 3 w 1 ={A 33 }, w 2 ={A 13 ,A 33 },

Valori caracteristice X 1 , X 2 , X 3, compoziția componentei principale este determinată de 100%. în acest caz, cea mai mare contribuție a caracteristicii X 2, al cărui sens este rentabilitatea. corect pentru numele caracteristicii F 1 va fi eficienta productiei.

F 2 este determinată de componentă X 3 (rentabilitatea activelor), să-i spunem utilizarea eficientă a mijloacelor fixe.

F 3 este determinată de componente X 1 ,X 2 – poate să nu fie luate în considerare în analiză deoarece ea explică doar 10% din variația totală.

Literatură.

    A.A. Popov

Excel: Ghid practic, DESS COM.-M.-2000.

    Dyakonov V.P., Abramenkova I.V. Mathcad7 în matematică, fizică și internet. Editura „Nomidzh”, M.-1998, secțiunea 2.13. Efectuarea regresiei.

    LA. Soshnikova, V.N. Tomaşevici şi colab., Analiza statistică multivariată în economie, ed. V.N. Tomașevici - M. -Nauka, 1980.

    V.A. Kolemaev, O.V. Staroverov, V.B. Turundaevsky Teoria probabilității și statistica matematică. –M. - Liceu - 1991.

    La Iberla. Analiza factorială.-M. Statistică.-1980.

Comparația a două medii ale populațiilor generale normale ale căror variații sunt cunoscute

Fie populațiile generale X și Y să fie distribuite normal, iar variațiile lor sunt cunoscute (de exemplu, din experiența anterioară sau găsite teoretic). Pentru mostre independente de volume n și m, extrase din aceste populații, s-au găsit mediile eșantionului x in și y in.

Se cere testarea ipotezei nule pe baza mediilor eșantionului la un nivel dat de semnificație, care constă în faptul că mediile generale (așteptările matematice) ale populațiilor considerate sunt egale între ele, adică H 0: M. (X) = M (Y).

Având în vedere că mediile eșantionului sunt estimări imparțiale ale mediilor generale, adică M (x in) = M (X) și M (y in) = M (Y), ipoteza nulă poate fi scrisă după cum urmează: H 0: M (x în ) = M (y în).

Astfel, se cere să se verifice dacă așteptările matematice ale mediilor eșantionului sunt egale între ele. Această sarcină este pusă deoarece, de regulă, mijloacele eșantionului sunt diferite. Se pune întrebarea: mijloacele eșantionului diferă semnificativ sau nesemnificativ?

Dacă se dovedește că ipoteza nulă este adevărată, adică mediile generale sunt aceleași, atunci diferența dintre mediile eșantionului este nesemnificativă și poate fi explicată prin motive aleatorii și, în special, printr-o selecție aleatorie a obiectelor eșantionului.

Dacă ipoteza nulă este respinsă, adică mediile generale nu sunt aceleași, atunci diferența dintre mediile eșantionului este semnificativă și nu poate fi explicată prin motive aleatorii. Și se explică prin faptul că media generală (așteptările matematice) în sine sunt diferite.

Ca test al ipotezei nule, luăm o variabilă aleatorie.

Criteriul Z - variabilă aleatoare normală normalizată. Într-adevăr, mărimea Z este distribuită normal, deoarece este o combinație liniară a mărimilor distribuite normal X și Y; aceste valori însele sunt distribuite în mod normal ca medii ale eșantionului găsite din probe extrase din populațiile generale; Z este o valoare normalizată, deoarece M (Z) = 0, dacă ipoteza nulă este adevărată, D (Z) = 1, deoarece eșantioanele sunt independente.

Zona critică se construiește în funcție de tipul ipotezei concurente.

Primul caz... Ipoteza nulă H 0: M (X) = M (Y). Ipoteza concurentă H 1: M (X) ¹M (Y).

În acest caz, se construiește o zonă critică cu două fețe pe baza cerinței ca probabilitatea ca criteriul să se încadreze în această zonă, presupunând validitatea ipotezei nule, să fie egală cu nivelul de semnificație acceptat.

Cea mai mare putere a criteriului (probabilitatea ca criteriul să cadă în regiunea critică cu validitatea ipotezei concurente) se realizează atunci când punctele critice „stânga” și „dreapta” sunt alese astfel încât probabilitatea ca criteriul să cadă în fiecare intervalul regiunii critice este egal cu:

P (Z< zлев.кр)=a¤2,

P (Z> z dreapta cr) = a¤2. (1)

Deoarece Z este o mărime normală normalizată, iar distribuția unei astfel de mărimi este simetrică față de zero, punctele critice sunt simetrice față de zero.

Astfel, dacă notăm limita dreaptă a regiunii critice cu două fețe prin zcr, atunci limita din stânga este -zcr.

Deci, este suficient să găsiți granița potrivită pentru a găsi regiunea critică Z cu două fețe< -zкр, Z >zcr și aria de acceptare a ipotezei nule (-zcr, zcr).

Să arătăm cum să găsim zcr - limita dreaptă a regiunii critice cu două fețe, folosind funcția Laplace Ф (Z). Se știe că funcția Laplace determină probabilitatea de a atinge o variabilă normală aleatorie normalizată, de exemplu Z, în intervalul (0; z):

P (0< Z

Deoarece distribuția lui Z este simetrică față de zero, probabilitatea de a introduce Z în intervalul (0; ¥) este 1/2. Prin urmare, dacă împărțim acest interval la punctul zcr în intervalul (0, zcr) și (zcr, ¥), atunci prin teorema de adunare P (0< Z < zкр)+Р(Z >zcr) = 1/2.

În virtutea (1) și (2), obținem Ф (zcr) + a / 2 = 1/2. Prin urmare, Ф (zкр) = (1-a) / 2.

De aici concluzionăm: pentru a găsi limita dreaptă a regiunii critice cu două laturi (zcr), este suficient să găsim valoarea argumentului funcției Laplace, care corespunde valorii funcției egală cu (1-). a)/2.

Atunci regiunea critică cu două laturi este definită de inegalitățile Z< – zкр, Z >zcr, sau inegalitatea echivalentă ½Z1> zcr, iar domeniul de acceptare a ipotezei nule de către inegalitatea - zcr< Z < zкр или равносильным неравенством çZ ç< zкр.

Să notăm valoarea criteriului, calculată din datele observaționale, prin zobl și să formulăm regula de testare a ipotezei nule.

Regulă.

1. Calculați valoarea observată a criteriului

2. Din tabelul funcției Laplace, găsiți punctul critic prin egalitatea Ф (zкр) = (1-a) / 2.

3. Dacă ç zobl ç< zкр – нет оснований отвергнуть нулевую гипотезу.

Dacă ç zobl ç> zcr - ipoteza nulă este respinsă.

Al doilea caz... Ipoteza nulă Н0: M (X) = M (Y). Ipoteza concurentă H1: M (X)> M (Y).

În practică, acesta este cazul dacă considerentele profesionale sugerează că media generală a unei populații este mai mare decât media generală a celeilalte populații. De exemplu, dacă se introduce o îmbunătățire a procesului, atunci este firesc să presupunem că aceasta va duce la o creștere a producției.

În acest caz, o zonă critică pe partea dreaptă este construită pe baza cerinței ca probabilitatea ca criteriul să se încadreze în această zonă, presupunând validitatea ipotezei nule, să fie egală cu nivelul de semnificație acceptat:

P (Z> zcr) = a. (3)

Să arătăm cum să găsim punctul critic folosind funcția Laplace. Vom folosi relația

P (0 zcr) = 1/2.

În virtutea (2) și (3), avem Ф (zcr) + a = 1/2. Prin urmare, Ф (zкр) = (1-2a) / 2.

Prin urmare, concluzionăm că pentru a găsi limita regiunii critice din dreapta (zcr), este suficient să găsim valoarea funcției Laplace, egală cu (1-2a) / 2. Atunci regiunea critică din dreapta este determinată de inegalitatea Z> zcr, iar regiunea de acceptare a ipotezei nule este determinată de inegalitatea Z< zкр.

Regulă.

1. Calculați valoarea observată a criteriului zobl.

2. Din tabelul funcției Laplace, găsiți punctul critic din egalitatea Ф (zкр) = (1-2a) / 2.

3. Dacă Z obs< z кр – нет оснований отвергнуть нулевую гипотезу. Если Z набл >z cr - respingem ipoteza nulă.

Al treilea caz. Ipoteza nulă Н0: M (X) = M (Y). Ipoteza concurentă H1: M (X)

În acest caz, se construiește o zonă critică din stânga pe baza cerinței, probabilitatea ca criteriul să se încadreze în această zonă, în

poziția de valabilitate a ipotezei nule a fost egală cu nivelul de semnificație acceptat P (Z< z’кр)=a, т.е. z’кр= – zкр. Таким образом, для того чтобы найти точку z’кр, достаточно сначала найти “вспомогательную точку” zкр а затем взять найденное значение со знаком минус. Тогда левосторонняя критическая область определяется неравенством Z < -zкр, а область принятия нулевой гипотезы – неравенством Z >-zcr.

Regulă.

1. Calculați Zobl.

2. Conform tabelului de funcții Laplace, găsiți „punctul auxiliar” zcr prin egalitatea Ф (zcr) = (1-2a) / 2, apoi puneți z'cr = -zcr.

3. Dacă Zobl> -zcr, nu există niciun motiv pentru a respinge ipoteza nulă.

Dacă Zobl< -zкр, – нулевую гипотезу отвергают.

Ecuații de bază

Anterior, aproape toate manualele și monografiile de analiză factorială ofereau o explicație despre modul de efectuare a calculelor de bază „manual” sau folosind cel mai simplu dispozitiv de calcul (mașină de adăugare sau calculator). Astăzi, datorită complexității și cantității mari de calcule necesare pentru a construi o matrice de interrelații, a izola factorii și a le roti, probabil că nu există o singură persoană care să nu folosească computere puternice și programe corespunzătoare atunci când efectuează analiza factorială.

Prin urmare, ne vom concentra pe ce matrice (seturi de date) cele mai semnificative pot fi obținute în cursul analizei factoriale, cum sunt legate între ele și cum pot fi utilizate pentru a interpreta datele. Toate calculele necesare se pot face folosind orice program de calculator (de exemplu, SPSS sau STADIA).

V fila. 1 furnizează o listă a celor mai importante matrice pentru analiza componentelor principale și analiza factorială. Această listă conține în principal matrici de relații (între variabile, între factori, între variabile și factori), valori standardizate (pentru variabile și pentru factori), ponderi de regresie (pentru calcularea valorilor factorilor folosind valori pentru variabile) și factori cartografierea matricelor de relații dintre factori și variabile după rotația oblică. V fila. 1 De asemenea, sunt date matrice de valori proprii și vectorii proprii corespunzători. Valorile proprii (valorile proprii) și vectorii proprii sunt descrise având în vedere importanța lor pentru selecția factorilor, utilizarea unui număr mare de termeni speciali în acest sens, precum și relația strânsă dintre valorile proprii și variația în studiile statistice. .

tabelul 1

Matricele utilizate cel mai frecvent în analiza factorială

Desemnare Nume Marimea Descriere
R Matricea relațiilor p x p Relații între variabile
D Matrice de date nestandardizate N x p Date primare - valori de observație nestandardizate pentru variabilele primare
Z Matrice de date standardizată N x p Valori standardizate de observare pentru variabilele primare
F Matricea valorilor factorilor N x f Valori standardizate de observare în funcție de factor
A Matricea de încărcare a factorilor Matricea de cartografiere a factorilor p x f Coeficienți de regresie pentru factori comuni, presupunând că variabilele observate sunt o combinație liniară de factori. În cazul rotației ortogonale, relația dintre variabile și factori
V Matricea coeficientului valorii factorilor p x f Coeficienți de regresie pentru calcularea valorilor factorilor utilizând valori variabile
S Matricea structurală p x f Relații dintre variabile și factori
F Matricea de corelație factorială f X f Corelații între factori
L Matrice de valori proprii (diagonală) f X f Valori proprii (rădăcini caracteristice, latente); fiecare factor are un număr propriu
V Matricea vectorului propriu f X f Vectori proprii (caracteristici); fiecărei valori proprii îi corespunde un vector propriu

Notă. Când se specifică dimensiunea, este dat numărul de rânduri x numărul de coloane: R- numărul de variabile, N- numărul de observații, f- numărul de factori sau componente. Dacă matricea relaţiilor R nu este degenerat și are un rang egal cu R, atunci chiar iese în evidență R valori proprii și vectori proprii, nu f... Cu toate acestea, numai f dintre ei. Prin urmare, restul p - f nu sunt prezentate.

La matrice Sși F aplică numai rotația oblică, restului - ortogonală și oblică.

Setul de date pregătit pentru analiza factorială constă în rezultatele măsurătorilor (sondajului) unui număr mare de subiecți (respondenți) în funcție de anumite scale (variabile). V fila. 2 este dată o serie de date, care pot fi considerate condiționat ca satisfacând cerințele analizei factoriale.

Cinci respondenți, care au aplicat la o agenție de turism pentru a cumpăra un bilet la o stațiune de pe litoral, au fost întrebați despre semnificația pentru ei a patru condiții (variabile) pentru alegerea unei destinații de vacanță de vară. Aceste condiții variabile au fost: costul voucherului, confortul complexului, temperatura aerului, temperatura apei. Cu cât, din punctul de vedere al intimatului, semnificația acestei sau acelei condiții pentru acesta este mai mare, cu atât i-a atribuit mai multă semnificație. Sarcina de cercetare a constat în studierea modelului relației dintre variabile și identificarea cauzelor subiacente care determină alegerea stațiunii. (Desigur, exemplul este extrem de simplificat în scopuri ilustrative și educaționale și nu ar trebui luat în serios într-un aspect semnificativ.)

Matricea relatiilor ( fila. 2) a fost calculată ca corelație. Acordați atenție structurii relațiilor din acesta, evidențiate prin linii verticale și orizontale. Corelațiile mari din cadranele din stânga sus și din dreapta jos arată că estimările pentru costul unui bilet și confortul complexului sunt interdependente, precum și estimările pentru temperatura aerului și temperatura apei. Celelalte două cadrane arată că temperatura aerului și confortul complexului sunt legate, precum și confortul complexului și temperatura apei.

Să încercăm acum, folosind analiza factorială, să găsim această structură de corelații, care este ușor de văzut cu ochiul liber într-o matrice de corelație mică (aceasta este foarte greu de realizat într-o matrice mare).

masa 2

Date de analiză factorială (studiu de caz)

Turiştii Variabile
Costul voucherului Nivel de confort Temperatura aerului Temperatura apei
T1
T2
T3
T4
T5

Matricea de corelație

Costul voucherului Nivel de confort Temperatura aerului Temperatura apei
Costul voucherului 1,000 -0,953 -0,055 -0,130
Nivel de confort -0,953 1,000 -,091 -0,036
Temperatura aerului -0,055 -0,091 1,000 0,990
Temperatura apei -0,130 -0,036 0,990 1,000

Factorizarea

O teoremă importantă din algebra matriceală afirmă că matricele care îndeplinesc anumite condiții pot fi diagonalizate, i.e. transformată într-o matrice cu numere pe diagonala principală și zerouri pe toate celelalte poziții. Matricele de relații sunt tocmai tipul de matrici diagonalizabile. Transformarea se realizează după formula:

acestea. diagonalizarea matricei R se realizează prin înmulțirea acesteia mai întâi (în stânga) cu matricea transpusă V, notată cu V ', iar apoi (în dreapta) cu matricea V.

Coloanele din matricea V sunt numite vectori proprii, iar valorile de pe diagonala principală a matricei L sunt numite valori proprii. Primul vector propriu se potrivește cu prima valoare proprie și așa mai departe. (pentru mai multe detalii vezi Anexa 1).

Datorită faptului că în exemplul dat sunt luate în considerare patru variabile, obținem patru valori proprii cu vectorii proprii corespunzători. Dar, deoarece scopul analizei factorilor este de a generaliza matricea de relații folosind cât mai puțini factori posibil și fiecare valoare proprie corespunde diferiților factori potențiali, de obicei sunt luați în considerare doar factorii cu valori proprii mari. Cu o soluție factorială „bună”, matricea relațiilor calculate obținută folosind acest set limitat de factori duplică practic matricea relațiilor.

În exemplul nostru, când nu sunt impuse constrângeri asupra numărului de factori, valorile proprii 2.02, 1.94, .04 și.00 sunt calculate pentru fiecare dintre cei patru factori posibili. Numai pentru primii doi factori, valorile proprii sunt suficient de mari pentru a deveni subiectul unei analize suplimentare. Prin urmare, doar primii doi factori sunt re-subliniați. Au valori proprii 2,00 și, respectiv, 1,91, așa cum este indicat în tabel. 3. Folosind ecuația (6) și inserând valorile din exemplul de mai sus, obținem:

(Toate valorile calculate de calculator sunt aceleași; calculele manuale pot diferi din cauza inexactităților de rotunjire.)

Înmulțirea din stânga a matricei de vectori proprii cu matricea transpusă dă matricea de identitate E (cu unii pe diagonala principală și alte zerouri). Prin urmare, putem spune că transformarea matricei de relații conform formulei (6) nu o schimbă în sine, ci doar o transformă într-o formă mai convenabilă pentru analiză:

De exemplu:

Tabelul 3

Vectori proprii și valori proprii corespunzătoare pentru studiul de caz

Vectorul propriu 1 Vectorul propriu 2
-.283 .651
.177 -.685
.658 .252
.675 .207
Valoare proprie 1 Valoare proprie 2
2.00 1.91

Deoarece matricea de corelație este diagonalizabilă, i se poate aplica algebra matriceală a vectorilor proprii și a valorilor proprii pentru a obține rezultatele analizei factoriale (vezi Anexa 1). Dacă matricea este diagonalabilă, atunci toate informațiile esențiale despre structura factorială sunt conținute în forma sa diagonală. În analiza factorială, valorile proprii corespund varianței explicate de factori. Factorul cu cea mai mare valoare proprie explică cea mai mare varianță etc., până când vine vorba de factori cu valori proprii mici sau negative, care de obicei nu sunt luați în considerare în analiză. Calcularea valorilor proprii și a vectorilor proprii este foarte laborioasă, iar capacitatea de a le calcula nu este o necesitate absolută pentru un psiholog care stăpânește analiza factorială în propriile sale scopuri practice. Cu toate acestea, familiaritatea cu această procedură nu strica, prin urmare, în Anexa 1 dăm ca exemplu de calcul al valorilor proprii și al vectorilor proprii pe o matrice mică.

Pentru a găsi valorile proprii ale unei matrice pătrate pxp, este necesar să găsiți rădăcinile unui polinom de gradul p și să găsiți vectorii proprii - să rezolvați p ecuații cu p necunoscute cu constrângeri laterale suplimentare, care pentru p> 3 este se face rar manual. Odată ce vectorii proprii și valorile proprii sunt găsite, restul analizei factoriale (sau analiza componentelor principale) devine mai mult sau mai puțin clară (vezi ecuațiile 8-11).

Ecuația (6) poate fi reprezentată ca: R = V'LV, (8)

acestea. matricea de interconexiuni poate fi considerată ca produsul a trei matrice - matricea valorilor proprii, matricea vectorilor proprii corespunzători și transpusă acesteia.

După transformare, matricea valorilor proprii L poate fi reprezentată după cum urmează:

și prin urmare: R = VÖLÖL V ’(10)

sau (care este același): R = (VÖL) (ÖL V ’)

Notăm: A = (VÖL), și A ’= (ÖL V’), apoi R = AA ’(11)

acestea. matricea de relații poate fi reprezentată și ca produsul a două matrici, fiecare dintre acestea fiind o combinație de vectori proprii și rădăcini pătrate ale valorilor proprii.

Ecuația (11) este adesea denumită ecuația de analiză factorială fundamentală. Exprimă afirmația că matricea de relații este produsul matricei de încărcare a factorilor (A) și transpusă acesteia.

Ecuațiile (10) și (11) arată, de asemenea, că o parte semnificativă a calculelor din metodele de analiză factorială și componente principale constă în determinarea valorilor proprii și vectorilor proprii. Odată cunoscute, matricea factorială înainte de rotație se obține prin înmulțire directă a matricei:

În exemplul nostru:

Matricea de încărcări factoriale este o matrice de relații (interpretate ca coeficienți de corelație) între factori și variabile. Prima coloană reprezintă corelațiile dintre primul factor și fiecare variabilă pe rând: costul biletului (-.400), confortul complexului (.251), temperatura aerului (.932), temperatura apei (. 956). A doua coloană reprezintă corelațiile dintre al doilea factor și fiecare variabilă: costul călătoriei (.900), confortul complexului (-.947), temperatura aerului (.348), temperatura apei (.286) . Factorul este interpretat pe baza variabilelor puternic legate de el (adică având sarcini mari asupra acestuia). Deci, primul factor este în principal „climatic” (temperatura aerului și a apei), în timp ce al doilea este „economic” (costul biletului și confortul complexului).

Atunci când interpretăm acești factori, trebuie să acordăm atenție faptului că variabilele cu sarcini mari pentru primul factor (temperatura aerului și temperatura apei) sunt interconectate pozitiv, în timp ce variabilele cu sarcini mari pentru al doilea factor (costul călătoriei și confortul complexului) sunt interconectate negativ.(nu se poate aștepta un mare confort de la o stațiune ieftină). Primul factor se numește unipolar (toate variabilele sunt grupate la un pol), iar cel de-al doilea se numește bipolar (variabilele se împart în două grupuri care sunt opuse în sens - doi poli). Variabilele care au sarcini factoriale cu semnul plus formează un pol pozitiv, iar cele cu semnul minus formează un pol negativ. În acest caz, denumirile polilor „pozitiv” și „negativ” la interpretarea factorului nu au sensul evaluativ de „rău” și „bun”. Alegerea semnului are loc la întâmplare în timpul calculelor. Înlocuirea tuturor semnelor cu unele opuse (toate plusurile pentru minusuri și toate minusurile pentru plusuri) nu schimbă soluția. Analiza semnelor este necesară doar pentru identificarea grupurilor (ceea ce este opus ce). Cu același succes, un stâlp poate fi numit dreapta, celălalt stânga. În exemplul nostru, costul variabil al voucherului s-a dovedit a fi la polul pozitiv (dreapta), acesta era opus confortului variabil al complexului de la polul negativ (stânga). Și acest factor poate fi interpretat (numit) ca „Economie despre Confort”. Respondenții, pentru care problema economisirii este semnificativă, au fost de dreapta - au primit valori factoriale cu semnul plus. Atunci când aleg o stațiune, aceștia se ghidează mai mult după ieftinitatea acesteia și mai puțin după confort. Respondenții care nu economisesc în vacanță (nu le pasă mult de prețul voucherului) și care doresc să se relaxeze, în primul rând, în condiții confortabile, au fost în stânga - au primit valori factori cu semnul minus .

Cu toate acestea, trebuie avut în vedere faptul că toate variabilele sunt foarte corelate cu ambii factori. În cadrul acestui exemplu simplu, interpretarea este evidentă, dar în cazul datelor reale, nu este atât de simplă. De obicei, un factor este mai ușor de interpretat dacă doar o mică parte din variabile sunt strâns legate de el, iar restul nu.

Rotație ortogonală

Rotația se aplică de obicei după factoring pentru a maximiza corelațiile ridicate și pentru a le minimiza pe cele scăzute. Există numeroase metode de rotație, dar cea mai frecvent utilizată rotație este varimax, care este o procedură de maximizare a varianței. Acest pivot maximizează varianța încărcărilor factorilor, făcând sarcinile mari mai mari și cele mai mici mai mici decât ziua fiecărui factor. Acest obiectiv este atins cu matricea de transformare Л:

A înainte de întoarcere L = A după întoarcere,

acestea. matricea de încărcări factoriale înainte de swing este înmulțită cu matricea de transformare și rezultatul este matricea de încărcări factoriale după swing. În exemplul nostru:

Comparați matrice înainte și după rotație. Rețineți că matricea după rotație are sarcini factoriale mai mici și mai mari decât matricea înainte de rotație. Diferența accentuată în încărcături facilitează interpretarea factorului, permite selectarea fără ambiguitate a variabilelor care sunt puternic interconectate cu acesta.

Elementele matricei de transformare au o interpretare geometrică specială:

O matrice de transformare este o matrice de sinusuri și cosinus ale unghiului ψ care trebuie rotit. (De aici și numele transformării - rotație, deoarece din punct de vedere geometric, axele se rotesc în jurul originii spațiului factor.) În exemplul nostru, acest unghi este de aproximativ 19 grade: cos19 ° = .946 și sin19 ° = .325. Din punct de vedere geometric, aceasta corespunde cu rotirea axelor factorilor cu 19 grade în jurul originii. (Pentru mai multe informații despre aspectele geometrice ale rotației, vezi mai jos.)

Universitatea Națională de Cercetare Nucleară „MEPhI”
Facultatea de Informatică de Afaceri și Management
sisteme complexe
Departamentul de Economie și Management
în industrie (nr. 71)
Metode de prelucrare matematică și instrumentală
informatii statistice
Kireev V.S.,
dr., conf. univ
E-mail:
Moscova, 2017
1

Normalizare

Scalare zecimală
Normalizare minimă
Normalizare folosind transformarea standard
Normalizare folosind transformări element cu element
2

Scalare zecimală

Vi
"
Vi k, max (Vi) 1
10
"
3

Normalizare minimă

Vi
Vi min (Vi)
"
i
max (Vi) min (Vi)
i
i
4

Normalizare folosind abaterea standard

Vi
"
V
V
Vi V
V
- selectiv
media
- pătrat mediu al eșantionului
deviere
5

Normalizare folosind transformări element cu element

Vi f Vi
"
Vi 1
"
log Vi
, Vi log Vi
"
Vi exp Vi
"
Vi Vi, Vi 1 y
Vi
"
y
"
6

Analiza factorilor

(FA) este o colecție de metode care
pe baza conexiunilor cu adevărat existente ale caracteristicilor analizate, conexiunile în sine
obiecte observabile, vă permit să identificați ascunse (implicite, latente)
caracteristici generalizatoare ale structurii organizatorice şi mecanismului de dezvoltare
a studiat fenomene, procese.
Metodele de analiză factorială în practica cercetării sunt aplicate în principal
mod pentru a comprima informațiile, obțineți un număr mic de generalizări
caracteristici care explică variabilitatea (varianta) caracteristicilor elementare (R-tehnica analizei factorilor) sau variabilitatea obiectelor observate (Q-tehnica)
analiza factorilor).
Algoritmii de analiză factorială se bazează pe utilizarea reducerii
matrici de corelații perechi (covarianțe). O matrice redusă este o matrice pe
a cărui diagonală principală nu este unitățile (estimările) corelației complete, sau
estimări ale varianței totale și valorile lor reduse, oarecum reduse. La
se postulează că analiza nu va explica toată varianţa
a trăsăturilor (obiectelor) studiate și o parte a acesteia, de obicei una mare. Rămas
partea inexplicabilă a varianței este specificitatea care decurge din specificitate
obiecte observate sau erori făcute la înregistrarea fenomenelor, proceselor,
acestea. nefiabilitatea datelor de intrare.
7

Clasificarea metodelor FA

8

Metoda componentelor principale

(MGK) este folosit pentru a reduce dimensiunea
spațiu al vectorilor observați fără a duce la o pierdere semnificativă a
informativitatea. Condiția prealabilă pentru PCA este legea distribuției normale
vectori multidimensionali. În MGK, sunt definite combinații liniare de variabile aleatoare
caracteristică
vectori
covarianta
matrici.
Principalul
componentele reprezintă un sistem de coordonate ortogonal în care varianţele
componentele le caracterizează proprietăţile statistice. MGK nu este clasificat ca FA, deși are
un algoritm similar și rezolvă probleme analitice similare. Diferența sa principală
constă în faptul că nu matricea redusă, ci obișnuită este supusă prelucrării
corelații perechi, covarianțe, pe diagonala principală a căror unități se află.
Fie dat multimea initiala de vectori X ai spatiului liniar Lk. Aplicație
metoda componentelor principale ne permite să trecem la baza spațiului Lm (m≤k), astfel
că: prima componentă (primul vector al bazei) corespunde direcției de-a lungul
care varianţa vectorilor mulţimii iniţiale este maximă. A doua direcție
componente (ale vectorului al doilea de bază) se alege în așa fel încât varianța inițialei
vectorii de-a lungul ei a fost maximă în condiția ortogonalității față de primul vector
bază. Restul vectorilor de bază sunt definiți în mod similar. Drept urmare, indicații
vectorii de bază sunt aleși astfel încât să maximizeze varianța mulțimii inițiale
de-a lungul primelor componente, numite componente principale (sau principale
Se pare că variabilitatea principală a vectorilor setului original de vectori
este reprezentat de primele câteva componente și devine posibil prin aruncare
componente mai puțin esențiale, mergi într-un spațiu de dimensiune inferioară.
9

10. Metoda componentelor principale. Sistem

10

11. Metoda componentelor principale. Matricea conturilor

Matricea de scor T ne oferă proiecțiile eșantioanelor originale (J -dimensional
vectori
x1, ..., xI)
pe
subspațiu
principalul
componentă
(A-dimensional).
Rândurile t1,…, tI ale matricei T sunt coordonatele probelor din noul sistem de coordonate.
Coloanele t1, ..., tA ale matricei T sunt ortogonale și reprezintă proiecțiile tuturor probelor pe
o nouă axă de coordonate.
Când se examinează datele folosind metoda PCA, se acordă o atenție deosebită graficelor
conturi. Acestea poartă informații utile pentru înțelegerea modului în care funcționează
date. Pe graficul conturilor, fiecare eșantion este reprezentat în coordonate (ti, tj), cel mai adesea
- (t1, t2), desemnate PC1 și PC2. Apropierea a două puncte înseamnă asemănarea lor, adică.
corelație pozitivă. Punctele în unghi drept sunt
necorelate, și situate diametral opus - au
corelație negativă.
11

12. Metoda componentelor principale. Matricea de încărcare

Matricea de încărcare P este matricea de tranziție din spațiul original
variabilele x1,... xJ (J-dimensionale) în spațiul componentelor principale (A-dimensionale). Fiecare
rândul matricei P este format din coeficienții care leagă variabilele t și x.
De exemplu, linia a-a este proiecția tuturor variabilelor x1, ... xJ pe axa a-a a principalei
componentă. Fiecare coloană a lui P este proiecția variabilei corespunzătoare xj pe una nouă
sistem de coordonate.
Graficul de sarcină este utilizat pentru a investiga rolul variabilelor. Pe aceasta
În grafic, fiecare variabilă xj este afișată ca punct în coordonate (pi, pj), de exemplu
(p1, p2). Analizând-o în mod similar cu graficul conturilor, puteți înțelege ce variabile
înrudite și care sunt independente. Explorarea comună a diagramelor de conturi pereche și
încărcările pot oferi, de asemenea, o mulțime de informații utile despre date.
12

13. Caracteristicile metodei componentelor principale

Analiza componentelor principale se bazează pe următoarele ipoteze:
presupunerea că dimensiunea datelor poate fi redusă efectiv
prin transformare liniară;
ipoteza că cea mai mare parte a informaţiei este purtată de acele direcţii în care
varianţa datelor de intrare este maximă.
Se poate observa cu ușurință că aceste condiții nu sunt întotdeauna îndeplinite. De exemplu,
dacă punctele mulțimii de intrare sunt situate pe suprafața hipersferei, atunci nu
transformarea liniară nu se va putea reduce (dar poate fi rezolvată cu ușurință
transformare neliniară bazată pe distanța de la un punct la centrul sferei).
Acest dezavantaj este la fel de comun tuturor algoritmilor liniari și poate fi
depășite prin utilizarea variabilelor inactiv suplimentare care sunt
funcții neliniare din elementele setului de date de intrare (așa-numitul truc al nucleului).
Al doilea dezavantaj al metodei componentelor principale este că direcțiile
maximizarea variației nu maximizează întotdeauna conținutul informațional.
De exemplu, o variabilă cu varianță maximă poate avea aproape nu
informaţii, în timp ce variabila cu variaţia minimă permite
separa complet clasele. Metoda componentelor principale în acest caz va da
preferință pentru prima variabilă (mai puțin informativă). Toate suplimentare
informații asociate vectorului (de exemplu, dacă imaginea aparține unuia dintre
clase) este ignorată.
13

14. Exemplu de date pentru MGK

K. Esbensen. Analiza datelor multidimensionale, pres. pe. din engleza sub
ed. O. Rodionova, Iz-in IPKhF RAS, 2005
14

15. Exemplu de date pentru IGC. Denumiri

Înălţime
Înălțime: în centimetri
Greutate
Greutate: în kilograme
Păr
Păr: scurt: -1 sau lung:
+1
Pantofi
Pantofi: marime europeana
standard
Vârstă
Vârsta în ani
Sursa de venit
Venituri: în mii de euro pe an
Bere
Bere: consum în litri pe an
Vin
Vin: consum în litri pe an
Sex
Sex: bărbat: -1 sau femeie: +1
Putere
Putere: un indice bazat pe
testul aptitudinilor fizice
Regiune
Regiune: Nord: -1 sau Sud: +1
IQ
IQ,
măsurată prin test standard
15

16. Matricea conturilor

16

17. Matricea sarcinilor

17

18. Obiecte de selecție în spațiul componentelor noi

Femeile (F) sunt indicate prin cercuri ● și ● și
bărbați (M) - prin pătrate ■ și ■. Nord (N)
reprezentată cu albastru ■ iar sudul (S) cu roşu
culoare ●.
Mărimea și culoarea simbolurilor reflectă venitul - cum
cu cât este mai mare și mai ușor, cu atât este mai mare. Numerele
reprezintă vârsta
18

19. Variabilele inițiale în spațiul noilor componente

19

20. Scree plot

20

21. Metoda factorilor principali

În paradigma metodei factorilor principali, problema reducerii dimensiunii atributului
spațiu arata ca n caracteristici pot fi explicate folosind un mai mic
numărul de caracteristici m-latente - factori comuni, unde m<caracteristici inițiale și factori generali introduși (combinații liniare)
luate în considerare folosind aşa-numiţii factori caracteristici.
Scopul final al cercetării statistice efectuate cu implicarea
aparatul de analiză factorială, de regulă, constă în identificarea și interpretarea
factori comuni latenți cu o dorință simultană de a minimiza modul în care aceștia
numărul și gradul de dependență de aleatoriu rezidual specific al acestora
componentă.
Fiecare semn
este rezultatul
impactul m comun ipotetic şi
un factor caracteristic:
X 1 a11 f1 a12 f 2 a1m f m d1V1
X a f a f a f d V
2
21 1
22 2
2m m
2
X n a n1 f1 a n 2 f 2 a nm f m d nVn
21

22. Rotația factorilor

Rotația este o modalitate de transformare a factorilor obținuți în pasul anterior,
în altele mai semnificative. Rotația este împărțită în:
grafic (axele de desen, nu se aplică atunci când este mai mult decât bidimensional
analiză),
analitic (se alege un anumit criteriu de rotație, se face distincția între ortogonal și
oblic) și
matrice-aproximativ (rotația constă în abordarea unui anumit dat
matricea tinta).
Rezultatul rotației este o structură secundară a factorilor. Primar
Structura factorilor (formată din sarcini primare (obținute la precedent
etapă) sunt, de fapt, proiecții de puncte pe axe de coordonate ortogonale. Este evident că
dacă proiecțiile sunt zero, structura va fi mai simplă. Și proiecțiile vor fi zero,
dacă punctul se află pe o axă. Astfel, rotația poate fi considerată o tranziție de la
un sistem de coordonate la altul cu coordonate cunoscute într-un sistem (
factori primari) și coordonatele selectate iterativ într-un alt sistem
(factori secundari). Atunci când obțin o structură secundară, ei tind să meargă la astfel
sistem de coordonate pentru a desena cât mai multe axe prin puncte (obiecte), astfel încât
tot atâtea proiecții (și deci încărcări) au fost zero. Mai mult, ei pot
eliminați restricțiile de ortogonalitate și scădeți semnificația de la prima la ultima
factori caracteristici structurii primare.
22

23. Rotație ortogonală

implică faptul că vom rota factorii, dar nu
le vom încălca ortogonalitatea unul față de celălalt. Rotație ortogonală
implică înmulțirea matricei inițiale a sarcinilor primare cu cea ortogonală
matricea R (o matrice astfel încât
V = BR
În general, algoritmul de rotație ortogonală este următorul:
0. B - matricea factorilor primari.
1.
Cauta
ortogonală
matrice
RT
mărimea
2*2
pentru
Două
coloanele (factorii) bi și bj ale matricei B astfel încât criteriul pentru matrice
R este maxim.
2.
Înlocuiți coloanele bi și bj cu coloane
3.
Verificați dacă toate coloanele au fost rezolvate. Dacă nu, atunci treceți la 1.
4.
Verificăm dacă criteriul pentru întreaga matrice a crescut. Dacă da, atunci treceți la 1. Dacă
nu, atunci sfârșitul algoritmului.
.
23

24. Rotire Varimax

Acest criteriu folosește formalizarea
varianța pătratelor sarcinilor variabile:
dificultăți
factorul a
peste
Atunci criteriul în formă generală poate fi scris astfel:
În același timp, încărcările factorilor pot fi normalizate pentru a scăpa de acestea
influența variabilelor individuale.
24

25. Rotație sfert-max

Să formalizăm conceptul de complexitate factorială q a variabilei i-a în termeni de
varianța pătratelor încărcărilor factorilor factori:
unde r este numărul de coloane ale matricei factorilor, bij este încărcarea factorilor a j-lea
factor pe variabila i-a, este valoarea medie. Încearcă criteriul Quartimax
maximiza complexitatea întregului set de variabile pentru a realiza
ușurința de interpretare a factorilor (încearcă să faciliteze descrierea coloanelor):
Având în vedere că
este o constantă (suma valorilor proprii ale matricei
covarianta) si deschiderea valorii medii (si tinand cont si ca functia de putere
creşte proporţional cu argumentul), obţinem forma finală a criteriului pt
maximizarea:
25

26. Criterii de determinare a numărului de factori

Principala problemă a analizei factorilor este selecția și interpretarea
factori principali. Atunci când selectează componente, cercetătorul se confruntă de obicei cu
dificultăți semnificative, deoarece nu există un criteriu clar de identificare
factori și, prin urmare, subiectivismul interpretărilor rezultatelor este inevitabil aici.
Există mai multe criterii utilizate în mod obișnuit pentru a determina numărul de factori.
Unele dintre ele sunt alternative la altele, iar unele dintre acestea
criteriile pot fi utilizate împreună pentru a le completa pe celelalte:
Testul Kaiser sau testul cu valori proprii. Se propune acest criteriu
Kaiser și este probabil cel mai utilizat. Doar selectat
factori cu valori proprii egale sau mai mari decât 1. Aceasta înseamnă că dacă
factorul nu distinge o varianță echivalentă cel puțin cu varianța unuia
variabilă, este omisă.
Criteriul de screening sau criteriul de screening. El este
metoda grafică, propusă mai întâi de psihologul Cattell. propriu
valorile pot fi afișate ca un simplu grafic. Cattel s-a oferit să găsească așa ceva
locul de pe grafic unde scăderea valorilor proprii de la stânga la dreapta este maximă
incetineste. Se presupune că numai
„Talus factorial” - „talus” este un termen geologic care denotă
resturi acumulate pe fundul versantului stâncos.
26

27. Criterii de determinare a numărului de factori. Continuare

Criteriul de semnificație. Este deosebit de eficient atunci când modelul general
agregatul este cunoscut și nu există factori secundari. Dar criteriul nu este valabil
pentru a căuta modificări în model și sunt implementate numai în analiza factorială folosind metoda
cele mai mici pătrate sau probabilitate maximă.
Criteriul pentru proporția de varianță reproductibilă. Factorii sunt clasificați în funcție de cotă
varianță deterministă, când procentul de varianță se dovedește a fi nesemnificativ,
selecția ar trebui oprită. Este de dorit ca factorii selectați să explice
peste 80% din răspândire. Dezavantajele criteriului: în primul rând, subiectivitatea selecției și, în al doilea rând, specificul datelor poate fi astfel încât toți factorii principali nu pot
explicați cumulativ procentul de varianță dorit. Prin urmare, principalii factori
trebuie să explice împreună cel puțin 50,1% din varianță.
Criteriul de interpretabilitate și invarianță. Acest criteriu combină
acurateţea statistică cu interese subiective. Potrivit lui, principalii factori
pot fi distinse atâta timp cât este posibilă interpretarea lor clară. Ea, în ea
pe rând, depinde de mărimea încărcărilor factorilor, adică dacă factorul conține cel puțin
o sarcină puternică, poate fi interpretată. Este posibil și opusul -
dacă există încărcături puternice, totuși, interpretarea este dificilă, de aici
componentele sunt de preferință aruncate.
27

28. Un exemplu de utilizare a MGK

Lasa
Sunt
următoarele
indicatori
economic
Activități
întreprinderi: intensitatea muncii (x1), ponderea produselor achiziționate în producție (x2),
raportul de înlocuire a echipamentelor (x3), proporția lucrătorilor din întreprindere
(x4), bonusuri și remunerație per angajat (x5), profitabilitate (y). Liniar
modelul de regresie este:
y = b0 + b1 * x1 + b2 * x2 + b3 * x3 + b4 * x4 + b5 * x5
x1
x2
x3
x4
x5
y
0,51
0,2
1,47
0,72
0,67
9,8
0,36
0,64
1,27
0,7
0,98
13,2
0,23
0,42
1,51
0,66
1,16
17,3
0,26
0,27
1,46
0,69
0,54
7,1
0,27
0,37
1,27
0,71
1,23
11,5
0,29
0,38
1,43
0,73
0,78
12,1
0,01
0,35
1,5
0,65
1,16
15,2
0,02
0,42
1,35
0,82
2,44
31,3
0,18
0,32
1,41
0,8
1,06
11,6
0,25
0,33
1,47
0,83
2,13
30,1
28

29. Un exemplu de utilizare a MGK

Construirea unui model de regresie într-un pachet statistic arată
coeficientul X4 nu este semnificativ (p-Value> α = 5%) și poate fi exclus din model.
ce
După excluderea X4, procesul de construire a modelului începe din nou.
29

30. Un exemplu de utilizare a MGK

Criteriul Kaiser pentru PCA arată că puteți lăsa 2 componente explicative
aproximativ 80% din varianța inițială.
Pentru componentele selectate, puteți construi ecuații în sistemul de coordonate original:
U1 = 0,41 * x1 - 0,57 * x2 + 0,49 * x3 - 0,52 * x5
U2 = 0,61 * x1 + 0,38 * x2 - 0,53 * x3 - 0,44 * x5
30

31. Un exemplu de utilizare a CIM

Acum puteți construi un nou model de regresie în noile componente:
y = 15,92 - 3,74 * U1 - 3,87 * U2
31

32. Descompunerea valorii singulare (SVD)

Beltrami și Jordan sunt considerați fondatorii teoriei singularului
descompunere. Beltrami - pentru că a fost primul care a publicat o lucrare despre
valoare singulară, iar Jordan - pentru eleganța și completitudinea acesteia
muncă. Lucrarea lui Beltrami a apărut în Journal of Mathematics pentru
Utilizarea studenților universităților italiene ”în 1873, principalul
al cărui scop a fost familiarizarea elevilor cu
forme biliniare Esenţa metodei constă în descompunerea unei matrice A de mărimea n
x m cu rang d = rang (M)<= min(n,m) в произведение матриц меньшего
rang:
A = UDVT,
unde matricele U de dimensiunea n x d și V de dimensiunea m x d constau din
a coloanelor ortonormale, care sunt vectori proprii pentru
valori proprii diferite de zero ale matricelor AAT și, respectiv, ATA și
UTU = V TV = I, iar D de dimensiunea d x d este o matrice diagonală cu
elemente diagonale pozitive sortate în
ordine descrescatoare. Coloanele matricei U sunt:
este o bază ortonormală a spațiului coloanei matricei A și a coloanelor
matricea V este o bază ortonormală a spațiului rând al matricei A.
32

33. Descompunerea valorii singulare (SVD)

O proprietate importantă a descompunerii SVD este faptul că dacă
pentru k de numai k elemente diagonale cele mai mari și, de asemenea
lăsați doar primele k coloane în matricele U și V, apoi matricea
Ak = UkDkVkT
va fi cea mai bună aproximare a matricei A în raport cu
Norme Frobenius dintre toate matricele cu rangul k.
Această trunchiere reduce în primul rând dimensiunea vectorului
spațiu, reduce cerințele de stocare și de calcul
cerințele modelului.
În al doilea rând, eliminând numerele singulare mici, mici
distorsiunile datorate zgomotului din date sunt eliminate, plecând
doar cele mai puternice efecte și tendințe din acest model.