internet pencereler Android

Korelasyon matrisi. Sistemik İş Optimizasyonu ve Kalite Yönetimi Merkezi - Faktör Analizi için Faktör Analizi Korelasyon Matrisi

Birbirleriyle yakından ilişkili (ilişkili) değişkenlerin belirli bir dizi değişkeninden çıkarılmasını amaçlayan bir dizi istatistiksel prosedürlerdir. Bir alt kümeye dahil edilen ve birbirleriyle ilişkili olan, ancak diğer alt kümelerdeki değişkenlerden büyük ölçüde bağımsız olan değişkenler, faktörleri oluşturur. Faktör analizinin amacı, çeşitli gözlemlenebilir değişkenler kullanarak açıkça gözlemlenebilir faktörleri belirlemektir. Seçilen faktör sayısını kontrol etmenin ek bir yolu, faktörler doğru seçilmişse orijinaline yakın olan korelasyon matrisini hesaplamaktır. Bu matris denir çoğaltılmış korelasyon matrisi. Bu matrisin orijinal korelasyon matrisinden (analizin başladığı) nasıl saptığını görmek için aralarındaki farkı hesaplayabilirsiniz. Artık matris "anlaşmazlığı", yani dikkate alınan korelasyon katsayılarının mevcut faktörlere dayalı olarak yeterli doğrulukla elde edilemediği gerçeğini gösterebilir. Temel bileşenler ve faktör analizi yöntemlerinde, çözümün doğruluğunu yargılamayı mümkün kılan böyle bir dış kriter yoktur. İkinci sorun, faktörlerin seçiminden sonra, aynı başlangıç ​​değişkenlerine dayanan, ancak farklı çözümler veren (faktör yapıları biraz farklı bir şekilde belirlenir) sonsuz sayıda döndürme seçeneğinin ortaya çıkmasıdır. Matematiksel olarak eşdeğer sonsuz bir çözüm kümesi içindeki olası alternatifler arasındaki nihai seçim, araştırmacıların yorumlama sonuçlarının anlamlı bir şekilde anlaşılmasına bağlıdır. Ve çeşitli çözümleri değerlendirmek için nesnel bir kriter olmadığından, bir çözüm seçmek için önerilen gerekçeler temelsiz ve inandırıcı görünmeyebilir.


Çarpanlara ayırmanın eksiksizliği için net bir istatistiksel kriter bulunmadığına dikkat edilmelidir. Bununla birlikte, örneğin 0,7'den küçük olan düşük değerleri, özellik sayısını azaltmanın veya faktör sayısını artırmanın istendiğini gösterir.

Met Bir faktörün bir özellik üzerindeki etkisinin ölçüsünü ifade eden bazı özellikler ile genel bir faktör arasındaki ilişkinin katsayısına, bu genel faktör için belirli bir özelliğin faktör yükü denir.

Sütun sayısı ortak faktör sayısına, satır sayısı orijinal öznitelik sayısına eşit olan faktör yüklerinden oluşan matrise faktör matrisi denir.

Faktör matrisini hesaplamanın temeli, orijinal özelliklerin eşleştirilmiş korelasyon katsayılarının matrisidir.

Korelasyon matrisi, her bir özellik çifti arasındaki ilişkinin derecesini yakalar. Benzer şekilde, faktör matrisi, her bir özelliğin her ortak faktör ile doğrusal ilişkisinin derecesini sabitler.

Faktör yükünün büyüklüğü, modülde birliği aşmaz ve işareti, bir özellik ile bir faktör arasında pozitif veya negatif bir ilişki olduğunu gösterir.

Belirli bir faktör için bir özelliğin faktör yükünün mutlak değeri ne kadar büyükse, bu faktör bu özelliği o kadar fazla belirler.

Bir faktör için sıfıra yakın faktör yükünün değeri, bu faktörün pratikte bu özelliği etkilemediğini göstermektedir.

Faktör modeli, faktörlerin tüm özelliklerin toplam varyansına katkılarını hesaplamayı mümkün kılar. Tüm özellikler için her faktör için faktör yüklerinin karelerini toplayarak, karakteristikler sisteminin toplam varyansına katkısını elde ederiz: bu katkının payı ne kadar yüksekse, bu faktör o kadar anlamlı ve anlamlıdır.

Aynı zamanda, başlangıç ​​özellikleri sistemini yeterince iyi tanımlayan ortak faktörlerin optimal sayısını belirlemek mümkündür.

Tek bir nesnedeki bir faktörün değerine (gösterme ölçüsü), bu faktör için nesnenin faktör ağırlığı denir. Faktör ağırlıkları, her faktör için nesneleri sıralamanıza, sıralamanıza olanak tanır.

Belirli bir nesnenin faktöriyel ağırlığı ne kadar büyük olursa, fenomenin o tarafı veya bu faktör tarafından yansıtılan o model o kadar fazla tezahür eder.

Faktör ağırlıkları pozitif veya negatif olabilir.

Faktörlerin sıfıra eşit ortalama değere sahip standart değerler olması nedeniyle, sıfıra yakın faktör ağırlıkları, faktörün ortalama tezahür derecesini, pozitif olanları - bu derecenin ortalamadan daha yüksek olduğunu, negatif olanları - bunun hakkında. o zaman ortalamanın altında.

Uygulamada, halihazırda bulunan temel bileşenlerin (veya faktörlerin) sayısı şundan fazla değilse: m/ 2, açıkladıkları varyansın %70'den az olmadığı ve bir sonraki bileşenin toplam varyansa %5'ten fazla katkıda bulunmadığı, faktör modelinin oldukça iyi olduğu düşünülmektedir.

Faktörlerin değerlerini bulmak ve bunları ek değişkenler olarak kaydetmek istiyorsanız, Skorlar ... anahtarını açın (Değerler) Faktör değeri, kural olarak, -3 ila +3 aralığındadır.

Faktör analizi, anapara yönteminden daha güçlü ve karmaşık bir araçtır.

bileşen, bu nedenle sonuçların olması durumunda uygulanır.

bileşen analizi tamamen tatmin edici değildir. Fakat bu iki yöntemden

aynı sorunları çözmek için, bileşenin sonuçlarını karşılaştırmak ve


faktör analizleri, yani yük matrisleri ve ayrıca aşağıdakiler için regresyon denklemleri

ana bileşenler ve ortak faktörler, benzerlikler ve farklılıklar hakkında yorum yapın

Sonuçlar.

Mümkün olan maksimum faktör sayısı m belirli sayıda özellik için r eşitsizlik tarafından tanımlanır

(p + m)<(р-m)2,

Tüm faktör analizi prosedürünün sonunda, matematiksel dönüşümler kullanılarak, fj faktörleri ilk işaretlerle ifade edilir, yani doğrusal tanı modelinin parametreleri açık bir biçimde elde edilir.

Temel bileşen ve faktör analizi yöntemleri, belirli bir dizi değişkenden birbiriyle yakından ilişkili (ilişkili) değişken alt kümelerini çıkarmayı amaçlayan bir dizi istatistiksel prosedürdür. Bir alt kümeye dahil edilen ve birbiriyle ilişkili olan, ancak diğer alt kümelerdeki değişkenlerden büyük ölçüde bağımsız olan değişkenler, faktörleri oluşturur. 1 ... Faktör analizinin amacı, çeşitli gözlemlenebilir değişkenler kullanarak açıkça gözlemlenebilir faktörleri belirlemektir.

için genel ifade J-th faktörü şu şekilde yazılabilir:

nerede fj (J 1 ile arasında değişir k) genel faktörlerdir, kullanıcı arayüzü- karakteristik, Aij- doğrusal kombinasyonda kullanılan sabitler k faktörler. Ortak faktörler birbirleriyle ve ortak faktörlerle ilişkili olmayabilir.

Elde edilen verilere uygulanan faktör-analitik işleme prosedürleri farklıdır ancak analizin yapısı (algoritması) aynı ana aşamalardan oluşmaktadır: 1. Başlangıç ​​veri matrisinin hazırlanması. 2. Karakteristik ilişki matrisinin hesaplanması. 3. çarpanlara ayırma(bu durumda, faktöriyel çözüm sürecinde belirlenen faktör sayısını ve hesaplama yöntemini belirtmek gerekir). Bu aşamada (ve sonraki aşamada), elde edilen faktöriyel çözümün ilk verileri birbirine ne kadar yakınlaştırdığı da tahmin edilebilir. 4. Döndürme - faktörlerin dönüştürülmesi, yorumlarının kolaylaştırılması. 5. Faktör değerlerinin hesaplanması Her gözlem için her faktör için. 6. verileri yorumlama.

faktör analizinin icadı, çeşitli ölçeklerdeki çok sayıda korelasyon katsayısının birbiriyle aynı anda analiz edilmesi ihtiyacıyla tam olarak ilişkilendirildi. Temel bileşenler ve faktör analizi yöntemleriyle ilgili sorunlardan biri, bulunan çözümün doğruluğunu kontrol etmenizi sağlayacak hiçbir kriterin olmamasıdır. Örneğin, regresyon analizinde, ampirik olarak elde edilen bağımlı değişkenler için göstergeler, önerilen model temelinde teorik olarak hesaplanan göstergelerle karşılaştırılabilir ve aralarındaki korelasyon, korelasyona göre çözümün doğruluğu için bir kriter olarak kullanılabilir. iki değişken grubu için analiz şeması. Diskriminant analizinde, kararın doğruluğu, deneklerin bir veya başka bir sınıfa ait olduğunu ne kadar doğru tahmin ettiğine bağlıdır (hayattaki gerçek aidiyet ile karşılaştırıldığında). Ne yazık ki, temel bileşenler ve faktör analizi yöntemlerinde, çözümün doğruluğunu yargılamaya izin veren böyle bir dış kriter yoktur. İkinci sorun, faktörlerin seçiminden sonra sonsuz sayıda döndürme seçeneğinin ortaya çıkmasıdır. aynı başlangıç ​​değişkenleri, ancak farklı çözümler veren ( faktör yapıları biraz farklı bir şekilde tanımlanır). Matematiksel olarak eşdeğer sonsuz bir çözüm kümesi içindeki olası alternatifler arasındaki nihai seçim, araştırmacıların yorumlama sonuçlarının anlamlı bir şekilde anlaşılmasına bağlıdır. Ve çeşitli çözümleri değerlendirmek için nesnel bir kriter olmadığından, bir çözüm seçmek için önerilen gerekçeler temelsiz ve inandırıcı görünmeyebilir.

Üçüncü sorun, faktör analizinin genellikle, hiçbir istatistiksel prosedürün istenen sonucu üretmediği netleştiğinde, kötü tasarlanmış bir çalışmayı kurtarmak için kullanılmasıdır. Temel bileşenlerin gücü ve faktör analizi, onların kaotik bilgilerden düzenli bir kavram oluşturmalarına izin verir (bu onlara şüpheli bir itibar verir).

İkinci grup terimler, bir çözümün parçası olarak oluşturulan ve yorumlanan matrisleri ifade eder. Dönüş faktörler, belirli sayıda faktör için en kolay yorumlanan çözümü bulma sürecidir. İki ana dönüş sınıfı vardır: dikey ve eğik... İlk durumda, tüm faktörler ortogonal (birbirleriyle ilişkili olmayan) olacak şekilde önceden seçilmiş ve yapılandırılmıştır. faktör yükleme matrisi, gözlenen değişkenler ve faktörler arasındaki ilişkilerin bir matrisidir. Yüklerin büyüklüğü, gözlenen her değişken ile her faktör arasındaki bağlantı derecesini yansıtır ve gözlenen değişken ile faktör (gizli değişken) arasındaki korelasyon katsayısı olarak yorumlanır ve bu nedenle -1 ile 1 arasında değişir. ortogonal döndürme, faktörlerden hangisinin belirli bir gözlemlenebilir değişkenle en çok ilişkili olduğunu belirleyerek faktör yükleri matrisinin analizine dayalı olarak yorumlanır. Böylece, her faktör, kendisi için en yüksek faktör yüklerine sahip bir grup birincil değişken tarafından verilir.

Eğik döndürme yapılırsa (yani, faktörler arasındaki korelasyon olasılığına önceden izin verilir), o zaman birkaç ek matris oluşturulur. Faktör korelasyon matrisi faktörler arasındaki korelasyonları içerir. Faktör yükleri matrisi, yukarıda bahsedilen ikiye ayrılır: ilişkilerin yapısal matrisi faktörler ve değişkenler arasındaki faktör eşleme matrisi, gözlemlenen her değişken ile her faktör arasındaki doğrusal ilişkiyi ifade eder (bazı faktörlerin diğerleri üzerindeki süperpozisyonunun etkisini hesaba katmadan, faktörlerin birbirleriyle korelasyonu ile ifade edilir). Eğik döndürmeden sonra, faktörlerin yorumlanması, birincil değişkenlerin gruplandırılmasına (yukarıda açıklanana benzer) dayanır, ancak her şeyden önce faktör eşleme matrisi kullanılır.

Son olarak, her iki rotasyon için, faktör değeri katsayı matrisi, birincil değişkenlerinin değerlerine dayalı olarak her gözlem için faktör değerlerini (faktör noktaları, faktörlere göre göstergeler) hesaplamak için regresyon tipi özel denklemlerde kullanılır.

Temel bileşenler ve faktör analizi yöntemlerini karşılaştırırken, aşağıdakilere dikkat ediyoruz. Bir temel bileşen analizi gerçekleştirme sürecinde, tüm değişkenler için elde edilen deneysel verilerin toplam varyansını en iyi açıklamak (üretimi en üst düzeye çıkarmak) için bir model oluşturulur. Sonuç olarak, "bileşenler" vurgulanır. Faktör analizinde, her bir değişkenin bir dizi varsayımsal genel faktör (tüm değişkenleri etkileyen) ve karakteristik faktörler (her değişken için farklı) tarafından açıklandığı (belirlendiği) varsayılır. Hesaplama işlemleri ise hem ölçüm hatasından kaynaklanan varyanstan hem de belirli faktörlerin açıkladığı varyanstan kurtulacak ve sadece varsayımsal olarak var olan genel faktörlerin açıkladığı varyansları analiz edecek şekilde gerçekleştirilir. Sonuç, faktör adı verilen nesnelerdir. Bununla birlikte, daha önce de belirtildiği gibi, içerik-psikolojik bir bakış açısından, matematiksel modellerdeki bu farkın önemli bir anlamı yoktur, bu nedenle gelecekte, hangi özel durumun tartışıldığına dair özel bir açıklama verilmezse, kullanacağız. "faktör" terimi, bileşenlerle ve faktörlerle ilgili olarak.

Örnek boyutları ve eksik veriler. Örneklem ne kadar büyük olursa, ilişki göstergelerinin güvenilirliği o kadar yüksek olur. Bu nedenle, yeterince büyük bir numuneye sahip olmak çok önemlidir. Gerekli örneklem büyüklüğü aynı zamanda bir bütün olarak popülasyondaki göstergeler arasındaki ilişkinin derecesine ve faktörlerin sayısına da bağlıdır: güçlü ve güvenilir bir ilişki ve az sayıda iyi tanımlanmış faktör ile küçük bir örneklem yeterli olacaktır.

Böylece 50 denekten oluşan bir örneklem çok kötü, 100 - kötü, 200 - orta, 300 - iyi, 500 - çok iyi ve 1000 - mükemmel olarak değerlendirilir ( Comrey, Lee, 1992). Bu düşüncelerden hareketle genel prensip olarak en az 300 deneğin örneklerinin çalışılması tavsiye edilir. Yüksek faktör yükleri (> 0.80) olan yeterli sayıda belirteç değişkenine dayalı bir çözüm için, yaklaşık 150 denekten oluşan bir örneklem ( Guadagnoli, Velicer, 1988). tarafından her değişken için ayrı ayrı normallik kontrol edilir. asimetriler(incelenen dağılımın eğrisinin teorik olarak normal eğriye kıyasla ne kadar sağa veya sola kaydırıldığı) ve AŞIRI(normal dağılımın özelliği olan yoğunluk grafiğinin "çanı" ile karşılaştırıldığında, frekans diyagramında görsel olarak gösterilen mevcut dağılımın "çan"ının yukarı veya aşağı doğru bükülme derecesi). Bir değişkenin önemli bir asimetrisi ve basıklığı varsa, o zaman yeni bir değişken (düşünülen değişkenin tek değerli bir işlevi olarak) tanıtılarak, bu yeni değişken normal olarak dağılacak şekilde dönüştürülebilir (daha fazla ayrıntı için bkz.: Tabachnik, Fidell, 1996, ch. 4).

Özvektörler ve Karşılık Gelen Özdeğerler
söz konusu vaka çalışması için

özvektör 1

özvektör 2

özdeğer 1

özdeğer 2

Korelasyon matrisi köşegenleştirilebilir olduğundan, faktör analizi sonuçlarını elde etmek için özvektörlerin ve özdeğerlerin matris cebiri uygulanabilir (bkz. Ek 1). Matris köşegenleştirilebilirse, faktör yapısıyla ilgili tüm temel bilgiler köşegen biçiminde bulunur. Faktör analizinde özdeğerler, faktörlerin açıkladığı varyansa karşılık gelir. En büyük özdeğere sahip faktör, en büyük varyansı açıklar ve bu şekilde, genellikle analizde dikkate alınmayan küçük veya negatif özdeğerlere sahip faktörlere gelinceye kadar. Faktör yükleri matrisi, faktörler ve değişkenler arasındaki bir ilişkiler matrisidir (korelasyon katsayıları olarak yorumlanır). İlk sütun, sırayla birinci faktör ile her bir değişken arasındaki korelasyonlardır: fiş maliyeti (-.400), kompleksin rahatlığı (.251), hava sıcaklığı (.932), su sıcaklığı(.956). İkinci sütun, ikinci faktör ile her bir değişken arasındaki korelasyonlardır: fiş maliyeti (.900), kompleksin rahatlığı(-.947), hava sıcaklığı (.348), su sıcaklığı(.286). Faktör, kendisiyle güçlü bir şekilde ilişkili değişkenler temelinde yorumlanır (yani, üzerinde yüksek yüklerin bulunması). Bu nedenle, ilk faktör esas olarak "iklimsel" ( hava ve su sıcaklığı), ikinci "ekonomik" ise ( turun maliyeti ve kompleksin konforu).

Bu faktörleri yorumlarken, birinci faktör için yüksek yüke sahip değişkenlerin ( hava sıcaklığı ve su sıcaklığı), pozitif olarak birbirine bağlıdır, ikinci faktör için yüksek yüke sahip değişkenler ( fiş maliyeti ve kompleksin rahatlığı), olumsuz olarak birbirine bağlıdır (ucuz bir tesisten büyük konfor beklenemez). İlk faktör tek kutuplu olarak adlandırılır (tüm değişkenler bir kutupta gruplanır), ikincisi ise iki kutuplu(değişkenler anlam olarak zıt iki gruba ayrılır - iki kutup). Faktoriyel yükleri artı işaretli değişkenler pozitif kutup, eksi işaretli değişkenler negatif kutup oluşturur. Bu durumda, faktörü yorumlarken "olumlu" ve "olumsuz" kutup adları, "kötü" ve "iyi" değerlendirici anlamını taşımaz. İşaret seçimi, hesaplamalar sırasında rastgele gerçekleşir. ortogonal döndürme

Döndürme, genellikle yüksek korelasyonları en üst düzeye çıkarmak ve düşük olanları en aza indirmek için çarpanlara ayrıldıktan sonra uygulanır. Çok sayıda döndürme yöntemi vardır, ancak en yaygın olarak kullanılan döndürme, varimax bir varyans maksimizasyonu prosedürüdür. Bu döndürme, faktör yüklerinin varyansını maksimize ederek, her faktör için yüksek yükleri daha yüksek ve düşük olanları daha düşük hale getirir. Bu hedef ile elde edilir dönüşüm matrisleri Λ:

dönüşüm matrisi döndürülecek Ψ açısının sinüs ve kosinüs matrisidir. (Bu nedenle dönüşümün adı - dönüş, çünkü geometrik bir bakış açısından, eksenler faktör uzayının orijini etrafında döner.) Döndürmeyi gerçekleştirdikten ve döndürmeden sonra faktör yüklerinin matrisini elde ettikten sonra, bir dizi başka gösterge analiz edilebilir (bkz. Tablo 4). Bir değişkenin ortak özelliği faktör yükleri kullanılarak hesaplanan varyanstır. Bu, faktöriyel model tarafından tahmin edilen değişkenin ikinci dereceden çoklu korelasyonudur. Genellik, tüm faktörler için değişken için faktöriyel yüklerin (SKN) karelerinin toplamı olarak hesaplanır. Tablo 4 ortak nokta turun maliyeti eşittir (-.086) 2 + (.981) 2 = .970, yani %97 varyans turun maliyeti faktör 1 ve 2 ile açıklanır.

Tüm değişkenler için faktörün varyansının oranı, faktörün SKN'sinin değişken sayısına bölümüdür (dik döndürme durumunda) 7 ... Birinci faktör için varyans oranı şuna eşittir:

[(-.086)2+(-.071)2+(.994)2+(.997)2]/4 = 1.994/4 = .50,

yani birinci faktör değişkenlerin varyansının %50'sini açıklamaktadır. İkinci faktör değişkenlerin varyansının %48'ini açıklamaktadır ve (dönmenin dik olmasından dolayı) iki faktör birlikte değişkenlerin varyansının %98'ini açıklamaktadır.

Faktör yükleri, topluluklar, SKN,
döndürmeden sonra ortogonal faktörlerin varyansı ve kovaryansı

Topluluklar ( h2)

Kupon maliyeti

∑a2=.970

konfor seviyesi

∑a2=.960

Hava sıcaklığı

∑a2=.989

Su sıcaklığı

∑a2=.996

∑a2=1.994

∑a2=1.919

varyans yüzdesi

kovaryans kesri

Faktör tarafından açıklanan çözümün varyansının kesri, kesirdir. kovaryans genelliklerin toplamına bölünen bir faktör için SKN'dir (değişkenler üzerindeki SKN'nin toplamı). Birinci faktör çözüm varyansının %51'ini açıklamaktadır (1.994 / 3.915); ikinci - %49 (1.919 / 3.915); iki faktör birlikte tüm kovaryansı açıklar.

Özdeğer - karşılık gelen faktör sayısının varyansının değerini yansıtır. Alıştırma olarak, değişkenler için hesaplanmış değerler elde etmek için tüm bu formülleri yazmanızı öneririz. Örneğin, ilk yanıtlayan için:

1.23 = -.086(1.12) + .981(-1.16)

1.05 = -.072(1.12) - .978(-1.16)

1.08 = .994(1.12) + .027(-1.16)

1.16 = .997(1.12) - .040(-1.16)

Veya cebirsel biçimde:

Z tur maliyeti = a 11F 1 + a 12F 2

Kompleksin Z konforu = a 2l F 1 + a 22F 2

Z hava sıcaklığı = a 31F 1 + a 32F 2

Z su sıcaklığı = a 41F 1 + a 42F 2

Yük ne kadar büyükse, değişkenin faktörü belirlediğine dair güvenimiz o kadar artar. Comrie ve Lee ( Comrey, Lee, 1992) 0.71'den büyük yüklerin (varyansın %50'sini açıklar) mükemmel, varyansın %0'ının çok iyi, %0) iyi, %0) tatmin edici ve 0.32'nin (varyansın %10'unu açıklar) olduğunu öne sürer. varyans) zayıftır.

Yüz kişinin boyunu inç ve santimetre cinsinden ölçtüğünüz (biraz "aptalca") bir çalışma yaptığınızı varsayalım. Böylece, iki değişkeniniz var. Örneğin, farklı besin takviyelerinin büyüme üzerindeki etkilerini daha fazla araştırmak istiyorsanız, kullanmaya devam edecek misiniz? ikisi birden değişkenler? Muhtemelen hayır, çünkü hangi birimle ölçülürse ölçülsün, boy bir kişinin bir özelliğidir.

Değişkenler arasındaki bağımlılık kullanılarak keşfedilebilir dağılım grafikleri... Uydurma ile elde edilen regresyon çizgisi, ilişkinin grafiksel bir temsilini verir. Bu şemada gösterilen regresyon çizgisine göre yeni bir değişken tanımlarsanız, böyle bir değişken her iki değişkenin de en önemli özelliklerini içerecektir. Yani, aslında, değişkenlerin sayısını azalttınız ve iki tanesini bir ile değiştirdiniz. Yeni faktörün (değişken) aslında iki orijinal değişkenin doğrusal bir birleşimi olduğuna dikkat edin.

Faktör analizi, matematiksel istatistiklerin bir dalıdır. Amacı, matematiksel istatistiğin diğer dallarının amacı gibi, fiziksel biçimleri ne olursa olsun, deneysel veya gözlemlenen veri dizilerini analiz etmeye ve yorumlamaya izin veren modeller, kavramlar ve yöntemler geliştirmektir.

Deneysel verilerin en tipik sunum biçimlerinden biri, sütunları çeşitli parametrelere, özelliklere, testlere vb. karşılık gelen bir matristir ve satırlar, bir dizi belirli parametre değeri tarafından açıklanan bireysel nesnelere, fenomenlere, modlara karşılık gelir. . Uygulamada, matrisin boyutu oldukça büyük olduğu ortaya çıkıyor: örneğin, bu matrisin satır sayısı birkaç on ila birkaç yüz bin arasında değişebilir (örneğin, sosyolojik araştırmalarda) ve sütun sayısı - ila bir veya iki ila birkaç yüz. Bu boyuttaki matrislerin doğrudan, "görsel" analizi imkansızdır, bu nedenle, matematiksel istatistiklerde, matriste bulunan ilk bilgileri gözlemlenebilir bir boyuta "sıkıştırmak", en "temel" bilgileri çıkarmak için tasarlanmış birçok yaklaşım ve yöntem ortaya çıkmıştır. ilk bilgilerden, "ikincil", "yanlışlıkla" atılır.

Matris biçiminde sunulan verileri analiz ederken iki tür sorun ortaya çıkar. Birinci türün görevleri, nesnelerin dağılımının “kısa bir tanımını” elde etmeyi amaçlarken, ikinci türün görevleri, parametreler arasındaki ilişkiyi ortaya çıkarmayı amaçlar.

Unutulmamalıdır ki, bu problemlerin ortaya çıkması için ana teşvik, yalnızca büyük bir sayı dizisini kısaca kodlama arzusunda değil, aynı zamanda metodolojik bir doğanın çok daha temel bir koşulunda yatmaktadır: en kısa sürede. geniş bir sayı dizisini kısaca tanımlamak mümkündü, o zaman kısa bir açıklama olasılığına yol açan belirli bir nesnel düzenliliğin ortaya çıktığına inanılabilir; ve kural olarak, verilerin toplandığı ana hedef tam olarak nesnel kalıpların aranmasıdır.

Bir veri matrisini işlemek için bahsedilen yaklaşımlar ve yöntemler, ne tür bir veri işleme problemini çözmeyi amaçladıklarına ve hangi boyuttaki matrislere uygulandıklarına göre farklılık gösterir.

Bu parametrelerin ortalama sayısına sahip parametreler arasındaki ilişkilerin kısa bir açıklaması sorununa gelince, bu durumda karşılık gelen korelasyon matrisi birkaç onlarca veya yüzlerce sayı içerir ve kendi başına henüz mevcut olanın “kısa bir açıklaması” olarak hizmet edemez. parametreler arasındaki ilişkiler, ancak daha fazla işlemden geçmek için bununla olmalıdır.

Faktör analizi, korelasyon matrisinde yer alan bilgileri "sıkıştırmak" için tasarlanmış bir dizi model ve yöntemdir. Çeşitli faktör analizi modelleri aşağıdaki hipoteze dayanmaktadır: gözlemlenen veya ölçülen parametreler, incelenen nesnenin veya olgunun yalnızca dolaylı özellikleridir, aslında, sayısı olan dahili (gizli, doğrudan gözlemlenmeyen) parametreler veya özellikler vardır. küçüktür ve gözlemlenen parametrelerin değerlerini belirler. Bu dahili parametrelere genellikle faktör denir. Faktör analizinin görevi, gözlemlenen parametreleri faktörlerin doğrusal kombinasyonları ve belki de bazı ek "önemsiz" değerler - "gürültü" şeklinde sunmaktır. Faktörlerin kendileri bilinmemesine rağmen, böyle bir ayrıştırmanın elde edilebilmesi ve ayrıca bu faktörlerin belirlenebilmesi, yani. her nesne için her faktörün değerleri belirtilebilir.

Faktör analizi, kullanılan yöntemlerden bağımsız olarak, korelasyon matrisi olarak bilinen bir dizi testte elde edilen karşılıklı korelasyon tablosunun işlenmesiyle başlar ve bir faktör matrisi, yani. her test için her faktörün ağırlığını veya yükünü gösteren bir tablo. Tablo 1, yalnızca iki faktörlü varsayımsal bir faktör matrisidir.

Faktörler, tablonun en üst satırında en önemliden en az anlamlıya doğru sıralanmıştır ve 10 testin her birindeki ağırlıkları ilgili sütunlarda verilmiştir.

tablo 1

varsayımsal faktöriyel matris

Koordinat eksenleri. Faktörleri, her bir testin bir nokta olarak gösterilebileceği göreli koordinat eksenleri şeklinde geometrik olarak temsil etmek gelenekseldir. Pirinç. 1 bu prosedürü açıklar. Bu grafikte, Tablo 1'de gösterilen 10 testin her biri, eksen I ve II'ye karşılık gelen iki faktöre göre bir nokta olarak gösterilmektedir. Böylece, test 1, I ekseni boyunca 0.74 ve II ekseni boyunca 0.54 koordinatlarına sahip bir nokta ile temsil edilir. Kalan 9 testi temsil eden noktalar, Tablodaki ağırlıkların değerleri kullanılarak benzer şekilde oluşturulmuştur. 1.

Koordinat eksenlerinin konumunun veriler tarafından sabitlenmediğine dikkat edilmelidir. Orijinal korelasyon tablosu sadece testlerin konumunu belirler (yani Şekil 1'deki noktalar). birbirine göre. Aynı noktalar, koordinat eksenlerinin herhangi bir konumu ile bir düzlemde çizilebilir. Bu nedenle, faktör analizi yapılırken, en uygun ve en kolay yorumlanan görüntü elde edilene kadar eksenlerin döndürülmesi yaygındır.

Pirinç. 1. 10 testin her biri için iki grup faktörünün ağırlıklarını gösteren varsayımsal bir faktör haritası.

İncirde. 1, döndürmeden sonra elde edilen eksen I "ve II" kesikli çizgilerle gösterilmiştir. Bu rotasyon, Thurstone tarafından önerilen kriterlere göre gerçekleştirilir. pozitif çeşitlilik ve basit yapı.İlki, eksenleri tüm önemli negatif ağırlıkların ortadan kaldırıldığı bir konuma döndürmeyi içerir. Çoğu psikolog, negatif faktör yüklerinin mantıksal olarak yetenek testleri ile tutarsız olduğunu düşünür, çünkü böyle bir yük, bireyin belirli bir faktör için puanı ne kadar yüksekse, ilgili testteki puanı o kadar düşük demektir. Basit tasarım kriteri, esasen, her testin mümkün olduğunca az faktör üzerinde yüke sahip olması gerektiği anlamına gelir.

Her iki kriterin de yerine getirilmesi, en kolay ve açık bir şekilde yorumlanabilecek faktörleri sağlar. Bir testin bir faktör üzerinde yüksek bir yükü varsa ve diğer faktörler üzerinde önemli yükleri yoksa, bu testin içeriğini inceleyerek bu faktörün doğası hakkında bir şeyler öğrenebiliriz. Aksine, bir testin altı faktör üzerinde orta veya düşük yükleri varsa, o zaman bize bunların herhangi birinin doğası hakkında çok az şey anlatacaktır.

İncirde. 1 Koordinat eksenlerinin döndürülmesinden sonra tüm sözel testlerin (1-5) I ekseni boyunca veya çok yakınında yer aldığı ve sayısal testlerin (6-10) II- ekseni etrafında yakından gruplandığı açıkça görülmektedir. eksen". Döndürülmüş eksenlere göre ölçülen yeni faktör yükleri tabloda gösterilmiştir. 2. Tablodaki faktör yükleri. 2, örnekleme hatalarına açıkça atfedilebilen ihmal edilebilir değerler dışında negatif değerlere sahip değildir. Tüm sözel testler, faktör I "ve pratik olarak sıfır - faktör II" üzerinde yüksek yüklere sahiptir. Sayısal testler ise faktör II için yüksek yüklere ve faktör I için ihmal edilebilir yüklere sahiptir. Böylece, koordinat eksenlerinin döndürülmesi, her iki faktörün tanımlanmasını ve adlandırılmasını ve ayrıca her bir testin faktör bileşiminin tanımını önemli ölçüde basitleştirdi. Uygulamada, faktörlerin sayısı genellikle ikiden fazla olur, bu da elbette geometrik temsillerini ve istatistiksel analizlerini karmaşıklaştırır, ancak dikkate alınan prosedürün özünü değiştirmez.

Tablo 2

Döndürme sonrası faktör matrisi

Bazı araştırmacılar, eksenlerin dönme ilkesi olarak teorik model tarafından yönlendirilir. Ayrıca, bağımsız olarak yürütülen ancak karşılaştırılabilir çalışmalarda aynı faktörlerin kalıcılığını veya doğrulanmasını da hesaba katar.

Faktörlerin yorumlanması. Döndürme prosedüründen sonra faktöriyel çözümü (veya daha basit olarak faktöriyel matrisi) aldıktan sonra, faktörlerin yorumlanmasına ve adlandırılmasına geçebiliriz. Bu çalışma aşaması, istatistiksel eğitimden ziyade psikolojik sezgi gerektirir. Belirli bir faktörün doğasını anlamak için, bu faktör için yüksek yükleri olan testleri incelemekten ve onlar için ortak psikolojik süreçler bulmaya çalışmaktan başka seçeneğimiz yok. Bu faktör üzerinde yüksek yüklerle yapılan testler ne kadar fazla olursa, niteliğini ortaya çıkarmak o kadar kolay olur. Tablodan. 2, örneğin, faktör I'in "sözel ve faktör II"nin sayısal olduğu hemen açıktır. Tabloda verilmiştir. 2 faktör yükü de her testin bir faktörle olan korelasyonunu yansıtır.

Temel Hükümler

Faktör analizi, çok değişkenli istatistiksel analizin daha yeni alanlarından biridir. Bu yöntem başlangıçta girdi parametreleri arasındaki korelasyonu açıklamak için geliştirilmiştir. Korelasyon analizinin sonucu, bir korelasyon katsayıları matrisidir. Az sayıda özellik (değişken) ile bu matrisin görsel analizi yapılabilir. İşaret sayısındaki artış (10 veya daha fazla) ile görsel analiz olumlu sonuçlar vermeyecektir. Tüm korelasyon çeşitliliği, incelenen parametrelerin işlevleri olan birkaç genelleştirilmiş faktörün eylemiyle açıklanabilirken, faktörlerin kendileri bilinmeyebilir, ancak bunlar incelenen özellikler aracılığıyla ifade edilebilir. Faktör analizinin kurucusu Amerikalı bilim adamı L. Thurstone'dur.

Modern istatistikçiler, faktör analizini, özellikler arasında gerçekten var olan bir bağlantı temelinde, örgütsel yapının gizli (gizli) genelleştirici özelliklerini ve incelenen fenomen ve süreçlerin gelişim mekanizmalarını tanımlamayı mümkün kılan bir dizi yöntem olarak anlarlar.

Örnek: n arabanın 2 kritere göre değerlendirildiğini varsayalım:

x 1 - arabanın maliyeti,

x 2 - motorun çalışma ömrü.

Eğer x 1 ve x 2 ilişkilendirilirse, koordinat sisteminde yeni eksenler tarafından resmi olarak görüntülenen yönlendirilmiş ve oldukça yoğun bir nokta kümesi görünür ve (Şekil 5).

Şekil 6

göze çarpan özellik F 1 ve F 2 yoğun nokta kümelerinden geçmeleri ve sırasıyla x 1 x 2.Maksimum

yeni eksenlerin sayısı, temel özelliklerin sayısına eşit olacaktır. Faktör analizinin daha da geliştirilmesi, bu yöntemin nesnelerin gruplandırılması ve sınıflandırılması problemlerinde başarıyla uygulanabileceğini gösterdi.

Faktör analizinde bilgilerin sunumu.

Faktör analizini gerçekleştirmek için bilgiler bir m x n matrisi şeklinde sunulmalıdır:

Matrisin satırları gözlem nesnelerine (i =) ve sütunlar özelliklere (j =) karşılık gelir.

Nesneyi karakterize eden niteliklerin farklı boyutları vardır. Bunları aynı boyuta getirmek ve özniteliklerin karşılaştırılabilirliğini sağlamak için başlangıç ​​verilerinin matrisi genellikle tek bir ölçek getirilerek normalize edilir. Normalleştirmenin en yaygın yolu standardizasyondur. Değişkenlerden değişkenlere

Anlamına gelmek J imza,

Standart sapma.

Bu dönüşüme standardizasyon denir.

Temel Faktör Analizi Modeli

Faktör analizinin temel modeli aşağıdaki gibidir:

z J - J-th işareti (rastgele değer);

F 1 , F 2 , ..., F P- genel faktörler (rastgele değerler, normal dağılım);

sen J- karakteristik bir faktör;

j1 , j2 , …, jp her bir faktörün etkisinin önemini karakterize eden yük faktörleri (belirlenecek model parametreleri);

Ortak faktörler, tüm niteliklerin analizi için gereklidir. Karakteristik faktörler, sadece verilen özniteliğe atıfta bulunduğunu gösterir, bu, özniteliğin faktörlerle ifade edilemeyen özgüllüğüdür. faktör yükleri j1 , j2 , …, jp belirli bir özelliğin varyasyonunda bir veya başka bir genel faktörün etkisinin büyüklüğünü karakterize eder. Faktör analizinin temel görevi faktör yüklerini belirlemektir. Varyans S j Her özelliğin 2'si 2 bileşene ayrılabilir:

    ilk kısım, ortak faktörlerin etkisini belirler - h j 2'nin genelliği;

    ikinci kısım, karakteristik bir faktör - karakter - d j 2'nin etkisini belirler.

Tüm değişkenler standart bir biçimde sunulur, dolayısıyla varyans - durum işareti S j2 = 1.

Genel ve karakteristik faktörler birbiriyle ilişkili değilse, j'inci özelliğin varyansı şu şekilde temsil edilebilir:

atfedilebilir özelliğin varyansının kesri nerede k faktör.

Herhangi bir faktörün toplam varyansa tam katkısı:

Tüm ortak faktörlerin toplam varyansa katkısı:

Faktör analizi sonuçlarının bir tablo şeklinde sunulması uygundur.

faktör yükleri

Topluluklar

a 11 a 21 … A p1

a 12 a 22 a p2

… … … …

a 1m a 2m a öğleden sonra

faktörler

V 1 V 2 ... V P

A- faktör yükleri matrisi. Çeşitli yollarla elde edilebilir, şu anda ana bileşenler veya ana faktörler yöntemi en yaygın olanıdır.

Temel faktörler yönteminin hesaplama prosedürü.

Temel bileşenleri kullanarak sorunu çözmek, ilk veri matrisinin adım adım dönüştürülmesine indirgenir. x :

NS- ilk veri matrisi;

Z- standartlaştırılmış özellik değerleri matrisi,

r- ikili korelasyon matrisi:

Öz (karakteristik) sayıların köşegen matrisi,

J karakteristik denklemi çözülerek bulunur

E–Birim matrisi,

 j, her bir ana bileşenin dağılım indeksidir,

ilk verilerin standardizasyonuna tabidir, o zaman = m

sen- denklemden bulunan özvektörlerin matrisi:

Bu gerçekten bir karar anlamına geliyor m her biri için lineer denklem sistemleri

Onlar. her özdeğer bir denklem sistemine karşılık gelir.

sonra bul V- normalleştirilmiş özvektörlerin matrisi.

Faktör eşleme matrisi A şu formülle hesaplanır:

Ardından, eşdeğer formüllerden birini kullanarak temel bileşenlerin değerlerini buluruz:

Dört sanayi kuruluşunun toplamı, üç karakteristik özelliğe göre değerlendirilir:

    çalışan başına ortalama yıllık çıktı x 1;

    karlılık seviyesi x 2;

Varlıkların getiri düzeyi x 3.

Sonuç, standartlaştırılmış bir matriste sunulur Z:

matris tarafından Z ikili korelasyon matrisi elde edilir r:

    İkili korelasyon matrisinin determinantını bulalım (örneğin, Faddeev yöntemini kullanarak):

    Karakteristik denklemi oluşturalım:

    Bu denklemi çözerek şunları buluruz:

Böylece, orijinal temel özellikler x 1, x 2, x 3, üç ana bileşenin değerleri ile genelleştirilebilir ve:

F 1 tüm varyasyonu açıklar,

F 2 - ve F 3 -

Üç ana bileşenin tümü, varyasyonun %100'ünü oluşturur.

Bu sistemi çözerek şunları buluruz:

 2 ve  3 için sistemler benzer şekilde yapılmıştır.  2 sistem çözümü için:

özvektör matrisi sen formu alır:

    Matrisin her bir elemanını j-th elemanlarının karelerinin toplamına böleriz.

sütun, normalleştirilmiş matrisi elde ederiz V.

Eşitliğin = olduğuna dikkat edin E.

    Faktör haritalamanın matrisi, matris ilişkisinden elde edilir.

=

Matrisin her bir elemanının anlamı dahilinde A orijinal özellik arasındaki korelasyon matrisinin kısmi katsayılarını temsil eder x j ve ana bileşenler F r. Bu nedenle, tüm unsurlar.

Eşitlik koşulu ima eder r- bileşenlerin sayısı.

Her bir faktörün özelliklerin toplam varyansına toplam katkısı:

Faktör analizi modeli şu şekilde olacaktır:

Temel bileşenlerin (matris) değerlerini bulun F) formüle göre

Ana bileşenlerin değerlerinin dağılım merkezi (0,0,0) noktasındadır.

Ayrıca, hesaplama sonuçlarına dayanan analitik sonuçlar, önemli özelliklerin sayısı ve ana bileşenlerin adlarının belirlenmesinin ana bileşenleri hakkında bir karar verildikten sonra gelir. Ana bileşenleri tanıma, adlarını belirleme sorunları, haritalama matrisindeki ağırlık katsayılarına dayalı olarak öznel olarak çözülür. A.

Ana bileşenlerin adlarının ifadeleri sorusunu düşünün.

biz belirtiriz w 1 - sıfıra yakın öğeleri içeren bir dizi önemsiz ağırlık katsayısı,

w 2 - bir dizi önemli ağırlık,

w 3 - ana bileşenin adının oluşumunda yer almayan önemli ağırlıkların bir alt kümesi.

w 2 - w 3 - adın oluşumunda rol oynayan ağırlık faktörlerinin bir alt kümesi.

Her ana faktör için bilgi içeriği katsayısını hesaplıyoruz

Bilgilendirme katsayılarının değerleri 0.75-0.95 aralığındaysa, açıklanabilir özellikler kümesi tatmin edici olarak kabul edilir.

a 11 =0,776 a 12 =-0,130 a 13 =0,308

a 12 =0,904 a 22 =-0,210 a 23 =-0,420

a 31 =0,616 a 32 =0,902 a 33 =0,236

j = 1 için w 1 = ,w 2 ={a 11 ,a 21 ,a 31 },

.

j = 2 için w 1 ={a 12 ,a 22 }, w 2 ={ a 32 },

j = 3 için w 1 ={a 33 }, w 2 ={a 13 ,a 33 },

Özellik değerleri x 1 , x 2 , x 3, ana bileşenin bileşimi %100 olarak belirlenir. bu durumda, özelliğin en büyük katkısı x 2, anlamı karlılıktır. özelliğin adı için doğru F 1 olacak üretim verimliliği.

F 2 bileşen tarafından belirlenir x 3 (varlık getirisi), diyelim sabit varlıkların verimli kullanımı.

F 3 bileşenler tarafından belirlenir x 1 ,x 2 - analizde dikkate alınmayabilir, çünkü toplam varyasyonun sadece %10'unu açıklıyor.

Edebiyat.

    AA Popov

Excel: Pratik Bir Kılavuz, DESS COM.-M.-2000.

    Dyakonov V.P., Abramenkova I.V. Mathcad7 matematik, fizik ve internette. Yayınevi "Nomidzh", M.-1998, bölüm 2.13. Regresyon yapmak.

    Los Angeles Soshnikova, V.N. Tomashevich ve diğerleri Ekonomide çok değişkenli istatistiksel analiz, ed. V.N. Tomashevich. - M. -Nauka, 1980.

    V.A. Kolemaev, O.V. Staroverov, V.B. Turundaevsky Olasılık teorisi ve matematiksel istatistik. -M. - Yüksek okul - 1991.

    Iberla'ya. Faktör analizi -M. İstatistikler.-1980.

Varyansları bilinen normal genel popülasyonların iki ortalamasının karşılaştırılması

Genel popülasyonlar X ve Y normal dağılsın ve varyansları bilinsin (örneğin, önceki deneyimlerden veya teorik olarak bulunur). Bu popülasyonlardan çıkarılan n ve m hacimli bağımsız numuneler için, numune ortalamaları x in ve y in bulundu.

Numune ortalamalarına dayalı olarak sıfır hipotezini, belirli bir önem düzeyinde test etmek gerekir; bu, dikkate alınan popülasyonların genel ortalamalarının (matematiksel beklentiler) birbirine eşit olması, yani H 0: M olması gerçeğinden oluşur. (X) = M(Y).

Örnek ortalamaların genel ortalamaların yansız tahminleri olduğu göz önüne alındığında, yani M (x in) = M (X) ve M (y in) = M (Y), boş hipotez şu şekilde yazılabilir: H 0: M ( x inç ) = M (y inç).

Bu nedenle, örnek ortalamaların matematiksel beklentilerinin birbirine eşit olup olmadığının kontrol edilmesi gerekmektedir. Bu görev, kural olarak, örnek araçlar farklı olduğu için ortaya konmuştur. Soru ortaya çıkıyor: örnek ortalamalar önemli ölçüde mi yoksa önemsiz bir şekilde mi farklı?

Sıfır hipotezinin doğru olduğu, yani genel ortalamaların aynı olduğu ortaya çıkarsa, örnek ortalamalardaki fark önemsizdir ve rastgele nedenlerle ve özellikle rastgele bir örnek nesne seçimi ile açıklanabilir.

Sıfır hipotezi reddedilirse, yani genel ortalamalar aynı değilse, örnek ortalamalardaki fark önemlidir ve rastgele nedenlerle açıklanamaz. Ve genel ortalamanın (matematiksel beklentiler) kendilerinin farklı olmasıyla açıklanır.

Sıfır hipotezinin bir testi olarak rastgele bir değişken alıyoruz.

Kriter Z - normalleştirilmiş normal rastgele değişken. Aslında, Z miktarı normal olarak dağılmıştır, çünkü normal olarak dağılmış olan X ve Y niceliklerinin lineer bir birleşimidir; bu değerlerin kendisi, genel popülasyonlardan çıkarılan örneklerden bulunan örnek ortalamaları olarak normal olarak dağıtılır; Z normalleştirilmiş bir değerdir, çünkü M (Z) = 0, eğer boş hipotez doğruysa, D (Z) = 1, çünkü örnekler bağımsızdır.

Kritik alan, rekabet eden hipotezin türüne bağlı olarak oluşturulur.

İlk vaka... Boş hipotez H 0: M (X) = M (Y). Rekabet eden hipotez H 1: M (X) ¹M (Y).

Bu durumda, sıfır hipotezinin geçerliliği varsayılarak, kriterin bu alana düşme olasılığının kabul edilen anlamlılık düzeyine eşit olması şartına dayalı olarak iki yönlü bir kritik alan oluşturulur.

Kriterin en büyük gücü (yarışan hipotezin geçerliliği ile kriterin kritik bölgeye düşme olasılığı), kriterin her birine düşme olasılığı olacak şekilde "sol" ve "sağ" kritik noktalar seçildiğinde elde edilir. kritik bölge aralığı şuna eşittir:

P (Z< zлев.кр)=a¤2,

P (Z> z sağ cr) = a¤2. (1)

Z normalleştirilmiş bir normal nicelik olduğundan ve böyle bir niceliğin dağılımı sıfıra göre simetrik olduğundan, kritik noktalar sıfıra göre simetriktir.

Böylece, iki taraflı kritik bölgenin sağ sınırını zcr ile gösterirsek, sol sınır -zcr olur.

Bu nedenle, çok iki taraflı kritik bölge Z'yi bulmak için doğru sınırı bulmak yeterlidir.< -zкр, Z >zcr ve boş hipotezin kabul alanı (-zcr, zcr).

Laplace fonksiyonunu Ф (Z) kullanarak iki taraflı kritik bölgenin sağ sınırı olan zcr'yi nasıl bulacağımızı gösterelim. Laplace fonksiyonunun (0; z) aralığında, örneğin Z gibi normalleştirilmiş bir normal rastgele değişkene çarpma olasılığını belirlediği bilinmektedir:

P (0< Z

Z'nin dağılımı sıfır civarında simetrik olduğundan, Z'yi (0; ¥) aralığına alma olasılığı 1/2'dir. Bu nedenle, bu aralığı zcr noktasına (0, zcr) ve (zcr, ¥) aralığına bölersek, o zaman toplama teoremi P (0< Z < zкр)+Р(Z >zcr) = 1/2.

(1) ve (2) sayesinde, Ф (zcr) + a / 2 = 1/2 elde ederiz. Bu nedenle, Ф (zкр) = (1-a) / 2.

Dolayısıyla şu sonuca varıyoruz: iki taraflı kritik bölgenin (zcr) doğru sınırını bulmak için, fonksiyonun (1-) değerine karşılık gelen Laplace fonksiyonunun argümanının değerini bulmak yeterlidir. a) / 2.

Daha sonra iki taraflı kritik bölge, Z eşitsizlikleri ile tanımlanır.< – zкр, Z >zcr veya eşdeğer eşitsizlik ½Z1> zcr ve eşitsizlik - zcr tarafından boş hipotezin kabul alanı< Z < zкр или равносильным неравенством çZ ç< zкр.

Gözlemsel verilerden hesaplanan kriterin değerini zobl aracılığıyla gösterelim ve sıfır hipotezini test etmek için kuralı formüle edelim.

Kural.

1. Kriterin gözlenen değerini hesaplayın

2. Laplace fonksiyonunun tablosundan kritik noktayı Ф (zкр) = (1-a) / 2 eşitliği ile bulun.

3. Eğer ç zobl ç< zкр – нет оснований отвергнуть нулевую гипотезу.

ç zobl ç> zcr ise - boş hipotez reddedilir.

ikinci vaka... Sıfır hipotezi Н0: M (X) = M (Y). Rekabet eden hipotez H1: M (X)> M (Y).

Uygulamada, mesleki değerlendirmeler, bir popülasyonun genel ortalamasının diğerinin genel ortalamasından daha büyük olduğunu gösteriyorsa, durum böyledir. Örneğin, bir süreç iyileştirmesi başlatılırsa, bunun çıktıda bir artışa yol açacağını varsaymak doğaldır.

Bu durumda, sıfır hipotezinin geçerliliği varsayılarak, kriterin bu alana düşme olasılığının kabul edilen önem düzeyine eşit olması şartına dayalı olarak bir sağ taraflı kritik alan oluşturulur:

P (Z> zcr) = a. (3)

Laplace fonksiyonunu kullanarak kritik noktanın nasıl bulunacağını gösterelim. ilişkiyi kullanacağız

P (0 zcr) = 1/2.

(2) ve (3) sayesinde, Ф (zcr) + a = 1/2'ye sahibiz. Bu nedenle, Ф (zкр) = (1-2a) / 2.

Dolayısıyla, sağ taraflı kritik bölgenin (zcr) sınırını bulmak için Laplace fonksiyonunun (1-2a) / 2'ye eşit değerini bulmanın yeterli olduğu sonucuna varıyoruz. Daha sonra sağ taraflı kritik bölge Z> zcr eşitsizliği ile belirlenir ve sıfır hipotezinin kabul bölgesi Z eşitsizliği ile belirlenir.< zкр.

Kural.

1. zobl kriterinin gözlemlenen değerini hesaplayın.

2. Laplace fonksiyonunun tablosundan, Ф (zкр) = (1-2a) / 2 eşitliğinden kritik noktayı bulun.

3. Z obs ise< z кр – нет оснований отвергнуть нулевую гипотезу. Если Z набл >z cr - boş hipotezi reddediyoruz.

Üçüncü vaka. Sıfır hipotezi Н0: M (X) = M (Y). Rekabet eden hipotez H1: M (X)

Bu durumda, gereksinime göre bir sol taraf kritik alanı inşa edilir, kriterin bu alana düşme olasılığı,

sıfır hipotezinin geçerlilik konumu, kabul edilen anlamlılık düzeyi P'ye eşitti (Z< z’кр)=a, т.е. z’кр= – zкр. Таким образом, для того чтобы найти точку z’кр, достаточно сначала найти “вспомогательную точку” zкр а затем взять найденное значение со знаком минус. Тогда левосторонняя критическая область определяется неравенством Z < -zкр, а область принятия нулевой гипотезы – неравенством Z >-zcr.

Kural.

1. Zobl hesaplayın.

2. Laplace fonksiyon tablosuna göre, Ф (zcr) = (1-2a) / 2 eşitliği ile “yardımcı nokta” zcr'yi bulun ve ardından z'cr = -zcr koyun.

3. Zobl> -zcr ise, sıfır hipotezini reddetmek için bir neden yoktur.

eğer Zobl< -zкр, – нулевую гипотезу отвергают.

Temel Denklemler

Daha önce, faktör analizine ilişkin hemen hemen tüm ders kitapları ve monograflar, temel hesaplamaların "manuel" olarak veya en basit hesaplama aracını (makine veya hesap makinesi ekleme) kullanarak nasıl gerçekleştirileceğine dair bir açıklama sağlıyordu. Bugün, bir karşılıklı ilişkiler matrisi oluşturmak, faktörleri izole etmek ve onları döndürmek için gereken karmaşıklık ve büyük miktarda hesaplama nedeniyle, faktör analizi yaparken güçlü bilgisayarları ve ilgili programları kullanmayacak tek bir kişi muhtemelen yoktur.

Bu nedenle, faktör analizi sırasında en önemli matrislerin (veri setlerinin) neler elde edilebileceği, bunların birbirleriyle nasıl ilişkili oldukları ve verilerin yorumlanmasında nasıl kullanılabileceği üzerinde durulacaktır. Gerekli tüm hesaplamalar herhangi bir bilgisayar programı kullanılarak yapılabilir (örneğin, SPSS veya STADIA).

V sekme. 1 temel bileşen analizi ve faktör analizi için en önemli matrislerin bir listesini sağlar. Bu liste temel olarak ilişki matrislerini (değişkenler arasında, faktörler arasında, değişkenler ve faktörler arasında), standartlaştırılmış değerler (değişkenler ve faktörler için), regresyon ağırlıkları (değişkenler için değerleri kullanarak faktör değerlerini hesaplamak için) ve faktör içerir. eğik döndürmeden sonra faktörler ve değişkenler arasındaki ilişkilerin haritalanması. V sekme. 1özdeğer matrisleri ve karşılık gelen özvektörler de verilmiştir. Özdeğerler (özdeğerler) ve özvektörler, faktörlerin seçimindeki önemi, bu konuda çok sayıda özel terimin kullanılması ve ayrıca istatistiksel çalışmalarda özdeğer ve varyansın yakın ilişkisi göz önüne alınarak açıklanmıştır. .

tablo 1

Faktör analizinde en sık kullanılan matrisler

atama İsim Boyut Açıklama
r ilişki matrisi pxp Değişkenler arasındaki ilişkiler
NS Standartlaştırılmamış veri matrisi Nxp Birincil veriler - birincil değişkenler için standartlaştırılmamış gözlem değerleri
Z Standartlaştırılmış veri matrisi Nxp Birincil Değişkenler İçin Standartlaştırılmış Gözlem Değerleri
F Faktör Değerleri Matrisi Nx F Faktöre Göre Standartlaştırılmış Gözlem Değerleri
A Faktör yükleme matrisi Faktör eşleştirme matrisi px F Ortak faktörler için regresyon katsayıları, gözlenen değişkenlerin faktörlerin doğrusal bir kombinasyonu olduğu varsayılarak. Ortogonal döndürme durumunda, değişkenler ve faktörler arasındaki ilişki
V Faktör değeri katsayı matrisi px F Değişken Değerleri Kullanarak Faktör Değerlerini Hesaplamak İçin Regresyon Katsayıları
S yapısal matris px F Değişkenler ve faktörler arasındaki ilişkiler
F Faktör korelasyon matrisi F x F Faktörler arasındaki korelasyonlar
L Özdeğer matrisi (köşegen) F x F Özdeğerler (karakteristik, gizli kökler); her faktörün bir uygun numarası vardır
V özvektör matrisi F x F Kendi (karakteristik) vektörleri; her özdeğer bir özvektöre karşılık gelir

Not. Boyut belirlenirken satır sayısı x sütun sayısı verilir: r- değişken sayısı, n- gözlem sayısı, F- faktörlerin veya bileşenlerin sayısı. Eğer ilişkilerin matrisi r dejenere değildir ve eşit bir rütbeye sahiptir R, o zaman gerçekten göze çarpıyor rözdeğerler ve özvektörler, değil F... Ancak, sadece F onlardan. Bu nedenle, kalan p - f gösterilmez.

matrislere S ve F geri kalanına sadece eğik döndürme uygular - ortogonal ve eğik.

Faktör analizi için hazırlanan veri seti, çok sayıda deneğin (yanıtlayıcı) belirli ölçeklere (değişkenlere) göre ölçümlerinin (yoklama) sonuçlarından oluşmaktadır. V sekme. 2 koşullu olarak faktör analizinin gereksinimlerini karşıladığı düşünülebilecek bir dizi veri verilmiştir.

Bir sahil beldesine bilet almak için bir seyahat acentesine başvuran beş katılımcıya, yaz tatili yeri seçiminde dört koşulun (değişkenin) kendileri için önemi hakkında sorular soruldu. Bu değişken koşullar şunlardı: kuponun maliyeti, kompleksin konforu, hava sıcaklığı, su sıcaklığı. Katılımcı açısından, şu veya bu koşulun onun için önemi ne kadar fazlaysa, ona o kadar fazla önem verdi. Araştırma görevi, değişkenler arasındaki ilişkinin modelini incelemek ve tatil yerinin seçimini belirleyen temel nedenleri belirlemekten oluşuyordu. (Örnek, elbette, açıklama ve eğitim amacıyla son derece basitleştirilmiştir ve anlamlı bir açıdan ciddiye alınmamalıdır.)

İlişki matrisi ( sekme. 2) korelasyon olarak hesaplandı. Dikey ve yatay çizgilerle vurgulanan, içindeki ilişkilerin yapısına dikkat edin. Sol üst ve sağ alt kadranlardaki yüksek korelasyonlar, bir biletin maliyeti ve kompleksin konforu ile hava sıcaklığı ve su sıcaklığı tahminlerinin birbiriyle ilişkili olduğunu göstermektedir. Diğer iki kadran, hava sıcaklığı ve kompleksin konforunun, kompleksin konforu ve suyun sıcaklığı ile ilişkili olduğunu göstermektedir.

Şimdi, küçük bir korelasyon matrisinde çıplak gözle kolayca görülen bu korelasyon yapısını bulmaya çalışalım, faktör analizini kullanarak (büyük bir matriste bunu yapmak çok zordur).

Tablo 2

Faktör Analizi Verileri (Örnek Olay)

Turistler Değişkenler
Kupon maliyeti konfor seviyesi Hava sıcaklığı Su sıcaklığı
T1
T2
T3
T4
T5

korelasyon matrisi

Kupon maliyeti konfor seviyesi Hava sıcaklığı Su sıcaklığı
Kupon maliyeti 1,000 -0,953 -0,055 -0,130
konfor seviyesi -0,953 1,000 -,091 -0,036
Hava sıcaklığı -0,055 -0,091 1,000 0,990
Su sıcaklığı -0,130 -0,036 0,990 1,000

çarpanlara ayırma

Matris cebirinden önemli bir teorem, belirli koşulları sağlayan matrislerin köşegenleştirilebileceğini belirtir; ana köşegeninde sayılar ve diğer tüm konumlarda sıfırlar bulunan bir matrise dönüştürülür. İlişki matrisleri tam olarak köşegenleştirilebilir matrislerin türüdür. Dönüşüm aşağıdaki formüle göre gerçekleştirilir:

onlar. R matrisinin köşegenleştirilmesi, ilk önce (solda) V ' ile gösterilen ve sonra (sağda) V matrisi ile değiştirilen V matrisi ile çarpılarak gerçekleştirilir.

V matrisindeki sütunlara özvektörler, L matrisinin ana köşegenindeki değerlere özdeğerler denir. İlk özvektör, ilk özdeğerle eşleşir ve bu böyle devam eder. (daha fazla ayrıntı için Ek 1'e bakın).

Verilen örnekte dört değişken göz önüne alındığından, karşılık gelen özvektörleri ile dört özdeğer elde ediyoruz. Ancak faktör analizinin amacı, mümkün olduğu kadar az faktör kullanarak ilişki matrisini genelleştirmek olduğundan ve her bir özdeğer farklı potansiyel faktörlere karşılık geldiğinden, genellikle sadece öz değeri büyük olan faktörler dikkate alınır. "İyi" bir faktöriyel çözümle, bu sınırlı faktör seti kullanılarak elde edilen hesaplanmış ilişkiler matrisi, ilişkiler matrisini pratik olarak çoğaltır.

Örneğimizde, faktör sayısına herhangi bir kısıtlama getirilmediğinde, dört olası faktörün her biri için 2,02, 1,94, ,04 ve ,00 özdeğerleri hesaplanır. Yalnızca ilk iki faktör için özdeğerler, daha fazla değerlendirmeye konu olacak kadar büyüktür. Bu nedenle, yalnızca ilk iki faktör yeniden vurgulanmıştır. Tabloda gösterildiği gibi sırasıyla 2.00 ve 1.91 öz değerlerine sahiptirler. 3. Denklemi (6) kullanarak ve yukarıdaki örnekteki değerleri ekleyerek şunu elde ederiz:

(Bilgisayarda hesaplanan tüm değerler aynıdır; manuel hesaplamalar yuvarlama hatalarından dolayı farklılık gösterebilir.)

Özvektörler matrisinin devrik matris ile sol çarpımı, E kimlik matrisini verir (ana köşegen üzerindekiler ve diğer sıfırlar ile). Bu nedenle, formül (6)'ya göre ilişkiler matrisinin dönüşümünün kendisini değiştirmediğini, sadece analiz için daha uygun bir forma dönüştürdüğünü söyleyebiliriz:

Örneğin:

Tablo 3

Vaka Çalışması için Özvektörler ve Karşılık Gelen Özdeğerler

özvektör 1 özvektör 2
-.283 .651
.177 -.685
.658 .252
.675 .207
özdeğer 1 özdeğer 2
2.00 1.91

Korelasyon matrisi köşegenleştirilebilir olduğundan, faktör analizi sonuçlarını elde etmek için özvektörlerin ve özdeğerlerin matris cebiri uygulanabilir (bkz. Ek 1). Matris köşegenleştirilebilirse, faktör yapısıyla ilgili tüm temel bilgiler köşegen biçiminde bulunur. Faktör analizinde özdeğerler, faktörlerin açıkladığı varyansa karşılık gelir. En büyük özdeğere sahip faktör, genellikle analizde dikkate alınmayan küçük veya negatif özdeğerlere sahip faktörlere gelinceye kadar en büyük varyansı vb. açıklar. Özdeğerleri ve özvektörleri hesaplamak çok zahmetlidir ve bunları hesaplama yeteneği, kendi pratik amaçları için faktör analizinde ustalaşan bir psikolog için mutlak bir gereklilik değildir. Bununla birlikte, bu prosedüre aşinalık zarar vermez, bu nedenle Ek 1'de küçük bir matris üzerinde özdeğerlerin ve özvektörlerin hesaplanmasına bir örnek olarak veriyoruz.

Bir kare matris pxp'nin özdeğerlerini bulmak için, p dereceli bir polinomun köklerini bulmak ve özvektörleri bulmak - p bilinmeyenli p denklemlerini, p> 3 için ek yan kısıtlamalarla çözmek gerekir. nadiren manuel olarak yapılır. Özvektörler ve özdeğerler bulunduğunda, faktör analizinin geri kalanı (veya temel bileşen analizi) az çok netleşir (bkz. Denklemler 8-11).

Denklem (6) şu şekilde temsil edilebilir: R = V'LV, (8)

onlar. ara bağlantı matrisi, üç matrisin ürünü olarak kabul edilebilir - özdeğer matrisi, karşılık gelen özvektörlerin matrisi ve ona aktarılır.

Dönüşümden sonra, L özdeğer matrisi aşağıdaki gibi temsil edilebilir:

ve dolayısıyla: R = VÖLÖL V ’(10)

veya (ki aynıdır): R = (VÖL) (ÖL V ’)

A = (VÖL) ve A '= (ÖL V'), ardından R = AA '(11) olarak ifade ederiz.

onlar. ilişki matrisi, her biri özvektörlerin ve özdeğerlerin kareköklerinin bir kombinasyonu olan iki matrisin ürünü olarak da temsil edilebilir.

Denklem (11) genellikle temel faktör analizi denklemi olarak adlandırılır. İlişki matrisinin faktör yükleri matrisinin (A) çarpımı olduğunu ve ona aktarıldığını ifade eder.

Denklemler (10) ve (11) de faktör analizi ve temel bileşenler yöntemlerindeki hesaplamaların önemli bir bölümünün özdeğerlerin ve özvektörlerin belirlenmesinden oluştuğunu göstermektedir. Bir kez bilindiğinde, döndürmeden önceki faktöriyel matris, doğrudan matris çarpımı ile elde edilir:

Örneğimizde:

Faktör yükleri matrisi, faktörler ve değişkenler arasındaki bir ilişkiler matrisidir (korelasyon katsayıları olarak yorumlanır). İlk sütun, birinci faktör ile sırayla her değişken arasındaki korelasyonlardır: biletin maliyeti (-.400), kompleksin konforu (.251), hava sıcaklığı (.932), su sıcaklığı (. 956). İkinci sütun, ikinci faktör ile her bir değişken arasındaki korelasyonlardır: seyahatin maliyeti (.900), kompleksin konforu (-.947), hava sıcaklığı (.348), su sıcaklığı (.286) . Faktör, kendisiyle güçlü bir şekilde ilişkili değişkenler temelinde yorumlanır (yani üzerinde yüksek yüklerin bulunması). Bu nedenle, ilk faktör esas olarak "iklimsel" (hava ve su sıcaklığı), ikincisi "ekonomik" (bilet maliyeti ve kompleksin konforu).

Bu faktörleri yorumlarken, birinci faktör (hava sıcaklığı ve su sıcaklığı) için yüksek yüke sahip değişkenlerin pozitif olarak birbirine bağlı olmasına, ikinci faktör için yüksek yüke sahip değişkenlerin (seyahat maliyeti ve su sıcaklığı) pozitif olarak birbirine bağlı olmasına dikkat edilmelidir. Kompleksin konforu) birbirine olumsuz olarak bağlıdır (ucuz bir tatil beldesinden büyük konfor beklenemez). İlk faktöre tek kutuplu (tüm değişkenler bir kutupta gruplanır) ve ikinci faktöre iki kutuplu (değişkenler anlam olarak zıt iki gruba ayrılır - iki kutuplu) denir. Faktoriyel yükleri artı işaretli değişkenler pozitif kutup, eksi işaretli değişkenler negatif kutup oluşturur. Bu durumda, faktörü yorumlarken "olumlu" ve "olumsuz" kutup adları, "kötü" ve "iyi" değerlendirici anlamını taşımaz. İşaret seçimi, hesaplamalar sırasında rastgele gerçekleşir. Tüm işaretleri zıt işaretlerle değiştirmek (tüm artılar eksiler ve tüm eksiler artılar) çözümü değiştirmez. İşaretlerin analizi, yalnızca grupları (neye karşı olan) belirlemek için gereklidir. Aynı başarı ile bir kutup sağ, diğeri sol olarak adlandırılabilir. Örneğimizde, kuponun değişken maliyeti artı (sağ) kutupta çıktı; eksi (sol) kutupta ise kompleksin değişken konforuna karşı çıktı. Ve bu faktör "Konforla İlgili Ekonomi" olarak yorumlanabilir (denir). Tasarruf sorununun önemli olduğu katılımcılar sağdaydı - artı işaretiyle faktöriyel değerler aldılar. Bir tatil yeri seçerken, ucuzluğu ve daha az konforu ile yönlendirilirler. Tatilde tasarruf etmeyen (kuponun fiyatını pek umursamayan) ve her şeyden önce rahat koşullarda rahatlamak isteyen katılımcılar soldaydı - eksi işaretli faktör değerleri aldılar. .

Ancak, tüm değişkenlerin her iki faktörle de yüksek oranda ilişkili olduğu akılda tutulmalıdır. Bu basit örnekte, yorum açıktır, ancak gerçek veriler söz konusu olduğunda o kadar basit değildir. Genellikle, değişkenlerin yalnızca küçük bir kısmı onunla güçlü bir şekilde ilişkiliyse ve geri kalanı değilse, bir faktörün yorumlanması daha kolaydır.

ortogonal döndürme

Döndürme, genellikle yüksek korelasyonları en üst düzeye çıkarmak ve düşük olanları en aza indirmek için çarpanlara ayrıldıktan sonra uygulanır. Çok sayıda döndürme yöntemi vardır, ancak en yaygın olarak kullanılan döndürme, bir varyans maksimizasyon prosedürü olan varimax'tır. Bu pivot, faktör yüklerinin varyansını maksimize ederek, yüksek yükleri her bir faktörün gününden daha yüksek ve düşük olanları daha düşük hale getirir. Bu hedef ile elde edilir dönüşüm matrisi:

Dönmeden önce A L = Döndükten sonra A,

onlar. salınımdan önceki faktöriyel yükler matrisi, dönüşüm matrisi ile çarpılır ve sonuç, salınımdan sonraki faktöriyel yükler matrisidir. Örneğimizde:

Döndürmeden önce ve sonra matrisleri karşılaştırın. Döndürmeden sonraki matrisin, döndürmeden önceki matristen daha düşük ve daha yüksek faktör yüklerine sahip olduğuna dikkat edin. Yüklerde vurgulanan fark, faktörün yorumlanmasını kolaylaştırır, onunla güçlü bir şekilde ilişkili olan değişkenlerin açık bir şekilde seçilmesine izin verir.

Dönüşüm matrisi elemanlarının özel bir geometrik yorumu vardır:

Bir dönüşüm matrisi, döndürülecek ψ açısının sinüs ve kosinüs matrisidir. (Bu nedenle dönüşümün adı - döndürme, çünkü geometrik bir bakış açısından eksenler faktör uzayının orijini etrafında döner.) Örneğimizde bu açı yaklaşık 19 derecedir: cos19 ° = .946 ve sin19 ° = .325. Geometrik olarak bu, faktör eksenlerinin orijin etrafında 19 derece döndürülmesine karşılık gelir. (Dönmenin geometrik yönleri hakkında daha fazla bilgi için aşağıya bakın.)

Ulusal Araştırma Nükleer Üniversitesi "MEPhI"
İşletme Fakültesi Bilişim ve Yönetim
karmaşık sistemler
Ekonomi ve Yönetim Bölümü
endüstride (No. 71)
Matematiksel ve enstrümantal işleme yöntemleri
istatistiki bilgi
Kireev V.S.,
Doktora, doçent
E-posta:
Moskova, 2017
1

normalleştirme

ondalık ölçekleme
Minimaks normalleştirme
Standart dönüşüm kullanarak normalleştirme
Öğe-eleman dönüşümlerini kullanarak normalleştirme
2

ondalık ölçekleme

vi
"
Vi k, maks (Vi) 1
10
"
3

Minimaks normalleştirme

vi
Vi min (Vi)
"
ben
maks (Vi) min (Vi)
ben
ben
4

Standart sapma kullanarak normalleştirme

vi
"
V
V
V V
V
- seçici
ortalama
- örnek ortalama kare
sapma
5

Öğe-eleman dönüşümlerini kullanarak normalleştirme

vi f vi
"
1
"
günlük vi
, Vi günlüğü Vi
"
Deneyim Deneyimi
"
Vi Vi, Vi 1 yıl
vi
"
y
"
6

Faktor analizi

(FA) bir yöntemler topluluğudur.
analiz edilen özelliklerin gerçekten var olan bağlantılarına dayanarak, bağlantıların kendileri
gözlemlenebilir nesneler, gizli (örtük, gizli) tanımlamanıza izin verir
organizasyon yapısı ve geliştirme mekanizmasının genelleyici özellikleri
incelenen fenomenler, süreçler.
Araştırma uygulamasında faktör analizi yöntemleri esas olarak uygulanır
bilgiyi sıkıştırmanın yolu, az sayıda genelleme elde etmek
temel özelliklerin değişkenliğini (varyansı) açıklayan özellikler (R-faktör analizi tekniği) veya gözlemlenen nesnelerin değişkenliği (Q-tekniği)
faktor analizi).
Faktör analizi algoritmaları, azaltılmış
ikili korelasyon matrisleri (kovaryanslar). Azaltılmış bir matris, üzerinde bir matristir
ana köşegeni tam korelasyonun birimleri (tahminleri) olmayan veya
toplam varyansın tahminleri ve bunların azaltılmış, biraz azaltılmış değerleri. NS
Analizin tüm varyansı açıklamadığı varsayılır.
incelenen özelliklerin (nesnelerin) ve bir kısmının, genellikle büyük bir kısmının. Geriye kalan
varyansın açıklanamayan kısmı, özgüllükten kaynaklanan özgüllüktür.
gözlemlenen nesneler veya fenomenleri, süreçleri kaydederken yapılan hatalar,
onlar. girdi verilerinin güvenilmezliği.
7

FA yöntemlerinin sınıflandırılması

8

Temel bileşen yöntemi

(MGK) boyutu azaltmak için kullanılır
önemli bir kayba yol açmadan gözlenen vektörlerin uzayı
bilgilendiricilik. PCA için ön koşul normal dağılım yasasıdır
çok boyutlu vektörler. MGK'da rastgele değişkenlerin lineer kombinasyonları tanımlanır
karakteristik
vektörler
kovaryans
matrisler.
Ana
bileşenler, varyansların olduğu ortogonal bir koordinat sistemini temsil eder.
bileşenler istatistiksel özelliklerini karakterize eder. MGK, FA olarak sınıflandırılmamıştır, ancak
benzer bir algoritma ve benzer analitik problemleri çözer. Ana farkı
indirgenmiş değil, normal matrisin işleme tabi tutulması gerçeğinde yatmaktadır.
birimlerin bulunduğu ana köşegen üzerinde ikili korelasyonlar, kovaryanslar.
Lk lineer uzayının X vektörlerinin başlangıç ​​kümesi verilsin. Başvuru
temel bileşenler yöntemi, Lm (m≤k) uzayının tabanına geçmemizi sağlar,
bu: ilk bileşen (tabanın ilk vektörü) boyunca yöne karşılık gelir
orijinal kümenin vektörlerinin varyansının maksimum olduğu. ikinci yön
(ikinci temel vektörün) bileşenleri, ilk vektörün varyansı olacak şekilde seçilir.
boyunca vektörler, birinci vektöre ortogonallik koşulu altında maksimumdu
temel. Temel vektörlerin geri kalanı benzer şekilde tanımlanır. Sonuç olarak, yönler
başlangıç ​​kümesinin varyansını maksimize edecek şekilde temel vektörler seçilir.
ana bileşenler (veya ana bileşenler) olarak adlandırılan ilk bileşenler boyunca
Orijinal vektör kümesinin vektörlerinin ana değişkenliğinin
ilk birkaç bileşenle temsil edilir ve atılarak mümkün olur
daha az gerekli bileşenler, daha düşük boyutlu bir alana gidin.
9

10. Temel bileşenler yöntemi. şema

10

11. Temel bileşenler yöntemi. Hesap matrisi

Puan matrisi T bize orijinal örneklerin izdüşümlerini verir (J-boyutlu
vektörler
x1, ..., xI)
üzerinde
alt uzay
ana
bileşen
(A-boyutlu).
T matrisinin t1,…, tI satırları, yeni koordinat sistemindeki örneklerin koordinatlarıdır.
T matrisinin t1, ..., tA sütunları ortogonaldir ve üzerindeki tüm örneklerin izdüşümlerini temsil eder.
bir yeni koordinat ekseni.
PCA yöntemini kullanarak verileri incelerken grafiklere özel önem verilir.
hesaplar. Nasıl çalıştıklarını anlamak için yararlı bilgiler taşırlar.
veri. Hesap grafiğinde, her bir örnek çoğunlukla koordinatlarda (ti, tj) gösterilir.
- (t1, t2), PC1 ve PC2 olarak belirlenmiştir. İki noktanın yakınlığı, benzerlikleri anlamına gelir, yani.
pozitif korelasyon. Dik açılardaki noktalar
ilişkisiz ve taban tabana zıt yerleştirilmiş - var
Negatif korelasyon.
11

12. Temel bileşenler yöntemi. Yük matrisi

Yük matrisi P, orijinal uzaydan geçiş matrisidir.
değişkenler x1,… xJ (J-boyutlu) temel bileşenlerin uzayına (A-boyutlu). Her biri
P matrisinin satırı, t ve x değişkenlerini bağlayan katsayılardan oluşur.
Örneğin, a-inci çizgi, ana çizginin a-inci ekseni üzerindeki tüm x1, ... xJ değişkenlerinin izdüşümüdür.
bileşen. P'nin her sütunu, karşılık gelen xj değişkeninin yeni bir değişkene izdüşümüdür.
koordinat sistemi.
Yük grafiği, değişkenlerin rolünü araştırmak için kullanılır. bu konuda
Grafikte, her xj değişkeni koordinatlarda (pi, pj) bir nokta olarak görüntülenir, örneğin
(p1, p2). Hesap grafiğine benzer şekilde analiz ederek hangi değişkenlerin olduğunu anlayabilirsiniz.
ilişkili ve bağımsızdır. Eşleştirilmiş hesap çizelgelerinin ortak keşfi ve
yükler ayrıca veriler hakkında birçok yararlı bilgi sağlayabilir.
12

13. Temel bileşenler yönteminin özellikleri

Temel bileşen analizi aşağıdaki varsayımlara dayanmaktadır:
veri boyutunun etkin bir şekilde küçültülebileceği varsayımı
lineer dönüşüm ile;
enformasyonun çoğunun bu yönler tarafından taşındığı varsayımı
giriş verilerinin varyansı maksimumdur.
Bu koşulların her zaman sağlanmadığı kolayca görülebilir. Örneğin,
Girdi kümesinin noktaları hiper kürenin yüzeyinde bulunuyorsa, o zaman hayır
doğrusal dönüşüm küçültülemez (ancak bununla kolayca başa çıkabilir
bir noktadan kürenin merkezine olan mesafeye dayalı doğrusal olmayan dönüşüm).
Bu dezavantaj, tüm doğrusal algoritmalar için eşit derecede yaygındır ve
ek kukla değişkenler kullanarak üstesinden gelin
girdi veri kümesinin öğelerinden doğrusal olmayan işlevler (çekirdek hilesi olarak adlandırılır).
Temel bileşen yönteminin ikinci dezavantajı, yönlerin
varyansı maksimize etmek her zaman bilgi içeriğini maksimize etmez.
Örneğin, maksimum varyansa sahip bir değişken neredeyse hiç taşımayabilir.
bilgi, minimum varyansa sahip değişken ise
sınıfları tamamen ayırın. Bu durumda ana bileşenlerin yöntemi
ilk (daha az bilgilendirici) değişken için tercih. Tüm ek
vektörle ilişkili bilgiler (örneğin, görüntünün aşağıdakilerden birine ait olup olmadığı)
sınıflar) dikkate alınmaz.
13

14. MGK için örnek veriler

K. Esbensen. Çok boyutlu verilerin analizi, kısalt. başına. İngilizceden altında
ed. O. Rodionova, İz-in IPKhF RAS, 2005
14

15. IGC için veri örneği. Tanımlamalar

Boy uzunluğu
Yükseklik: santimetre
Ağırlık
Ağırlık: kilogram olarak
Saç
Saç: kısa: -1 veya uzun:
+1
Ayakkabı
Ayakkabı: Avrupa boyutu
standart
Yaş
Yaş: yıl olarak
Gelir
Gelir: yılda bin Euro olarak
Bira
Bira: yılda litre cinsinden tüketim
Şarap
Şarap: yılda litre cinsinden tüketim
Seks
Cinsiyet: erkek: -1 veya kadın: +1
Kuvvet
Güç: dayalı bir endeks
fiziksel yetenek testi
Bölge
Bölge: Kuzey: -1 veya Güney: +1
IQ
IQ,
standart testle ölçüldü
15

16. Hesap matrisi

16

17. Yük matrisi

17

18. Yeni bileşenler alanında seçim nesneleri

Kadınlar (K) ● ve ● daireleriyle gösterilir ve
erkekler (M) - karelerle ■ ve ■. Kuzey (K)
mavi ■ ve güney (S) kırmızı ile gösterilir
renk ●.
Sembollerin boyutu ve rengi geliri yansıtır - nasıl
ne kadar büyük ve hafifse o kadar büyüktür. sayılar
yaşı temsil etmek
18

19. Yeni bileşenlerin uzayındaki ilk değişkenler

19

20. Scree arsa

20

21. Ana faktörlerin yöntemi

Ana faktörler yöntemi paradigmasında, özniteliğin boyutunu azaltma sorunu
boşluk gibi görünüyor n özellik daha küçük kullanılarak açıklanabilir
m-gizli özelliklerin sayısı - ortak faktörler, burada m<ilk özellikler ve tanıtılan genel faktörler (doğrusal kombinasyonlar)
sözde karakteristik faktörler kullanılarak dikkate alınır.
katılımıyla yürütülen istatistiksel araştırmaların nihai hedefi
faktör analizi aygıtı, kural olarak, tanımlama ve yorumlamadan oluşur.
nasıl en aza indirgemek için eşzamanlı bir arzu ile gizli ortak faktörler
özgül kalıntı rasgele bağlılığının sayısı ve derecesi
bileşen.
her işaret
sonuç
m varsayımsal ortak etkisi ve
bir karakteristik faktör:
X 1 a11 f1 a12 f 2 a1m f m d1V1
X a f a f a f d V
2
21 1
22 2
2m m
2
X n bir n1 f1 bir n 2 f 2 bir nm f m d nVn
21

22. Faktörlerin dönüşü

Döndürme, önceki adımda elde edilen faktörleri dönüştürmenin bir yoludur,
daha anlamlı olanlara. Rotasyon ikiye ayrılır:
grafik (çizim eksenleri, iki boyutludan fazla olduğunda geçerli değildir)
analiz),
analitik (belirli bir döndürme kriteri seçilir, ortogonal ve
eğik) ve
matris-yaklaşık (döndürme, belirli bir veriye yaklaşmaktan oluşur
hedef matrisi).
Döndürmenin sonucu, faktörlerin ikincil bir yapısıdır. Öncelik
faktör yapısı (birincil yüklerden oluşan (bir önceki
sahne) aslında noktaların dik koordinat eksenleri üzerindeki izdüşümleridir. bariz ki
projeksiyonlar sıfır ise, yapı daha basit olacaktır. Ve projeksiyonlar sıfır olacak,
nokta bir eksen üzerindeyse. Bu nedenle, rotasyon bir geçiş olarak kabul edilebilir.
bir sistemde bilinen koordinatlara sahip bir koordinat sisteminden diğerine (
birincil faktörler) ve başka bir sistemdeki yinelemeli olarak seçilen koordinatlar
(ikincil faktörler). İkincil bir yapı elde ederken, böyle gitme eğilimindedirler.
Noktalar (nesneler) boyunca mümkün olduğunca çok eksen çizmek için koordinat sistemi, böylece
birçok projeksiyon (ve dolayısıyla yük) sıfırdı. Ayrıca, yapabilirler
ortogonallik üzerindeki kısıtlamaları kaldırın ve ilkinden sonuncuya kadar önemi azaltın
birincil yapının karakteristik faktörleri.
22

23. Ortogonal döndürme

faktörleri döndüreceğimizi, ancak
birbirlerine dikliklerini ihlal edeceğiz. ortogonal döndürme
ortogonal ile birincil yüklerin orijinal matrisinin çarpılması anlamına gelir
matris R (bir matris
V = BR
Genel olarak, ortogonal döndürme algoritması aşağıdaki gibidir:
0. B - birincil faktörlerin matrisi.
1.
arıyor
dikey
matris
RT
boy
2*2
için
2
B matrisinin sütunları (faktörleri) bi ve bj, matris için kriter
R maksimumdur.
2.
bi ve bj sütunlarını sütunlarla değiştirin
3.
Tüm sütunların sıralanıp sıralanmadığını kontrol edin. Değilse, o zaman 1'e gidin.
4.
Tüm matris için kriterin büyüdüğünü kontrol ediyoruz. Evet ise, o zaman 1.'ye gidin.
hayır, o zaman algoritmanın sonu.
.
23

24. Varimax döndürme

Bu kriter resmileştirmeyi kullanır
değişken yüklerin karelerinin varyansı:
zorluklar
faktör a
karşısında
Daha sonra genel formdaki kriter şu şekilde yazılabilir:
Aynı zamanda, faktör yüklerinden kurtulmak için normalize edilebilir.
bireysel değişkenlerin etkisi.
24

25. Çeyrek maksimum dönüş

i-inci değişkenin faktöriyel karmaşıklığı q kavramını şu şekilde formüle edelim:
faktörlerin faktör yüklerinin karelerinin varyansı:
r faktör matrisinin sütun sayısı olduğunda, bij j-th'nin faktör yüküdür
i. değişken üzerindeki faktör, ortalama değerdir. Quartimax kriter denemeleri
elde etmek için tüm değişken setinin karmaşıklığını en üst düzeye çıkarmak
faktörlerin yorumlanması kolaylığı (sütunların açıklamasını kolaylaştırmaya çalışır):
Hesaba katıldığında
bir sabittir (matrisin öz değerlerinin toplamı
kovaryans) ve ortalama değerin açılması (ve ayrıca güç fonksiyonunun da dikkate alınması)
argümanla orantılı olarak büyür), için kriterin son şeklini elde ederiz.
maksimize etmek:
25

26. Faktör sayısını belirleme kriterleri

Faktör analizinin temel sorunu seçim ve yorumlamadır.
ana faktörler. Bileşenleri seçerken, araştırmacı genellikle
belirlemek için açık bir kriter olmadığı için önemli zorluklar
faktörler ve dolayısıyla sonuçların yorumlanmasının öznelliği burada kaçınılmazdır.
Faktörlerin sayısını belirlemek için yaygın olarak kullanılan birkaç kriter vardır.
Bazıları diğerlerine alternatif, bazıları ise
kriterler diğerini tamamlamak için birlikte kullanılabilir:
Kaiser testi veya özdeğer testi. Bu kriter önerildi
Kaiser ve muhtemelen en yaygın kullanılanıdır. Yalnızca seçili
özdeğerleri 1'e eşit veya daha büyük olan faktörler.
faktör, en az birinin varyansına eşdeğer bir varyansı ayırt etmez
değişken, atlanır.
Scree kriteri veya tarama kriteri. o
İlk olarak psikolog Cattell tarafından önerilen grafik yöntemi. Sahip olmak
değerler basit bir grafik olarak görüntülenebilir. Cattel böyle bulmayı teklif etti
özdeğerlerdeki azalmanın soldan sağa maksimum olduğu grafikte yer
yavaşlamak. Sadece olduğu varsayılır
"Faktöriyel talus" - "talus", jeolojik bir terimdir.
kayalık yamacın dibinde biriken moloz.
26

27. Faktör sayısını belirleme kriterleri. devam

Önem kriteri. Genel model kullanıldığında özellikle etkilidir.
agrega bilinir ve ikincil faktör yoktur. Ama kriter geçerli değil
modeldeki değişiklikleri aramak ve yalnızca yöntemi kullanarak faktör analizinde uygulanmaktadır.
en küçük kareler veya maksimum olabilirlik.
Tekrarlanabilir varyans oranı için kriter. Faktörler paya göre sıralanır
deterministik varyans, varyans yüzdesinin önemsiz olduğu ortaya çıktığında,
seçim durdurulmalıdır. Seçilen faktörlerin açıklama yapması arzu edilir.
yayılmanın %80'inden fazlası. Kriterin dezavantajları: ilk olarak, seçimin öznelliği ve ikincisi, verilerin özellikleri, tüm ana faktörlerin yapamayacağı şekilde olabilir.
İstenen varyans yüzdesini kümülatif olarak açıklayın. Bu nedenle, ana faktörler
birlikte varyansın en az %50,1'ini açıklamalıdır.
Yorumlanabilirlik ve değişmezlik için kriter. Bu kriter birleştirir
öznel çıkarlarla istatistiksel doğruluk. Ona göre, ana faktörler
açık bir şekilde yorumlanabildiği sürece ayırt edilebilirler. o, onun içinde
dönüş, faktör yüklerinin büyüklüğüne bağlıdır, yani faktör en az içeriyorsa
bir güçlü yük, yorumlanabilir. Bunun tersi de mümkündür -
güçlü yükler varsa, bununla birlikte, bundan yorumlama zordur,
bileşenler tercihen atılır.
27

28. MGK kullanımına bir örnek

İzin vermek
var
devamındaki
göstergeler
ekonomik
faaliyetler
işletmeler: emek yoğunluğu (x1), satın alınan ürünlerin üretimdeki payı (x2),
ekipman değiştirme oranı (x3), işletmedeki işçi oranı
(x4), ikramiye ve çalışan başına ücret (x5), karlılık (y). Doğrusal
regresyon modeli:
y = b0 + b1 * x1 + b2 * x2 + b3 * x3 + b4 * x4 + b5 * x5
x1
x2
x3
x4
x5
y
0,51
0,2
1,47
0,72
0,67
9,8
0,36
0,64
1,27
0,7
0,98
13,2
0,23
0,42
1,51
0,66
1,16
17,3
0,26
0,27
1,46
0,69
0,54
7,1
0,27
0,37
1,27
0,71
1,23
11,5
0,29
0,38
1,43
0,73
0,78
12,1
0,01
0,35
1,5
0,65
1,16
15,2
0,02
0,42
1,35
0,82
2,44
31,3
0,18
0,32
1,41
0,8
1,06
11,6
0,25
0,33
1,47
0,83
2,13
30,1
28

29. MGK kullanımına bir örnek

İstatistiksel bir pakette bir regresyon modeli oluşturmak şunları gösterir:
X4 katsayısı anlamlı değildir (p-Değeri> α = %5) ve modelden çıkarılabilir.
ne
X4 hariç tutulduktan sonra model oluşturma süreci yeniden başlar.
29

30. MGK kullanımına bir örnek

PCA için Kaiser kriteri, 2 bileşeni açıklayan bırakabileceğinizi gösterir.
orijinal varyansın yaklaşık %80'i.
Seçilen bileşenler için orijinal koordinat sisteminde denklemler oluşturabilirsiniz:
U1 = 0,41 * x1 - 0,57 * x2 + 0,49 * x3 - 0,52 * x5
U2 = 0,61 * x1 + 0,38 * x2 - 0,53 * x3 - 0,44 * x5
30

31. CIM kullanımına bir örnek

Artık yeni bileşenlerde yeni bir regresyon modeli oluşturabilirsiniz:
y = 15,92 - 3,74 * U1 - 3,87 * U2
31

32. Tekil değer ayrıştırması (SVD)

Beltrami ve Jordan, tekillik teorisinin kurucuları olarak kabul edilir.
ayrışma. Beltrami - hakkında bir çalışma yayınlayan ilk kişi olduğu için
tekil değer ve Ürdün - zarafeti ve bütünlüğü için
İş. Beltrami'nin çalışması, Journal of Mathematics dergisinde yayınlandı.
İtalyan Üniversitelerinin Öğrencilerinin Kullanımı ” 1873'te ana
amacı öğrencileri tanıştırmaktı.
çift ​​doğrusal formlar Yöntemin özü, n boyutunda bir A matrisinin ayrıştırılmasında yatmaktadır.
sıra d = sıra (M) ile x m<= min(n,m) в произведение матриц меньшего
rütbe:
A = UDVT,
burada n x d boyutundaki U matrisleri ve m x d boyutundaki V matrisleri şunlardan oluşur:
için özvektörler olan ortonormal sütunların
sırasıyla AAT ve ATA matrislerinin sıfır olmayan öz değerleri ve
UTU = V TV = I ve d x d boyutundaki D,
pozitif diyagonal elemanlar
azalan sipariş. U matrisinin sütunları,
A matrisinin sütun uzayının bir ortonormal tabanıdır ve sütunlar
V matrisi, A matrisinin satır uzayının bir ortonormal tabanıdır.
32

33. Tekil değer ayrıştırması (SVD)

SVD ayrıştırmasının önemli bir özelliği, eğer
çatal sadece k en büyük köşegen elemandan ve ayrıca
U ve V matrislerinde yalnızca ilk k sütunu, ardından matrisi bırakın
Ak = UkDkVkT
açısından A matrisinin en iyi yaklaşımı olacaktır.
K dereceli tüm matrisler arasında Frobenius normları.
Bu kesme öncelikle vektörün boyutunu küçültür.
alan, depolama ve bilgi işlem gereksinimlerini azaltır
modeli gereksinimleri.
İkincisi, küçük tekil sayıların atılması, küçük
verilerdeki gürültüden kaynaklanan bozulmalar ortadan kaldırılarak
sadece bu modeldeki en güçlü etkiler ve eğilimler.