मायक्रोसॉफ्ट एक्सेलमध्ये क्लस्टर विश्लेषणाचा वापर. क्लस्टर विश्लेषण हा एकसंध गटांमध्ये वस्तूंच्या संचाचे विभाजन करून केलेला अभ्यास आहे क्लस्टर विश्लेषण आकडेवारी

सामाजिक-आर्थिक अंदाजाच्या समस्यांचे क्लस्टर विश्लेषण

क्लस्टर विश्लेषणाचा परिचय.

सामाजिक-आर्थिक घटनांचे विश्लेषण आणि अंदाज लावताना, संशोधकाला अनेकदा त्यांच्या वर्णनाच्या बहुआयामीपणाचा सामना करावा लागतो. बाजार विभाजनाच्या समस्येचे निराकरण करताना, मोठ्या संख्येने निर्देशकांनुसार देशांचे टायपोलॉजी तयार करताना, वैयक्तिक वस्तूंसाठी बाजाराच्या परिस्थितीचा अंदाज लावताना, आर्थिक मंदीचा अभ्यास आणि अंदाज लावताना आणि इतर अनेक समस्यांचे निराकरण करताना हे घडते.

बहुविध विश्लेषण पद्धती मोठ्या संख्येने वैशिष्ट्यांद्वारे वर्णन केलेल्या सामाजिक-आर्थिक प्रक्रियांचा अभ्यास करण्यासाठी सर्वात प्रभावी परिमाणवाचक साधन आहेत. यामध्ये क्लस्टर विश्लेषण, वर्गीकरण, नमुना ओळख आणि घटक विश्लेषण यांचा समावेश आहे.

क्लस्टर विश्लेषण वर्गीकरण, घटक विश्लेषण - संप्रेषणाच्या अभ्यासात मल्टीव्हेरिएट विश्लेषणाची वैशिष्ट्ये सर्वात स्पष्टपणे प्रतिबिंबित करते.

काहीवेळा क्लस्टर विश्लेषणाचा दृष्टिकोन साहित्यात संख्यात्मक वर्गीकरण, संख्यात्मक वर्गीकरण, स्वयं-शिक्षण ओळख इ.

क्लस्टर विश्लेषणास समाजशास्त्रात त्याचा पहिला अनुप्रयोग आढळला. क्लस्टर विश्लेषण हे नाव क्लस्टर या इंग्रजी शब्दावरून आले आहे - गुच्छ, संचय. 1939 मध्ये प्रथमच क्लस्टर विश्लेषणाचा विषय परिभाषित केला गेला आणि त्याचे वर्णन ट्रायॉन या संशोधकाने केले. क्लस्टर विश्लेषणाचा मुख्य उद्देश अभ्यासाखालील वस्तू आणि वैशिष्ट्यांचा समूह किंवा क्लस्टरमध्ये विभागणे हा आहे जे योग्य अर्थाने एकसमान आहेत. याचा अर्थ डेटाचे वर्गीकरण आणि त्यातील संबंधित रचना ओळखण्याची समस्या सोडवली जात आहे. क्लस्टर विश्लेषण पद्धती विविध प्रकरणांमध्ये लागू केल्या जाऊ शकतात, अगदी साध्या गटबद्धतेच्या बाबतीतही, ज्यामध्ये प्रत्येक गोष्ट मात्रात्मक समानतेनुसार गटांच्या निर्मितीपर्यंत येते.

क्लस्टर विश्लेषणाचा मोठा फायदा असा आहे की ते आपल्याला एका पॅरामीटरने नव्हे तर वैशिष्ट्यांच्या संपूर्ण संचाद्वारे ऑब्जेक्ट्सचे विभाजन करण्यास अनुमती देते. याव्यतिरिक्त, क्लस्टर विश्लेषण, बहुतेक गणितीय आणि सांख्यिकीय पद्धतींच्या विपरीत, विचाराधीन वस्तूंच्या प्रकारावर कोणतेही निर्बंध लादत नाही आणि आम्हाला जवळजवळ अनियंत्रित स्वरूपाच्या प्रारंभिक डेटाच्या संचाचा विचार करण्यास अनुमती देते. हे खूप महत्वाचे आहे, उदाहरणार्थ, बाजाराच्या अंदाजासाठी, जेव्हा निर्देशकांचे विविध प्रकार असतात ज्यामुळे पारंपारिक अर्थमितीय दृष्टिकोन वापरणे कठीण होते.

क्लस्टर विश्लेषणामुळे मोठ्या प्रमाणात माहितीचा विचार करणे आणि सामाजिक-आर्थिक माहितीच्या मोठ्या अॅरेला कमी करणे, संक्षिप्त आणि दृश्यमान बनवणे शक्य होते.

आर्थिक विकास (उदाहरणार्थ, सामान्य आर्थिक आणि कमोडिटी परिस्थिती) दर्शविणार्‍या वेळेच्या मालिकेच्या संचाच्या संबंधात क्लस्टर विश्लेषणास खूप महत्त्व आहे. येथे जेव्हा संबंधित निर्देशकांची मूल्ये अगदी जवळ होती तेव्हा पूर्णविराम एकल करणे शक्य आहे, तसेच वेळ मालिकेचे गट निश्चित करणे शक्य आहे, ज्याची गतिशीलता सर्वात समान आहे.

क्लस्टर विश्लेषण चक्रीय पद्धतीने वापरले जाऊ शकते. या प्रकरणात, इच्छित परिणाम प्राप्त होईपर्यंत अभ्यास केला जातो. त्याच वेळी, येथे प्रत्येक चक्र अशी माहिती प्रदान करू शकते जी क्लस्टर विश्लेषणाच्या पुढील अनुप्रयोगाची दिशा आणि दृष्टिकोन मोठ्या प्रमाणात बदलू शकते. ही प्रक्रिया अभिप्राय प्रणाली म्हणून दर्शविली जाऊ शकते.

सामाजिक-आर्थिक अंदाजाच्या समस्यांमध्ये, इतर परिमाणात्मक पद्धतींसह (उदाहरणार्थ, प्रतिगमन विश्लेषणासह) क्लस्टर विश्लेषण एकत्र करणे खूप आशादायक आहे.

इतर कोणत्याही पद्धतीप्रमाणे, क्लस्टर विश्लेषणामध्ये काही तोटे आणि मर्यादा आहेत: विशेषतः, क्लस्टरची रचना आणि संख्या निवडलेल्या विभाजन निकषांवर अवलंबून असते. मूळ डेटा अॅरे अधिक कॉम्पॅक्ट फॉर्ममध्ये कमी करताना, काही विकृती उद्भवू शकतात आणि क्लस्टर पॅरामीटर्सच्या सामान्यीकृत मूल्यांच्या वैशिष्ट्यांद्वारे त्यांच्या बदलीमुळे वैयक्तिक ऑब्जेक्ट्सची वैयक्तिक वैशिष्ट्ये देखील गमावली जाऊ शकतात. ऑब्जेक्ट्सचे वर्गीकरण करताना, बहुतेकदा विचारात घेतलेल्या सेटमध्ये कोणत्याही क्लस्टर मूल्यांच्या अनुपस्थितीची शक्यता दुर्लक्षित केली जाते.

क्लस्टर विश्लेषणामध्ये, असे मानले जाते की:

अ) निवडलेली वैशिष्ट्ये तत्त्वतः, इच्छित क्लस्टरिंगला परवानगी देतात;

b) मोजमापाची एकके (स्केल) योग्यरित्या निवडली आहेत.

स्केलची निवड मोठी भूमिका बजावते. सामान्यतः, सरासरी वजा करून आणि प्रमाणित विचलनाने भागाकार करून डेटा सामान्य केला जातो जेणेकरून भिन्नता एक असेल.

क्लस्टर विश्लेषणाची समस्या.

क्लस्टर विश्लेषणाचे कार्य म्हणजे G च्या संचाला m (m एक पूर्णांक आहे) क्लस्टर्स (उपसंच) Q1, Q2, ..., Qm, X मध्ये समाविष्ट असलेल्या डेटाच्या आधारे विभाजित करणे, जेणेकरून प्रत्येक ऑब्जेक्ट Gj एक आणि फक्त एकाच विभाजन उपसमूहाचे आहे आणि एकाच क्लस्टरशी संबंधित वस्तू समान आहेत, तर वेगवेगळ्या क्लस्टरच्या वस्तू विषम आहेत.

उदाहरणार्थ, G मध्‍ये n देशांचा समावेश करूया, ज्यातील प्रत्येक GNP दरडोई (F1), कारची संख्या M प्रति 1,000 लोक (F2), दरडोई वीज वापर (F3), दरडोई स्टीलचा वापर (F4), इ. नंतर X1 (मापन वेक्टर) पहिल्या देशासाठी निर्दिष्ट वैशिष्ट्यांचा संच आहे, दुसऱ्यासाठी X2, तिसऱ्यासाठी X3, आणि असेच. देशांना विकासाच्या पातळीवर तोडण्याचे आव्हान आहे.

क्लस्टर विश्लेषणाच्या समस्येचे निराकरण हे विभाजने आहेत जे विशिष्ट इष्टतमतेचे निकष पूर्ण करतात. हा निकष काही कार्यात्मक असू शकतो जो विविध विभाजने आणि गटांच्या इष्टतेचे स्तर व्यक्त करतो, ज्याला वस्तुनिष्ठ कार्य म्हणतात. उदाहरणार्थ, वर्ग विचलनाची इंट्राग्रुप बेरीज वस्तुनिष्ठ कार्य म्हणून घेतली जाऊ शकते:

जेथे xj - j-th ऑब्जेक्टचे मोजमाप दर्शवते.

क्लस्टर विश्लेषणाच्या समस्येचे निराकरण करण्यासाठी, समानता आणि विषमता या संकल्पनेची व्याख्या करणे आवश्यक आहे.

हे स्पष्ट आहे की i-th आणि j-th वस्तू एकाच क्लस्टरमध्ये येतील जेव्हा Xi आणि Xj बिंदूंमधील अंतर (अंतर) पुरेसे कमी असेल आणि जेव्हा हे अंतर पुरेसे मोठे असेल तेव्हा वेगवेगळ्या क्लस्टरमध्ये पडतील. अशा प्रकारे, ऑब्जेक्ट्सच्या एक किंवा वेगवेगळ्या क्लस्टरला मारणे Ep पासून Xi आणि Xj मधील अंतराच्या संकल्पनेद्वारे निर्धारित केले जाते, जेथे Ep एक p-आयामी युक्लिडियन जागा आहे. नॉन-निगेटिव्ह फंक्शन d(Xi, Xj) ला डिस्टन्स फंक्शन (मेट्रिक) म्हणतात जर:

अ) d(Xi, Xj) ³ 0, सर्व Xi आणि Xj साठी Ep

b) d(Xi, Xj) = 0 जर आणि फक्त Xi = Xj असेल तर

c) d(Xi, Xj) = d(Xj, Xi)

d) d(Xi, Xj) £ d(Xi, Xk) + d(Xk, Xj), जिथे Xj; Xi आणि Xk हे Ep मधील कोणतेही तीन वेक्टर आहेत.

Xi आणि Xj साठी d(Xi, Xj) मूल्याला Xi आणि Xj मधील अंतर म्हणतात आणि निवडलेल्या वैशिष्ट्यांनुसार (F1, F2, F3, ..., Fр) Gi आणि Gj मधील अंतराच्या समतुल्य आहे.

सर्वात सामान्यतः वापरलेली अंतर कार्ये आहेत:

1. युक्लिडियन अंतर d2(Хi, Хj) =

2. l1 - सर्वसामान्य प्रमाण d1(Хi , Хj) =

3. सर्वोच्च - सर्वसामान्य प्रमाण d¥ (Хi , Хj) = sup

k = 1, 2, ..., p

4. lp - सर्वसामान्य प्रमाण dр(Хi , Хj) =

युक्लिडियन मेट्रिक सर्वात लोकप्रिय आहे. l1 मेट्रिक गणना करणे सर्वात सोपा आहे. सर्वोच्च-मानक गणना करणे सोपे आहे आणि त्यात ऑर्डरिंग प्रक्रिया समाविष्ट आहे, तर lp-नॉर्म अंतर फंक्शन्स 1, 2, 3, समाविष्ट करते.

n मोजमाप X1, X2,..., Xn ला p ´n डेटा मॅट्रिक्स म्हणून दर्शवू द्या:

नंतर d(Хi , Хj) वेक्टरच्या जोड्यांमधील अंतर सममितीय अंतर मॅट्रिक्स म्हणून दर्शविले जाऊ शकते:

अंतराच्या विरुद्ध असलेली संकल्पना ही Gi वस्तूंमधील समानतेची संकल्पना आहे. आणि Gj. नॉन-नकारात्मक रिअल फंक्शन S(Хi ; Хj) = Sij ला समानता माप म्हणतात जर: सिज मूल्याला समानता गुणांक म्हणतात.

१.३. क्लस्टर विश्लेषणाच्या पद्धती.

आज क्लस्टर विश्लेषणाच्या अनेक पद्धती आहेत. चला त्यापैकी काहींवर राहू या (खाली दिलेल्या पद्धतींना सामान्यतः किमान भिन्नतेच्या पद्धती म्हणतात).

X हे निरीक्षण मॅट्रिक्स असू द्या: X = (X1, X2,..., Xu) आणि Xi आणि Xj मधील युक्लिडियन अंतराचा वर्ग सूत्रानुसार निर्धारित केला जातो:

1) पूर्ण जोडणीची पद्धत.

या पद्धतीचा सार असा आहे की एकाच गटातील (क्लस्टर) दोन वस्तूंमध्ये समानता गुणांक आहे जो काही थ्रेशोल्ड मूल्य S पेक्षा कमी आहे. युक्लिडियन अंतर d च्या संदर्भात, याचा अर्थ असा की दोन बिंदूंमधील अंतर (वस्तू) क्लस्टर काही थ्रेशोल्ड मूल्य h पेक्षा जास्त नसावे. अशा प्रकारे, क्लस्टर बनवणाऱ्या उपसंचाचा h हा जास्तीत जास्त स्वीकार्य व्यास ठरवतो.

2) कमाल लोकल अंतराची पद्धत.

प्रत्येक ऑब्जेक्ट एक-बिंदू क्लस्टर मानला जातो. खालील नियमानुसार ऑब्जेक्ट्सचे गट केले जातात: एका क्लस्टरच्या बिंदू आणि दुसर्‍याच्या बिंदूंमधील कमाल अंतर कमीतकमी असल्यास दोन क्लस्टर एकत्र केले जातात. प्रक्रियेमध्ये n - 1 चरणांचा समावेश आहे आणि विभाजनांमध्ये परिणाम होतो जे कोणत्याही थ्रेशोल्ड मूल्यांसाठी मागील पद्धतीमधील सर्व संभाव्य विभाजनांशी जुळतात.

3) शब्द पद्धत.

या पद्धतीमध्ये, चौरस विचलनांची इंट्राग्रुप बेरीज वस्तुनिष्ठ कार्य म्हणून वापरली जाते, जी प्रत्येक बिंदू (ऑब्जेक्ट) आणि या ऑब्जेक्ट असलेल्या क्लस्टरच्या सरासरीमधील वर्ग अंतरांच्या बेरीजपेक्षा अधिक काही नसते. प्रत्येक पायरीवर, दोन क्लस्टर्स एकत्रित केले जातात ज्यामुळे उद्दीष्ट कार्यामध्ये किमान वाढ होते, म्हणजे. वर्गांची इंट्राग्रुप बेरीज. या पद्धतीचा उद्देश जवळच्या अंतरावरील क्लस्टर्स एकत्र करणे आहे.

रँडम फॉरेस्ट हे माझ्या आवडत्या डेटा मायनिंग अल्गोरिदमपैकी एक आहे. प्रथम, हे आश्चर्यकारकपणे अष्टपैलू आहे, ते प्रतिगमन आणि वर्गीकरण समस्या सोडवण्यासाठी वापरले जाऊ शकते. विसंगती शोधा आणि भविष्यसूचक निवडा. दुसरे म्हणजे, हा एक अल्गोरिदम आहे जो चुकीच्या पद्धतीने लागू करणे खरोखर कठीण आहे. फक्त कारण, इतर अल्गोरिदमच्या विपरीत, त्यात काही सानुकूल करण्यायोग्य पॅरामीटर्स आहेत. आणि तरीही ते त्याच्या सारात आश्चर्यकारकपणे सोपे आहे. त्याच वेळी, ते उल्लेखनीयपणे अचूक आहे.

अशा अद्भुत अल्गोरिदमची कल्पना काय आहे? कल्पना सोपी आहे: समजा आपल्याकडे काही खूप कमकुवत अल्गोरिदम आहे, म्हणा. जर आपण या कमकुवत अल्गोरिदमचा वापर करून बरीच भिन्न मॉडेल्स बनवली आणि त्यांच्या अंदाजांच्या निकालाची सरासरी काढली, तर अंतिम परिणाम अधिक चांगला होईल. हे कृतीत तथाकथित ensemble शिक्षण आहे. यादृच्छिक वन अल्गोरिदमला म्हणून "रँडम फॉरेस्ट" असे म्हणतात, प्राप्त झालेल्या डेटासाठी ते अनेक निर्णय वृक्ष तयार करते आणि नंतर त्यांच्या अंदाजांचे परिणाम सरासरी करते. प्रत्येक झाडाच्या निर्मितीमध्ये यादृच्छिकतेचा घटक येथे एक महत्त्वाचा मुद्दा आहे. शेवटी, हे स्पष्ट आहे की जर आपण अनेक समान झाडे तयार केली तर त्यांच्या सरासरीच्या परिणामी एका झाडाची अचूकता असेल.

तो कसा काम करतो? समजा आपल्याकडे काही इनपुट डेटा आहे. प्रत्येक स्तंभ काही पॅरामीटरशी संबंधित आहे, प्रत्येक पंक्ती काही डेटा घटकाशी संबंधित आहे.

यादृच्छिकपणे, आम्ही संपूर्ण डेटासेटमधून अनेक स्तंभ आणि पंक्ती निवडू शकतो आणि त्यामधून निर्णय वृक्ष तयार करू शकतो.


गुरुवार, 10 मे 2012

गुरुवार, 12 जानेवारी 2012


प्रत्यक्षात एवढेच आहे. 17 तासांची फ्लाइट संपली आहे, रशिया परदेशात राहिला आहे. आणि आरामदायक 2-बेडरूमच्या अपार्टमेंटच्या खिडकीतून, सॅन फ्रान्सिस्को, प्रसिद्ध सिलिकॉन व्हॅली, कॅलिफोर्निया, यूएसए आमच्याकडे पाहत आहे. होय, मी अलीकडे फारसे लिहीत नाही याचे हेच कारण आहे. आम्ही हललो.

हे सर्व एप्रिल 2011 मध्ये परत सुरू झाले जेव्हा मी Zynga सह फोनवर मुलाखत घेतली. मग हे सर्व काही असा खेळ असल्यासारखे वाटले ज्याचा वास्तविकतेशी काहीही संबंध नाही आणि मी कल्पनाही करू शकत नाही की त्यातून काय होईल. जून 2011 मध्ये, झिंगा मॉस्कोला आली आणि मुलाखतींची मालिका आयोजित केली, टेलिफोन मुलाखतीत उत्तीर्ण झालेल्या सुमारे 60 उमेदवारांचा विचार केला गेला आणि त्यांच्यामधून सुमारे 15 लोक निवडले गेले (मला अचूक संख्या माहित नाही, नंतर कोणीतरी त्यांचे मत बदलले, कोणीतरी लगेच नकार दिला). मुलाखत आश्चर्यकारकपणे साधी निघाली. तुमच्यासाठी कोणतीही प्रोग्रामिंग कार्ये नाहीत, हॅचच्या आकाराबद्दल कोणतेही जटिल प्रश्न नाहीत, मुख्यतः चॅट करण्याची क्षमता तपासली गेली. आणि ज्ञानाचे, माझ्या मते, केवळ वरवरचे मूल्यांकन केले गेले.

आणि मग रीघमारी सुरू झाली. आधी आम्ही निकालाची वाट पाहिली, मग ऑफर, मग एलसीएची मंजुरी, मग व्हिसासाठीच्या याचिकेला मंजुरी, मग यूएसएकडून कागदपत्रे, मग दूतावासातील लाइन, मग अतिरिक्त चेक, मग व्हिसा. काही वेळा मला असं वाटत होतं की मी सर्वकाही टाकून स्कोअर करायला तयार आहे. कधीकधी मला शंका आली की आपल्याला या अमेरिकेची गरज आहे का, कारण रशिया देखील वाईट नाही. या संपूर्ण प्रक्रियेला सुमारे अर्धा वर्ष लागले, शेवटी, डिसेंबरच्या मध्यात, आम्हाला व्हिसा मिळाला आणि निघण्याची तयारी सुरू केली.

सोमवार हा नवीन नोकरीचा माझा पहिला दिवस होता. कार्यालयात केवळ कामच नाही तर राहण्यासाठीही सर्व अटी आहेत. आमच्या स्वतःच्या शेफकडून नाश्ता, दुपारचे जेवण आणि रात्रीचे जेवण, सर्व कोपऱ्यात भरलेले विविध खाद्यपदार्थ, जिम, मसाज आणि अगदी केशभूषा. हे सर्व कर्मचाऱ्यांसाठी पूर्णपणे मोफत आहे. अनेकजण दुचाकीवरून कामावर जातात आणि अनेक खोल्या वाहने ठेवण्यासाठी सुसज्ज आहेत. सर्वसाधारणपणे, मी रशियामध्ये असे काहीही पाहिले नाही. तथापि, प्रत्येक गोष्टीची किंमत असते, आम्हाला ताबडतोब चेतावणी देण्यात आली की आम्हाला खूप काम करावे लागेल. त्यांच्या मानकांनुसार "बरेच" म्हणजे काय, ते मला फारसे स्पष्ट नाही.

तथापि, मला आशा आहे की कामाचे प्रमाण असूनही, नजीकच्या भविष्यात मी ब्लॉगिंग पुन्हा सुरू करू शकेन आणि कदाचित अमेरिकन जीवनाबद्दल आणि अमेरिकेत प्रोग्रामर म्हणून काम करण्याबद्दल काही सांगू शकेन. थांबा आणि पहा. यादरम्यान, मी तुम्हा सर्वांना मेरी ख्रिसमस आणि नवीन वर्षाच्या शुभेच्छा देतो आणि लवकरच भेटू!


वापराच्या उदाहरणासाठी, रशियन कंपन्यांचे लाभांश उत्पन्न मुद्रित करूया. आधारभूत किंमत म्हणून, आम्ही ज्या दिवशी नोंदणी बंद केली जाते त्या दिवशी शेअरची बंद होणारी किंमत घेतो. काही कारणास्तव, ही माहिती ट्रॉयका वेबसाइटवर उपलब्ध नाही आणि ती लाभांशांच्या परिपूर्ण मूल्यांपेक्षा अधिक मनोरंजक आहे.
लक्ष द्या! कोड कार्यान्वित होण्यासाठी बराच वेळ लागतो, कारण प्रत्येक स्टॉकसाठी, तुम्हाला फायनाम सर्व्हरला विनंती करणे आणि त्याचे मूल्य मिळवणे आवश्यक आहे.

परिणाम<- NULL for(i in (1:length(divs[,1]))){ d <- divs if (d$Divs>0)( प्रयत्न करा(( अवतरण<- getSymbols(d$Symbol, src="Finam", from="2010-01-01", auto.assign=FALSE) if (!is.nan(quotes)){ price <- Cl(quotes) if (length(price)>0)(dd<- d$Divs result <- rbind(result, data.frame(d$Symbol, d$Name, d$RegistryDate, as.numeric(dd)/as.numeric(price), stringsAsFactors=FALSE)) } } }, silent=TRUE) } } colnames(result) <- c("Symbol", "Name", "RegistryDate", "Divs") result


त्याचप्रमाणे, आपण मागील वर्षांची आकडेवारी तयार करू शकता.

क्लस्टर विश्लेषण

बर्‍याच संशोधकांचा असा विश्वास आहे की प्रथमच "क्लस्टर विश्लेषण" (इंज. क्लस्टर- गुच्छ, गठ्ठा, गुच्छ) हे गणितज्ञ आर. ट्रायॉन यांनी प्रस्तावित केले होते. त्यानंतर, अनेक संज्ञा निर्माण झाल्या ज्यांना आता "क्लस्टर विश्लेषण" या शब्दाचे समानार्थी मानले जाते: स्वयंचलित वर्गीकरण; वनस्पतीशास्त्र.

क्लस्टर विश्लेषण ही एक बहुविविध सांख्यिकीय प्रक्रिया आहे जी वस्तूंच्या नमुन्याबद्दल माहिती असलेला डेटा संकलित करते आणि नंतर वस्तूंना तुलनेने एकसंध गटांमध्ये (क्लस्टर) व्यवस्था करते (क्यू-क्लस्टरिंग, किंवा क्यू-तंत्र, योग्य क्लस्टर विश्लेषण). क्लस्टर - सामान्य मालमत्तेद्वारे वैशिष्ट्यीकृत घटकांचा एक समूह, क्लस्टर विश्लेषणाचे मुख्य लक्ष्य नमुन्यातील समान वस्तूंचे गट शोधणे आहे. क्लस्टर विश्लेषणाच्या अनुप्रयोगांची श्रेणी खूप विस्तृत आहे: ती पुरातत्व, औषध, मानसशास्त्र, रसायनशास्त्र, जीवशास्त्र, सार्वजनिक प्रशासन, भाषाशास्त्र, मानववंशशास्त्र, विपणन, समाजशास्त्र आणि इतर विषयांमध्ये वापरली जाते. तथापि, अनुप्रयोगाच्या सार्वत्रिकतेमुळे मोठ्या संख्येने विसंगत अटी, पद्धती आणि दृष्टीकोनांचा उदय झाला आहे ज्यामुळे क्लस्टर विश्लेषणाचा निःसंदिग्धपणे वापर करणे आणि त्याचा सातत्यपूर्ण अर्थ लावणे कठीण होते. ऑर्लोव्ह ए.आय. खालीलप्रमाणे फरक सुचवतात:

कार्ये आणि अटी

क्लस्टर विश्लेषण खालील कार्य करते मुख्य उद्दिष्टे:

  • टायपोलॉजी किंवा वर्गीकरणाचा विकास.
  • ऑब्जेक्ट्सचे समूहीकरण करण्यासाठी उपयुक्त संकल्पनात्मक योजनांचा शोध घेणे.
  • डेटा एक्सप्लोरेशनवर आधारित गृहितकांची निर्मिती.
  • उपलब्ध डेटामध्ये एक किंवा दुसर्‍या प्रकारे ओळखले जाणारे प्रकार (समूह) प्रत्यक्षात उपस्थित आहेत की नाही हे निर्धारित करण्यासाठी हायपोथिसिस चाचणी किंवा संशोधन.

अभ्यासाचा विषय काहीही असो, क्लस्टर विश्लेषणाचा वापर समाविष्ट असतो पुढील पायऱ्या:

  • क्लस्टरिंगसाठी सॅम्पलिंग. हे समजले जाते की केवळ परिमाणात्मक डेटा क्लस्टर करण्यात अर्थ आहे.
  • व्हेरिएबल्सच्या संचाची व्याख्या ज्याद्वारे नमुन्यातील ऑब्जेक्ट्सचे मूल्यमापन केले जाईल, म्हणजेच वैशिष्ट्य स्पेस.
  • ऑब्जेक्ट्समधील समानतेच्या (किंवा फरक) एक किंवा दुसर्या मापाच्या मूल्यांची गणना.
  • समान वस्तूंचे गट तयार करण्यासाठी क्लस्टर विश्लेषण पद्धतीचा वापर.
  • क्लस्टर सोल्यूशनच्या परिणामांचे प्रमाणीकरण.

क्लस्टर विश्लेषण खालील सादर करते डेटा आवश्यकता:

  1. निर्देशक एकमेकांशी सहसंबंधित नसावेत;
  2. निर्देशकांनी मोजमापांच्या सिद्धांताचा विरोध करू नये;
  3. निर्देशकांचे वितरण सामान्यच्या जवळ असावे;
  4. निर्देशकांनी "स्थिरता" ची आवश्यकता पूर्ण करणे आवश्यक आहे, याचा अर्थ यादृच्छिक घटकांद्वारे त्यांच्या मूल्यांवर प्रभाव नसणे;
  5. नमुना एकसंध असावा, त्यात "आउटलियर्स" नसावेत.

आपण डेटासाठी दोन मूलभूत आवश्यकतांचे वर्णन शोधू शकता - एकसमानता आणि पूर्णता:

एकजिनसीपणासाठी सारणीमध्ये दर्शविलेल्या सर्व घटक समान स्वरूपाचे असणे आवश्यक आहे. पूर्णतेची आवश्यकता म्हणजे संच आयआणि जेविचाराधीन घटनेच्या अभिव्यक्तींचे संपूर्ण वर्णन सादर केले. जर आपण एका तक्त्याचा विचार केला ज्यामध्ये आयएक संग्रह आहे, आणि जे- या लोकसंख्येचे वर्णन करणारा व्हेरिएबल्सचा संच, नंतर तो अभ्यास केलेल्या लोकसंख्येचा एक प्रातिनिधिक नमुना असावा आणि वैशिष्ट्यांची प्रणाली जेव्यक्तींचे समाधानकारक वेक्टर प्रतिनिधित्व दिले पाहिजे iसंशोधकाच्या दृष्टिकोनातून.

जर घटक विश्लेषणापूर्वी क्लस्टर विश्लेषण केले असेल, तर नमुना "दुरुस्ती" करण्याची आवश्यकता नाही - नमूद केलेल्या आवश्यकता घटक मॉडेलिंग प्रक्रियेद्वारे स्वयंचलितपणे पूर्ण केल्या जातात (आणखी एक फायदा आहे - नमुन्यासाठी नकारात्मक परिणामांशिवाय z-मानकीकरण; जर ते थेट क्लस्टर विश्लेषणासाठी केले गेले तर यामुळे गटांच्या विभक्ततेची स्पष्टता कमी होऊ शकते). अन्यथा, नमुना समायोजित करणे आवश्यक आहे.

क्लस्टरिंग समस्यांचे टायपोलॉजी

इनपुट प्रकार

आधुनिक विज्ञानामध्ये, इनपुट डेटावर प्रक्रिया करण्यासाठी अनेक अल्गोरिदम वापरले जातात. वैशिष्ट्यांवर आधारित वस्तूंची तुलना करून विश्लेषण (जैविक विज्ञानामध्ये सर्वात सामान्य) असे म्हणतात प्र- विश्लेषणाचा प्रकार, आणि वैशिष्ट्यांच्या तुलनाच्या बाबतीत, वस्तूंच्या आधारावर - आर- विश्लेषणाचा प्रकार. संकरित प्रकारचे विश्लेषण वापरण्याचे प्रयत्न आहेत (उदाहरणार्थ, RQविश्लेषण), परंतु ही पद्धत अद्याप योग्यरित्या विकसित केलेली नाही.

क्लस्टरिंगची उद्दिष्टे

  • क्लस्टर संरचना ओळखून डेटा समजून घेणे. नमुना समान वस्तूंच्या गटांमध्ये विभाजित केल्याने प्रत्येक क्लस्टरवर स्वतःची विश्लेषण पद्धत लागू करून पुढील डेटा प्रक्रिया आणि निर्णय घेणे सोपे करणे शक्य होते (“विभाजित करा आणि जिंका” धोरण).
  • डेटा कॉम्प्रेशन. जर प्रारंभिक नमुना खूप मोठा असेल तर प्रत्येक क्लस्टरमधील सर्वात सामान्य प्रतिनिधींपैकी एक सोडून तो कमी केला जाऊ शकतो.
  • नवीनता शोध. नवीनता शोध). अॅटिपिकल ऑब्जेक्ट्स निवडल्या जातात ज्या कोणत्याही क्लस्टरला जोडल्या जाऊ शकत नाहीत.

पहिल्या प्रकरणात, ते क्लस्टर्सची संख्या लहान करण्याचा प्रयत्न करतात. दुस-या बाबतीत, प्रत्येक क्लस्टरमधील वस्तूंची उच्च प्रमाणात समानता सुनिश्चित करणे अधिक महत्त्वाचे आहे आणि तेथे कितीही क्लस्टर असू शकतात. तिसऱ्या प्रकरणात, कोणत्याही क्लस्टरमध्ये बसत नसलेल्या वैयक्तिक वस्तू सर्वात जास्त स्वारस्यपूर्ण आहेत.

या सर्व प्रकरणांमध्ये, श्रेणीबद्ध क्लस्टरिंग लागू केले जाऊ शकते, जेव्हा मोठ्या क्लस्टर्सचे लहान भागांमध्ये विभाजन केले जाते, जे त्या बदल्यात आणखी लहान विभागले जातात, इत्यादी. अशा कार्यांना वर्गीकरण कार्य म्हणतात. वर्गीकरणाचा परिणाम म्हणजे झाडासारखी श्रेणीबद्ध रचना. याशिवाय, प्रत्येक ऑब्जेक्टला ते संबंधित असलेल्या सर्व क्लस्टरच्या गणनेद्वारे वैशिष्ट्यीकृत केले जाते, सामान्यतः मोठ्या ते लहान.

क्लस्टरिंग पद्धती

क्लस्टरिंग पद्धतींचे कोणतेही सामान्यतः स्वीकारलेले वर्गीकरण नाही, परंतु व्ही.एस. बेरिकोव्ह आणि जी.एस. लबोव्ह यांनी केलेला ठोस प्रयत्न लक्षात घेतला जाऊ शकतो. जर आपण क्लस्टरिंग पद्धतींच्या विविध वर्गीकरणांचे सामान्यीकरण केले, तर आपण अनेक गटांमध्ये फरक करू शकतो (काही पद्धती एकाच वेळी अनेक गटांना श्रेय दिल्या जाऊ शकतात, आणि म्हणूनच क्लस्टरिंग पद्धतींच्या वास्तविक वर्गीकरणाच्या काही अंदाजानुसार या टाइपिफिकेशनचा विचार करण्याचा प्रस्ताव आहे):

  1. संभाव्य दृष्टीकोन. असे गृहीत धरले जाते की विचाराधीन प्रत्येक वस्तू k वर्गांपैकी एक आहे. काही लेखक (उदाहरणार्थ, A. I. Orlov) असा विश्वास करतात की हा गट क्लस्टरिंगशी संबंधित नाही आणि "भेदभाव" या नावाखाली त्याचा विरोध करतात, म्हणजेच, ज्ञात गटांपैकी एकाला वस्तू नियुक्त करण्याची निवड (प्रशिक्षण नमुने).
  2. कृत्रिम बुद्धिमत्ता प्रणालीवर आधारित दृष्टीकोन. एक अतिशय सशर्त गट, कारण तेथे अनेक एआय पद्धती आहेत आणि पद्धतशीरपणे त्या खूप भिन्न आहेत.
  3. तार्किक दृष्टीकोन. डेंड्रोग्रामचे बांधकाम निर्णयाच्या झाडाचा वापर करून केले जाते.
  4. आलेख-सैद्धांतिक दृष्टीकोन.
    • आलेख क्लस्टरिंग अल्गोरिदम
  5. श्रेणीबद्ध दृष्टिकोन. नेस्टेड गटांची उपस्थिती (वेगवेगळ्या ऑर्डरचे क्लस्टर) गृहीत धरले जाते. अल्गोरिदम, यामधून, एकत्रित (एकीकृत) आणि विभाजित (विभक्त) मध्ये विभागलेले आहेत. वैशिष्ट्यांच्या संख्येनुसार, वर्गीकरणाच्या मोनोथेटिक आणि पॉलीथेटिक पद्धती कधीकधी ओळखल्या जातात.
    • श्रेणीबद्ध विभागीय क्लस्टरिंग किंवा वर्गीकरण. क्लस्टरिंग समस्या परिमाणात्मक वर्गीकरणामध्ये विचारात घेतल्या जातात.
  6. इतर पद्धती. मागील गटांमध्ये समाविष्ट नाही.
    • सांख्यिकीय क्लस्टरिंग अल्गोरिदम
    • क्लस्टरर्सची जोडणी
    • KRAB कुटुंबाचे अल्गोरिदम
    • सिफ्टिंग पद्धतीवर आधारित अल्गोरिदम
    • DBSCAN इ.

दृष्टीकोन 4 आणि 5 कधीकधी स्ट्रक्चरल किंवा भौमितिक दृष्टिकोनाच्या नावाखाली एकत्र केले जातात, ज्यात समीपतेची अधिक औपचारिक संकल्पना असते. सूचीबद्ध पद्धतींमध्ये लक्षणीय फरक असूनही, ते सर्व मूळवर अवलंबून असतात. कॉम्पॅक्टनेस गृहीतक»: ऑब्जेक्ट स्पेसमध्ये, सर्व जवळच्या वस्तू एकाच क्लस्टरच्या असणे आवश्यक आहे आणि सर्व भिन्न ऑब्जेक्ट्स, अनुक्रमे, वेगवेगळ्या क्लस्टरमध्ये असणे आवश्यक आहे.

क्लस्टरिंग समस्येचे औपचारिक विधान

ऑब्जेक्ट्सचा एक संच असू द्या, क्लस्टर्सच्या संख्यांचा (नावे, लेबले) संच असू द्या. वस्तूंमधील अंतराचे कार्य दिले आहे. वस्तूंचा एक मर्यादित प्रशिक्षण संच आहे. नमुना नॉन-ओव्हरलॅपिंग सबसेटमध्ये विभाजित करणे आवश्यक आहे, ज्याला म्हणतात क्लस्टर्स, जेणेकरून प्रत्येक क्लस्टरमध्ये मेट्रिकमध्ये जवळ असलेल्या वस्तूंचा समावेश होतो आणि वेगवेगळ्या क्लस्टरच्या वस्तूंमध्ये लक्षणीय फरक असतो. या प्रकरणात, प्रत्येक ऑब्जेक्टला क्लस्टर क्रमांक नियुक्त केला जातो.

क्लस्टरिंग अल्गोरिदमएक फंक्शन आहे जे कोणत्याही ऑब्जेक्टला क्लस्टर नंबरसह संबद्ध करते. काही प्रकरणांमध्ये संच आगाऊ ओळखला जातो, परंतु बहुतेकदा कार्य एक किंवा दुसर्‍या दृष्टिकोनातून क्लस्टरची इष्टतम संख्या निश्चित करणे असते. गुणवत्ता निकषक्लस्टरिंग

क्लस्टरिंग (पर्यवेक्षण न केलेले शिक्षण) वर्गीकरण (पर्यवेक्षित शिक्षण) पेक्षा वेगळे आहे कारण मूळ वस्तूंची लेबले सुरुवातीला सेट केलेली नाहीत आणि सेट स्वतः अज्ञात देखील असू शकतो.

क्लस्टरिंग समस्येचे निराकरण मूलभूतपणे संदिग्ध आहे आणि याची अनेक कारणे आहेत (अनेक लेखकांच्या मते):

  • क्लस्टरिंगच्या गुणवत्तेसाठी कोणताही विशिष्ट निकष नाही. अनेक ह्युरिस्टिक निकष ओळखले जातात, तसेच अनेक अल्गोरिदम ज्यांना स्पष्टपणे परिभाषित निकष नसतात, परंतु "बांधकामानुसार" बर्‍यापैकी वाजवी क्लस्टरिंग करतात. ते सर्व भिन्न परिणाम देऊ शकतात. म्हणून, क्लस्टरिंगची गुणवत्ता निश्चित करण्यासाठी, विषय क्षेत्रातील तज्ञ आवश्यक आहे, जो क्लस्टरच्या निवडीच्या अर्थपूर्णतेचे मूल्यांकन करू शकेल.
  • क्लस्टर्सची संख्या सहसा आगाऊ अज्ञात असते आणि काही व्यक्तिनिष्ठ निकषांनुसार सेट केली जाते. हे केवळ भेदभाव पद्धतींसाठीच खरे आहे, कारण क्लस्टरिंग पद्धतींमध्ये, समीपतेच्या उपायांवर आधारित औपचारिक दृष्टिकोन वापरून क्लस्टर निवडले जातात.
  • क्लस्टरिंग परिणाम लक्षणीयपणे मेट्रिकवर अवलंबून असतो, ज्याची निवड, नियम म्हणून, व्यक्तिनिष्ठ देखील असते आणि तज्ञाद्वारे निर्धारित केली जाते. परंतु हे लक्षात घेण्यासारखे आहे की विविध कार्यांसाठी समीपतेचे उपाय निवडण्यासाठी अनेक शिफारसी आहेत.

अर्ज

जीवशास्त्रात

जीवशास्त्रात, क्लस्टरिंगचे विविध क्षेत्रांमध्ये अनेक अनुप्रयोग आहेत. उदाहरणार्थ, बायोइन्फॉरमॅटिक्समध्ये, संवाद साधणाऱ्या जनुकांच्या जटिल नेटवर्कचे विश्लेषण करण्यासाठी याचा वापर केला जातो, कधीकधी शेकडो किंवा हजारो घटकांचा समावेश असतो. क्लस्टर विश्लेषणामुळे तुम्हाला अभ्यासाधीन प्रणालीचे सबनेट, अडथळे, हब आणि इतर लपलेले गुणधर्म ओळखता येतात, जे शेवटी तुम्हाला अभ्यासाधीन घटनेच्या निर्मितीमध्ये प्रत्येक जनुकाचे योगदान शोधू देते.

इकोलॉजीच्या क्षेत्रात, जीव, समुदाय इत्यादींचे अवकाशीय एकसंध गट ओळखण्यासाठी मोठ्या प्रमाणावर वापरले जाते. कालांतराने समुदायांचा अभ्यास करण्यासाठी क्लस्टर विश्लेषण पद्धती वापरल्या जातात. समुदायांच्या संरचनेची विषमता क्लस्टर विश्लेषणाच्या गैर-क्षुल्लक पद्धतींचा उदय होतो (उदाहरणार्थ, झेकनोव्स्की पद्धत).

सर्वसाधारणपणे, हे लक्षात घेण्यासारखे आहे की ऐतिहासिकदृष्ट्या, फरक (अंतर) उपायांऐवजी, जीवशास्त्रातील समीपतेचे उपाय म्हणून समानता उपाय अधिक वेळा वापरले जातात.

समाजशास्त्रात

समाजशास्त्रीय संशोधनाच्या परिणामांचे विश्लेषण करताना, श्रेणीबद्ध एकत्रित कुटुंबाच्या पद्धती वापरून विश्लेषण करण्याची शिफारस केली जाते, म्हणजे वॉर्ड पद्धत, ज्यामध्ये क्लस्टर्समध्ये किमान फैलाव ऑप्टिमाइझ केला जातो, परिणामी, अंदाजे समान आकाराचे क्लस्टर. तयार केले जातात. समाजशास्त्रीय डेटाच्या विश्लेषणासाठी प्रभाग पद्धत सर्वात यशस्वी आहे. फरकाचे मोजमाप म्हणून, चतुर्भुज युक्लिडियन अंतर अधिक चांगले आहे, जे क्लस्टर्सच्या कॉन्ट्रास्टमध्ये वाढ करण्यास योगदान देते. श्रेणीबद्ध क्लस्टर विश्लेषणाचा मुख्य परिणाम म्हणजे डेंड्रोग्राम किंवा "आइसिकल डायग्राम" होय. त्याचा अर्थ लावताना, संशोधकांना घटक विश्लेषणाच्या परिणामांच्या स्पष्टीकरणासारख्याच समस्येचा सामना करावा लागतो - क्लस्टर्स ओळखण्यासाठी अस्पष्ट निकषांचा अभाव. मुख्य पद्धती म्हणून दोन पद्धती वापरण्याची शिफारस केली जाते - डेंड्रोग्रामचे व्हिज्युअल विश्लेषण आणि वेगवेगळ्या पद्धतींनी केलेल्या क्लस्टरिंगच्या परिणामांची तुलना.

डेंड्रोग्रामच्या व्हिज्युअल विश्लेषणामध्ये नमुना घटकांच्या समानतेच्या इष्टतम स्तरावर झाड "कापणे" समाविष्ट आहे. "द्राक्षांचा वेल शाखा" (ओल्डेन्डरफर M.S. आणि Blashfield R.K. ची शब्दावली) रिस्केल्ड डिस्टन्स क्लस्टर कंबाईन स्केलवर सुमारे 5 वाजता "कट ऑफ" केली पाहिजे, अशा प्रकारे 80% समानता पातळी प्राप्त होईल. या लेबलद्वारे क्लस्टर्स निवडणे कठीण असल्यास (अनेक लहान क्लस्टर्स एका मोठ्या क्लस्टरमध्ये विलीन होतात), तर तुम्ही दुसरे लेबल निवडू शकता. हे तंत्र ओल्डेन्डरफर आणि ब्लॅशफिल्ड यांनी प्रस्तावित केले आहे.

आता दत्तक क्लस्टर सोल्यूशनच्या स्थिरतेचा प्रश्न उद्भवतो. खरं तर, क्लस्टरिंगची स्थिरता तपासणे त्याची विश्वासार्हता तपासण्यासाठी खाली येते. येथे एक नियम आहे - जेव्हा क्लस्टरिंग पद्धती बदलतात तेव्हा एक स्थिर टायपोलॉजी जतन केली जाते. श्रेणीबद्ध क्लस्टर विश्लेषणाचे परिणाम पुनरावृत्ती के-म्हणजे क्लस्टर विश्लेषणाद्वारे सत्यापित केले जाऊ शकतात. जर प्रतिसादकर्त्यांच्या गटांच्या तुलनात्मक वर्गीकरणामध्ये योगायोगाचा वाटा 70% पेक्षा जास्त (2/3 पेक्षा जास्त योगायोग) असेल तर क्लस्टर निर्णय घेतला जातो.

दुसर्या प्रकारच्या विश्लेषणाचा अवलंब केल्याशिवाय समाधानाची पर्याप्तता तपासणे अशक्य आहे. किमान सैद्धांतिकदृष्ट्या, ही समस्या सोडविली गेली नाही. ओल्डेन्डरफर आणि ब्लॅशफील्डचे क्लासिक क्लस्टर विश्लेषण पाच अतिरिक्त मजबूती चाचणी पद्धतींवर विस्तृतपणे वर्णन करते आणि शेवटी ते नाकारते:

संगणक विज्ञान मध्ये

  • शोध परिणामांचे क्लस्टरिंग - फायली, वेबसाइट्स, इतर ऑब्जेक्ट्स शोधताना परिणामांच्या "बुद्धिमान" गटासाठी वापरला जातो, वापरकर्त्याला द्रुतपणे नेव्हिगेट करण्यास अनुमती देते, स्पष्टपणे अधिक संबंधित असलेला उपसंच निवडा आणि स्पष्टपणे कमी संबंधित एक वगळला जातो - जे वाढू शकते. आउटपुटच्या तुलनेत इंटरफेसची उपयोगिता प्रासंगिकता सूचीनुसार सोप्या क्रमवारीत आहे.
    • क्लस्टी - Vivísimo चे क्लस्टरिंग शोध इंजिन
    • निगम - स्वयंचलित परिणाम क्लस्टरिंगसह रशियन शोध इंजिन
    • क्विंटुरा - कीवर्डच्या क्लाउडच्या स्वरूपात व्हिज्युअल क्लस्टरिंग
  • प्रतिमा विभाजन प्रतिमा विभाजन) - क्लस्टरिंगचा उपयोग धार शोधण्याच्या उद्देशाने डिजीटल प्रतिमेला स्वतंत्र क्षेत्रांमध्ये विभाजित करण्यासाठी केला जाऊ शकतो. धार ओळख) किंवा ऑब्जेक्ट ओळख.
  • डेटा खाण डेटा खाण)- डेटा मायनिंगमधील क्लस्टरिंग जेव्हा डेटा विश्लेषणाच्या टप्प्यांपैकी एक म्हणून कार्य करते, संपूर्ण विश्लेषणात्मक समाधान तयार करते तेव्हा ते मौल्यवान बनते. सर्व डेटासाठी एक सामान्य मॉडेल तयार करण्यापेक्षा विश्लेषकासाठी समान वस्तूंचे गट ओळखणे, त्यांच्या वैशिष्ट्यांचा अभ्यास करणे आणि प्रत्येक गटासाठी स्वतंत्र मॉडेल तयार करणे बरेचदा सोपे असते. हे तंत्र सतत विपणन, ग्राहक, खरेदीदार, वस्तूंचे गट हायलाइट करण्यासाठी आणि त्या प्रत्येकासाठी स्वतंत्र धोरण विकसित करण्यासाठी वापरले जाते.

देखील पहा

नोट्स

दुवे

रशियन मध्ये
  • www.MachineLearning.ru - मशीन लर्निंग आणि डेटा मायनिंगसाठी समर्पित व्यावसायिक विकी संसाधन
इंग्रजी मध्ये
  • कॉम्पॅक्ट - क्लस्टरिंग असेसमेंटसाठी तुलनात्मक पॅकेज. एक विनामूल्य Matlab पॅकेज, 2006.
  • पी. बर्खिन, क्लस्टरिंग डेटा मायनिंग तंत्रांचे सर्वेक्षण, ऍक्रु सॉफ्टवेअर, 2002.
  • जैन, मूर्ति आणि फ्लिन: डेटा क्लस्टरिंग: एक पुनरावलोकन, ACM Comp. Surv., 1999.
  • श्रेणीबद्ध, के-मीन्स आणि फजी सी-मीन्सच्या दुसर्‍या सादरीकरणासाठी क्लस्टरिंगची ही ओळख पहा. गौसींच्या मिश्रणावरही स्पष्टीकरण आहे.
  • डेव्हिड डोवे, मिश्रण मॉडेलिंग पृष्ठ- इतर क्लस्टरिंग आणि मिश्रण मॉडेल लिंक्स.
  • क्लस्टरिंग वर एक ट्यूटोरियल
  • ऑन-लाइन पाठ्यपुस्तक: माहिती सिद्धांत, अनुमान, आणि लर्निंग अल्गोरिदम, डेव्हिड जे.सी. मॅकेमध्ये के-मीन्स क्लस्टरिंग, सॉफ्ट के-मीन्स क्लस्टरिंग, आणि ई-एम अल्गोरिदम आणि ई-एम अल्गोरिदमचे व्हेरिएशनल व्ह्यू यासह व्युत्पन्नांचा समावेश आहे.
  • "द सेल्फ-ऑर्गनाइज्ड जीन", स्पर्धात्मक शिक्षण आणि स्वयं-संघटित नकाशांद्वारे क्लस्टरिंगचे स्पष्टीकरण देणारे ट्यूटोरियल.
  • कर्नलॅब - कर्नल आधारित मशीन लर्निंगसाठी आर पॅकेज (स्पेक्ट्रल क्लस्टरिंग अंमलबजावणीचा समावेश आहे)
  • ट्यूटोरियल - क्लस्टरिंग अल्गोरिदम (के-मीन्स, फजी-सी-मीन्स, श्रेणीबद्ध, गॉसियन्सचे मिश्रण) + काही परस्परसंवादी डेमो (जावा ऍपलेट) च्या परिचयासह ट्यूटोरियल
  • डेटा मायनिंग सॉफ्टवेअर - डेटा मायनिंग सॉफ्टवेअर वारंवार क्लस्टरिंग तंत्राचा वापर करते.
  • जावा कॉम्पिटिव लर्निंग ऍप्लिकेशन क्लस्टरिंगसाठी पर्यवेक्षित नसलेल्या न्यूरल नेटवर्कचा एक संच. जावा मध्ये लिहिले. सर्व स्त्रोत कोडसह पूर्ण करा.
  • मशीन लर्निंग सॉफ्टवेअर - यामध्ये बरेच क्लस्टरिंग सॉफ्टवेअर देखील आहे.

डेटा मायनिंग मध्ये क्लस्टरिंग कार्ये

क्लस्टर विश्लेषणाचा परिचय

क्लस्टर विश्लेषणाच्या अनुप्रयोगाच्या संपूर्ण विस्तृत क्षेत्रातून, उदाहरणार्थ, सामाजिक-आर्थिक अंदाजाची समस्या.

सामाजिक-आर्थिक घटनांचे विश्लेषण आणि अंदाज लावताना, संशोधकाला अनेकदा त्यांच्या वर्णनाच्या बहुआयामीपणाचा सामना करावा लागतो. बाजार विभाजनाची समस्या सोडवताना, मोठ्या संख्येने निर्देशकांनुसार देशांचे टायपॉलॉजी तयार करताना, वैयक्तिक वस्तूंसाठी बाजारातील परिस्थितीचा अंदाज लावताना, आर्थिक मंदीचा अभ्यास आणि अंदाज लावताना आणि इतर अनेक समस्यांचे निराकरण करताना हे घडते.

बहुविध विश्लेषण पद्धती मोठ्या संख्येने वैशिष्ट्यांद्वारे वर्णन केलेल्या सामाजिक-आर्थिक प्रक्रियांचा अभ्यास करण्यासाठी सर्वात प्रभावी परिमाणवाचक साधन आहेत. यामध्ये क्लस्टर विश्लेषण, वर्गीकरण, नमुना ओळख आणि घटक विश्लेषण यांचा समावेश आहे.

क्लस्टर विश्लेषणवर्गीकरण, घटक विश्लेषण - संप्रेषणाच्या अभ्यासामध्ये बहुविध विश्लेषणाची वैशिष्ट्ये सर्वात स्पष्टपणे प्रतिबिंबित करतात.

काहीवेळा क्लस्टर विश्लेषणाचा दृष्टिकोन साहित्यात संख्यात्मक वर्गीकरण, संख्यात्मक वर्गीकरण, स्वयं-शिक्षण ओळख इ.

क्लस्टर विश्लेषणास समाजशास्त्रात त्याचा पहिला अनुप्रयोग आढळला. क्लस्टर विश्लेषण हे नाव क्लस्टर या इंग्रजी शब्दावरून आले आहे - गुच्छ, संचय. 1939 मध्ये प्रथमच क्लस्टर विश्लेषणाचा विषय परिभाषित केला गेला आणि त्याचे वर्णन ट्रायॉन या संशोधकाने केले. क्लस्टर विश्लेषणाचा मुख्य उद्देश अभ्यासाखालील वस्तू आणि वैशिष्ट्यांचा समूह किंवा क्लस्टरमध्ये विभागणे हा आहे जे योग्य अर्थाने एकसमान आहेत. याचा अर्थ डेटाचे वर्गीकरण आणि त्यातील संबंधित रचना ओळखण्याची समस्या सोडवली जात आहे. क्लस्टर विश्लेषण पद्धती विविध प्रकरणांमध्ये लागू केल्या जाऊ शकतात, अगदी साध्या गटबद्धतेच्या बाबतीतही, ज्यामध्ये प्रत्येक गोष्ट मात्रात्मक समानतेनुसार गटांच्या निर्मितीपर्यंत येते.

क्लस्टर विश्लेषणाचा मोठा फायदात्यामध्ये ते एका पॅरामीटरद्वारे नव्हे तर वैशिष्ट्यांच्या संपूर्ण संचाद्वारे वस्तू विभाजित करण्यास अनुमती देते. याव्यतिरिक्त, क्लस्टर विश्लेषण, बहुतेक गणितीय आणि सांख्यिकीय पद्धतींच्या विपरीत, विचाराधीन वस्तूंच्या प्रकारावर कोणतेही निर्बंध लादत नाही आणि आम्हाला जवळजवळ अनियंत्रित स्वरूपाच्या प्रारंभिक डेटाच्या संचाचा विचार करण्यास अनुमती देते. हे खूप महत्वाचे आहे, उदाहरणार्थ, बाजाराच्या अंदाजासाठी, जेव्हा निर्देशकांचे विविध प्रकार असतात ज्यामुळे पारंपारिक अर्थमितीय दृष्टिकोन वापरणे कठीण होते.

क्लस्टर विश्लेषणामुळे मोठ्या प्रमाणात माहितीचा विचार करणे आणि सामाजिक-आर्थिक माहितीच्या मोठ्या अॅरेला कमी करणे, संक्षिप्त आणि दृश्यमान करणे शक्य होते.

आर्थिक विकास (उदाहरणार्थ, सामान्य आर्थिक आणि कमोडिटी परिस्थिती) दर्शविणार्‍या वेळेच्या मालिकेच्या संचाच्या संबंधात क्लस्टर विश्लेषणास खूप महत्त्व आहे. येथे जेव्हा संबंधित निर्देशकांची मूल्ये अगदी जवळ होती तेव्हा पूर्णविराम एकल करणे शक्य आहे, तसेच वेळ मालिकेचे गट निश्चित करणे शक्य आहे, ज्याची गतिशीलता सर्वात समान आहे.

क्लस्टर विश्लेषण चक्रीय पद्धतीने वापरले जाऊ शकते. या प्रकरणात, इच्छित परिणाम प्राप्त होईपर्यंत अभ्यास केला जातो. त्याच वेळी, येथे प्रत्येक चक्र अशी माहिती प्रदान करू शकते जी क्लस्टर विश्लेषणाच्या पुढील अनुप्रयोगाची दिशा आणि दृष्टिकोन मोठ्या प्रमाणात बदलू शकते. ही प्रक्रिया अभिप्राय प्रणाली म्हणून दर्शविली जाऊ शकते.

सामाजिक-आर्थिक अंदाजाच्या कार्यांमध्ये, इतर परिमाणात्मक पद्धतींसह (उदाहरणार्थ, प्रतिगमन विश्लेषणासह) क्लस्टर विश्लेषण एकत्र करणे खूप आशादायक आहे.

इतर कोणत्याही पद्धतीप्रमाणे , क्लस्टर विश्लेषणाचे काही तोटे आणि मर्यादा आहेत: विशेषतः, क्लस्टरची संख्या निवडलेल्या विभाजनाच्या निकषांवर अवलंबून असते. प्रारंभिक डेटा अॅरे अधिक कॉम्पॅक्ट फॉर्ममध्ये कमी करताना, काही विकृती उद्भवू शकतात आणि क्लस्टर पॅरामीटर्सच्या सामान्यीकृत मूल्यांच्या वैशिष्ट्यांद्वारे त्यांच्या बदलीमुळे वैयक्तिक ऑब्जेक्ट्सची वैयक्तिक वैशिष्ट्ये देखील गमावली जाऊ शकतात. ऑब्जेक्ट्सचे वर्गीकरण करताना, बहुतेकदा विचारात घेतलेल्या सेटमध्ये कोणत्याही क्लस्टर मूल्यांच्या अनुपस्थितीची शक्यता दुर्लक्षित केली जाते.

क्लस्टर विश्लेषणामध्ये, असे मानले जाते की:

अ) निवडलेली वैशिष्ट्ये तत्त्वतः, इच्छित क्लस्टरिंगला परवानगी देतात;

b) मोजमापाची एकके (स्केल) योग्यरित्या निवडली आहेत.

स्केलची निवड मोठी भूमिका बजावते. सामान्यतः, सरासरी वजा करून आणि प्रमाणित विचलनाने भागाकार करून डेटा सामान्य केला जातो जेणेकरून भिन्नता एक असेल.

1. क्लस्टरिंगचे कार्य

क्लस्टरिंगचे कार्य सेटमध्ये असलेल्या डेटावर आधारित आहे एक्स, बर्याच वस्तू विभाजित करा जीवर मी (मी- संपूर्ण) क्लस्टर्स (उपसंच) Q1,प्रश्न २, …,Qm, जेणेकरून प्रत्येक ऑब्जेक्ट Gjएक आणि फक्त एकाच विभाजन उपसमूहाशी संबंधित आहेत आणि त्याच क्लस्टरमधील वस्तू समान आहेत, तर वेगवेगळ्या क्लस्टरमधील वस्तू विषम आहेत.

उदाहरणार्थ, द्या जी n देशांचा समावेश आहे, ज्यापैकी कोणतेही दरडोई GNP द्वारे वैशिष्ट्यीकृत आहे ( F1), संख्या एमप्रति 1,000 लोकांसाठी कार F2), दरडोई वीज वापर ( F3), दरडोई स्टीलचा वापर ( F4) इ. मग X १(मापन वेक्टर) पहिल्या देशासाठी निर्दिष्ट वैशिष्ट्यांचा संच आहे, X 2- दुसऱ्यासाठी, X 3तिसऱ्यासाठी, आणि याप्रमाणे. देशांना विकासाच्या पातळीवर तोडण्याचे आव्हान आहे.

क्लस्टर विश्लेषणाच्या समस्येचे निराकरण हे विभाजने आहेत जे विशिष्ट इष्टतमतेचे निकष पूर्ण करतात. हा निकष काही कार्यात्मक असू शकतो जो विविध विभाजने आणि गटांच्या इष्टतेचे स्तर व्यक्त करतो, ज्याला वस्तुनिष्ठ कार्य म्हणतात. उदाहरणार्थ, वर्ग विचलनाची इंट्राग्रुप बेरीज वस्तुनिष्ठ कार्य म्हणून घेतली जाऊ शकते:

कुठे xj- मोजमाप दर्शवते j-वी ऑब्जेक्ट.

क्लस्टर विश्लेषणाच्या समस्येचे निराकरण करण्यासाठी, समानता आणि विषमता या संकल्पनेची व्याख्या करणे आवश्यक आहे.

हे स्पष्ट आहे की वस्तू i -व्या आणि j- बिंदूंमधील अंतर (दूरस्थता) तेव्हा एका क्लस्टरमध्ये येईल एक्स iआणि X jपुरेसे लहान असेल आणि जेव्हा हे अंतर पुरेसे मोठे असेल तेव्हा वेगवेगळ्या क्लस्टरमध्ये पडेल. अशा प्रकारे, ऑब्जेक्ट्सच्या एक किंवा भिन्न क्लस्टरला मारणे हे दरम्यानच्या अंतराच्या संकल्पनेद्वारे निर्धारित केले जाते एक्स i आणि X jपासून येर, कुठे येर - आर-आयामी युक्लिडियन जागा. गैर-नकारात्मक कार्य d(X i, Х j) ला अंतर कार्य (मेट्रिक) म्हणतात जर:

अ) d(Xi, Х j)³ 0 , सगळ्यांसाठी एक्स i आणि X jपासून येर

ब) d(Xi , Х j) = 0, जर आणि फक्त तर एक्स i= Х ज

मध्ये) d(Xi, X j) = d(X j, X i)

जी) d(Xi, Х j)£ d(Xi , X k) + d(X k , X j), जेथे X j ; एक्सi आणि Х k- पासून कोणतेही तीन वेक्टर येर.

अर्थ d(Xi, Х j)च्या साठी एक्सiआणि एक्स j मधील अंतर म्हणतात एक्सiआणि X jआणि दरम्यानच्या अंतराच्या समतुल्य आहे जीiआणि Gjनिवडलेल्या वैशिष्ट्यांनुसार (F 1, F 2, F 3, ..., F p).

सर्वात सामान्यतः वापरलेली अंतर कार्ये आहेत:

1. युक्लिडियन अंतर d 2 (Xi , Х j) =

2. l १- नियम d 1 (Xi , Х j) =

3. सर्वोच्च - सर्वसामान्य प्रमाण d ¥ (एक्सi , Х j) = sup

k = 1, 2, ..., p

4. lp- नियम d p ​​(Xi , Х j) =

युक्लिडियन मेट्रिक सर्वात लोकप्रिय आहे. l 1 मेट्रिक गणना करणे सर्वात सोपा आहे. सर्वोच्च आदर्श गणना करणे सोपे आहे आणि त्यात ऑर्डरिंग प्रक्रिया समाविष्ट आहे, एक एलपी- सर्वसामान्य प्रमाण अंतर 1, 2, 3, ची कार्ये समाविष्ट करते.

n मोजू द्या X 1, X 2,..., Xnआकारासह डेटा मॅट्रिक्सच्या स्वरूपात सादर केले जातात p´ n:

मग वेक्टरच्या जोड्यांमधील अंतर d(X i, Х j)सममितीय अंतर मॅट्रिक्स म्हणून प्रस्तुत केले जाऊ शकते:

अंतराच्या विरुद्ध असलेली संकल्पना ही वस्तूंमधील समानतेची संकल्पना आहे. जी i . आणि Gj. नॉन-नकारात्मक वास्तविक कार्य S(X i; X j) = S i jसमानता मापन असे म्हणतात जर:

1) 0 £ S(X i, X j)< X साठी 1 i ¹ X j

2) एस( एक्सi, एक्सi) = 1

3) एस( एक्सi, एक्सj) = S(Xj, एक्स i )

समानता मापन मूल्यांच्या जोड्या समानता मॅट्रिक्समध्ये एकत्र केल्या जाऊ शकतात:

किंमत एसijसमानतेचा गुणांक म्हणतात.

2. क्लस्टरिंग पद्धती

आज क्लस्टर विश्लेषणाच्या अनेक पद्धती आहेत. चला त्यापैकी काहींवर राहू या (खाली दिलेल्या पद्धतींना सामान्यतः किमान भिन्नतेच्या पद्धती म्हणतात).

द्या एक्स- निरीक्षण मॅट्रिक्स: X \u003d (X 1, X 2, ..., X u)आणि मधील युक्लिडियन अंतराचा चौरस एक्स i आणि X jसूत्रानुसार निर्धारित केले जाते:

1) पूर्ण कनेक्शन पद्धत.

या पद्धतीचा सार असा आहे की एकाच गटातील (क्लस्टर) दोन वस्तूंमध्ये समानता गुणांक असतो जो एका विशिष्ट थ्रेशोल्ड मूल्यापेक्षा कमी असतो. एस. युक्लिडियन अंतराच्या दृष्टीने dयाचा अर्थ क्लस्टरच्या दोन बिंदूंमधील (वस्तू) अंतर काही थ्रेशोल्ड मूल्यापेक्षा जास्त नसावेh. अशा प्रकारे, hक्लस्टर बनवणाऱ्या उपसंचाचा जास्तीत जास्त स्वीकार्य व्यास परिभाषित करतो.

2) कमाल स्थानिक अंतर पद्धत.

प्रत्येक ऑब्जेक्ट एक-बिंदू क्लस्टर मानला जातो. खालील नियमानुसार ऑब्जेक्ट्सचे गट केले जातात: एका क्लस्टरच्या बिंदू आणि दुसर्‍याच्या बिंदूंमधील कमाल अंतर कमीतकमी असल्यास दोन क्लस्टर एकत्र केले जातात. प्रक्रियेचा समावेश आहे n - 1कोणत्याही थ्रेशोल्डसाठी मागील पद्धतीमधील सर्व संभाव्य विभाजनांशी जुळणारे विभाजनांमधील चरण आणि परिणाम.

3) शब्द पद्धत.

या पद्धतीमध्ये, चौरस विचलनांची इंट्राग्रुप बेरीज वस्तुनिष्ठ कार्य म्हणून वापरली जाते, जी प्रत्येक बिंदू (ऑब्जेक्ट) आणि या ऑब्जेक्ट असलेल्या क्लस्टरच्या सरासरीमधील वर्ग अंतरांच्या बेरीजपेक्षा अधिक काही नसते. प्रत्येक पायरीवर, दोन क्लस्टर्स एकत्रित केले जातात ज्यामुळे उद्दीष्ट कार्यामध्ये किमान वाढ होते, म्हणजे. वर्गांची इंट्राग्रुप बेरीज. या पद्धतीचा उद्देश जवळच्या अंतरावरील क्लस्टर्स एकत्र करणे आहे.

4) सेंट्रोइड पद्धत.

दोन क्लस्टर्समधील अंतर या क्लस्टर्सच्या केंद्रांमधील (सरासरी) युक्लिडियन अंतर म्हणून परिभाषित केले आहे:

d2ij =(` X-` Y) T (` X-` Y)क्लस्टरिंग प्रत्येकावर टप्प्याटप्प्याने पुढे जाते n-1पावले दोन क्लस्टर एकत्र करतात जीआणि p किमान मूल्य असणे d2ijजर ए n 1जास्त n 2, नंतर दोन क्लस्टर्सचे विलीनीकरण केंद्र एकमेकांच्या जवळ असतात आणि जेव्हा क्लस्टर एकत्र केले जातात तेव्हा दुसऱ्या क्लस्टरच्या वैशिष्ट्यांकडे व्यावहारिकदृष्ट्या दुर्लक्ष केले जाते. कधीकधी या पद्धतीला कधीकधी भारित गटांची पद्धत देखील म्हणतात.

3. अनुक्रमिक क्लस्टरिंग अल्गोरिदम

विचार करा Ι = (Ι 1, Ι 2, … Ιn)अनेक क्लस्टर्स (मी 1), (I 2),…(In). चला त्यापैकी दोन निवडा, उदाहरणार्थ, Ι i आणि मी, जे काही अर्थाने एकमेकांच्या जवळ आहेत आणि त्यांना एका क्लस्टरमध्ये एकत्र करतात. क्लस्टर्सचा नवीन संच, आधीपासून n -1 क्लस्टर्सचा समावेश आहे, हे असेल:

(Ι 1), (Ι 2 )…, i, Ι j ), …, (Ιn).

प्रक्रियेची पुनरावृत्ती केल्याने, आम्हाला क्लस्टरचे सलग संच मिळतात (n-2), (n-3), (n-4)इ. क्लस्टर्स प्रक्रियेच्या शेवटी, तुम्हाला n वस्तूंचा समावेश असलेला आणि मूळ संचाशी एकरूप असलेला क्लस्टर मिळेल. Ι = (Ι 1, Ι 2, … Ιn).

अंतर मोजण्यासाठी, आपण युक्लिडियन मेट्रिकचा वर्ग घेतो d i j2. आणि मॅट्रिक्सची गणना करा D = (di j 2 ), जेथे di j 2मधील अंतराचा वर्ग आहे

Ι iआणि मी:

….

मी एन

d 12 2

d 13 2

….

d 1n 2

d 23 2

….

d 2n 2

….

d 3n 2

….

….

….

मी एन

दरम्यान अंतर द्या Ι iआणि Ι j किमान असेल:

d i j 2 = min (d i j 2 , i¹ j)आम्ही सह तयार करतो Ι iआणि Ι j नवीन क्लस्टर

मी, मी ज). चला नवीन बांधूया ((n-1), (n-1))अंतर मॅट्रिक्स

( मी , मी j )

….

मी एन

( Ι i ; Ι j )

d i j 2 1

d i j 2 2

….

d i j 2 n

d 12 2

d 1 3

….

d 1 2 n

….

d2n

….

d3n

(n-2)शेवटच्या मॅट्रिक्सच्या पंक्ती मागील एकावरून घेतल्या जातात आणि पहिल्या पंक्तीची पुनर्गणना केली जाते. जर एखाद्याला व्यक्त करता येत असेल तर गणना कमीतकमी ठेवली जाऊ शकते d i j 2 k,k = 1, 2,…,n (k¹ i¹ j)मूळ मॅट्रिक्सच्या घटकांद्वारे.

सुरुवातीला, अंतर केवळ एकल-घटकांच्या क्लस्टर्समध्ये निर्धारित केले जाते, परंतु एकापेक्षा जास्त घटक असलेल्या क्लस्टर्समधील अंतर निर्धारित करणे आवश्यक आहे. हे विविध प्रकारे केले जाऊ शकते आणि निवडलेल्या पद्धतीवर अवलंबून, आम्हाला विविध गुणधर्मांसह क्लस्टर विश्लेषण अल्गोरिदम मिळतात. एक, उदाहरणार्थ, क्लस्टरमधील अंतर ठेवू शकतो i + jआणि काही इतर क्लस्टर k, क्लस्टर्समधील अंतरांच्या अंकगणितीय सरासरीच्या समान iआणि kआणि क्लस्टर्स jआणि k:

d i+j,k = ½ (d i k + d j k).

पण एक व्याख्या देखील करू शकता d i+j, kया दोन अंतरांपैकी किमान म्हणून:

d i+j,k = min(d i k + d j k).

अशा प्रकारे, एकत्रित श्रेणीबद्ध अल्गोरिदम ऑपरेशनच्या पहिल्या चरणाचे वर्णन केले आहे. पुढील चरण समान आहेत.

अंतरांची पुनर्गणना करण्यासाठी खालील सामान्य सूत्र वापरल्यास अल्गोरिदमचा बऱ्यापैकी विस्तृत वर्ग मिळू शकतो:

d i+j,k = A(w) min(d ik d jk) + B(w) कमाल(d ik d jk),कुठे

A(w) = जरdik£ डीजेके

A(w) = जरdik> डीजेके

B(w) = जरd i k £ डीजेके

ब(w) =, तरdik> डीजेके

कुठे n iआणि n j- क्लस्टरमधील घटकांची संख्या iआणि j, अ wएक विनामूल्य पॅरामीटर आहे, ज्याची निवड विशिष्ट अल्गोरिदम निर्धारित करते. उदाहरणार्थ, जेव्हा w = 1आम्हाला तथाकथित "सरासरी कनेक्शन" अल्गोरिदम मिळतो, ज्यासाठी अंतरांची पुनर्गणना करण्याचे सूत्र फॉर्म घेते:

d i+j, k =

या प्रकरणात, अल्गोरिदमच्या प्रत्येक पायरीवरील दोन क्लस्टरमधील अंतर सर्व घटकांच्या जोड्यांमधील अंतरांच्या अंकगणितीय सरासरीइतके असते जसे की जोडीचा एक घटक एका क्लस्टरचा असतो, दुसरा घटक दुसर्याचा असतो.

w हा पॅरामीटर ठेवल्यास त्याचा दृश्य अर्थ स्पष्ट होईल w® ¥ . अंतर रूपांतरण सूत्र फॉर्म घेते:

d i+j, k =मि (d i,केडीजेके)

हे तथाकथित "सर्वात जवळचे शेजारी" अल्गोरिदम असेल, जे अनियंत्रितपणे जटिल आकाराचे क्लस्टर निवडणे शक्य करते, जर अशा क्लस्टरचे वेगवेगळे भाग एकमेकांच्या जवळ असलेल्या घटकांच्या साखळीने जोडलेले असतील. या प्रकरणात, अल्गोरिदमच्या प्रत्येक पायरीवरील दोन क्लस्टरमधील अंतर या दोन क्लस्टरमधील दोन जवळच्या घटकांमधील अंतराच्या बरोबरीचे होते.

बर्‍याचदा असे मानले जाते की गटबद्ध घटकांमधील प्रारंभिक अंतर (फरक) दिले जातात. काही प्रकरणांमध्ये, हे खरे आहे. तथापि, केवळ वस्तू आणि त्यांची वैशिष्ट्ये निर्दिष्ट केली आहेत आणि या डेटावर आधारित अंतर मॅट्रिक्स तयार केले आहे. वस्तूंमधील अंतर किंवा वस्तूंच्या वैशिष्ट्यांमधील अंतर मोजले जाते की नाही यावर अवलंबून, वेगवेगळ्या पद्धती वापरल्या जातात.

वस्तूंच्या क्लस्टर विश्लेषणाच्या बाबतीत, फरकाचे सर्वात सामान्य माप म्हणजे एकतर युक्लिडियन अंतराचा वर्ग

(कुठे x ih, x jh- मूल्ये hसाठी -व्या चिन्ह iव्या आणि j-व्या वस्तू आणि मीवैशिष्ट्यांची संख्या आहे), किंवा युक्लिडियन अंतर स्वतःच. वैशिष्ट्यांना भिन्न वजने नियुक्त केल्यास, अंतर मोजताना ही वजने विचारात घेतली जाऊ शकतात

कधीकधी, फरक मोजण्यासाठी, अंतर वापरले जाते, सूत्रानुसार गणना केली जाते:

ज्याला म्हणतात: "हॅमिंग", "मॅनहॅटन" किंवा "सिटी-ब्लॉक" अंतर.

अनेक समस्यांमधील वस्तूंच्या वैशिष्ट्यांमधील समानतेचे नैसर्गिक माप म्हणजे त्यांच्यातील परस्परसंबंध गुणांक

कुठे मी मी, मी जे,dमी,d j- अनुक्रमे, वैशिष्ट्यांसाठी सरासरी आणि मानक विचलन iआणि j. वैशिष्ट्यांमधील फरकाचे मोजमाप मूल्य असू शकते 1-आर. काही समस्यांमध्ये, सहसंबंध गुणांकाचे चिन्ह क्षुल्लक असते आणि ते केवळ मोजमापाच्या युनिटच्या निवडीवर अवलंबून असते. या प्रकरणात, वैशिष्ट्यांमधील फरक मोजण्यासाठी, ô 1-r i j ô

4. क्लस्टर्सची संख्या

क्लस्टरची आवश्यक संख्या निवडण्याची समस्या ही एक अतिशय महत्त्वाची समस्या आहे. कधीकधी m क्लस्टर्सची संख्या प्राधान्याने निवडली जाऊ शकते. तथापि, सामान्य बाबतीत, ही संख्या क्लस्टर्समध्ये सेट विभाजित करण्याच्या प्रक्रियेत निर्धारित केली जाते.

फोर्टियर आणि सॉलोमन यांनी अभ्यास केला आणि असे आढळून आले की संभाव्यता साध्य करण्यासाठी क्लस्टर्सची संख्या घेणे आवश्यक आहे. a सर्वोत्तम विभाजन शोधत आहे. अशा प्रकारे, विभाजनांची इष्टतम संख्या हे दिलेल्या अपूर्णांकाचे कार्य आहे b सर्वोत्कृष्ट किंवा, काही अर्थाने, सर्व संभाव्य भागांच्या संचामध्ये स्वीकार्य विभाजने. एकूण विखुरणे जितके मोठे असेल तितके अपूर्णांक जास्त असेल b स्वीकार्य विभाजन. फोर्टियर आणि सॉलोमन यांनी एक तक्ता विकसित केला ज्यावरून आवश्यक विभाजनांची संख्या शोधता येईल. एस(a , b ) वर अवलंबून आहे a आणि b (कुठे a सर्वोत्तम विभाजन सापडण्याची शक्यता आहे, b विभाजनांच्या एकूण संख्येतील सर्वोत्तम विभाजनांचा वाटा आहे) शिवाय, विषमतेचे मोजमाप म्हणून, विखुरण्याचे माप वापरले जात नाही, तर होल्जेंगर आणि हरमन यांनी सादर केलेले सदस्यत्व मोजमाप वापरले जाते. मूल्यांची सारणी एस(a , b ) खाली

मूल्यांची सारणीएस(a , b )

b \ a

0.20

0.10

0.05

0.01

0.001

0.0001

0.20

8

11

14

21

31

42

0.10

16

22

29

44

66

88

0.05

32

45

59

90

135

180

0.01

161

230

299

459

689

918

0.001

1626

2326

3026

4652

6977

9303

0.0001

17475

25000

32526

55000

75000

100000

बर्‍याचदा, एकत्रित करण्याचा निकष (क्लस्टरची संख्या) संबंधित कार्यातील बदल आहे. उदाहरणार्थ, वर्ग विचलनांची बेरीज:

गटीकरण प्रक्रिया येथे निकषाच्या मूल्यातील अनुक्रमिक किमान वाढीशी संबंधित असणे आवश्यक आहे . मूल्य मध्ये एक तीक्ष्ण उडी उपस्थिती अभ्यासाधीन लोकसंख्येमध्ये वस्तुनिष्ठपणे अस्तित्वात असलेल्या क्लस्टरच्या संख्येचे वैशिष्ट्य म्हणून त्याचा अर्थ लावला जाऊ शकतो.

तर, क्लस्टर्सची सर्वोत्तम संख्या निश्चित करण्याचा दुसरा मार्ग म्हणजे मजबूत जोडलेल्या वस्तूंपासून कमकुवत जोडलेल्या वस्तूंच्या अवस्थेपर्यंत फेज संक्रमणाद्वारे निर्धारित उडी ओळखणे.

5. डेंडोग्राम

अंतर किंवा समानता मॅट्रिक्सचे प्रतिनिधित्व करण्याची सर्वात ज्ञात पद्धत डेंडोग्राम किंवा वृक्ष आकृतीच्या कल्पनेवर आधारित आहे. डेंड्रोग्रामला अनुक्रमिक क्लस्टरिंग प्रक्रियेच्या परिणामांचे ग्राफिक प्रतिनिधित्व म्हणून परिभाषित केले जाऊ शकते, जे अंतर मॅट्रिक्सच्या संदर्भात चालते. डेंडोग्रामच्या मदतीने, क्लस्टरिंग प्रक्रियेचे ग्राफिक किंवा भूमितीय चित्रण करणे शक्य आहे, जर ही प्रक्रिया केवळ अंतर किंवा समानता मॅट्रिक्सच्या घटकांसह कार्य करते.

डेंड्रोग्राम तयार करण्याचे बरेच मार्ग आहेत. डेंड्रोग्राममध्ये, ऑब्जेक्ट्स डाव्या बाजूला अनुलंब स्थित आहेत, क्लस्टरिंग परिणाम उजवीकडे आहेत. नवीन क्लस्टर्सच्या संरचनेशी संबंधित अंतर किंवा समानता मूल्ये डेंड्रोग्रामवर क्षैतिज सरळ रेषेत प्रदर्शित केली जातात.

आकृती क्रं 1

आकृती 1 डेंड्रोग्रामचे एक उदाहरण दाखवते. आकृती 1 सहा वस्तूंच्या केसशी संबंधित आहे ( n=6) आणि kवैशिष्ट्ये (चिन्हे). वस्तू परंतुआणि पासूनसर्वात जवळचे आहेत आणि म्हणून 0.9 च्या समीपतेच्या पातळीवर एका क्लस्टरमध्ये एकत्र केले जातात. वस्तूडीआणि 0.8 च्या पातळीवर एकत्रित. आता आमच्याकडे 4 क्लस्टर आहेत:

(एसी), (एफ), ( डी, ), ( बी) .

आणखी क्लस्टर्स तयार होतात (एसी, एफ) आणि ( , डी, बी) , 0.7 आणि 0.6 च्या समीपतेच्या पातळीशी संबंधित. शेवटी, सर्व वस्तू 0.5 च्या स्तरावर एका क्लस्टरमध्ये गटबद्ध केल्या जातात.

डेंडोग्रामचा प्रकार ऑब्जेक्ट आणि क्लस्टरमधील समानता माप किंवा अंतर आणि क्लस्टरिंग पद्धतीच्या निवडीवर अवलंबून असतो. सर्वात महत्वाचा मुद्दा म्हणजे समानतेचे मोजमाप किंवा ऑब्जेक्ट आणि क्लस्टरमधील अंतर मोजणे.

क्लस्टर विश्लेषण अल्गोरिदमची संख्या खूप मोठी आहे. त्या सर्वांना श्रेणीबद्ध आणि नॉन-हाइरार्किकलमध्ये विभागले जाऊ शकते.

श्रेणीबद्ध अल्गोरिदम डेंडोग्रामच्या बांधकामाशी संबंधित आहेत आणि त्यात विभागलेले आहेत:

a) समुच्चय, प्रारंभिक घटकांच्या सुसंगत संयोजनाद्वारे आणि क्लस्टर्सच्या संख्येत संबंधित घट द्वारे वैशिष्ट्यीकृत;

b) विभाज्य (विभाज्य), ज्यामध्ये क्लस्टर्सची संख्या वाढते, एकापासून सुरू होते, परिणामी विभाजन गटांचा एक क्रम तयार होतो.

क्लस्टर अॅनालिसिस अल्गोरिदममध्ये आज एक चांगली सॉफ्टवेअर अंमलबजावणी आहे जी सर्वोच्च परिमाणातील समस्या सोडविण्यास अनुमती देते.

6. डेटा

क्लस्टर विश्लेषण मध्यांतर डेटा, फ्रिक्वेन्सी, बायनरी डेटावर लागू केले जाऊ शकते. हे महत्त्वाचे आहे की व्हेरिएबल्स तुलनात्मक स्केलवर बदलतात.

मोजमापाच्या युनिट्सची विषमता आणि त्याच स्केलवर विविध निर्देशकांच्या मूल्यांच्या वाजवी अभिव्यक्तीची येणारी अशक्यता या वस्तुस्थितीकडे नेत आहे की बिंदूंमधील अंतर, त्यांच्या गुणधर्मांच्या जागेत वस्तूंचे स्थान प्रतिबिंबित करते. अनियंत्रितपणे निवडलेल्या स्केलवर अवलंबून राहणे. प्रारंभिक डेटाच्या मोजमापाची विषमता दूर करण्यासाठी, त्यांची सर्व मूल्ये प्राथमिकपणे सामान्य केली जातात, म्हणजे. या मूल्यांच्या गुणोत्तराद्वारे विशिष्ट मूल्यापर्यंत व्यक्त केले जाते जे या निर्देशकाचे विशिष्ट गुणधर्म प्रतिबिंबित करते. क्लस्टर विश्लेषणासाठी प्रारंभिक डेटाचे सामान्यीकरण कधीकधी संबंधित निर्देशकांच्या मानक विचलनाद्वारे प्रारंभिक मूल्यांचे विभाजन करून केले जाते. दुसरा मार्ग म्हणजे तथाकथित प्रमाणित योगदानाची गणना करणे. असेही म्हणतात Z-योगदान.

झेड -योगदान दर्शविते की दिलेले निरीक्षण सरासरीपेक्षा किती प्रमाण विचलन वेगळे करते:

कुठे x iया निरीक्षणाचे मूल्य आहे,- सरासरी, एस- प्रमाणित विचलन.

Z साठी सरासरी -योगदान शून्य आहे आणि मानक विचलन 1 आहे.

मानकीकरण विविध वितरणांमधील निरीक्षणांची तुलना करण्यास अनुमती देते. जर व्हेरिएबलचे वितरण सामान्य असेल (किंवा सामान्यच्या जवळ असेल) आणि मध्य आणि भिन्नता मोठ्या नमुन्यांवरून ज्ञात किंवा अंदाजित असेल, तरझेड -निरीक्षण इनपुट त्याच्या स्थानाबद्दल अधिक विशिष्ट माहिती प्रदान करते.

लक्षात घ्या की सामान्यीकरण पद्धतींचा अर्थ विचाराधीन वस्तूंची समानता स्पष्ट करण्याच्या दृष्टिकोनातून सर्व वैशिष्ट्यांना समतुल्य म्हणून ओळखणे होय. हे आधीच लक्षात घेतले आहे की अर्थव्यवस्थेच्या संबंधात, विविध निर्देशकांच्या समतुल्यतेची मान्यता नेहमीच न्याय्य वाटत नाही. वस्तूंमधील समानता आणि फरक स्थापित करताना प्रत्येक निर्देशकाला त्याचे महत्त्व प्रतिबिंबित करणारे वजन सामान्यीकरणासह देणे इष्ट असेल.

या परिस्थितीत, एखाद्याला वैयक्तिक निर्देशकांचे वजन निर्धारित करण्याच्या पद्धतीचा अवलंब करावा लागतो - तज्ञांचे सर्वेक्षण. उदाहरणार्थ, आर्थिक विकासाच्या पातळीनुसार देशांचे वर्गीकरण करण्याच्या समस्येचे निराकरण करताना, आम्ही दहा-बिंदू स्केलवर विकसित देशांच्या समस्यांवरील 40 आघाडीच्या मॉस्को तज्ञांच्या सर्वेक्षणाचे परिणाम वापरले:

सामाजिक-आर्थिक विकासाचे सामान्यीकृत निर्देशक - 9 गुण;

नियोजित लोकसंख्येच्या क्षेत्रीय वितरणाचे निर्देशक - 7 गुण;

भाड्याने घेतलेल्या कामगारांच्या व्याप्तीचे निर्देशक - 6 गुण;

उत्पादक शक्तींच्या मानवी घटकाचे वैशिष्ट्य दर्शविणारे निर्देशक - 6 गुण;

भौतिक उत्पादक शक्तींच्या विकासाचे निर्देशक - 8 गुण;

सार्वजनिक खर्चाचे सूचक - 4 गुण;

"लष्करी-आर्थिक" निर्देशक - 3 गुण;

सामाजिक-जनसांख्यिकीय निर्देशक - 4 गुण.

तज्ञांचे अंदाज तुलनेने स्थिर होते.

निर्देशकांच्या विशिष्ट गटामध्ये समाविष्ट असलेल्या निर्देशकांचे महत्त्व निर्धारित करण्यासाठी तज्ञांचे मूल्यांकन एक सुप्रसिद्ध आधार प्रदान करते. मूल्यमापनाच्या सरासरी स्कोअरशी संबंधित गुणांकाने निर्देशकांची सामान्यीकृत मूल्ये गुणाकार केल्याने त्यांच्या वैशिष्ट्यांचे असमान वजन लक्षात घेऊन, बहुआयामी जागेत देशांची स्थिती प्रतिबिंबित करणाऱ्या बिंदूंमधील अंतरांची गणना करणे शक्य होते.

बर्‍याचदा, अशा समस्यांचे निराकरण करताना, एक नव्हे तर दोन गणना वापरली जातात: पहिली, ज्यामध्ये सर्व चिन्हे समतुल्य मानली जातात, दुसरी, जिथे त्यांना तज्ञांच्या अंदाजांच्या सरासरी मूल्यांनुसार भिन्न वजन दिले जाते.

7. क्लस्टर विश्लेषणाचा वापर

क्लस्टर विश्लेषणाच्या काही अनुप्रयोगांचा विचार करूया.

1. विकासाच्या पातळीनुसार देशांची गटांमध्ये विभागणी.

31 निर्देशकांनुसार 65 देशांचा अभ्यास करण्यात आला (दरडोई राष्ट्रीय उत्पन्न, % मध्ये उद्योगात रोजगार असलेल्या लोकसंख्येचा वाटा, दरडोई बचत, % मध्ये शेतीत रोजगार असलेल्या लोकसंख्येचा वाटा, सरासरी आयुर्मान, प्रति 1 कारची संख्या हजार रहिवासी, प्रति 1 दशलक्ष लोकसंख्येमागे सशस्त्र दलांची संख्या,% मध्ये उद्योगातील GDP चा वाटा,% मध्ये कृषी GDP चा वाटा, इ.)

प्रत्येक देश 31 निर्देशकांच्या विशिष्ट मूल्यांद्वारे वैशिष्ट्यीकृत ऑब्जेक्ट म्हणून या विचारात कार्य करतो. त्यानुसार, ते 31-मितीय जागेत बिंदू म्हणून प्रस्तुत केले जाऊ शकतात. अशा जागेला सामान्यतः अभ्यासाधीन वस्तूंची प्रॉपर्टी स्पेस म्हणतात. या बिंदूंमधील अंतराची तुलना विचाराधीन देशांच्या समीपतेची डिग्री, त्यांची एकमेकांशी समानता दर्शवेल. समानतेच्या या समजुतीचा सामाजिक-आर्थिक अर्थ असा आहे की देश जितके समान मानले जातात तितकेच समान निर्देशकांमधील फरक ज्यांचे वर्णन केले आहे.

अशा विश्लेषणाची पहिली पायरी म्हणजे समानता मॅट्रिक्समध्ये समाविष्ट असलेल्या राष्ट्रीय अर्थव्यवस्थेची जोडी ओळखणे, ज्यामधील अंतर सर्वात लहान आहे. हे स्पष्टपणे सर्वात समान, समान अर्थव्यवस्था असतील. पुढील विचारात, हे दोन्ही देश एकच समूह, एकच क्लस्टर मानले जातात. त्यानुसार, मूळ मॅट्रिक्सचे रूपांतर केले जाते जेणेकरून त्याचे घटक 65 नव्हे तर 64 वस्तू - 63 अर्थव्यवस्था आणि नवीन रूपांतरित क्लस्टर - दोन सर्वात समान देशांचे सशर्त संघटन असलेल्या सर्व संभाव्य जोड्यांमधील अंतर आहेत. युनियनमध्ये समाविष्ट असलेल्या देशांच्या जोडीपासून इतर सर्व देशांमधील अंतरांशी संबंधित पंक्ती आणि स्तंभ मूळ समानता मॅट्रिक्समधून टाकून दिले जातात, परंतु एक पंक्ती आणि स्तंभ जोडले जातात ज्यामध्ये संघ आणि इतर देशांनी मिळवलेल्या क्लस्टरमधील अंतर असते.

नव्याने मिळालेले क्लस्टर आणि देशांमधील अंतर हे नंतरचे आणि नवीन क्लस्टर बनवणाऱ्या दोन देशांमधील अंतरांच्या सरासरीइतके मानले जाते. दुसऱ्या शब्दांत, देशांचा एकत्रित गट त्याच्या घटक देशांच्या वैशिष्ट्यांच्या सरासरीच्या अंदाजे समान वैशिष्ट्यांसह संपूर्ण मानला जातो.

विश्लेषणाची दुसरी पायरी म्हणजे 64 पंक्ती आणि स्तंभांसह अशा प्रकारे बदललेल्या मॅट्रिक्सचा विचार करणे. पुन्हा, अर्थव्यवस्थांची एक जोडी उघडकीस आली आहे, ज्यामधील अंतर कमीत कमी महत्वाचे आहे, आणि ते, पहिल्या प्रकरणात, एकत्र आणले जातात. या प्रकरणात, सर्वात लहान अंतर देशांच्या जोडीमध्ये आणि कोणत्याही देशामध्ये आणि मागील टप्प्यावर प्राप्त झालेल्या देशांच्या संघामध्ये असू शकते.

पुढील प्रक्रिया वर वर्णन केलेल्या प्रमाणेच आहेत: प्रत्येक टप्प्यावर, मॅट्रिक्सचे रूपांतर केले जाते जेणेकरून दोन स्तंभ आणि दोन पंक्ती ज्यामध्ये वस्तूंचे अंतर आहे (देशांच्या जोडी किंवा संघटना - क्लस्टर्स) मागील टप्प्यावर एकत्र आणले जातात. ; वगळलेल्या पंक्ती आणि स्तंभ एका पंक्तीसह एका स्तंभाने बदलले जातात ज्यामध्ये नवीन जोडण्यापासून उर्वरित ऑब्जेक्ट्सपर्यंतचे अंतर असते; पुढे, सुधारित मॅट्रिक्समध्ये, जवळच्या वस्तूंची एक जोडी प्रकट होते. मॅट्रिक्स पूर्ण संपेपर्यंत (म्हणजे सर्व देश एकत्र येईपर्यंत) विश्लेषण चालू राहते. मॅट्रिक्स विश्लेषणाचे सामान्यीकृत परिणाम वर वर्णन केलेल्या समानता वृक्ष (डेंडोग्राम) च्या रूपात प्रस्तुत केले जाऊ शकतात, फक्त फरक आहे की समानता वृक्ष, जे आपण विचारात घेत असलेल्या सर्व 65 देशांच्या सापेक्ष निकटतेचे प्रतिबिंबित करतो. ज्या योजनेत फक्त पाच राष्ट्रीय अर्थव्यवस्था दिसतात त्यापेक्षा खूपच क्लिष्ट. या झाडामध्ये, जुळलेल्या वस्तूंच्या संख्येनुसार, 65 स्तरांचा समावेश आहे. पहिल्या (खालच्या) स्तरामध्ये प्रत्येक देशाशी संबंधित बिंदू स्वतंत्रपणे असतात. दुस-या स्तरावर या दोन बिंदूंचे कनेक्शन राष्ट्रीय अर्थव्यवस्थेच्या सामान्य प्रकाराच्या दृष्टीने सर्वात जवळचे देश दर्शविते. तिसऱ्या स्तरावर, देशांचे पुढील सर्वात समान जोडलेले गुणोत्तर नोंदवले जाते (आधीच नमूद केल्याप्रमाणे, देशांची एक नवीन जोडी किंवा नवीन देश आणि समान देशांची आधीच ओळखलेली जोडी अशा गुणोत्तरामध्ये असू शकते). आणि असेच शेवटच्या स्तरापर्यंत, ज्यावर सर्व अभ्यासलेले देश एकाच संचाप्रमाणे कार्य करतात.

क्लस्टर विश्लेषण लागू केल्यामुळे, देशांचे खालील पाच गट प्राप्त झाले:

आफ्रो-आशियाई गट

लॅटिन-आशियाई गट;

लॅटिन-भूमध्य गट;

विकसित भांडवलशाही देशांचा समूह (यूएसए शिवाय)

यूएस

येथे वापरल्या जाणार्‍या 31 निर्देशकांच्या पलीकडे नवीन संकेतकांचा परिचय, किंवा इतरांद्वारे त्यांची जागा बदलणे, स्वाभाविकपणे देशाच्या वर्गीकरणाच्या निकालांमध्ये बदल घडवून आणते.

2. संस्कृतीच्या समीपतेच्या निकषानुसार देशांची विभागणी.

तुम्हाला माहिती आहेच, मार्केटिंगने देशांची संस्कृती (रिवाज, परंपरा इ.) विचारात घेणे आवश्यक आहे.

देशांचे खालील गट क्लस्टरिंगद्वारे प्राप्त केले गेले:

· अरबी;

मध्य पूर्व

स्कॅन्डिनेव्हियन;

जर्मन भाषिक

· इंग्रजी बोलणारे;

रोमनेस्क युरोपियन;

· लॅटिन अमेरिकन;

अति पूर्व.

3. जस्त बाजाराचा अंदाज विकसित करणे.

कमोडिटी संयोगाच्या आर्थिक आणि गणितीय मॉडेलमध्ये घट करण्याच्या टप्प्यावर क्लस्टर विश्लेषण महत्त्वपूर्ण भूमिका बजावते, आवश्यक अचूकता राखून प्राप्त केलेल्या परिणामांची अधिक संक्षिप्तता सुनिश्चित करून, संगणकीय प्रक्रियेच्या सुलभीकरण आणि सरलीकरणात योगदान देते. क्लस्टर विश्लेषणाच्या वापरामुळे बाजार निर्देशकांचा संपूर्ण प्रारंभिक संच संबंधित निकषांनुसार गटांमध्ये (क्लस्टर) विभाजित करणे शक्य होते, ज्यामुळे सर्वात जास्त प्रतिनिधी निर्देशकांची निवड करणे सुलभ होते.

बाजारातील परिस्थिती मॉडेल करण्यासाठी क्लस्टर विश्लेषणाचा मोठ्या प्रमाणावर वापर केला जातो. व्यवहारात, बहुतेक अंदाज कार्ये क्लस्टर विश्लेषणाच्या वापरावर आधारित असतात.

उदाहरणार्थ, जस्त बाजाराचा अंदाज विकसित करण्याचे कार्य.

सुरुवातीला, जागतिक झिंक मार्केटचे 30 प्रमुख निर्देशक निवडले गेले:

X 1 - वेळ

उत्पादन आकडेवारी:

X 2 - जगात

X 4 - युरोप

X 5 - कॅनडा

X 6 - जपान

X 7 - ऑस्ट्रेलिया

उपभोग निर्देशक:

X 8 - जगात

X 10 - युरोप

X 11 - कॅनडा

X 12 - जपान

X 13 - ऑस्ट्रेलिया

जस्त उत्पादक साठा:

X 14 - जगात

X 16 - युरोप

X 17 - इतर देश

झिंकचा ग्राहक साठा:

X 18 - यूएसए मध्ये

X 19 - इंग्लंडमध्ये

X 10 - जपानमध्ये

झिंक अयस्क आणि कॉन्सन्ट्रेट्सची आयात (हजार टन)

X 21 - यूएसए मध्ये

X 22 - जपानमध्ये

X 23 - जर्मनी मध्ये

झिंक अयस्क आणि कॉन्सन्ट्रेट्सची निर्यात (हजार टन)

X 24 - कॅनडाहून

X 25 - ऑस्ट्रेलियाकडून

जस्त आयात (हजार टन)

X 26 - यूएसए मध्ये

X 27 - इंग्लंडला

X 28 - जर्मनी मध्ये

जस्त निर्यात (हजार टन)

X 29 - कॅनडाहून

X 30 - ऑस्ट्रेलियाकडून

विशिष्ट अवलंबित्व निश्चित करण्यासाठी, सहसंबंध आणि प्रतिगमन विश्लेषणाचे उपकरण वापरले गेले. जोडलेल्या सहसंबंध गुणांकांच्या मॅट्रिक्सच्या आधारे संबंधांचे विश्लेषण केले गेले. येथे, संयुगाच्या विश्लेषित निर्देशकांच्या सामान्य वितरणाची गृहितक स्वीकारली गेली. हे स्पष्ट आहे की r ij हे वापरलेल्या निर्देशकांमधील संबंधांचे एकमेव संभाव्य सूचक नाहीत. या समस्येमध्ये क्लस्टर विश्लेषण वापरण्याची गरज या वस्तुस्थितीमुळे आहे की झिंकच्या किंमतीवर परिणाम करणाऱ्या निर्देशकांची संख्या खूप मोठी आहे. खालीलपैकी अनेक कारणांमुळे ते कमी करणे आवश्यक आहे:

अ) सर्व व्हेरिएबल्ससाठी संपूर्ण सांख्यिकीय डेटाचा अभाव;

b) जेव्हा मॉडेलमध्ये मोठ्या संख्येने व्हेरिएबल्स सादर केले जातात तेव्हा संगणकीय प्रक्रियेची तीक्ष्ण गुंतागुंत;

c) रीग्रेशन विश्लेषण पद्धतींचा इष्टतम वापर व्हेरिएबल्सच्या संख्येपेक्षा निरीक्षण केलेल्या मूल्यांच्या संख्येपेक्षा कमीतकमी 6-8 पट जास्त असणे आवश्यक आहे;

ड) मॉडेलमध्ये सांख्यिकीयदृष्ट्या स्वतंत्र व्हेरिएबल्स वापरण्याची इच्छा इ.

परस्परसंबंध गुणांकांच्या तुलनेने मोठ्या मॅट्रिक्सवर थेट असे विश्लेषण करणे फार कठीण आहे. क्लस्टर विश्लेषणाच्या सहाय्याने, मार्केट व्हेरिएबल्सचा संपूर्ण संच अशा प्रकारे गटांमध्ये विभागला जाऊ शकतो की प्रत्येक क्लस्टरचे घटक एकमेकांशी जोरदारपणे सहसंबंधित असतात आणि भिन्न गटांचे प्रतिनिधी कमकुवत सहसंबंधाने दर्शविले जातात.

या समस्येचे निराकरण करण्यासाठी, एकत्रित श्रेणीबद्ध क्लस्टर विश्लेषण अल्गोरिदमपैकी एक लागू केला गेला. प्रत्येक टप्प्यावर, इष्टतम, एका विशिष्ट अर्थाने, दोन गटांच्या एकत्रीकरणामुळे क्लस्टरची संख्या एकाने कमी होते. सामील होण्याचा निकष म्हणजे संबंधित कार्य बदलणे. याचे कार्य म्हणून, खालील सूत्रांद्वारे गणना केलेल्या वर्ग विचलनाच्या बेरजेची मूल्ये वापरली गेली:

(j = 1, 2, …,मी),

कुठे j- क्लस्टर क्रमांक, n- क्लस्टरमधील घटकांची संख्या.

rij- जोडी सहसंबंध गुणांक.

अशा प्रकारे, गटबद्ध प्रक्रिया निकषाच्या मूल्यातील अनुक्रमिक किमान वाढीशी संबंधित असणे आवश्यक आहे .

पहिल्या टप्प्यावर, प्रारंभिक डेटा अॅरे प्रत्येक एक घटकासह, क्लस्टर्सचा समावेश असलेल्या सेटच्या रूपात सादर केला जातो. समूहीकरण प्रक्रिया अशा जोड्यांच्या क्लस्टरच्या एकत्रीकरणाने सुरू होते, ज्यामुळे वर्ग विचलनाच्या बेरजेमध्ये किमान वाढ होते. यासाठी शक्य असलेल्या प्रत्येकासाठी चौरस विचलनांच्या बेरजेच्या मूल्यांचा अंदाज लावणे आवश्यक आहे क्लस्टर संघटना. पुढील टप्प्यावर, वर्ग विचलनाच्या बेरजेची मूल्ये आधीच विचारात घेतली जातात क्लस्टर इ. ही प्रक्रिया काही टप्प्यावर थांबवली जाईल. हे करण्यासाठी, तुम्हाला वर्ग विचलनाच्या बेरजेचे मूल्य निरीक्षण करणे आवश्यक आहे. वाढत्या मूल्यांचा क्रम लक्षात घेता, त्याच्या गतिशीलतेमध्ये एखादी उडी (एक किंवा अधिक) पकडू शकते, ज्याचा अभ्यास अंतर्गत लोकसंख्येमध्ये अस्तित्वात असलेल्या "उद्दिष्टपणे" गटांच्या संख्येचे वैशिष्ट्य म्हणून अर्थ लावला जाऊ शकतो. वरील उदाहरणामध्ये, जेव्हा क्लस्टर्सची संख्या 7 आणि 5 होती तेव्हा उडी मारल्या गेल्या. पुढे, गटांची संख्या कमी करू नये, कारण यामुळे मॉडेलची गुणवत्ता कमी होते. क्लस्टर्स प्राप्त झाल्यानंतर, आर्थिक अर्थाने सर्वात महत्वाचे आणि निवडलेल्या बाजार निकषांशी सर्वात जवळून संबंधित व्हेरिएबल्स निवडल्या जातात - या प्रकरणात, जस्तसाठी लंडन मेटल एक्सचेंज कोट्ससह. हा दृष्टिकोन आपल्याला संयोगाच्या प्रारंभिक निर्देशकांच्या मूळ संचामध्ये असलेल्या माहितीचा महत्त्वपूर्ण भाग जतन करण्यास अनुमती देतो.

सांख्यिकीमध्ये क्लस्टर विश्लेषणाचे दोन मुख्य प्रकार आहेत (दोन्ही SPSS मध्ये दर्शविलेले): श्रेणीबद्ध आणि k-means. पहिल्या प्रकरणात, स्वयंचलित सांख्यिकी प्रक्रिया स्वतंत्रपणे क्लस्टरची इष्टतम संख्या आणि क्लस्टरिंगसाठी आवश्यक असलेल्या इतर पॅरामीटर्सची संख्या निर्धारित करते.

विश्लेषण दुसर्‍या प्रकारच्या विश्लेषणास व्यावहारिक लागू होण्याच्या महत्त्वपूर्ण मर्यादा आहेत - त्यासाठी स्वतंत्रपणे वाटप केलेल्या क्लस्टरची अचूक संख्या आणि प्रत्येक क्लस्टरच्या केंद्रांची प्रारंभिक मूल्ये (सेंट्रोइड्स) आणि काही इतर आकडेवारी निर्धारित करणे आवश्यक आहे. k-means पद्धतीद्वारे विश्लेषण करताना, प्राथमिक श्रेणीबद्ध क्लस्टर विश्लेषण करून या समस्यांचे निराकरण केले जाते आणि नंतर, त्याच्या परिणामांवर आधारित, k-means पद्धतीचा वापर करून क्लस्टर मॉडेलची गणना केली जाते, जी बहुतेक प्रकरणांमध्ये केवळ सोपी होत नाही, परंतु , त्याउलट, संशोधकाचे काम (विशेषत: अप्रस्तुत) गुंतागुंतीचे होते.

सर्वसाधारणपणे, आम्ही असे म्हणू शकतो की संगणक हार्डवेअर संसाधनांवर श्रेणीबद्ध क्लस्टर विश्लेषणाची खूप मागणी आहे या वस्तुस्थितीमुळे, के-मीन्स क्लस्टर विश्लेषण SPSS मध्ये अनेक हजारो निरीक्षणे (प्रतिसाददार) असलेल्या बर्याच मोठ्या डेटा संचांवर प्रक्रिया करण्यासाठी सादर केले गेले. संगणक उपकरणांची अपुरी क्षमता 1. बहुतेक प्रकरणांमध्ये विपणन संशोधनात वापरलेले नमुने आकार चार हजार उत्तरदात्यांपेक्षा जास्त नसतात. विपणन संशोधनाचा सराव दर्शवितो की हा क्लस्टर विश्लेषणाचा पहिला प्रकार आहे - श्रेणीबद्ध - जो सर्व प्रकरणांमध्ये सर्वात संबंधित, सार्वत्रिक आणि अचूक म्हणून वापरण्याची शिफारस केली जाते. त्याच वेळी, क्लस्टर विश्लेषण आयोजित करताना संबंधित व्हेरिएबल्सची निवड महत्वाची आहे यावर जोर दिला पाहिजे. ही टिप्पणी खूप महत्त्वाची आहे, कारण विश्लेषणामध्ये अनेक किंवा अगदी एक असंबद्ध व्हेरिएबल समाविष्ट केल्यामुळे संपूर्ण सांख्यिकीय प्रक्रिया अयशस्वी होऊ शकते.

आम्ही मार्केटिंग संशोधनाच्या सरावातून खालील उदाहरण वापरून क्लस्टर विश्लेषण आयोजित करण्याच्या पद्धतीचे वर्णन करू.

प्रारंभिक डेटा:

अभ्यासादरम्यान, 22 रशियन आणि परदेशी विमान कंपन्यांपैकी एकासह उड्डाण करणाऱ्या 745 हवाई प्रवाशांची मुलाखत घेण्यात आली. हवाई प्रवाशांना चेक-इन प्रक्रियेदरम्यान एअरलाइन ग्राउंड स्टाफच्या कामगिरीचे सात पैलू 1 (अतिशय गरीब) ते 5 (उत्कृष्ट) असे पाच-बिंदू स्केलवर रेट करण्यास सांगितले होते: सौजन्य, व्यावसायिकता, तत्परता, मदत करण्याची इच्छा, रांगेचे व्यवस्थापन, देखावा, सर्वसाधारणपणे काम करणारे कर्मचारी.

आवश्यक:

हवाई प्रवाशांना समजलेल्या जमिनीवरील कर्मचार्‍यांच्या कामाच्या गुणवत्तेनुसार अभ्यास केलेल्या एअरलाइन्सचे विभाजन करा.

तर, आमच्याकडे डेटा फाइल आहे, ज्यामध्ये सात इंटरव्हल व्हेरिएबल्स आहेत जे विविध एअरलाइन्सच्या (ql3-ql9) ग्राउंड कर्मचार्‍यांच्या कामगिरीचे रेटिंग दर्शवितात, जे एकाच पाच-बिंदू स्केलवर सादर केले जातात. डेटा फाइलमध्ये एकल व्हेरिएबल q4 आहे जो प्रतिसादकर्त्यांनी निवडलेल्या एअरलाइन्स दर्शवतो (एकूण 22). चला क्लस्टर विश्लेषण करू आणि एअरलाइन डेटा कोणत्या लक्ष्य गटांमध्ये विभागला जाऊ शकतो हे निर्धारित करू.

श्रेणीबद्ध क्लस्टर विश्लेषण दोन टप्प्यात केले जाते. पहिल्या टप्प्याचा परिणाम म्हणजे क्लस्टर्सची संख्या (लक्ष्य विभाग) ज्यामध्ये प्रतिसादकर्त्यांचा अभ्यास केलेला नमुना विभागला गेला पाहिजे. क्लस्टर विश्लेषण प्रक्रिया तशी नाही

क्लस्टर्सची इष्टतम संख्या स्वतंत्रपणे निर्धारित करू शकते. ती फक्त इच्छित संख्या सुचवू शकते. सेगमेंट्सची इष्टतम संख्या निश्चित करण्याची समस्या ही एक महत्त्वाची समस्या असल्याने, हे सहसा विश्लेषणाच्या वेगळ्या टप्प्यावर सोडवले जाते. दुसऱ्या टप्प्यावर, विश्लेषणाच्या पहिल्या टप्प्यात निर्धारित केलेल्या क्लस्टरच्या संख्येनुसार निरीक्षणांचे वास्तविक क्लस्टरिंग केले जाते. आता या क्लस्टर विश्लेषण पायऱ्या क्रमाने पाहू.

विश्लेषण > वर्गीकरण > श्रेणीबद्ध क्लस्टर मेनू वापरून क्लस्टर विश्लेषण प्रक्रिया सुरू केली आहे. उघडलेल्या डायलॉग बॉक्समध्ये, डेटा फाइलमध्ये उपलब्ध असलेल्या सर्व व्हेरिएबल्सच्या डाव्या सूचीमधून, विभागणी निकष असलेले व्हेरिएबल्स निवडा. आमच्या बाबतीत, त्यापैकी सात आहेत आणि ते ग्राउंड कर्मचार्‍यांच्या कामाच्या पॅरामीटर्सचे अंदाज दर्शवितात ql3-ql9 (Fig. 5.44). तत्वतः, क्लस्टर विश्लेषणाचा पहिला टप्पा पार पाडण्यासाठी विभाजन निकषांचा संच निर्दिष्ट करणे पुरेसे असेल.

तांदूळ. ५.४४.

डीफॉल्टनुसार, क्लस्टर्सच्या निर्मितीच्या परिणामांसह टेबल व्यतिरिक्त, ज्याच्या आधारावर आम्ही त्यांची इष्टतम संख्या निश्चित करू, एसपीएसएस एक विशेष इनव्हर्टेड हिस्टोग्राम आइसिकल देखील प्रदर्शित करते, जे प्रोग्रामच्या निर्मात्यांच्या हेतूनुसार. , क्लस्टर्सची इष्टतम संख्या निर्धारित करण्यात मदत करते; प्लॉट्स बटण (चित्र 5.45) वापरून आकृत्या प्रदर्शित केल्या जातात. तथापि, आम्ही हा पर्याय सेट सोडल्यास, आम्ही अगदी तुलनेने लहान डेटा फाइलवर प्रक्रिया करण्यात बराच वेळ घालवू. icicle व्यतिरिक्त, प्लॉट विंडोमध्ये एक वेगवान डेंडोग्राम बार चार्ट निवडला जाऊ शकतो. क्लस्टर निर्मितीची प्रक्रिया परावर्तित करणारे हे क्षैतिज पट्ट्या आहेत. सैद्धांतिकदृष्ट्या, अल्प (50-100 पर्यंत) प्रतिसादकर्त्यांच्या संख्येसह, हा आकृती क्लस्टरच्या आवश्यक संख्येच्या संदर्भात इष्टतम उपाय निवडण्यात खरोखर मदत करतो. तथापि, विपणन संशोधनातील जवळजवळ सर्व उदाहरणांमध्ये, नमुना आकार या मूल्यापेक्षा जास्त आहे. डेंडोग्राम पूर्णपणे निरुपयोगी बनतो, कारण तुलनेने कमी संख्येने निरीक्षणे असतानाही हा मूळ डेटा फाईलच्या रेषेचा खूप मोठा क्रम आहे, आडव्या आणि उभ्या रेषांनी जोडलेला आहे. बहुतेक SPSS पाठ्यपुस्तकांमध्ये अशा कृत्रिम, लहान नमुन्यांवरील क्लस्टर विश्लेषणाची उदाहरणे असतात. या ट्यूटोरियलमध्ये, आम्ही तुम्हाला व्यावहारिक सेटिंग आणि वास्तविक बाजार संशोधन उदाहरणांमध्ये SPSS चा जास्तीत जास्त फायदा कसा मिळवायचा ते दाखवतो.

तांदूळ. ५.४५.

आम्ही स्थापित केल्याप्रमाणे, Icicle किंवा Dendogram दोन्ही व्यावहारिक हेतूंसाठी योग्य नाहीत. म्हणून, श्रेणीबद्ध क्लस्टर विश्लेषणाच्या मुख्य संवाद बॉक्समध्ये, चित्रात दाखवल्याप्रमाणे, डिस्प्ले क्षेत्रामध्ये डिफॉल्ट प्लॉट्स पर्यायाची निवड रद्द करून चार्ट प्रदर्शित न करण्याची शिफारस केली जाते. ५.४४. आता क्लस्टर विश्लेषणाचा पहिला टप्पा पार पाडण्यासाठी सर्व काही तयार आहे. ओके बटणावर क्लिक करून प्रक्रिया सुरू करा.

काही काळानंतर, परिणाम SPSS व्ह्यूअर विंडोमध्ये दिसून येतील. वर नमूद केल्याप्रमाणे, विश्लेषणाच्या पहिल्या टप्प्याचा एकमात्र परिणाम जो आमच्यासाठी महत्त्वपूर्ण आहे, तो सरासरी लिंकेज (गटांमधील) सारणी असेल, जो अंजीर मध्ये दर्शविला आहे. ५.४६. या सारणीच्या आधारे, आपण क्लस्टरची इष्टतम संख्या निश्चित केली पाहिजे. हे नोंद घ्यावे की क्लस्टरची इष्टतम संख्या निश्चित करण्यासाठी कोणतीही एकच सार्वत्रिक पद्धत नाही. प्रत्येक बाबतीत, संशोधकाने ही संख्या स्वतः निश्चित केली पाहिजे.

अनुभवाच्या आधारे, लेखक या प्रक्रियेची खालील योजना प्रस्तावित करतो. सर्व प्रथम, क्लस्टर्सची संख्या निर्धारित करण्यासाठी सर्वात सामान्य मानक पद्धत लागू करण्याचा प्रयत्न करूया. टेबल अॅव्हरेज लिंकेज (गटांमधील) वापरून, क्लस्टर तयार करण्याच्या प्रक्रियेच्या कोणत्या टप्प्यावर (स्तंभ स्टेज) एकत्रित गुणांकात प्रथम तुलनेने मोठी उडी येते (स्तंभ गुणांक) हे निर्धारित करणे आवश्यक आहे. या उडीचा अर्थ असा आहे की त्यापूर्वी, एकमेकांपासून अगदी कमी अंतरावर असलेली निरीक्षणे क्लस्टर्समध्ये एकत्रित केली गेली होती (आमच्या बाबतीत, विश्लेषण केलेल्या पॅरामीटर्सच्या संदर्भात समान पातळीचे मूल्यांकन असलेले प्रतिसादकर्ते), आणि या टप्प्यापासून सुरू होऊन, अधिक दूरची निरीक्षणे. एकत्रित आहेत.

आमच्या बाबतीत, गुणांक सहजतेने 0 ते 7.452 पर्यंत वाढतात, म्हणजेच, पहिल्या ते 728 पर्यंतच्या चरणांमधील गुणांकांमधील फरक लहान होता (उदाहरणार्थ, 728 आणि 727 चरणांमध्ये - 0.534). 729 व्या पायरीपासून प्रारंभ करून, गुणांकातील पहिली महत्त्वपूर्ण उडी येते: 7.452 ते 10.364 (2.912 ने). गुणांक प्रथमच ज्या पायरीवर उडी मारतो तो 729 आहे. आता, क्लस्टर्सची इष्टतम संख्या निश्चित करण्यासाठी, एकूण निरीक्षणांच्या संख्येतून (नमुना आकार) प्राप्त मूल्य वजा करणे आवश्यक आहे. आमच्या बाबतीत एकूण नमुना आकार 745 लोक आहे; म्हणून, क्लस्टरची इष्टतम संख्या 745-729 = 16 आहे.


तांदूळ. ५.४६.

आम्हाला बर्‍यापैकी मोठ्या संख्येने क्लस्टर मिळाले आहेत, ज्याचा भविष्यात अर्थ लावणे कठीण होईल. म्हणून, आता प्राप्त केलेल्या क्लस्टर्सचे परीक्षण करणे आणि त्यापैकी कोणते महत्त्वपूर्ण आहेत हे निर्धारित करणे आवश्यक आहे आणि कोणते कमी करण्याचा प्रयत्न केला पाहिजे. क्लस्टर विश्लेषणाच्या दुसऱ्या टप्प्यावर ही समस्या सोडवली जाते.

क्लस्टर विश्लेषण प्रक्रियेचा मुख्य संवाद बॉक्स उघडा (मेनू विश्लेषण > वर्गीकरण > श्रेणीबद्ध क्लस्टर). विश्लेषित व्हेरिएबल्सच्या फील्डमध्ये, आमच्याकडे आधीपासूनच सात पॅरामीटर्स आहेत. सेव्ह बटणावर क्लिक करा. उघडणारा डायलॉग बॉक्स (Fig. 5.47) तुम्हाला स्त्रोत डेटा फाइलमध्ये एक नवीन व्हेरिएबल तयार करण्यास अनुमती देतो जो प्रतिसादकर्त्यांना लक्ष्य गटांमध्ये वितरीत करतो. सिंगल सोल्यूशन पर्याय निवडा आणि संबंधित फील्डमध्ये क्लस्टरची आवश्यक संख्या निर्दिष्ट करा - 16 (क्लस्टर विश्लेषणाच्या पहिल्या टप्प्यावर निर्धारित). सुरू ठेवा बटणावर क्लिक केल्याने तुम्हाला मुख्य डायलॉग बॉक्समध्ये परत येईल, जिथे तुम्ही क्लस्टर विश्लेषण प्रक्रिया सुरू करण्यासाठी ओके बटण क्लिक करू शकता.

क्लस्टर विश्लेषण प्रक्रियेचे वर्णन सुरू ठेवण्यापूर्वी, इतर पॅरामीटर्सचे थोडक्यात वर्णन करणे आवश्यक आहे. त्यापैकी उपयुक्त वैशिष्ट्ये आणि प्रत्यक्षात अनावश्यक (व्यावहारिक विपणन संशोधनाच्या दृष्टिकोनातून) दोन्ही आहेत. उदाहरणार्थ, मुख्य श्रेणीबद्ध क्लस्टर अॅनालिसिस डायलॉग बॉक्समध्ये फील्डनुसार लेबल केस असतात, ज्यामध्ये तुम्ही पर्यायीपणे प्रतिसादकर्त्यांना ओळखणारा मजकूर व्हेरिएबल ठेवू शकता. आमच्या बाबतीत, q4 व्हेरिएबल, जे प्रतिसादकर्त्यांनी निवडलेल्या एअरलाइन्सना एन्कोड करते, या उद्देशांसाठी सेवा देऊ शकते. प्रॅक्टिसमध्ये, फील्डनुसार लेबल केसेसच्या वापरासाठी तर्कसंगत स्पष्टीकरण मिळणे कठीण आहे, म्हणून तुम्ही ते नेहमी रिकामे ठेवू शकता.

तांदूळ. ५.४७.

क्वचितच, क्लस्टर विश्लेषण करताना, सांख्यिकी डायलॉग बॉक्स वापरला जातो, ज्याला मुख्य डायलॉग बॉक्समधील त्याच नावाच्या बटणाने कॉल केला जातो. हे तुम्हाला SPSS व्ह्यूअर विंडोमध्ये क्लस्टर मेंबरशिप टेबल प्रदर्शित करण्यास अनुमती देते, ज्यामध्ये स्त्रोत डेटा फाइलमधील प्रत्येक प्रतिसादकर्त्याला क्लस्टर नंबरवर मॅप केले जाते. पुरेशा मोठ्या संख्येने प्रतिसादकर्त्यांसह (मार्केटिंग संशोधनाच्या जवळजवळ सर्व उदाहरणांमध्ये), ही सारणी पूर्णपणे निरुपयोगी ठरते, कारण ती "प्रतिसादक संख्या / क्लस्टर क्रमांक" मूल्यांच्या जोड्यांचा एक दीर्घ क्रम आहे, ज्याचा या स्वरूपात अर्थ लावला जाऊ शकत नाही. . क्लस्टर विश्लेषणाचे तांत्रिक उद्दिष्ट नेहमी डेटा फाइलमध्ये अतिरिक्त व्हेरिएबल तयार करणे हे असते जे लक्ष्य गटांमध्ये उत्तरदात्यांचे विभाजन प्रतिबिंबित करते (मुख्य क्लस्टर विश्लेषण डायलॉग बॉक्समधील सेव्ह बटणावर क्लिक करून). हे व्हेरिएबल, प्रतिसादकर्त्यांच्या संख्येसह, क्लस्टर मेंबरशिप टेबल आहे. सांख्यिकी विंडोमधील एकमेव व्यावहारिक पर्याय म्हणजे सरासरी लिंकेज (गटांमधील) सारणी प्रदर्शित करणे, परंतु हे आधीच डीफॉल्टनुसार सेट केलेले आहे. अशा प्रकारे, सांख्यिकी बटण वापरणे आणि SPSS व्ह्यूअर विंडोमध्ये स्वतंत्र क्लस्टर मेंबरशिप टेबल प्रदर्शित करणे व्यावहारिक नाही.

प्लॉट बटण आधीच वर नमूद केले गेले आहे: मुख्य क्लस्टर विश्लेषण डायलॉग बॉक्समधील प्लॉट पॅरामीटरची निवड रद्द करून ते निष्क्रिय केले जावे.

क्लस्टर विश्लेषण प्रक्रियेच्या या क्वचित वापरल्या जाणार्‍या वैशिष्ट्यांव्यतिरिक्त, SPSS काही अतिशय उपयुक्त पर्याय देखील ऑफर करते. त्यापैकी, सर्व प्रथम, सेव्ह बटण, जे तुम्हाला स्त्रोत डेटा फाइलमध्ये एक नवीन व्हेरिएबल तयार करण्यास अनुमती देते जे प्रतिसादकर्त्यांना क्लस्टरमध्ये वितरीत करते. तसेच मुख्य डायलॉग बॉक्समध्ये क्लस्टरिंगचे ऑब्जेक्ट निवडण्यासाठी एक क्षेत्र आहे: प्रतिसादकर्ते किंवा चल. या शक्यतेची वर कलम 5.4 मध्ये चर्चा केली आहे. पहिल्या प्रकरणात, क्लस्टर विश्लेषण मुख्यतः काही निकषांनुसार उत्तरदात्यांचे विभाजन करण्यासाठी वापरले जाते; दुसऱ्यामध्ये, क्लस्टर विश्लेषणाचा उद्देश घटक विश्लेषणासारखाच आहे: व्हेरिएबल्सचे वर्गीकरण (संख्या कमी करणे).

अंजीर पासून पाहिले जाऊ शकते. 5.44, सांख्यिकीय प्रक्रिया पद्धत आयोजित करण्याची पद्धत निवडण्यासाठी बटण म्हणजे क्लस्टर विश्लेषणाची एकमेव शक्यता विचारात घेतली जात नाही. या पॅरामीटरसह प्रयोग केल्याने तुम्हाला क्लस्टरची इष्टतम संख्या निश्चित करण्यात अधिक अचूकता प्राप्त होऊ शकते. डीफॉल्ट सेटिंग्जसह या डायलॉग बॉक्सचे सामान्य दृश्य अंजीर मध्ये दर्शविले आहे. ५.४८.

तांदूळ. ५.४८.

या विंडोमध्ये सेट केलेली पहिली गोष्ट म्हणजे क्लस्टर्स बनवण्याची पद्धत (म्हणजे निरीक्षणे एकत्र करणे). SPSS द्वारे ऑफर केलेल्या सांख्यिकीय पद्धतींसाठी सर्व संभाव्य पर्यायांपैकी, तुम्ही एकतर डीफॉल्ट बिट्वीन-ग्रुप लिंकेज पद्धत किंवा वॉर्ड (वॉर्ड" पद्धत) निवडावी. पहिली पद्धत तिच्या अष्टपैलुत्वामुळे आणि सापेक्ष साधेपणामुळे अधिक वेळा वापरली जाते. सांख्यिकीय प्रक्रिया ज्यावर ती आधारित आहे. या पद्धतीचा वापर करून, क्लस्टरमधील अंतर सर्व संभाव्य जोड्यांमधील अंतरांची सरासरी म्हणून मोजले जाते, प्रत्येक पुनरावृत्तीमध्ये एका क्लस्टरमधून एक निरीक्षण आणि दुसर्‍या क्लस्टरमधून दुसरे निरीक्षण समाविष्ट असते. सैद्धांतिकदृष्ट्या संभाव्य जोड्या निरीक्षणे. प्रभाग पद्धत समजणे अधिक कठीण आहे आणि सामान्यतः कमी वापरली जाते. यामध्ये अनेक टप्प्यांचा समावेश आहे आणि प्रत्येक निरीक्षणासाठी सर्व चलांच्या मूल्यांची सरासरी काढणे आणि नंतर गणना केलेल्या सरासरीपासून प्रत्येक निरीक्षणापर्यंत वर्ग अंतरांची बेरीज करणे यावर आधारित आहे. व्यावहारिक हेतू, विपणन नवीन संशोधनासाठी, आम्ही शिफारस करतो की तुम्ही नेहमी डीफॉल्ट बिटवीन-ग्रुप लिंकेज पद्धत वापरा.

सांख्यिकीय क्लस्टरिंग प्रक्रिया निवडल्यानंतर, निरीक्षणांमधील अंतर मोजण्यासाठी एक पद्धत निवडा (पद्धत संवाद बॉक्समध्ये क्षेत्र मोजा). क्लस्टर विश्लेषण (विभाजन निकष) मध्ये समाविष्ट असलेल्या तीन प्रकारच्या चलांसाठी अंतर निर्धारित करण्यासाठी भिन्न पद्धती आहेत. या चलांमध्ये मध्यांतर (मध्यांतर), नाममात्र (गणना) किंवा द्विशताब्दी (बायनरी) स्केल असू शकतात. द्विशताब्दी स्केल (बायनरी) फक्त व्हेरिएबल्स सूचित करते जे एखाद्या घटनेची घटना / गैर-घटना (खरेदी केलेले / विकत घेतले नाही, होय / नाही इ.) प्रतिबिंबित करतात. इतर प्रकारचे द्विभाज्य चल (उदाहरणार्थ, पुरुष/स्त्री) विचारात घेतले पाहिजेत आणि नाममात्र (गणना) म्हणून त्यांचे विश्लेषण केले पाहिजे.

इंटरव्हल व्हेरिएबल्ससाठी अंतर निर्धारित करण्यासाठी सर्वात सामान्यपणे वापरली जाणारी पद्धत ही डीफॉल्ट स्क्वेअर युक्लिडियन अंतर आहे. हीच पद्धत आहे ज्याने स्वतःला विपणन संशोधनात सर्वात अचूक आणि सार्वत्रिक म्हणून सिद्ध केले आहे. तथापि, dichotomous variables साठी जेथे निरीक्षणे केवळ दोन मूल्यांद्वारे दर्शविली जातात (उदाहरणार्थ, 0 आणि 1), ही पद्धत योग्य नाही. मुद्दा असा आहे की ते केवळ प्रकाराच्या निरीक्षणांमधील परस्परसंवाद लक्षात घेते: X = 1,Y = 0 आणि X = 0, Y=l (जेथे X आणि Y व्हेरिएबल्स आहेत) आणि इतर प्रकारच्या परस्परसंवादांचा विचार करत नाही. अंतराचे सर्वात व्यापक माप, दोन द्विभाजक चलांमधील सर्व महत्त्वाच्या परस्परसंवादांचा विचार करून, लॅम्बडा पद्धत आहे. आम्ही ही पद्धत त्याच्या अष्टपैलुत्वामुळे वापरण्याची शिफारस करतो. तथापि, इतर पद्धती आहेत, जसे की शेप, हॅमन किंवा अँडरबर्गचे डी.

डायकोटोमस व्हेरिएबल्ससाठी अंतर निर्धारित करण्याची पद्धत निर्दिष्ट करताना, संबंधित फील्डमध्ये विशिष्ट मूल्ये सूचित करणे आवश्यक आहे जे अभ्यासलेले द्विभाजक व्हेरिएबल्स घेऊ शकतात: सध्याच्या फील्डमध्ये - उत्तर एन्कोडिंग होय, आणि अनुपस्थित फील्डमध्ये - नाही . उपस्थित आणि अनुपस्थित फील्डची नावे या वस्तुस्थितीशी निगडीत आहेत की बायनरी पद्धती गटामध्ये केवळ द्विभाजक व्हेरिएबल्स वापरणे अपेक्षित आहे जे एखाद्या घटनेची घटना / गैर-घटना प्रतिबिंबित करतात. इंटरव्हल आणि बायनरी या दोन प्रकारच्या चलांसाठी, अंतर ठरवण्यासाठी अनेक पद्धती आहेत. नाममात्र स्केल प्रकारासह व्हेरिएबल्ससाठी, SPSS फक्त दोन पद्धती ऑफर करते: (ची-स्क्वेअर मापन) आणि (फाय-स्क्वेअर माप). आम्ही सर्वात सामान्य म्हणून पहिली पद्धत वापरण्याची शिफारस करतो.

मेथड डायलॉगमध्ये ट्रान्सफॉर्म व्हॅल्यूज एरिया आहे ज्यामध्ये स्टँडर्डाइज फील्ड आहे. जेव्हा भिन्न स्केल प्रकार (उदाहरणार्थ, मध्यांतर आणि नाममात्र) क्लस्टर विश्लेषणामध्ये भाग घेतात तेव्हा हे फील्ड वापरले जाते. क्लस्टर विश्लेषणामध्ये या व्हेरिएबल्सचा वापर करण्यासाठी, मानकीकरण करणे आवश्यक आहे, त्यांना एकाच प्रकारच्या स्केल - मध्यांतराकडे नेणे आवश्यक आहे. व्हेरिएबल स्टँडर्डायझेशनची सर्वात सामान्य पद्धत म्हणजे 2-मानकीकरण (Zscores): सर्व व्हेरिएबल्स -3 ते +3 पर्यंत मूल्यांच्या एका श्रेणीत कमी केले जातात आणि परिवर्तनानंतर मध्यांतर होते.

सर्व इष्टतम पद्धती (क्लस्टरिंग आणि अंतर निर्धार) डीफॉल्टनुसार सेट केल्या जात असल्याने, विश्लेषण करण्यासाठी व्हेरिएबल्सचा प्रकार निर्दिष्ट करण्यासाठी, तसेच व्हेरिएबल्सचे 2-मानकीकरण करण्याची आवश्यकता सूचित करण्यासाठी पद्धत डायलॉग बॉक्स वापरण्याचा सल्ला दिला जातो.

म्हणून, आम्ही क्लस्टर विश्लेषणासाठी SPSS द्वारे प्रदान केलेल्या सर्व मुख्य वैशिष्ट्यांचे वर्णन केले आहे. एअरलाइन्सचे विभाजन करण्याच्या उद्देशाने केलेल्या क्लस्टर विश्लेषणाच्या वर्णनाकडे परत जाऊ या. आठवते की आम्ही सोळा-क्लस्टर सोल्यूशनवर सेटल झालो आणि मूळ डेटा फाइलमध्ये एक नवीन व्हेरिएबल clul6_l तयार केला, सर्व विश्लेषित एअरलाइन्स क्लस्टरमध्ये वितरीत केले.

आम्ही क्लस्टर्सची इष्टतम संख्या किती योग्यरित्या निर्धारित केली आहे हे स्थापित करण्यासाठी, आम्ही clul6_l व्हेरिएबलचे एक रेषीय वितरण तयार करू (मेनू विश्लेषण > वर्णनात्मक आकडेवारी > फ्रिक्वेन्सी). अंजीर मध्ये पाहिल्याप्रमाणे. 5.49, 5-16 क्रमांकाच्या क्लस्टर्समध्ये, उत्तरदात्यांची संख्या 1 ते 7 पर्यंत असते. क्लस्टरची इष्टतम संख्या निश्चित करण्यासाठी वर वर्णन केलेल्या सार्वत्रिक पद्धतीसह (उत्तरदात्यांची एकूण संख्या आणि पहिल्या उडीमधील फरकावर आधारित एकत्रीकरण गुणांक), एक अतिरिक्त शिफारस देखील आहे: क्लस्टर्सचा आकार सांख्यिकीयदृष्ट्या अर्थपूर्ण आणि व्यावहारिक असावा. आमच्या नमुन्याच्या आकारासह, असे गंभीर मूल्य किमान 10 च्या पातळीवर सेट केले जाऊ शकते. आम्ही पाहतो की केवळ 1-4 क्रमांक असलेले क्लस्टर या स्थितीत येतात. म्हणून, आता चार-क्लस्टर सोल्यूशनच्या आउटपुटसह क्लस्टर विश्लेषण प्रक्रियेची पुनर्गणना करणे आवश्यक आहे (एक नवीन व्हेरिएबल du4_l तयार केले जाईल).


तांदूळ. ५.४९.

नव्याने तयार केलेल्या du4_l व्हेरिएबलवर एक रेखीय वितरण तयार केल्यावर, आम्ही पाहणार आहोत की फक्त दोन क्लस्टर्समध्ये (1 आणि 2) प्रतिसादकर्त्यांची संख्या व्यावहारिकदृष्ट्या लक्षणीय आहे. आम्हाला पुन्हा क्लस्टर मॉडेलची पुनर्बांधणी करायची आहे -- आता दोन-क्लस्टर सोल्यूशनसाठी. त्यानंतर, आम्ही du2_l (चित्र 5.50) व्हेरिएबलच्या संदर्भात वितरण तयार करतो. जसे तुम्ही टेबलवरून पाहू शकता, दोन-क्लस्टर सोल्यूशनमध्ये दोन तयार केलेल्या क्लस्टर्सपैकी प्रत्येकामध्ये सांख्यिकीय आणि व्यावहारिकदृष्ट्या महत्त्वपूर्ण प्रतिसादकर्त्यांची संख्या आहे: क्लस्टर 1 - 695 उत्तरदात्यांमध्ये; क्लस्टर 2 - 40 मध्ये. अशा प्रकारे, आम्ही आमच्या कार्यासाठी क्लस्टरची इष्टतम संख्या निर्धारित केली आणि सात निवडलेल्या निकषांनुसार उत्तरदात्यांचे वास्तविक विभाजन केले. आता आम्ही आमच्या कार्याचे मुख्य उद्दिष्ट साध्य म्हणून विचारात घेऊ शकतो आणि क्लस्टर विश्लेषणाच्या अंतिम टप्प्यावर जाऊ शकतो - प्राप्त लक्ष्य गटांचे (सेगमेंट्स) स्पष्टीकरण.


तांदूळ. ५.५०.

परिणामी उपाय तुम्ही SPSS ट्यूटोरियलमध्ये पाहिलेल्यापेक्षा काहीसे वेगळे आहे. अगदी व्यावहारिकदृष्ट्या उन्मुख पाठ्यपुस्तके देखील कृत्रिम उदाहरणे देतात जिथे क्लस्टरिंगचा परिणाम प्रतिसादकर्त्यांच्या आदर्श लक्ष्य गटात होतो. काही प्रकरणांमध्ये (5) लेखक उदाहरणांच्या कृत्रिम उत्पत्तीकडे थेट निर्देश करतात. या ट्यूटोरियलमध्ये, क्लस्टर विश्लेषणाच्या ऑपरेशनचे उदाहरण म्हणून, आम्ही व्यावहारिक विपणन संशोधनातील वास्तविक जीवनातील उदाहरण वापरू, जे आदर्श प्रमाणात भिन्न नाही. हे आम्हाला क्लस्टर विश्लेषण आयोजित करण्यात सर्वात सामान्य अडचणी तसेच त्यांना दूर करण्यासाठी सर्वोत्तम पद्धती दर्शविण्यास अनुमती देईल.

परिणामी क्लस्टर्सच्या स्पष्टीकरणासह पुढे जाण्यापूर्वी, चला सारांश देऊ या. क्लस्टरची इष्टतम संख्या निश्चित करण्यासाठी आमच्याकडे खालील योजना आहे.

पायरी 1 मध्ये, आम्ही समुच्चय गुणांकावर आधारित गणितीय पद्धतीवर आधारित क्लस्टर्सची संख्या निर्धारित करतो.

स्टेज 2 वर, आम्ही क्लस्टर्सच्या प्राप्त संख्येनुसार प्रतिसादकर्त्यांना क्लस्टर करतो आणि नंतर तयार केलेल्या नवीन व्हेरिएबल (clul6_l) नुसार एक रेखीय वितरण तयार करतो. येथे तुम्ही हे देखील निर्धारित केले पाहिजे की किती क्लस्टर्समध्ये सांख्यिकीयदृष्ट्या महत्त्वपूर्ण प्रतिसादकर्त्यांचा समावेश आहे. सर्वसाधारणपणे, किमान 10 प्रतिसादकर्त्यांच्या पातळीवर क्लस्टरची किमान लक्षणीय संख्या सेट करण्याची शिफारस केली जाते.

जर सर्व क्लस्टर्सने हा निकष पूर्ण केला तर, आम्ही क्लस्टर विश्लेषणाच्या अंतिम टप्प्यावर जाऊ: क्लस्टर्सचे स्पष्टीकरण. त्यांच्या घटक निरीक्षणांच्या क्षुल्लक संख्येसह क्लस्टर्स असल्यास, आम्ही निश्चित करतो की किती क्लस्टर्समध्ये लक्षणीय संख्येने प्रतिसादक आहेत.

¦ आम्ही सेव्ह डायलॉग बॉक्समध्ये लक्षणीय निरीक्षणे असलेल्या क्लस्टरची संख्या निर्दिष्ट करून क्लस्टर विश्लेषण प्रक्रियेची पुनर्गणना करतो.

आम्ही नवीन व्हेरिएबलवर रेखीय वितरण तयार करतो.

कृतींचा हा क्रम जोपर्यंत उपाय सापडत नाही तोपर्यंत पुनरावृत्ती केली जाते ज्यामध्ये सर्व क्लस्टर्समध्ये सांख्यिकीयदृष्ट्या महत्त्वपूर्ण प्रतिसादकर्त्यांचा समावेश असेल. त्यानंतर, आपण क्लस्टर विश्लेषणाच्या अंतिम टप्प्यावर जाऊ शकता - क्लस्टर्सचे स्पष्टीकरण.

हे विशेषतः लक्षात घेतले पाहिजे की क्लस्टर्सच्या संख्येच्या व्यावहारिक आणि सांख्यिकीय महत्त्वाचा निकष हा एकमेव निकष नाही ज्याद्वारे क्लस्टरची इष्टतम संख्या निर्धारित केली जाऊ शकते. संशोधक स्वतंत्रपणे, त्याच्या अनुभवाच्या आधारे, क्लस्टर्सची संख्या सुचवू शकतो (महत्त्वाची स्थिती समाधानी असणे आवश्यक आहे). दुसरा पर्याय ही एक सामान्य परिस्थिती आहे जेव्हा, अभ्यासाच्या उद्देशाने, लक्ष्य गटांच्या दिलेल्या संख्येनुसार उत्तरदात्यांचे विभाजन करण्यासाठी एक अट आगाऊ सेट केली जाते. या प्रकरणात, आपल्याला क्लस्टरची आवश्यक संख्या ठेवून, एकदा श्रेणीबद्ध क्लस्टर विश्लेषण करणे आवश्यक आहे आणि नंतर काय होते याचा अर्थ लावण्याचा प्रयत्न करा.

परिणामी लक्ष्य विभागांचे वर्णन करण्यासाठी, अभ्यास केलेल्या व्हेरिएबल्सच्या (क्लस्टर सेंट्रोइड्स) सरासरी मूल्यांची तुलना करण्याची प्रक्रिया वापरली पाहिजे. आम्ही दोन परिणामी क्लस्टर्सपैकी प्रत्येकामध्ये सात मानल्या गेलेल्या विभाजन निकषांच्या सरासरी मूल्यांची तुलना करू.

सरासरी तुलना करण्याच्या प्रक्रियेला विश्लेषण > तुलना साधन > साधन मेनू वापरून म्हणतात. उघडणाऱ्या डायलॉग बॉक्समध्ये (Fig. 5.51), डावीकडील सूचीमधून विभाजन मापदंड (ql3-ql9) म्हणून निवडलेले सात व्हेरिएबल्स निवडा आणि त्यांना डिपेंडेंट व्हेरिएबल्ससाठी डिपेंडेंट लिस्ट फील्डमध्ये स्थानांतरित करा. नंतर व्हेरिएबल сШ2_1 हलवा, जे प्रश्नाच्या अंतिम (दोन-क्लस्टर) सोल्यूशनमध्ये प्रतिसादकर्त्यांचे क्लस्टर्समध्ये विभाजन प्रतिबिंबित करते, स्वतंत्र व्हेरिएबल्स स्वतंत्र यादीसाठी डाव्या सूचीमधून फील्डमध्ये. त्यानंतर पर्याय बटणावर क्लिक करा.

तांदूळ. ५.५१.

पर्याय संवाद बॉक्स उघडेल, क्लस्टर्सची तुलना करण्यासाठी त्यातील आवश्यक आकडेवारी निवडा (चित्र 5.52). हे करण्यासाठी, सेल स्टॅटिस्टिक्स फील्डमध्ये, फक्त सरासरी मूल्यांचे आउटपुट सोडा, त्यातून इतर डीफॉल्ट आकडेवारी काढून टाका. Continue बटणावर क्लिक करून पर्याय डायलॉग बॉक्स बंद करा. शेवटी, मुख्य मीन्स डायलॉग बॉक्समधून, सरासरी तुलना प्रक्रिया सुरू करा (ओके बटण).

तांदूळ. ५.५२.

उघडणाऱ्या SPSS व्ह्यूअर विंडोमध्ये, सरासरीची तुलना करण्यासाठी सांख्यिकीय प्रक्रियेचे परिणाम दिसून येतील. आम्हाला अहवाल सारणीमध्ये स्वारस्य आहे (चित्र 5.53). त्यावरून तुम्ही पाहू शकता की SPSS ने कोणत्या आधारावर प्रतिसादकर्त्यांना दोन क्लस्टरमध्ये विभागले आहे. आमच्या बाबतीत, असा निकष म्हणजे विश्लेषण केलेल्या पॅरामीटर्सच्या मूल्यांकनांची पातळी. क्लस्टर 1 मध्ये उत्तरदाते असतात ज्यांच्यासाठी सर्व विभाजन निकषांसाठी सरासरी गुण तुलनेने उच्च पातळीवर आहेत (4.40 गुण आणि त्याहून अधिक). क्लस्टर 2 मध्ये उत्तरदात्यांचा समावेश आहे ज्यांनी विचारात घेतलेल्या विभाजन निकषांना खूपच कमी (3.35 गुण आणि खाली) रेट केले आहे. अशाप्रकारे, आम्ही असा निष्कर्ष काढू शकतो की क्लस्टर 1 तयार करणार्‍या 93.3% प्रतिसादकर्त्यांनी विश्लेषण केलेल्या एअरलाइन्सना सर्व बाबतीत चांगले रेट केले आहे; 5.4% खूपच कमी आहे; 1.3% लोकांना उत्तर देणे कठीण वाटले (चित्र 5.50 पहा). अंजीर पासून. 5.53, स्वतंत्रपणे विचारात घेतलेल्या प्रत्येक पॅरामीटर्ससाठी रेटिंगची कोणती पातळी उच्च आहे आणि कोणती कमी आहे असा निष्कर्ष देखील काढू शकतो (आणि हा निष्कर्ष प्रतिसादकर्त्यांद्वारे काढला जाईल, ज्यामुळे उच्च वर्गीकरण अचूकता प्राप्त करता येईल). अहवाल सारणीवरून, तुम्ही पाहू शकता की क्यू थ्रॉटलिंगचा उच्च सरासरी स्कोअर 4.40 आहे आणि देखावा 4.72 आहे.


तांदूळ. ५.५३.

असे होऊ शकते की अशाच बाबतीत, X पॅरामीटरसाठी 4.5 हा उच्च स्कोअर मानला जातो आणि Y पॅरामीटरसाठी फक्त 3.9. ही क्लस्टरिंग त्रुटी असणार नाही, परंतु, त्याउलट, उत्तरदात्यांसाठी विचाराधीन पॅरामीटर्सच्या महत्त्वाबाबत महत्त्वपूर्ण निष्कर्ष काढणे शक्य होईल. अशा प्रकारे, Y पॅरामीटरसाठी, आधीच 3.9 गुण हा एक चांगला अंदाज आहे, तर X पॅरामीटरसाठी, उत्तरदाते अधिक कठोर आवश्यकता लादतात.

आम्ही दोन महत्त्वपूर्ण क्लस्टर्स ओळखले आहेत जे विभाजनाच्या निकषांनुसार सरासरी स्कोअरच्या पातळीमध्ये भिन्न आहेत. आता तुम्ही प्राप्त झालेल्या क्लस्टर्सना लेबले नियुक्त करू शकता: 1 साठी - उत्तरदात्यांच्या गरजा पूर्ण करणाऱ्या एअरलाइन्स (सात विश्लेषित केलेल्या निकषांनुसार); 2 साठी -- उत्तरदात्यांच्या गरजा पूर्ण न करणाऱ्या एअरलाइन्स. आता तुम्ही पाहू शकता की कोणत्या विशिष्ट एअरलाइन्स (q4 व्हेरिएबलमध्ये कोड केलेल्या) प्रतिसादकर्त्यांच्या गरजा पूर्ण करतात आणि कोणत्या विभाजन निकषांनुसार नाहीत. हे करण्यासाठी, तुम्ही क्लस्टरिंग व्हेरिएबल clu2_l वर अवलंबून व्हेरिएबल q4 (विश्लेषित एअरलाइन्स) चे क्रॉस-वितरण तयार केले पाहिजे. अशा क्रॉस-सेक्शनल विश्लेषणाचे परिणाम अंजीर मध्ये सादर केले आहेत. ५.५४.

या सारणीच्या आधारे, निवडलेल्या लक्ष्य विभागातील अभ्यासलेल्या एअरलाइन्सच्या सदस्यत्वाबाबत खालील निष्कर्ष काढले जाऊ शकतात.


तांदूळ. ५.५४.

1. जमिनीवरील कर्मचार्‍यांच्या कामाच्या बाबतीत सर्व ग्राहकांच्या गरजा पूर्ण करणाऱ्या एअरलाइन्स (फक्त एका पहिल्या क्लस्टरमध्ये समाविष्ट):

Vnukovo एअरलाइन्स;

अमेरिकन एअरलाइन्स;

डेल्टा एअरलाइन्स;

ऑस्ट्रियन एअरलाइन्स;

ब्रिटिश एअरवेज;

कोरियन एअरलाइन्स;

जपान एअरलाइन्स.

2. ग्राउंड कर्मचार्‍यांच्या कामाच्या बाबतीत त्यांच्या बहुतेक ग्राहकांच्या गरजा पूर्ण करणार्‍या एअरलाइन्स (या एअरलाइन्ससह उड्डाण करणारे बहुतेक उत्तरदाते जमिनीवरील कर्मचार्‍यांच्या कामावर समाधानी आहेत):

ट्रान्सेरो.

3. ग्राउंड कर्मचार्‍यांच्या कामाच्या बाबतीत त्यांच्या बहुसंख्य ग्राहकांच्या गरजा पूर्ण न करणार्‍या एअरलाइन्स (या एअरलाइन्ससह उड्डाण करणारे बहुतेक उत्तरदाते जमिनीवरील कर्मचार्‍यांच्या कामावर समाधानी नाहीत):

डोमोडेडोवो एअरलाइन्स;

पुलकोवो;

सायबेरिया;

उरल एअरलाइन्स;

समारा एअरलाइन्स;

अशा प्रकारे, एअरलाइन्सचे तीन लक्ष्य विभाग सरासरी रेटिंगच्या पातळीद्वारे प्राप्त केले गेले, जे जमिनीवरील कर्मचार्‍यांच्या कामासह प्रतिसादकर्त्यांच्या समाधानाच्या भिन्न प्रमाणात वैशिष्ट्यीकृत आहेत:

  • 1. ग्राउंड कर्मचार्‍यांच्या कामाच्या पातळीनुसार प्रवाशांसाठी सर्वात आकर्षक एअरलाइन्स (14);
  • 2. त्याऐवजी आकर्षक एअरलाइन्स (1);
  • 3. ऐवजी अनाकर्षक एअरलाइन्स (7).

आम्ही क्लस्टर विश्लेषणाचे सर्व टप्पे यशस्वीरित्या पूर्ण केले आहेत आणि निवडलेल्या सात निकषांनुसार एअरलाइन्सचे विभाजन केले आहे.

आता आम्ही घटक विश्लेषणासह जोडलेल्या क्लस्टर विश्लेषणाच्या पद्धतीचे वर्णन देतो. आम्ही कलम 5.2.1 (फॅक्टोरियल अॅनालिसिस) मधून समस्येची स्थिती वापरतो. आधीच नमूद केल्याप्रमाणे, मोठ्या संख्येने व्हेरिएबल्ससह विभाजन समस्यांमध्ये, फॅक्टर विश्लेषणासह क्लस्टर विश्लेषणापूर्वीचा सल्ला दिला जातो. सेगमेंटेशन निकषांची संख्या सर्वात लक्षणीय निकषांपर्यंत कमी करण्यासाठी हे केले जाते. आमच्या बाबतीत, आमच्याकडे मूळ डेटा फाइलमध्ये 24 व्हेरिएबल्स आहेत. घटक विश्लेषणाच्या परिणामी, आम्ही त्यांची संख्या 5 पर्यंत कमी करण्यात व्यवस्थापित केले. आता घटकांची ही संख्या क्लस्टर विश्लेषणासाठी प्रभावीपणे वापरली जाऊ शकते आणि घटक स्वतःच विभाजन निकष म्हणून वापरले जाऊ शकतात.

एअरलाइन X च्या सध्याच्या स्पर्धात्मक स्थितीच्या विविध पैलूंच्या मूल्यांकनानुसार उत्तरदात्यांचे विभाजन करण्याचे कार्य आमच्याकडे असल्यास, आम्ही ओळखल्या गेलेल्या पाच निकषांनुसार श्रेणीबद्ध क्लस्टर विश्लेषण करू शकतो (व्हेरिएबल्स nfacl_l-nfac5_l). आमच्या बाबतीत, व्हेरिएबल्सचे विविध स्केलवर मूल्यांकन केले गेले. उदाहरणार्थ, एअरलाइनने बदलू नये असे मला वाटत असलेल्या विधानासाठी 1 चा स्कोअर आणि विधानासाठी समान स्कोअर एअरलाइनमधील बदल हा एक सकारात्मक क्षण असेल, ज्याचा अर्थाने विरोध केला जाईल. पहिल्या प्रकरणात, 1 पॉइंट (तीव्र असहमत) म्हणजे प्रतिवादी एअरलाइनमधील बदलांचे स्वागत करतो; दुसऱ्या प्रकरणात, 1 चा स्कोअर सूचित करतो की प्रतिवादी एअरलाइनमधील बदल नाकारतो. क्लस्टर्सचा अर्थ लावताना, आपल्याला अपरिहार्यपणे अडचणींना सामोरे जावे लागेल, कारण असे चल जे अर्थाच्या विरुद्ध आहेत

त्याच घटकात पडणे. अशाप्रकारे, विभाजनाच्या हेतूंसाठी, प्रथम अभ्यासाखालील चलांचे स्केल ओळीत आणण्याची आणि नंतर फॅक्टोरियल मॉडेलची पुनर्गणना करण्याची शिफारस केली जाते. आणि फॅक्टर विश्लेषणाच्या परिणामी प्राप्त झालेल्या व्हेरिएबल्स-फॅक्टर्सवर क्लस्टर विश्लेषण करण्यासाठी आधीच पुढे. घटक आणि क्लस्टर विश्लेषणाच्या प्रक्रियेचे आम्ही पुन्हा तपशीलवार वर्णन करणार नाही (हे वर संबंधित विभागांमध्ये केले गेले आहे). आम्ही फक्त लक्षात घेतो की या तंत्राने, परिणामी, आम्हाला हवाई प्रवाशांचे तीन लक्ष्य गट मिळाले, निवडलेल्या घटकांच्या (म्हणजे व्हेरिएबल्सचे गट): सर्वात कमी, सरासरी आणि सर्वोच्च.

क्लस्टर विश्लेषणाचा एक अतिशय उपयुक्त अनुप्रयोग म्हणजे वारंवारता सारण्यांच्या गटांमध्ये विभागणी. समजा तुमच्या संस्थेमध्ये कोणते ब्रँड अँटीव्हायरस स्थापित आहेत? या प्रश्नाच्या उत्तरांचे रेखीय वितरण आमच्याकडे आहे. या वितरणावर निष्कर्ष काढण्यासाठी, अँटीव्हायरस ब्रँडला अनेक गटांमध्ये (सामान्यतः 2-3) विभाजित करणे आवश्यक आहे. सर्व ब्रँड्सचे तीन गटांमध्ये विभाजन करण्यासाठी (सर्वात लोकप्रिय ब्रँड, सरासरी लोकप्रियता आणि लोकप्रिय नसलेले ब्रँड), क्लस्टर विश्लेषण वापरणे चांगले आहे, जरी, नियम म्हणून, संशोधक व्यक्तिनिष्ठ विचारांवर आधारित वारंवारता सारण्यांचे घटक डोळ्यांद्वारे वेगळे करतात. या दृष्टिकोनाच्या विरुद्ध, क्लस्टर विश्लेषणामुळे केलेल्या गटबद्धतेला वैज्ञानिकदृष्ट्या सिद्ध करणे शक्य होते. हे करण्यासाठी, SPSS मध्ये प्रत्येक पॅरामीटरची मूल्ये प्रविष्ट करा (ही मूल्ये टक्केवारी म्हणून व्यक्त करण्याचा सल्ला दिला जातो) आणि नंतर या डेटावर क्लस्टर विश्लेषण करा. नवीन व्हेरिएबल (आमच्या बाबतीत 3) गटांच्या आवश्यक संख्येसाठी क्लस्टर सोल्यूशन सेव्ह करून, आम्हाला सांख्यिकीयदृष्ट्या वैध गटबद्धता मिळते.

आम्ही या विभागाचा अंतिम भाग व्हेरिएबल्सचे वर्गीकरण करण्यासाठी क्लस्टर विश्लेषणाच्या वापराचे वर्णन करण्यासाठी आणि त्याच्या परिणामांची विभाग 5.2.1 मध्ये केलेल्या घटक विश्लेषणाच्या परिणामांशी तुलना करण्यासाठी समर्पित करू. हे करण्यासाठी, आम्ही हवाई वाहतूक बाजारपेठेतील एअरलाइन X च्या सद्य स्थितीचे मूल्यांकन करण्याच्या समस्येची स्थिती पुन्हा वापरू. क्लस्टर विश्लेषण आयोजित करण्याची पद्धत जवळजवळ पूर्णपणे वर वर्णन केलेल्या पद्धतीची पुनरावृत्ती करते (जेव्हा प्रतिसादकर्त्यांचे विभाजन होते).

तर, मूळ डेटा फाइलमध्ये, आमच्याकडे 24 व्हेरिएबल्स आहेत जे एअरलाइन X च्या सध्याच्या स्पर्धात्मक स्थितीच्या विविध पैलूंबद्दल प्रतिसादकर्त्यांच्या वृत्तीचे वर्णन करतात. मुख्य श्रेणीबद्ध क्लस्टर विश्लेषण डायलॉग बॉक्स उघडा आणि व्हेरिएबलमध्ये 24 व्हेरिएबल्स (ql-q24) ठेवा. (s) फील्ड, अंजीर. ५.५५. क्लस्टर क्षेत्रामध्ये, आपण व्हेरिएबल्सचे वर्गीकरण करत असल्याचे दर्शवा (व्हेरिएबल्स पर्याय तपासा). तुम्हाला सेव्ह बटण अनुपलब्ध झाल्याचे दिसेल -- घटक विश्लेषणाच्या विपरीत, क्लस्टर विश्लेषण सर्व प्रतिसादकर्त्यांसाठी घटक रेटिंग जतन करू शकत नाही. प्लॉट्स पर्याय निष्क्रिय करून प्लॉटिंग अक्षम करा. पहिल्या चरणात, तुम्हाला इतर कोणत्याही पर्यायांची आवश्यकता नाही, म्हणून क्लस्टर विश्लेषण प्रक्रिया सुरू करण्यासाठी फक्त ओके बटणावर क्लिक करा.

एग्लोमेरेशन शेड्यूल सारणी SPSS व्ह्यूअर विंडोमध्ये दिसली, त्यानुसार आम्ही वर वर्णन केलेल्या पद्धतीचा वापर करून क्लस्टरची इष्टतम संख्या निर्धारित केली (चित्र 5.56). 20 व्या पायरीवर (18834.000 ते 21980.967 पर्यंत) एकत्रीकरण गुणांकातील पहिली उडी दिसून येते. विश्लेषित व्हेरिएबल्सच्या एकूण संख्येवर आधारित, 24 च्या बरोबरीने, क्लस्टरच्या इष्टतम संख्येची गणना करणे शक्य आहे: 24 - 20 = 4.

तांदूळ. ५.५५.


तांदूळ. ५.५६.

व्हेरिएबल्सचे वर्गीकरण करताना, फक्त एक व्हेरिएबल असलेला क्लस्टर व्यावहारिक आणि सांख्यिकीयदृष्ट्या महत्त्वपूर्ण असतो. म्हणून, आम्ही गणितीय पद्धतीने क्लस्टर्सची स्वीकार्य संख्या प्राप्त केली असल्याने, पुढील तपासण्याची आवश्यकता नाही. त्याऐवजी, मुख्य क्लस्टर विश्लेषण डायलॉग बॉक्स पुन्हा उघडा (मागील चरणात वापरलेला सर्व डेटा संरक्षित केला आहे) आणि वर्गीकरण तक्ता प्रदर्शित करण्यासाठी सांख्यिकी बटणावर क्लिक करा. तुम्हाला त्याच नावाचा डायलॉग बॉक्स दिसेल, जिथे तुम्हाला 24 व्हेरिएबल्सची विभागणी करणे आवश्यक असलेल्या क्लस्टरची संख्या निर्दिष्ट करणे आवश्यक आहे (चित्र 5.57). हे करण्यासाठी, सिंगल सोल्यूशन पर्याय निवडा आणि संबंधित फील्डमध्ये क्लस्टरची आवश्यक संख्या निर्दिष्ट करा: 4. आता सुरू ठेवा बटणावर क्लिक करून स्टॅटिस्टिक्स डायलॉग बॉक्स बंद करा आणि मुख्य क्लस्टर विश्लेषण विंडोमधून प्रक्रिया चालवा.

परिणामी, क्लस्टर मेंबरशिप टेबल SPSS व्ह्यूअर विंडोमध्ये दिसून येईल, विश्लेषित व्हेरिएबल्स चार क्लस्टरमध्ये वितरीत करेल (चित्र 5.58).

तांदूळ. ५.५८.

या सारणीनुसार, विचाराधीन प्रत्येक व्हेरिएबल खालीलप्रमाणे विशिष्ट क्लस्टरला नियुक्त केले जाऊ शकते.

क्लस्टर १

ql उत्कृष्ट प्रवासी सेवेसाठी एअरलाइन एक्सची प्रतिष्ठा आहे.

q2. एअरलाइन एक्स जगातील सर्वोत्तम एअरलाइन्सशी स्पर्धा करू शकते.

q3. माझा विश्वास आहे की एअरलाइन एक्सचे जागतिक विमान वाहतूक क्षेत्रात एक आशादायक भविष्य आहे.

q5. एअरलाइन एक्ससाठी काम केल्याचा मला अभिमान आहे.

q9. जागतिक दर्जाची एअरलाइन असल्याचा दावा करण्याआधी आम्हाला खूप मोठा पल्ला गाठायचा आहे.

qlO एअरलाइन एक्स खरोखरच प्रवाशांची काळजी घेते.

ql3. Airline X सामान्य लोकांसमोर (रंग आणि कॉर्पोरेट ओळखीच्या दृष्टीने) स्वतःला कसे दृष्यदृष्ट्या सादर करत आहे ते मला आवडते.

ql4. एअरलाइन एक्स हा रशियाचा चेहरा आहे.

ql6. एअरलाइन X सेवा संपूर्णपणे सुसंगत आणि ओळखण्यायोग्य आहे

ql8. एअरलाइन एक्सला तिच्या पूर्ण क्षमतेचा फायदा घेण्यासाठी बदलण्याची आवश्यकता आहे.

ql9. मला वाटते की एअरलाइन एक्सने स्वतःला अधिक आधुनिक पद्धतीने दृष्यदृष्ट्या सादर करणे आवश्यक आहे.

q20. एअरलाइन X मध्ये बदल ही सकारात्मक बाब असेल. q21. एअरलाइन एक्स ही एक कार्यक्षम विमान कंपनी आहे.

q22. परदेशी प्रवाशांच्या बाबतीत एअरलाइन X ची प्रतिमा सुधारलेली मला पहायची आहे.

q23. बहुतेक लोकांच्या विचारापेक्षा एअरलाइन एक्स चांगली आहे.

q24. आम्ही रशियन एअरलाईन आहोत हे जगभरातील लोकांना माहित असणे महत्त्वाचे आहे.

क्लस्टर 2

q4. एअरलाइन एक्सची भविष्यातील रणनीती काय असेल हे मला माहीत आहे.

q6. एअरलाइन एक्समध्ये विभागांमध्ये चांगला संवाद आहे.

q7. विमान कंपनीचा प्रत्येक कर्मचारी त्याचे यश सुनिश्चित करण्यासाठी सर्वतोपरी प्रयत्न करतो.

q8. आता एअरलाइन एक्स वेगाने सुधारत आहे.

qll एअरलाइन्सच्या कर्मचाऱ्यांमध्ये नोकरीत मोठ्या प्रमाणात समाधान आहे.

ql2. माझा विश्वास आहे की वरिष्ठ व्यवस्थापक एअरलाइनचे यश मिळविण्यासाठी सर्वतोपरी प्रयत्न करतात.

क्लस्टर 3

ql5. इतर एअरलाईन्सच्या तुलनेत आम्ही “काल”सारखे दिसतो.

क्लस्टर 4

ql7. मला एअरलाइन X बदलू इच्छित नाही.

जर तुम्ही फॅक्टोरियल (विभाग 5.2.1) आणि क्लस्टर विश्लेषणाच्या परिणामांची तुलना केली, तर तुम्हाला दिसेल की ते लक्षणीय भिन्न आहेत. फॅक्टर विश्लेषणाच्या तुलनेत क्लस्टर विश्लेषण केवळ व्हेरिएबल क्लस्टरिंगसाठी (उदाहरणार्थ, गट रेटिंग जतन करण्यास असमर्थता) लक्षणीयरीत्या कमी संधी प्रदान करत नाही तर खूपच कमी दृश्य परिणाम देखील देते. आमच्या बाबतीत, जर क्लस्टर 2, 3 आणि 4 अजूनही तार्किक व्याख्या 1 साठी योग्य असतील, तर क्लस्टर 1 मध्ये अशी विधाने आहेत जी अर्थाने पूर्णपणे भिन्न आहेत. या परिस्थितीत, तुम्ही एकतर क्लस्टर 1 चे वर्णन करण्याचा प्रयत्न करू शकता किंवा क्लस्टरच्या भिन्न संख्येसह सांख्यिकीय मॉडेलची पुनर्बांधणी करू शकता. नंतरच्या प्रकरणात, तार्किकदृष्ट्या वर्णन करता येणार्‍या क्लस्टर्सची इष्टतम संख्या शोधण्यासाठी, तुम्ही सांख्यिकी डायलॉग बॉक्समधील सोल्यूशन्स पॅरामीटरची श्रेणी वापरू शकता (आकृती 5.57 पहा), संबंधित फील्डमधील क्लस्टर्सची किमान आणि कमाल संख्या निर्दिष्ट करून ( आमच्या बाबतीत, अनुक्रमे 4 आणि 6). अशा स्थितीत, SPSS प्रत्येक क्लस्टर्ससाठी क्लस्टर मेंबरशिप टेबल पुन्हा तयार करेल. या प्रकरणात विश्लेषकाचे कार्य असे वर्गीकरण मॉडेल निवडण्याचा प्रयत्न करणे आहे ज्यामध्ये सर्व क्लस्टर्सचा स्पष्टपणे अर्थ लावला जाईल. क्लस्टरिंग व्हेरिएबल्ससाठी क्लस्टर विश्लेषण प्रक्रियेची क्षमता प्रदर्शित करण्यासाठी, आम्ही क्लस्टर मॉडेलची पुनर्बांधणी करणार नाही, परंतु वर सांगितलेल्या गोष्टींपुरते मर्यादित राहू.

हे लक्षात घेतले पाहिजे की, घटक विश्लेषणाच्या तुलनेत क्लस्टर विश्लेषणाची स्पष्ट साधेपणा असूनही, विपणन संशोधनाच्या जवळजवळ सर्व प्रकरणांमध्ये, घटक विश्लेषण क्लस्टर विश्लेषणापेक्षा जलद आणि अधिक कार्यक्षम आहे. म्हणून, व्हेरिएबल्सच्या वर्गीकरण (कपात) साठी, आम्ही घटक विश्लेषण वापरण्याची जोरदार शिफारस करतो आणि प्रतिसादकर्त्यांच्या वर्गीकरणासाठी क्लस्टर विश्लेषणाचा वापर सोडून देतो.

अप्रस्तुत वापरकर्त्याच्या दृष्टिकोनातून वर्गीकरण विश्लेषण हे कदाचित सर्वात जटिल सांख्यिकीय साधनांपैकी एक आहे. याचे कारण मार्केटिंग कंपन्यांमध्ये त्याचे प्रमाण कमी आहे. त्याच वेळी, सांख्यिकीय पद्धतींचा हा विशिष्ट गट विपणन संशोधन क्षेत्रातील अभ्यासकांसाठी सर्वात उपयुक्त आहे.