Microsoft Excel бағдарламасында кластерлік талдауды қолдану. Кластерлік талдау – объектілер жиынын біртекті топтарға бөлу арқылы зерттеу Кластерлік талдау статистикасы

ӘЛЕУМЕТТІК-ЭКОНОМИКАЛЫҚ БОЛЖАУ МӘСЕЛЕЛЕРІНДЕГІ КЛАСТЕРЛІК ТАЛДАУ

Кластерлік талдауға кіріспе.

Әлеуметтік-экономикалық құбылыстарды талдау және болжау кезінде зерттеуші оларды сипаттаудың көп өлшемділігімен жиі кездеседі. Бұл нарықты сегменттеу мәселесін шешуде, көрсеткіштердің жеткілікті үлкен саны бойынша елдердің типологиясын құруда, жекелеген тауарлардың нарықтық жағдайын болжауда, экономикалық депрессияны зерттеу мен болжауда және басқа да көптеген мәселелерде орын алады.

Көп нұсқалы талдау әдістері көптеген сипаттамалармен сипатталған әлеуметтік-экономикалық процестерді зерттеудің ең тиімді сандық құралы болып табылады. Оларға кластерлік талдау, таксономия, үлгіні тану және факторлық талдау жатады.

Кластерлік талдау классификацияда, факторлық талдау – коммуникацияны зерттеуде көп нұсқалы талдаудың ерекшеліктерін барынша айқын көрсетеді.

Кейде кластерлік талдау әдісі әдебиеттерде сандық таксономия, сандық жіктеу, өздігінен білім алуды тану және т.б.

Кластерлік талдау әлеуметтануда өзінің алғашқы қолданылуын тапты. Кластерлік талдау атауы ағылшынның cluster – топтама, жинақтау сөзінен шыққан. Алғаш рет 1939 жылы кластерлік талдау пәні анықталып, оның сипаттамасын зерттеуші Трион жасады. Кластерлік талдаудың негізгі мақсаты – зерттелетін объектілер мен белгілердің жиынтығын тиісті мағынада біртекті топтарға немесе кластерлерге бөлу. Бұл деректерді жіктеу және ондағы сәйкес құрылымды анықтау мәселесі шешіліп жатқанын білдіреді. Кластерлік талдау әдістерін әртүрлі жағдайларда, тіпті қарапайым топтастыруға келгенде де қолдануға болады, онда барлығы сандық ұқсастық бойынша топтарды құруға келеді.

Кластерлік талдаудың үлкен артықшылығы - ол объектілерді бір параметр бойынша емес, барлық мүмкіндіктер жиынтығы бойынша бөлуге мүмкіндік береді. Сонымен қатар, кластерлік талдау, көптеген математикалық және статистикалық әдістерден айырмашылығы, қарастырылатын объектілердің түріне ешқандай шектеулер қоймайды және еркін дерлік сипаттағы бастапқы деректер жиынтығын қарастыруға мүмкіндік береді. Бұл, мысалы, индикаторлар дәстүрлі эконометрикалық тәсілдерді қолдануды қиындатқан әртүрлі нысандарға ие болған кезде нарықты болжау үшін үлкен маңызға ие.

Кластерлік талдау ақпараттың жеткілікті үлкен көлемін қарастыруға және әлеуметтік-экономикалық ақпараттың үлкен массивтерін күрт қысқартуға, сығуға, оларды жинақы және көрнекі етіп жасауға мүмкіндік береді.

Кластерлік талдаудың экономикалық дамуды сипаттайтын уақыттық қатарлардың жиынтықтарына қатысты үлкен маңызы бар (мысалы, жалпы экономикалық және тауарлық жағдайлар). Мұнда сәйкес көрсеткіштердің мәндері біршама жақын болған кезеңдерді бөліп көрсетуге болады, сонымен қатар динамикасы барынша ұқсас уақытша қатарлардың топтарын анықтауға болады.

Кластерлік талдау циклді түрде қолданылуы мүмкін. Бұл жағдайда зерттеу қажетті нәтижелерге қол жеткізгенге дейін жүргізіледі. Сонымен бірге мұндағы әрбір цикл кластерлік талдауды одан әрі қолданудың бағыты мен тәсілдерін айтарлықтай өзгерте алатын ақпаратты бере алады. Бұл процесті кері байланыс жүйесі ретінде көрсетуге болады.

Әлеуметтік-экономикалық болжау мәселелерінде кластерлік талдауды басқа сандық әдістермен (мысалы, регрессиялық талдаумен) біріктіру өте перспективалы.

Кез келген басқа әдіс сияқты, кластерлік талдаудың белгілі бір кемшіліктері мен шектеулері бар: Атап айтқанда, кластерлердің құрамы мен саны таңдалған бөлу критерийлеріне байланысты. Бастапқы деректер массивін неғұрлым ықшам пішінге дейін азайту кезінде белгілі бір бұрмаланулар орын алуы мүмкін және жекелеген объектілердің жеке ерекшеліктері олардың кластер параметрлерінің жалпыланған мәндерінің сипаттамаларымен ауыстырылуына байланысты жоғалуы мүмкін. Объектілерді жіктеу кезінде көбінесе қарастырылатын жиынтықта кластерлік мәндердің болмауы мүмкіндігі еленбейді.

Кластерлік талдауда мыналар қарастырылады:

а) таңдалған сипаттамалар, негізінен, қалаған кластерлеуге мүмкіндік береді;

б) өлшем бірліктері (шкала) дұрыс таңдалған.

Масштабты таңдау үлкен рөл атқарады. Әдетте, деректер орташа мәнді алып тастау және дисперсия бірге тең болатындай стандартты ауытқуға бөлу арқылы қалыпқа келтіріледі.

Кластерлік талдау мәселесі.

Кластерлік талдаудың міндеті X жиынындағы мәліметтер негізінде G объектілерінің жиынын m (m - бүтін сан) кластерлерге (ішкі жиындарға) Q1, Q2, ..., Qm бөлу, осылайша әрбір объект Gj бір және бір ғана бөлімнің ішкі жиынына тиесілі және бір кластерге жататын нысандар ұқсас, ал әртүрлі кластерлерге жататын нысандар гетерогенді.

Мысалы, G-ке әрбір жан басына шаққандағы ЖҰӨ (F1), 1000 адамға шаққандағы М автомобильдер саны (F2), жан басына шаққандағы электр энергиясын тұтыну (F3), жан басына шаққандағы болат тұтыну (F4) бойынша сипатталатын n ел қосылсын, G. т.б. Сонда X1 (өлшеу векторы) бірінші ел үшін, X2 екінші, X3 үшін үшінші және т.с.с. көрсетілген сипаттамалар жиынтығы болып табылады. Мәселе – елдерді даму деңгейі бойынша бөлу.

Кластерлік талдау мәселесінің шешімі белгілі бір оңтайлылық критерийін қанағаттандыратын бөлімдер болып табылады. Бұл критерий мақсаттық функция деп аталатын әртүрлі бөлімдер мен топтастырулардың қажеттілік деңгейлерін білдіретін кейбір функционалды болуы мүмкін. Мысалы, квадраттық ауытқулардың топ ішілік қосындысын мақсат функциясы ретінде алуға болады:

мұндағы xj - j-ші объектінің өлшемдерін білдіреді.

Кластерлік талдау мәселесін шешу үшін ұқсастық және гетерогенділік ұғымын анықтау қажет.

Xi және Xj нүктелерінің арасындағы қашықтық (қашықтық) жеткілікті аз болғанда i-ші және j-ші объектілер бір кластерге түсетіні және бұл қашықтық жеткілікті үлкен болғанда әртүрлі кластерлерге түсетіні анық. Осылайша, объектілердің бір немесе әртүрлі кластерлеріне ену Xi мен Xj арасындағы Ep-ден қашықтық тұжырымдамасымен анықталады, мұнда Ep - p-өлшемді евклидтік кеңістік. Теріс емес d(Xi, Xj) функциясы қашықтық функциясы (метрика) деп аталады, егер:

a) d(Xi , Xj) ³ 0, барлық Xi және Xj үшін Эп

б) d(Xi, Xj) = 0, егер Xi = Xj болса ғана

в) d(Xi, Xj) = d(Xj, Xi)

г) d(Xi, Xj) £ d(Xi, Xk) + d(Xk, Xj), мұндағы Xj; Xi және Xk - Ep-тің кез келген үш векторы.

Xi және Xj үшін d(Xi, Xj) мәні Xi мен Xj арасындағы қашықтық деп аталады және таңдалған сипаттамаларға (F1, F2, F3, ..., Fp) сәйкес Gi мен Gj арасындағы қашықтыққа тең.

Ең жиі қолданылатын қашықтық функциялары:

1. Евклидтік қашықтық d2(Хi , Хj) =

2. l1 - норма d1(Хi , Хj) =

3. Supremum - норма d¥ (Хi , Хj) = sup

k = 1, 2, ..., б

4. lp - норма dр(Хi , Хj) =

Евклид метрикасы ең танымал. l1 метрикасын есептеу ең оңай. Жоғарғы норма есептеуге оңай және тапсырыс процедурасын қамтиды, ал lp-норма 1, 2, 3, қашықтық функцияларын қамтиды.

X1, X2,..., Xn n өлшемдері p ´n деректер матрицасы түрінде ұсынылсын:

Сонда d(Хi , Хj) векторларының жұптары арасындағы қашықтықты симметриялы қашықтық матрицасы түрінде көрсетуге болады:

Қашықтыққа қарама-қарсы ұғым Gi объектілері арасындағы ұқсастық ұғымы болып табылады. және Гж. Теріс емес нақты функция S(Хi ; Хj) = Sij ұқсастық өлшемі деп аталады, егер: Sij мәні ұқсастық коэффициенті деп аталады.

1.3. Кластерлік талдау әдістері.

Бүгінгі таңда кластерлік талдаудың көптеген әдістері бар. Олардың кейбіреулеріне тоқталайық (төменде келтірілген әдістер әдетте минималды дисперсия әдістері деп аталады).

Х бақылау матрицасы болсын: X = (X1, X2,..., Xu) және Xi мен Xj арасындағы евклидтік қашықтықтың квадраты мына формуламен анықталады:

1) Толық жалғаулар әдісі.

Бұл әдістің мәні бір топқа (кластерге) жататын екі объектінің S кейбір шекті мәннен аз болатын ұқсастық коэффициенті бар. Евклидтік қашықтық d тұрғысынан бұл екі нүктенің (объектілердің) арасындағы қашықтықты білдіреді. кластер h кейбір шекті мәннен аспауы керек. Осылайша, h кластерді құрайтын ішкі жиынның ең үлкен рұқсат етілген диаметрін анықтайды.

2) Максималды жергілікті қашықтық әдісі.

Әрбір нысан бір нүктелі кластер ретінде қарастырылады. Нысандар келесі ереже бойынша топтастырылады: екі кластер біріктіріледі, егер бір кластердің нүктелері мен екіншісінің нүктелері арасындағы максималды қашықтық минималды болса. Процедура n - 1 қадамдардан тұрады және кез келген шекті мәндер үшін алдыңғы әдістегі барлық мүмкін бөлімдерге сәйкес келетін бөлімдерге әкеледі.

3) Сөз әдісі.

Бұл әдісте мақсаттық функция ретінде квадраттық ауытқулардың топ ішілік қосындысы пайдаланылады, ол әрбір нүкте (нысан) арасындағы квадраттық қашықтықтардың қосындысынан және осы объектіні қамтитын кластер үшін орташа мәннен артық емес. Әрбір қадамда мақсат функциясының ең аз өсуіне әкелетін екі кластер біріктіріледі, яғни. квадраттардың топ ішіндегі қосындысы. Бұл әдіс жақын орналасқан кластерлерді біріктіруге бағытталған.

Random Forest - бұл менің сүйікті деректерді өндіру алгоритмдерімнің бірі. Біріншіден, ол керемет жан-жақты, оны регрессия мен жіктеу мәселелерін шешу үшін пайдалануға болады. Аномалияларды іздеңіз және болжаушыларды таңдаңыз. Екіншіден, бұл дұрыс емес қолдану өте қиын алгоритм. Басқа алгоритмдерден айырмашылығы, оның реттелетін параметрлері аз болғандықтан. Дегенмен, ол өзінің мәні бойынша таңқаларлық қарапайым. Сонымен қатар, бұл өте дәл.

Мұндай керемет алгоритмнің идеясы қандай? Идея қарапайым: бізде өте әлсіз алгоритм бар делік. Егер біз осы әлсіз алгоритмді пайдаланып, көптеген әртүрлі модельдер жасап, олардың болжамының нәтижесін орташа алсақ, онда түпкілікті нәтиже әлдеқайда жақсы болады. Бұл әрекеттегі ансамбльдік оқыту деп аталады. Кездейсоқ орман алгоритмі сондықтан «Кездейсоқ орман» деп аталады, алынған деректер үшін ол көптеген шешім ағаштарын жасайды, содан кейін олардың болжамдарының нәтижесін орташалайды. Бұл жерде маңызды сәт - әрбір ағашты құрудағы кездейсоқтық элементі. Өйткені, егер біз көптеген бірдей ағаштар жасасақ, онда олардың орташалануының нәтижесі бір ағаштың дәлдігіне ие болатыны анық.

Ол қалай жұмыс істейді? Бізде кейбір кіріс деректері бар делік. Әрбір баған қандай да бір параметрге, әрбір жол кейбір деректер элементіне сәйкес келеді.

Біз барлық деректер жиынынан кездейсоқ бірнеше бағандар мен жолдарды таңдап, олардан шешім ағашын құра аламыз.


Бейсенбі, 10 мамыр, 2012 жыл

Бейсенбі, 12 қаңтар, 2012 жыл


Бұл шын мәнінде бәрі. 17 сағаттық рейс аяқталды, Ресей шетелде қалды. Ал жайлы екі бөлмелі пәтердің терезесінен Сан-Франциско, әйгілі Силикон алқабы, Калифорния, АҚШ бізге қарап тұр. Иә, соңғы кездері көп жазбауымның себебі де осы. Біз көштік.

Мұның бәрі 2011 жылдың сәуір айында мен Зынғамен телефон арқылы сөйлескен кезде басталды. Сонда мұның бәрі шындыққа еш қатысы жоқ қандай да бір ойын сияқты болып көрінді, мен оның не әкелетінін елестете де алмадым. 2011 жылдың маусым айында Зыңға Мәскеуге келіп, бірқатар сұхбаттар жүргізді, телефон арқылы әңгімелесуден өткен 60-қа жуық үміткер қарастырылып, олардың арасынан 15-ке жуық адам іріктелді (нақты санын білмеймін, кейін біреулер пікірін өзгертті, біреу бірден бас тартты). Сұхбат таң қаларлықтай қарапайым болып шықты. Сізге ешқандай бағдарламалау тапсырмалары, люктердің пішіні туралы күрделі сұрақтар, негізінен сөйлесу мүмкіндігі сыналған. Ал білім, менің ойымша, үстірт қана бағаланды.

Содан кейін ригмарол басталды. Алдымен біз нәтижелерді күттік, содан кейін ұсыныс, содан кейін LCA мақұлдау, содан кейін виза беру туралы петиция мақұлдау, содан кейін АҚШ құжаттары, содан кейін елшіліктегі желі, содан кейін қосымша тексеру, содан кейін виза. Кейде маған бәрін тастап, гол соғуға дайын болып көрінетінмін. Кейде мен бұл Америка бізге керек пе деп күмәнданатынмын, өйткені Ресей де жаман емес. Бүкіл процесс жарты жылға жуық уақытты алды, соңында желтоқсанның ортасында виза алып, кетуге дайындала бастадық.

Дүйсенбі менің жаңа жұмыстағы бірінші күнім болды. Кеңседе жұмыс істеп қана қоймай, өмір сүруге де барлық жағдай жасалған. Таңғы ас, түскі және кешкі ас, біздің аспаздарымыз, әр бұрышта толтырылған алуан түрлі тағамдар, тренажер залы, массаж және тіпті шаштараз. Мұның бәрі қызметкерлер үшін толығымен тегін. Көбісі жұмысқа велосипедпен келеді және көліктерді сақтауға арналған бірнеше бөлмелер жабдықталған. Жалпы, мен Ресейде мұндайды көрген емеспін. Дегенмен, бәрінің өз бағасы бар, бізге көп жұмыс істеу керек екенін бірден ескертті. Олардың стандарттары бойынша «көп» деген не маған түсінікті емес.

Дегенмен, жұмыс көлеміне қарамастан, жақын болашақта мен блог жүргізуді жалғастыра аламын және американдық өмір және Америкада бағдарламашы ретінде жұмыс істеу туралы бірдеңе айта аламын деп үміттенемін. Күте тұрыңыз және көріңіз. Осы уақытта барлығыңызды Рождество мерекесімен және Жаңа жылмен құттықтаймын және жақында кездескенше!


Қолдану мысалы үшін ресейлік компаниялардың дивиденд кірісін басып шығарайық. Базалық баға ретінде біз тізілім жабылған күнгі акцияның жабылу бағасын аламыз. Қандай да бір себептермен бұл ақпарат Тройка веб-сайтында жоқ және дивидендтердің абсолютті мәндерінен әлдеқайда қызықты.
Назар аударыңыз! Кодты орындау үшін көп уақыт қажет, өйткені әрбір акция үшін финам серверлеріне сұраныс жасап, оның мәнін алу керек.

нәтиже<- NULL for(i in (1:length(divs[,1]))){ d <- divs if (d$Divs>0)( тырысыңыз(( тырнақшалар<- getSymbols(d$Symbol, src="Finam", from="2010-01-01", auto.assign=FALSE) if (!is.nan(quotes)){ price <- Cl(quotes) if (length(price)>0)(кг<- d$Divs result <- rbind(result, data.frame(d$Symbol, d$Name, d$RegistryDate, as.numeric(dd)/as.numeric(price), stringsAsFactors=FALSE)) } } }, silent=TRUE) } } colnames(result) <- c("Symbol", "Name", "RegistryDate", "Divs") result


Сол сияқты, сіз өткен жылдардағы статистиканы құра аласыз.

кластерлік талдау

Көптеген зерттеушілер «кластерлік талдау» термині алғаш рет пайда болды деп сенуге бейім (ағыл. кластер- шоқ, ұйыған, шоқ) математик Р.Трион ұсынған. Кейіннен қазір «кластерлік талдау» терминімен синоним болып саналатын бірқатар терминдер пайда болды: автоматты классификация; ботриология.

Кластерлік талдау - бұл объектілер таңдауы туралы ақпаратты қамтитын деректерді жинайтын, содан кейін объектілерді салыстырмалы түрде біртекті топтарға (кластерлерге) орналастыратын көп нұсқалы статистикалық процедура (Q-кластерлеу немесе Q-техникасы, дұрыс кластерлік талдау). Кластер – ортақ қасиетімен сипатталатын элементтер тобы, кластерлік талдаудың негізгі мақсаты – үлгідегі ұқсас объектілердің топтарын табу. Кластерлік талдаудың қолдану аясы өте кең: ол археология, медицина, психология, химия, биология, мемлекеттік басқару, филология, антропология, маркетинг, әлеуметтану және басқа да пәндерде қолданылады. Дегенмен, қолданудың әмбебаптығы кластерлік талдауды бір мағыналы қолдануды және дәйекті түсіндіруді қиындататын үйлеспейтін терминдердің, әдістердің және тәсілдердің үлкен санының пайда болуына әкелді. Орлов А.И. келесідей бөлуді ұсынады:

Тапсырмалар мен шарттар

Кластерлік талдау келесі әрекеттерді орындайды негізгі мақсаттар:

  • Типологияны немесе классификацияны әзірлеу.
  • Объектілерді топтастырудың пайдалы тұжырымдамалық схемаларын зерттеу.
  • Мәліметтерді зерттеу негізінде гипотеза құру.
  • Гипотезаны тексеру немесе белгілі бір жолмен анықталған түрлердің (топтардың) қолда бар деректерде шынымен бар-жоғын анықтау үшін зерттеу.

Зерттеу пәніне қарамастан кластерлік талдауды қолдануды қамтиды келесі қадамдар:

  • Кластерлеу үшін сынама алу. Тек сандық деректерді кластерлеудің мағынасы бар екені түсініледі.
  • Үлгідегі нысандар бағаланатын айнымалылар жиынының анықтамасы, яғни мүмкіндік кеңістігі.
  • Объектілер арасындағы ұқсастықтың (немесе айырмашылықтың) бір немесе басқа өлшемдерінің мәндерін есептеу.
  • Ұқсас объектілердің топтарын құру үшін кластерлік талдау әдісін қолдану.
  • Кластерлік шешімнің нәтижелерін тексеру.

Кластерлік талдау келесіні көрсетеді деректерге қойылатын талаптар:

  1. көрсеткіштер бір-бірімен сәйкес келмеуі керек;
  2. көрсеткіштер өлшемдер теориясына қайшы келмеуі керек;
  3. көрсеткіштердің таралуы қалыптыға жақын болуы керек;
  4. көрсеткіштер «тұрақтылық» талабына сай болуы керек, бұл олардың мәндеріне кездейсоқ факторлардың әсер етуінің болмауын білдіреді;
  5. сынама біртекті болуы керек, құрамында «шығыстар» болмауы керек.

Деректерге қойылатын екі негізгі талаптың сипаттамасын таба аласыз - біркелкі және толықтық:

Біртектілік кестеде ұсынылған барлық нысандардың бір сипатта болуын талап етеді. Толық болу талабы жиынтықтар болып табылады Iжәне Джқарастырылып отырған құбылыстың көріністерінің толық сипаттамасын ұсынды. Егер кестені қарастырсақ Iжинақ болып табылады және Дж- осы жиынтықты сипаттайтын айнымалылар жиынтығы, содан кейін ол зерттелетін жиынтықтан репрезентативті таңдау болуы керек және сипаттамалар жүйесі Джжеке тұлғалардың қанағаттанарлық векторлық көрінісін беруі керек мензерттеушінің көзқарасы бойынша.

Егер кластерлік талдаудың алдында факторлық талдау болса, онда іріктеуді «жөндеудің» қажеті жоқ - көрсетілген талаптар факторлық модельдеу процедурасының өзі арқылы автоматты түрде орындалады (тағы бір артықшылығы бар - іріктеу үшін теріс салдарсыз z-стандарттау; егер ол тікелей кластерлік талдау үшін жүргізілсе, бұл топтардың бөлінуінің анықтығының төмендеуіне әкелуі мүмкін). Әйтпесе, үлгіні реттеу керек.

Кластерлеу мәселелерінің типологиясы

Енгізу түрлері

Қазіргі ғылымда кіріс мәліметтерді өңдеудің бірнеше алгоритмдері қолданылады. Объектілерді белгілеріне қарай салыстыру арқылы талдау (биология ғылымында жиі кездесетін) деп аталады Q- талдау түрі, ал ерекшеліктерді салыстыру жағдайында объектілер негізінде - Р- талдау түрі. Талдаудың гибридтік түрлерін қолдану әрекеттері бар (мысалы, RQталдау), бірақ бұл әдістеме әлі дұрыс дамымаған.

Кластерлеудің мақсаттары

  • Кластер құрылымын анықтау арқылы деректерді түсіну. Үлгіні ұқсас объектілер топтарына бөлу әрбір кластерге өзіндік талдау әдісін («бөліп ал және жең» стратегиясы) қолдану арқылы деректерді одан әрі өңдеуді және шешім қабылдауды жеңілдетуге мүмкіндік береді.
  • Деректерді қысу. Егер бастапқы іріктеу шамадан тыс үлкен болса, онда әрбір кластерден ең типтік өкілдердің бірін қалдырып, оны азайтуға болады.
  • жаңалықты анықтау. жаңалықты анықтау). Кластерлердің ешқайсысына қосылуға болмайтын типтік емес нысандар таңдалады.

Бірінші жағдайда олар кластерлердің санын азайтуға тырысады. Екінші жағдайда, әрбір кластер ішіндегі объектілердің ұқсастығының жоғары дәрежесін қамтамасыз ету маңыздырақ және кластерлердің кез келген саны болуы мүмкін. Үшінші жағдайда кластерлердің ешқайсысына сәйкес келмейтін жеке объектілер үлкен қызығушылық тудырады.

Барлық осы жағдайларда иерархиялық кластерлеуді үлкен кластерлер кішіректерге бөлген кезде қолдануға болады, олар өз кезегінде одан да кішірек бөлінеді және т.б. Мұндай тапсырмалар таксономиялық тапсырмалар деп аталады. Таксономияның нәтижесі ағаш тәрізді иерархиялық құрылым болып табылады. Сонымен қатар, әрбір нысан өзі жататын барлық кластерлердің тізімімен сипатталады, әдетте үлкеннен кішіге дейін.

Кластерлеу әдістері

Кластерлеу әдістерінің жалпы қабылданған классификациясы жоқ, бірақ В.С.Беріков пен Г.С.Лбовтың нақты әрекетін атап өтуге болады. Егер кластерлеу әдістерінің әртүрлі классификацияларын жалпылайтын болсақ, біз бірнеше топтарды ажыратуға болады (кейбір әдістерді бірден бірнеше топқа жатқызуға болады, сондықтан бұл типтеуді кластерлеу әдістерінің нақты классификациясына қандай да бір жақындату ретінде қарастыру ұсынылады):

  1. Ықтималдық көзқарас. Әрбір қарастырылатын объект k класының біріне жатады деп болжанады. Кейбір авторлар (мысалы, А. И. Орлов) бұл топты кластерлеуге мүлдем жатпайды деп есептейді және оған «дискриминация» деген атпен, яғни белгілі топтардың біріне объектілерді тағайындауды таңдау (тренинг үлгілері) деп есептейді.
  2. Жасанды интеллект жүйелеріне негізделген тәсілдер. Өте шартты топ, өйткені AI әдістері өте көп және әдістемелік жағынан олар әртүрлі.
  3. логикалық тәсіл. Дендрограмманы құру шешім ағашын қолдану арқылы жүзеге асырылады.
  4. Графикалық-теориялық тәсіл.
    • Графикалық кластерлеу алгоритмдері
  5. Иерархиялық тәсіл. Кірістірілген топтардың (әртүрлі ретті кластерлердің) болуы болжанады. Алгоритмдер, өз кезегінде, агломеративті (біріктіруші) және бөлетін (бөлетін) болып екіге бөлінеді. Белгілердің саны бойынша классификацияның монотетикалық және политетикалық әдістерін кейде ажыратады.
    • Иерархиялық бөлу кластерлеу немесе таксономия. Кластерлеу мәселелері сандық таксономияда қарастырылады.
  6. Басқа әдістер. Алдыңғы топтарға қосылмаған.
    • Статистикалық кластерлеу алгоритмдері
    • Кластерлер ансамблі
    • KRAB отбасының алгоритмдері
    • Елеу әдісіне негізделген алгоритм
    • DBSCAN және т.

4-ші және 5-ші тәсілдер кейде құрылымдық немесе геометриялық тәсіл атауымен біріктіріледі, бұл жақындықтың неғұрлым формалды тұжырымдамасы бар. Көрсетілген әдістер арасындағы айтарлықтай айырмашылықтарға қарамастан, олардың барлығы түпнұсқаға сүйенеді » жинақылық гипотезасы»: нысан кеңістігінде барлық жақын объектілер бір кластерге тиесілі болуы керек және сәйкесінше барлық әртүрлі объектілер әртүрлі кластерлерде болуы керек.

Кластерлеу мәселесінің ресми мәлімдемесі

Объектілердің жиыны болсын, кластерлердің сандары (аты, белгілері) жиыны болсын. Объектілер арасындағы қашықтық функциясы берілген. Нысандардың шектеулі жаттығу жиыны бар . Үлгіні қайталанбайтын ішкі жиындарға бөлу қажет, деп аталады кластерлер, сондықтан әрбір кластер метрикаға жақын нысандардан тұрады және әртүрлі кластерлердің нысандары айтарлықтай ерекшеленеді. Бұл жағдайда әрбір нысанға кластер нөмірі беріледі.

Кластерлеу алгоритмікез келген нысанды кластер нөмірімен байланыстыратын функция. Кейбір жағдайларда жиынтық алдын ала белгілі, бірақ көбінесе міндет сол немесе басқа көзқарас тұрғысынан кластерлердің оңтайлы санын анықтау болып табылады. сапа критерийлерікластерлеу.

Кластерлеу (бақылаусыз оқыту) классификациядан (бақыланатын оқыту) айырмашылығы, бастапқы объектілердің белгілері бастапқыда орнатылмайды, ал жиынның өзі тіпті белгісіз болуы мүмкін.

Кластерлеу мәселесінің шешімі түбегейлі түсініксіз және оның бірнеше себептері бар (бірқатар авторлардың пікірі бойынша):

  • кластерлеу сапасының бірегей ең жақсы критерийі жоқ. Бірқатар эвристикалық критерийлер белгілі, сонымен қатар нақты анықталған критерийі жоқ, бірақ «құрылысы бойынша» жеткілікті негізделген кластерлеуді жүзеге асыратын бірқатар алгоритмдер. Олардың барлығы әртүрлі нәтиже бере алады. Сондықтан кластерлеудің сапасын анықтау үшін кластерлерді таңдаудың мәнділігін бағалай алатын пәндік саладағы сарапшы қажет.
  • кластерлердің саны әдетте алдын ала белгісіз және кейбір субъективті критерийлерге сәйкес белгіленеді. Бұл тек дискриминация әдістеріне қатысты, өйткені кластерлеу әдістерінде кластерлер жақындық өлшемдеріне негізделген формалды тәсілді пайдалана отырып таңдалады.
  • кластерлеу нәтижесі метрикаға айтарлықтай тәуелді, оның таңдауы, әдетте, субъективті және сарапшы анықтайды. Бірақ әртүрлі тапсырмалар үшін жақындық шараларын таңдау бойынша бірқатар ұсыныстар бар екенін атап өткен жөн.

Қолдану

Биологияда

Биологияда кластерлеудің әртүрлі салаларда көптеген қолданбалары бар. Мысалы, биоинформатикада кейде жүздеген, тіпті мыңдаған элементтерден тұратын өзара әрекеттесетін гендердің күрделі желілерін талдау үшін қолданылады. Кластерлік талдау зерттелетін жүйенің ішкі желілерін, тар жолдарды, концентраторларды және басқа да жасырын қасиеттерін анықтауға мүмкіндік береді, бұл ақыр соңында зерттелетін құбылыстың қалыптасуына әрбір геннің үлесін анықтауға мүмкіндік береді.

Экология саласында организмдердің, қауымдастықтың және т.б. кеңістіктік біртекті топтарын анықтау үшін кеңінен қолданылады. Уақыт өте келе қауымдастықтарды зерттеу үшін кластерлік талдау әдістері азырақ қолданылады. Қауымдастықтар құрылымының гетерогенділігі кластерлік талдаудың тривиальды емес әдістерінің пайда болуына әкеледі (мысалы, Чекановский әдісі).

Жалпы, тарихи тұрғыдан ұқсастық өлшемдері биологияда айырмашылық (қашықтық) өлшемдері емес, жақындық өлшемдері ретінде жиі қолданылатынын атап өткен жөн.

Әлеуметтануда

Әлеуметтанулық зерттеулердің нәтижелерін талдау кезінде талдауды иерархиялық агломеративті отбасының әдістерін, атап айтқанда, кластерлер ішінде ең аз дисперсия оңтайландырылған Уорд әдісін қолдану ұсынылады, нәтижесінде шамамен бірдей мөлшердегі кластерлер. құрылады. Уорд әдісі социологиялық мәліметтерді талдау үшін ең табысты болып табылады. Айырмашылық өлшемі ретінде квадраттық евклидтік қашықтық жақсырақ, бұл кластерлердің контрастын арттыруға ықпал етеді. Иерархиялық кластерлік талдаудың негізгі нәтижесі – дендрограмма немесе «икул диаграммасы». Оны интерпретациялау кезінде зерттеушілер факторлық талдау нәтижелерін интерпретациялау сияқты проблемаға тап болады – кластерлерді анықтаудың бір мәнді критерийлерінің жоқтығы. Негізгі әдіс ретінде екі әдісті қолдану ұсынылады – дендрограмманы визуалды талдау және әртүрлі әдістермен орындалатын кластерлеу нәтижелерін салыстыру.

Дендрограмманы визуалды талдау үлгі элементтерінің ұқсастығының оңтайлы деңгейінде ағашты «кесуді» қамтиды. «Жүзім бұтағы» (Oldenderfer M.S. және Blashfield R.K. терминологиясы) Rescaled Distance Cluster Combine шкаласы бойынша шамамен 5 «кесіп», осылайша 80% ұқсастық деңгейіне жетуі керек. Осы белгі бойынша кластерлерді таңдау қиын болса (бірнеше шағын кластерлер бір үлкенге біріктіріледі), онда басқа белгіні таңдауға болады. Бұл әдісті Олендерфер мен Блэшфилд ұсынған.

Енді қабылданған кластерлік шешімнің тұрақтылығы туралы мәселе туындайды. Шын мәнінде, кластерлеудің тұрақтылығын тексеру оның сенімділігін тексеруден басталады. Мұнда негізгі ереже бар - кластерлеу әдістері өзгерген кезде тұрақты типология сақталады. Иерархиялық кластерлік талдау нәтижелерін итеративті k-орташа кластерлік талдау арқылы тексеруге болады. Егер респонденттердің топтарының салыстырылған классификацияларында сәйкестіктердің үлесі 70%-дан жоғары болса (кездейсоқтықтардың 2/3-нен астамы), онда кластерлік шешім қабылданады.

Басқа талдау түріне жүгінбей, шешімнің сәйкестігін тексеру мүмкін емес. Кем дегенде теориялық тұрғыдан бұл мәселе шешілген жоқ. Олдендерфер мен Блэшфилдтің классикалық кластерлік талдауы беріктікті тексерудің бес қосымша әдісін әзірлейді және ақырында қабылдамайды:

Информатикада

  • Іздеу нәтижелерін кластерлеу – файлдарды, веб-сайттарды, басқа нысандарды іздеу кезінде нәтижелерді «зияткерлік» топтастыру үшін пайдаланылады, бұл пайдаланушыға жылдам шарлауға мүмкіндік береді, неғұрлым сәйкес келетіні анық және азырақ сәйкестігін алып тастайтын ішкі жиынды таңдауға мүмкіндік береді. Интерфейстің ыңғайлылығы сәйкестік тізімі бойынша қарапайым сұрыпталған түрдегі шығарумен салыстырғанда.
    • Clusty - Vivísimo кластерлік іздеу жүйесі
    • Nigma - нәтижелерді автоматты түрде кластерлеуі бар ресейлік іздеу жүйесі
    • Квинтура – ​​кілт сөздер бұлты түріндегі көрнекі кластерлеу
  • Кескінді сегменттеу кескінді сегменттеу) - Жиекті анықтау мақсатында сандық кескінді әртүрлі аймақтарға бөлу үшін кластерлеуді пайдалануға болады. жиекті анықтау) немесе объектіні тану.
  • Деректерді өндіру деректерді өндіру)- Data Mining жүйесіндегі кластерлеу толық аналитикалық шешімді құра отырып, деректерді талдау кезеңдерінің бірі ретінде әрекет еткенде құнды болады. Барлық деректер үшін бір жалпы үлгіні жасаудан гөрі аналитикке ұқсас объектілердің топтарын анықтау, олардың ерекшеліктерін зерттеу және әр топ үшін жеке үлгі құру жиі оңайырақ. Бұл әдіс тұтынушылардың, сатып алушылардың, тауарлардың топтарын бөліп көрсету және олардың әрқайсысы үшін жеке стратегия әзірлеу үшін маркетингте үнемі қолданылады.

да қараңыз

Ескертпелер

Сілтемелер

Орыс тілінде
  • www.MachineLearning.ru – машиналық оқытуға және деректерді өндіруге арналған кәсіби вики-ресурс
Ағылшын тілінде
  • COMPACT – кластерлік бағалауға арналған салыстырмалы пакет. Тегін Matlab пакеті, 2006 ж.
  • П.Берхин, Кластерлік деректерді іздеу әдістеріне шолу, Accrue Software, 2002.
  • Джейн, Мурти және Флинн: Деректерді кластерлеу: шолу, ACM Comp. Surv., 1999.
  • иерархиялық, k-орталардың және анық емес c-орталардың басқа презентациясы үшін кластерлеуге осы кіріспеден қараңыз. Сондай-ақ Гаусстардың қоспасы туралы түсініктеме бар.
  • Дэвид Доу, Аралас модельдеу беті- басқа кластерлік және аралас модель сілтемелері.
  • кластерлеу бойынша оқу құралы
  • Онлайн оқулық: Ақпарат теориясы, қорытынды және оқыту алгоритмдері, Дэвид Дж. MacKay құрамына k-орталарды кластерлеу, жұмсақ k-орталарды кластерлеу және EM алгоритмі мен EM алгоритмінің вариациялық көрінісін қоса алғанда туындылар туралы тараулар кіреді.
  • «Өзін-өзі ұйымдастырған ген», бәсекеге қабілетті оқыту және өзін-өзі ұйымдастыру карталары арқылы кластер құруды түсіндіретін оқулық.
  • kernlab - ядроға негізделген машиналық оқытуға арналған R пакеті (спектрлік кластерлеуді енгізуді қамтиды)
  • Оқулық - Кластерлеу алгоритмдерін (k-орталары, анық емес-с-орталар, иерархиялық, гаусстардың қоспасы) + кейбір интерактивті демонстрациялар (java апплеттері) енгізетін оқулық.
  • Деректерді өндіру бағдарламалық құралы - деректерді өңдеу бағдарламалық құралы кластерлеу әдістерін жиі пайдаланады.
  • Java Competitve Learning Application Кластерлеуге арналған бақыланбайтын нейрондық желілер жиынтығы. Java тілінде жазылған. Барлық бастапқы кодпен толтырыңыз.
  • Machine Learning бағдарламалық құралы - Сонымен қатар көптеген кластерлік бағдарламалық құрал бар.

Data Mining жүйесіндегі кластерлік тапсырмалар

Кластерлік талдауға кіріспе

Кластерлік талдауды қолданудың барлық кең өрісінен, мысалы, әлеуметтік-экономикалық болжау мәселесі.

Әлеуметтік-экономикалық құбылыстарды талдау және болжау кезінде зерттеуші оларды сипаттаудың көп өлшемділігімен жиі кездеседі. Бұл нарықты сегменттеу мәселесін шешуде, көрсеткіштердің жеткілікті үлкен саны бойынша елдердің типологиясын құруда, жекелеген тауарлар бойынша нарықтық жағдайды болжауда, экономикалық депрессияны зерттеу мен болжауда және басқа да көптеген мәселелерде орын алады.

Көп нұсқалы талдау әдістері көптеген сипаттамалармен сипатталған әлеуметтік-экономикалық процестерді зерттеудің ең тиімді сандық құралы болып табылады. Оларға кластерлік талдау, таксономия, үлгіні тану және факторлық талдау жатады.

кластерлік талдауклассификацияда, факторлық талдауда – коммуникацияны зерттеуде көп нұсқалы талдаудың ерекшеліктерін барынша айқын көрсетеді.

Кейде кластерлік талдау әдісі әдебиеттерде сандық таксономия, сандық жіктеу, өздігінен білім алуды тану және т.б.

Кластерлік талдау әлеуметтануда өзінің алғашқы қолданылуын тапты. Кластерлік талдау атауы ағылшынның cluster – топтама, жинақтау сөзінен шыққан. Алғаш рет 1939 жылы кластерлік талдау пәні анықталып, оның сипаттамасын зерттеуші Трион жасады. Кластерлік талдаудың негізгі мақсаты – зерттелетін объектілер мен белгілердің жиынтығын тиісті мағынада біртекті топтарға немесе кластерлерге бөлу. Бұл деректерді жіктеу және ондағы сәйкес құрылымды анықтау мәселесі шешіліп жатқанын білдіреді. Кластерлік талдау әдістерін әртүрлі жағдайларда, тіпті қарапайым топтастыруға келгенде де қолдануға болады, онда барлығы сандық ұқсастық бойынша топтарды құруға келеді.

Кластерлік талдаудың үлкен артықшылығыол объектілерді бір параметр бойынша емес, барлық мүмкіндіктер жиынтығы бойынша бөлуге мүмкіндік береді. Сонымен қатар, кластерлік талдау, көптеген математикалық және статистикалық әдістерден айырмашылығы, қарастырылатын объектілердің түріне ешқандай шектеулер қоймайды және еркін дерлік сипаттағы бастапқы деректер жиынтығын қарастыруға мүмкіндік береді. Бұл, мысалы, индикаторлар дәстүрлі эконометрикалық тәсілдерді қолдануды қиындатқан әртүрлі нысандарға ие болған кезде нарықты болжау үшін үлкен маңызға ие.

Кластерлік талдау ақпараттың жеткілікті үлкен көлемін қарастыруға және әлеуметтік-экономикалық ақпараттың үлкен массивтерін күрт қысқартуға, сығуға, оларды жинақы және көрнекі етуге мүмкіндік береді.

Кластерлік талдаудың экономикалық дамуды сипаттайтын уақыттық қатарлардың жиынтықтарына қатысты үлкен маңызы бар (мысалы, жалпы экономикалық және тауарлық жағдайлар). Мұнда сәйкес көрсеткіштердің мәндері біршама жақын болған кезеңдерді бөліп көрсетуге болады, сонымен қатар динамикасы барынша ұқсас уақытша қатарлардың топтарын анықтауға болады.

Кластерлік талдау циклді түрде қолданылуы мүмкін. Бұл жағдайда зерттеу қажетті нәтижелерге қол жеткізгенге дейін жүргізіледі. Сонымен бірге мұндағы әрбір цикл кластерлік талдауды одан әрі қолданудың бағыты мен тәсілдерін айтарлықтай өзгерте алатын ақпаратты бере алады. Бұл процесті кері байланыс жүйесі ретінде көрсетуге болады.

Әлеуметтік-экономикалық болжау міндеттерінде кластерлік талдауды басқа сандық әдістермен (мысалы, регрессиялық талдаумен) біріктіру өте перспективалы.

Кез келген басқа әдіс сияқты , кластерлік талдаудың белгілі бір кемшіліктері мен шектеулері бар: Атап айтқанда, кластерлердің саны таңдалған бөлу критерийлеріне байланысты. Бастапқы деректер массивін неғұрлым ықшам пішінге дейін азайту кезінде белгілі бір бұрмаланулар орын алуы мүмкін және жекелеген объектілердің жеке ерекшеліктері олардың кластер параметрлерінің жалпыланған мәндерінің сипаттамаларымен ауыстырылуына байланысты жоғалуы мүмкін. Объектілерді жіктеу кезінде көбінесе қарастырылатын жиынтықта кластерлік мәндердің болмауы мүмкіндігі еленбейді.

Кластерлік талдауда мыналар қарастырылады:

а) таңдалған сипаттамалар, негізінен, қалаған кластерлеуге мүмкіндік береді;

б) өлшем бірліктері (шкала) дұрыс таңдалған.

Масштабты таңдау үлкен рөл атқарады. Әдетте, деректер орташа мәнді алып тастау және дисперсия бірге тең болатындай стандартты ауытқуға бөлу арқылы қалыпқа келтіріледі.

1. Топтастыру тапсырмасы

Кластерлеудің міндеті – жиынтықтағы деректер негізінде X, көптеген нысандарды бөліңіз Гүстінде м (м– тұтас) кластерлер (ішкі жиындар) Q1,Q 2 , …,Q м, сондықтан әрбір нысан Гжбір және бір ғана бөлімнің ішкі жиынына жатады және бір кластерге жататын нысандар ұқсас, ал әртүрлі кластерлерге жататын нысандар гетерогенді.

Мысалы, рұқсат етіңіз Гжан басына шаққандағы ЖҰӨ-мен сипатталатын n мемлекетті қамтиды ( F1), саны М 1000 адамға автомобильдер F2), жан басына шаққандағы электр энергиясын тұтыну ( F3), жан басына шаққандағы болат тұтыну ( F4) және т.б. Содан кейін X 1(өлшеу векторы) - бірінші ел үшін көрсетілген сипаттамалар жиынтығы, X 2- екіншіге, X 3үшінші үшін және т.б. Мәселе – елдерді даму деңгейі бойынша бөлу.

Кластерлік талдау мәселесінің шешімі белгілі бір оңтайлылық критерийін қанағаттандыратын бөлімдер болып табылады. Бұл критерий мақсаттық функция деп аталатын әртүрлі бөлімдер мен топтастырулардың қажеттілік деңгейлерін білдіретін кейбір функционалды болуы мүмкін. Мысалы, квадраттық ауытқулардың топ ішілік қосындысын мақсат функциясы ретінде алуға болады:

қайда xj- өлшемдерді білдіреді j- ші нысан.

Кластерлік талдау мәселесін шешу үшін ұқсастық және гетерогенділік ұғымын анықтау қажет.

нысандар екені анық мен -ші және j-ші нүктелер арасындағы қашықтық (қашықтығы) болғанда бір кластерге түседі X менжәне X jжеткілікті кішкентай болар еді және бұл қашықтық жеткілікті үлкен болғанда әртүрлі кластерлерге түседі. Осылайша, объектілердің бір немесе әртүрлі кластерлерін соғу олардың арасындағы қашықтық тұжырымдамасымен анықталады X мен және X jбастап жер, қайда жер - Р-өлшемді евклидтік кеңістік. Теріс емес функция d(X мен, Х j) қашықтық функциясы (метрика) деп аталады, егер:

а) d(Xi , Х j)³ 0 , барлығына X мен және X jбастап жер

б) d(Xi , Х j) = 0, егер және тек егер X мен= Х j

в) d(Xi , X j) = d(X j , X мен)

G) d(Xi , Х j)£ d(Xi , X k) + d(X k , X j), мұндағы X j ; Xi және Х k- кез келген үш вектор жер.

Мағынасы d(Xi , Х j)үшін Xменжәне X j арасындағы қашықтық деп аталады Xменжәне X jжәне арасындағы қашықтыққа тең Гменжәне Гжтаңдалған сипаттамаларға сәйкес (F 1, F 2, F 3, ..., F p).

Ең жиі қолданылатын қашықтық функциялары:

1. Евклидтік қашықтық d 2 (Xi , Х j) =

2. л 1- норма d 1 (Xi , Х j) =

3. Supremum – норма г ¥ (Xi , Х j) = sup

k = 1, 2, ..., б

4. лп- норма d p ​​(Xi , Х j) =

Евклид метрикасы ең танымал. l 1 метрикасын есептеу ең оңай. Жоғарғы норманы есептеу оңай және тапсырыс беру процедурасын қамтиды, а лп- норма 1, 2, 3, қашықтықтардың функцияларын қамтиды.

n өлшем болсын X 1, X 2,..., Xnөлшемі бар деректер матрицасы түрінде берілген б´ n:

Содан кейін векторлардың жұптары арасындағы қашықтық d(X мен, Х j)симметриялы қашықтық матрицасы ретінде ұсынылуы мүмкін:

Қашықтыққа қарама-қарсы ұғым – объектілер арасындағы ұқсастық ұғымы. Г мен . және Гж. Теріс емес нақты функция S(X мен; X j) = S мен jұқсастық өлшемі деп аталады, егер:

1) 0 £ S(X i , X j)< X үшін 1 мен ¹ X j

2) S( Xмен, Xмен) = 1

3) S( Xмен, Xj) = S(Xj, X мен )

Ұқсастық өлшемі мәндерінің жұптарын ұқсастық матрицасына біріктіруге болады:

мән Сijұқсастық коэффициенті деп аталады.

2. Кластерлеу әдістері

Бүгінгі таңда кластерлік талдаудың көптеген әдістері бар. Олардың кейбіреулеріне тоқталайық (төменде келтірілген әдістер әдетте минималды дисперсия әдістері деп аталады).

Болсын X- бақылау матрицасы: X \u003d (X 1, X 2, ..., X u)және арасындағы Евклидтік қашықтықтың квадраты X мен және X jформуласымен анықталады:

1) Толық қосылу әдісі.

Бұл әдістің мәні бір топқа (кластерге) жататын екі объектінің белгілі бір шекті мәннен аз болатын ұқсастық коэффициенті болуы. С. Евклидтік қашықтық бойынша гбұл кластердің екі нүктесінің (нысандарының) арасындағы қашықтық қандай да бір шекті мәннен аспауы керек дегенді білдіредіh. Осылайша, hкластерді құрайтын ішкі жиынның ең үлкен рұқсат етілген диаметрін анықтайды.

2) Максималды жергілікті қашықтық әдісі.

Әрбір нысан бір нүктелі кластер ретінде қарастырылады. Нысандар келесі ереже бойынша топтастырылады: екі кластер біріктіріледі, егер бір кластердің нүктелері мен екіншісінің нүктелері арасындағы максималды қашықтық минималды болса. Процедура мыналардан тұрады n - 1қадамдар және кез келген шектерге арналған алдыңғы әдістегі барлық мүмкін бөлімдерге сәйкес келетін бөлімдердің нәтижелері.

3) Сөз әдісі.

Бұл әдісте мақсаттық функция ретінде квадраттық ауытқулардың топ ішілік қосындысы пайдаланылады, ол әрбір нүкте (нысан) арасындағы квадраттық қашықтықтардың қосындысынан және осы объектіні қамтитын кластер үшін орташа мәннен артық емес. Әрбір қадамда мақсат функциясының ең аз өсуіне әкелетін екі кластер біріктіріледі, яғни. квадраттардың топ ішіндегі қосындысы. Бұл әдіс жақын орналасқан кластерлерді біріктіруге бағытталған.

4) центроид әдісі.

Екі кластер арасындағы қашықтық осы кластерлердің орталықтары (орташалары) арасындағы евклидтік қашықтық ретінде анықталады:

d2ij =(` X-` Y) T (` X-` Y)Кластерлеу әрқайсысы бойынша кезең-кезеңімен жүреді n–1қадамдар екі кластерді біріктіреді Гжәне б ең төменгі мәнге ие d2ijЕгер а n 1әлдеқайда көп n 2, онда екі кластердің біріктіру орталықтары бір-біріне жақын, ал кластерлер біріктірілген кезде екінші кластердің сипаттамалары іс жүзінде еленбейді. Кейде бұл әдісті кейде салмақты топтар әдісі деп те атайды.

3. Тізбекті кластерлеу алгоритмі

Қарастырыңыз Ι = (Ι 1 , Ι 2 , … Ιn)көптеген кластерлер (I 1 ), (I 2 ),…(In). Олардың екеуін таңдайық, мысалы, Ι мен және Ιj, олар белгілі бір мағынада бір-біріне жақынырақ және оларды бір кластерге біріктіреді. n -1 кластерлерден тұратын жаңа кластерлер жинағы келесідей болады:

(Ι 1 ), (Ι 2 )…, мен, Ι j ), …, (Ιn).

Процесті қайталай отырып, біз кластерлердің бірізді жиынтығын аламыз (n-2), (n-3), (n-4)және т.б. кластерлер. Процедураның соңында n нысаннан тұратын және бастапқы жиынтықпен сәйкес келетін кластерді алуға болады. Ι = (Ι 1 , Ι 2 , … Ιn).

Қашықтықтың өлшемі ретінде Евклид метрикасының квадратын аламыз г мен j2. және матрицаны есептеңіз D = (di j 2 ), мұндағы dмен j 2арасындағы қашықтықтың квадраты болып табылады

Ι менжәне Ιj:

….

мен н

d 12 2

d 13 2

….

d 1n 2

d 23 2

….

d 2n 2

….

d 3n 2

….

….

….

мен н

Арасындағы қашықтық болсын Ι менжәне Ι j минималды болады:

г мен j 2 = мин (d i j 2 , i¹ j).-мен қалыптастырамыз Ι менжәне Ι j жаңа кластер

i, Ι j). Жаңасын салайық ((n-1), (n-1))қашықтық матрицасы

( Ι , Ι j )

….

мен н

( Ι i ; Ι j )

d i j 2 1

d i j 2 2

….

d i j 2 n

d 12 2

d 1 3

….

d 1 2 n

….

d2n

….

d3n

(n-2)соңғы матрицаға арналған жолдар алдыңғысынан алынады және бірінші жол қайта есептеледі. Егер бір адам білдіре алса, есептеулерді минимумға дейін сақтауға болады d i j 2 k ,k = 1, 2,…,n (қ¹ мен¹ j)бастапқы матрицаның элементтері арқылы.

Бастапқыда қашықтық тек бір элементті кластерлер арасында ғана анықталды, бірақ сонымен бірге бірнеше элементі бар кластерлер арасындағы қашықтықты анықтау қажет. Мұны әртүрлі тәсілдермен жасауға болады және таңдалған әдіске байланысты біз әртүрлі қасиеттері бар кластерлік талдау алгоритмдерін аламыз. Мысалы, кластер арасындағы қашықтықты қоюға болады i + jжәне кейбір басқа кластер к, кластерлер арасындағы қашықтықтардың орташа арифметикалық мәніне тең менжәне кжәне кластерлер jжәне к:

d i+j,k = ½ (d i k + d j k).

Бірақ анықтауға болады d i+j,kосы екі қашықтықтың ең азы ретінде:

d i+j,k = min(d i k + d j k).

Осылайша, агломеративті иерархиялық алгоритм операциясының бірінші қадамы сипатталған. Келесі қадамдар бірдей.

Алгоритмдердің жеткілікті кең класын алуға болады, егер қашықтықтарды қайта есептеу үшін келесі жалпы формула пайдаланылса:

d i+j,k = A(w) min(d ik d jk) + B(w) max(d ik d jk),қайда

A(w) = егердик£ djk

A(w) = егердик> djk

B(w) = егерг мен к £ djk

B(w ) =, егердик> djk

қайда n iжәне n j- кластерлердегі элементтер саны менжәне j, а wеркін параметр болып табылады, оның таңдауы белгілі бір алгоритмді анықтайды. Мысалы, қашан w = 1біз «орташа байланыс» деп аталатын алгоритмді аламыз, ол үшін қашықтықтарды қайта есептеу формуласы келесі пішінді алады:

d i+j,k =

Бұл жағдайда алгоритмнің әрбір қадамындағы екі кластер арасындағы қашықтық жұптың бір элементі бір кластерге, екіншісі екіншісіне тиесілі болатындай элементтердің барлық жұптары арасындағы қашықтықтардың орташа арифметикалық мәніне тең болады.

w параметрінің көрнекі мағынасы қойсақ түсінікті болады w® ¥ . Қашықтықты түрлендіру формуласы келесі пішінді алады:

d i+j,k =мин (г менDjk)

Бұл кластерлердің әртүрлі бөліктері бір-біріне жақын элементтер тізбегі арқылы қосылған жағдайда, ерікті түрде күрделі пішінді кластерлерді таңдауға мүмкіндік беретін «ең жақын көрші» деп аталатын алгоритм болады. Бұл жағдайда алгоритмнің әрбір қадамындағы екі кластер арасындағы қашықтық осы екі кластерге жататын ең жақын екі элемент арасындағы қашықтыққа тең болып шығады.

Көбінесе топтастырылған элементтер арасындағы бастапқы қашықтықтар (айырымдар) берілген деп болжанады. Кейбір жағдайларда бұл шындық. Дегенмен, тек объектілер мен олардың сипаттамалары көрсетіледі, ал қашықтық матрицасы осы деректер негізінде құрастырылады. Объектілер арасындағы немесе объектілердің сипаттамалары арасындағы қашықтықтардың есептелуіне байланысты әртүрлі әдістер қолданылады.

Объектілерді кластерлік талдау жағдайында айырмашылықтың ең көп тараған өлшемі евклидтік қашықтықтың квадраты болып табылады.

(қайда x ih, x jh- құндылықтар h-ші белгісі менші және j-ші объектілер, және мсипаттамалар саны) немесе евклидтік қашықтықтың өзі. Егер мүмкіндіктерге әртүрлі салмақтар тағайындалса, онда бұл салмақтарды қашықтықты есептеу кезінде ескеруге болады

Кейде айырмашылық өлшемі ретінде мына формуламен есептелетін қашықтық қолданылады:

олар: «Хэмминг», «Манхэттен» немесе «қалалық блок» қашықтығы деп аталады.

Көптеген есептердегі объектілер сипаттамаларының ұқсастығының табиғи өлшемі олардың арасындағы корреляция коэффициенті болып табылады

қайда m i, m j,гмен,г j- сәйкесінше сипаттамалар бойынша орташа және стандартты ауытқулар менжәне j. Сипаттамалар арасындағы айырмашылық өлшемі мән болуы мүмкін 1-р. Кейбір есептерде корреляция коэффициентінің белгісі шамалы және тек өлшем бірлігін таңдауға байланысты болады. Бұл жағдайда сипаттамалар арасындағы айырмашылық өлшемі ретінде, ô 1-r i j ô

4. Кластерлердің саны

Өте маңызды мәселе кластерлердің қажетті санын таңдау мәселесі болып табылады. Кейде m кластер саны априори таңдалуы мүмкін. Дегенмен, жалпы жағдайда бұл сан жиынтықты кластерлерге бөлу процесінде анықталады.

Зерттеулерді Fortier және Solomon жүргізді және ықтималдыққа жету үшін кластерлердің саны алынуы керек екендігі анықталды. а ең жақсы бөлімді табу. Осылайша, бөлімдердің оңтайлы саны берілген бөлшектің функциясы болып табылады б барлық мүмкін болатындар жиынтығындағы ең жақсы немесе қандай да бір мағынада рұқсат етілген бөлімдер. Жалпы шашырау неғұрлым көп болса, фракция соғұрлым жоғары болады б рұқсат етілген бөлулер. Фортиер мен Сүлеймен қажетті бөлімдердің санын табуға болатын кестені әзірледі. S(а , б ) байланысты а және б (қайда а ең жақсы бөлімнің табылу ықтималдығы, б Бөлімдердің жалпы санындағы ең жақсы бөлімдердің үлесі) Сонымен қатар, гетерогенділік өлшемі ретінде шашырау өлшемі емес, Хольценгер мен Харман енгізген мүшелік өлшемі қолданылады. Мәндер кестесі S(а , б ) төменде.

Мәндер кестесіS(а , б )

б \ а

0.20

0.10

0.05

0.01

0.001

0.0001

0.20

8

11

14

21

31

42

0.10

16

22

29

44

66

88

0.05

32

45

59

90

135

180

0.01

161

230

299

459

689

918

0.001

1626

2326

3026

4652

6977

9303

0.0001

17475

25000

32526

55000

75000

100000

Көбінесе біріктіру критерийі (кластерлердің саны) сәйкес функцияның өзгеруі болып табылады. Мысалы, квадраттық ауытқулардың қосындысы:

Топтастыру процесі мұнда критерий мәнінің дәйекті минималды ұлғаюына сәйкес болуы керек Е. Мәннің күрт секіруінің болуы Езерттелетін популяцияда объективті түрде бар кластерлер санының сипаттамасы ретінде түсіндіруге болады.

Сонымен, кластерлердің ең жақсы санын анықтаудың екінші жолы - объектілердің күшті байланысқан күйден әлсіз байланысқан күйіне фазалық ауысуымен анықталатын секірістерді анықтау.

5. Дендограммалар

Қашықтық немесе ұқсастық матрицасын көрсетудің ең танымал әдісі дендограмма немесе ағаш диаграммасы идеясына негізделген. Дендрограмманы қашықтық матрицасы бойынша жүзеге асырылатын дәйекті кластерлеу процесінің нәтижелерінің графикалық көрінісі ретінде анықтауға болады. Дендограмманың көмегімен кластерлеу процедурасын графикалық немесе геометриялық түрде бейнелеуге болады, бұл процедура тек қашықтық немесе ұқсастық матрицасының элементтерімен жұмыс істейді.

Дендрограммаларды құрудың көптеген әдістері бар. Дендрограммада объектілер тігінен сол жақта, кластерлеу нәтижелері оң жақта орналасқан. Жаңа кластерлердің құрылымына сәйкес келетін қашықтық немесе ұқсастық мәндері дендрограммалар үстінде көлденең түзу сызық бойымен көрсетіледі.

1-сурет

1-суретте дендрограмманың бір мысалы көрсетілген. 1-сурет алты нысанның жағдайына сәйкес келеді ( n=6) және ксипаттамалары (белгілері). Объектілер БІРАҚжәне FROMең жақын болып табылады, сондықтан 0,9-ға тең жақындық деңгейінде бір кластерге біріктіріледі. ОбъектілерDжәне Е 0,8 деңгейінде біріктірілген. Қазір бізде 4 кластер бар:

(A, C), (Ф), ( D, Е), ( Б) .

Одан әрі кластерлер қалыптасады (A, C, Ф) және ( Е, D, Б) , 0,7 және 0,6 тең жақындық деңгейіне сәйкес. Соңында, барлық нысандар 0,5 деңгейінде бір кластерге топтастырылған.

Дендограмма түрі ұқсастық өлшемін немесе объект пен кластер арасындағы қашықтықты таңдауға және кластерлеу әдісіне байланысты. Ең маңызды сәт - объект пен кластер арасындағы ұқсастық өлшемін немесе қашықтық өлшемін таңдау.

Кластерлік талдау алгоритмдерінің саны тым көп. Олардың барлығын иерархиялық және иерархиялық емес деп бөлуге болады.

Иерархиялық алгоритмдер дендограммаларды құрумен байланысты және келесіге бөлінеді:

а) бастапқы элементтердің дәйекті үйлесімімен және кластер санының сәйкес азаюымен сипатталатын агломеративті;

б) бөлінетін (бөлінетін), онда кластерлердің саны біреуден бастап көбейеді, нәтижесінде бөлінетін топтардың тізбегі қалыптасады.

Кластерлік талдау алгоритмдері бүгінгі таңда ең жоғары өлшемді есептерді шешуге мүмкіндік беретін жақсы бағдарламалық қамтамасыз етуді іске асыруға ие.

6. Деректер

Кластерлік талдау интервалдық деректерге, жиіліктерге, екілік деректерге қолданылуы мүмкін. Айнымалылардың салыстырмалы масштабта өзгеруі маңызды.

Өлшем бірліктерінің гетерогенділігі және бір шкаладағы әртүрлі көрсеткіштердің мәндерін негізді өрнектеудің мүмкін еместігі объектілердің олардың қасиеттері кеңістігіндегі орнын көрсететін нүктелер арасындағы қашықтықтың шығуына әкеледі. ерікті түрде таңдалған шкалаға тәуелді болу. Бастапқы мәліметтерді өлшеудің гетерогенділігін жою үшін олардың барлық мәндері алдын ала нормаланады, яғни. бұл мәндердің осы көрсеткіштің белгілі бір қасиеттерін көрсететін белгілі бір мәнге қатынасы арқылы көрсетіледі. Кластерлік талдау үшін бастапқы деректерді қалыпқа келтіру кейде бастапқы мәндерді сәйкес көрсеткіштердің стандартты ауытқуына бөлу арқылы жүзеге асырылады. Тағы бір тәсілі - стандартталған жарна деп аталатын есептеу. Оны да атайды Z-үлесі.

З -үлесі берілген бақылаудың орташадан қанша стандартты ауытқу бөлетінін көрсетеді:

Қайда x iбұл бақылаудың құндылығы,- орташа, С- стандартты ауытқу.

Z үшін орташа - үлес нөлге тең және стандартты ауытқу 1-ге тең.

Стандарттау әртүрлі үлестірімдерден алынған бақылауларды салыстыруға мүмкіндік береді. Егер айнымалының таралуы қалыпты (немесе қалыптыға жақын) болса және орташа және дисперсия белгілі болса немесе үлкен үлгілерден бағаланса, ондаЗ -бақылау енгізуі оның орналасқан жері туралы нақтырақ ақпаратты береді.

Нормалау әдістері қарастырылатын объектілердің ұқсастығын түсіндіру тұрғысынан барлық белгілерді эквивалент деп тануды білдіретінін ескеріңіз. Экономикаға қатысты әр түрлі көрсеткіштердің баламалылығын мойындау әрқашан ақтала бермейтіні атап өтілді. Объектілер арасындағы ұқсастықтар мен айырмашылықтарды белгілеу барысында көрсеткіштердің әрқайсысына нормалаумен қатар оның маңыздылығын көрсететін салмақ берген жөн.

Бұл жағдайда жеке көрсеткіштердің салмағын анықтау әдісіне жүгінуге тура келеді - сарапшылар сауалнамасы. Мысалы, елдерді экономикалық даму деңгейіне қарай жіктеу мәселесін шешу кезінде біз он балдық шкала бойынша дамыған елдердің проблемалары бойынша 40 жетекші мәскеулік сарапшылардың сауалнамасының нәтижелерін пайдаландық:

әлеуметтік-экономикалық дамудың жалпылама көрсеткіштері – 9 балл;

жұмыспен қамтылған халықты салалық бөлу көрсеткіштері – 7 балл;

жалдамалы еңбектің таралу көрсеткіштері – 6 балл;

өндіргіш күштердің адамдық элементін сипаттайтын көрсеткіштер – 6 балл;

материалдық өндіргіш күштердің даму көрсеткіштері – 8 балл;

мемлекеттік шығыстардың көрсеткіші – 4 балл;

«әскери-экономикалық» көрсеткіштер – 3 балл;

әлеуметтік-демографиялық көрсеткіштер – 4 балл.

Сарапшылардың бағалауы салыстырмалы түрде тұрақты болды.

Сараптамалық бағалау көрсеткіштердің белгілі бір тобына кіретін көрсеткіштердің маңыздылығын анықтау үшін белгілі негіз болып табылады. Көрсеткіштердің нормаланған мәндерін бағалаудың орташа баллына сәйкес келетін коэффициентке көбейту олардың ерекшеліктерінің тең емес салмағын ескере отырып, көп өлшемді кеңістіктегі елдердің орнын көрсететін нүктелер арасындағы қашықтықты есептеуге мүмкіндік береді.

Көбінесе мұндай есептерді шешу кезінде бір емес, екі есептеу қолданылады: біріншісі, барлық белгілер баламалы болып саналады, екіншісі, сарапшылық бағалаулардың орташа мәндеріне сәйкес әртүрлі салмақтар беріледі.

7. Кластерлік талдауды қолдану

Кластерлік талдаудың кейбір қолданбаларын қарастырайық.

1. Даму деңгейіне қарай елдердің топтарға бөлінуі.

31 индикатор бойынша 65 мемлекет зерттелді (жан басына шаққандағы ұлттық табыс, өнеркәсіпте жұмыспен қамтылған халықтың үлесі %-бен, жан басына шаққандағы жинақтар, ауыл шаруашылығында жұмыспен қамтылған халықтың үлесі %, орташа өмір сүру ұзақтығы, 1-ге шаққандағы автомобильдер саны мың тұрғын, 1 млн тұрғынға шаққандағы қарулы күштер саны, өнеркәсіптегі ЖІӨ үлесі %, ауыл шаруашылығындағы ЖІӨ үлесі % және т.б.)

Елдердің әрқайсысы бұл қарастыруда 31 индикатордың белгілі бір мәндерімен сипатталатын объект ретінде әрекет етеді. Сәйкесінше, оларды 31 өлшемді кеңістіктегі нүктелер ретінде көрсетуге болады. Мұндай кеңістік әдетте зерттелетін объектілердің меншік кеңістігі деп аталады. Осы нүктелер арасындағы қашықтықты салыстыру қарастырылатын елдердің жақындық дәрежесін, олардың бір-біріне ұқсастығын көрсетеді. Ұқсастықты бұл түсінудің әлеуметтік-экономикалық мәні елдердің неғұрлым ұқсас болып есептелетінін білдіреді, олар сипатталған бірдей көрсеткіштер арасындағы айырмашылықтар соғұрлым аз болады.

Мұндай талдаудың бірінші қадамы ұқсастық матрицасына кіретін ұлттық экономикалардың жұбын анықтау болып табылады, олардың арасындағы қашықтық ең аз. Бұл ең ұқсас, ұқсас экономикалар болатыны анық. Келесі қарастыруда бұл екі ел де бір топ, бір кластер болып саналады. Тиісінше, бастапқы матрица оның элементтері 65 емес, 64 нысанның - 63 экономиканың және жаңадан өзгертілген кластердің - ең ұқсас екі елдің шартты бірлестігінің барлық мүмкін жұптары арасындағы қашықтық болатындай етіп түрлендірілді. Одаққа кіретін елдердің жұбынан басқа елдерге дейінгі қашықтықтарға сәйкес келетін жолдар мен бағандар бастапқы ұқсастық матрицасынан алынып тасталады, бірақ одақ пен басқа елдер алған кластер арасындағы қашықтықты қамтитын жол мен баған қосылады.

Жаңадан алынған кластер мен елдер арасындағы қашықтық соңғы және жаңа кластерді құрайтын екі ел арасындағы қашықтықтардың орташа мәніне тең деп қабылданады. Басқаша айтқанда, елдердің біріккен тобы оның құрамдас елдерінің сипаттамаларының орташа мәніне шамамен тең сипаттамалары бар біртұтас ретінде қарастырылады.

Талдаудың екінші қадамы 64 жолдар мен бағандармен осылай түрлендірілген матрицаны қарастыру болып табылады. Тағы да, экономикалар жұбы анықталады, олардың арасындағы қашықтық ең аз маңызды болып табылады және олар, бірінші жағдайдағы сияқты, біріктіріледі. Бұл жағдайда ең аз қашықтық жұп елдер арасында да, кез келген ел мен алдыңғы кезеңде алынған елдер одағы арасында да болуы мүмкін.

Әрі қарайғы процедуралар жоғарыда сипатталғандарға ұқсас: әр кезеңде матрица одан алдыңғы кезеңде біріктірілген объектілерге дейінгі қашықтықты қамтитын екі баған және екі жол (елдер немесе бірлестіктер жұптары - кластерлер) алынып тасталатындай етіп түрлендіріледі. ; алынып тасталған жолдар мен бағандар жаңа қосылыстардан қалған объектілерге дейінгі арақашықтықтарды қамтитын жол бар бағанмен ауыстырылады; әрі қарай өзгертілген матрицада ең жақын объектілердің жұбы ашылады. Талдау матрица толық таусылғанша (яғни, барлық елдер біріктірілгенге дейін) жалғасады. Матрицалық талдаудың жалпыланған нәтижелері жоғарыда сипатталғанға ұқсас ұқсастық ағашы (дендограмма) түрінде ұсынылуы мүмкін, жалғыз айырмашылығы - біз қарастырып отырған барлық 65 елдің салыстырмалы жақындығын көрсететін ұқсастық ағашы - тек бес ұлттық экономика пайда болатын схемадан әлдеқайда күрделі. Бұл ағаш сәйкес келетін нысандардың санына сәйкес 65 деңгейді қамтиды. Бірінші (төменгі) деңгей әр елге жеке сәйкес келетін ұпайларды қамтиды. Осы екі нүктенің екінші деңгейдегі байланысы ұлттық экономикалардың жалпы типі бойынша ең жақын елдердің жұбын көрсетеді. Үшінші деңгейде елдердің келесі ең ұқсас жұптық қатынасы белгіленеді (жоғарыда айтылғандай, мұндай қатынаста жаңа елдер немесе жаңа ел және бұрыннан анықталған ұқсас елдер жұбы болуы мүмкін). Барлық зерттелетін елдер бір жиынтық ретінде әрекет ететін соңғы деңгейге дейін.

Кластерлік талдауды қолдану нәтижесінде келесі бес елдер тобы алынды:

Афро-азиялық топ

латын-азиялық топ;

Латын-Жерорта теңізі тобы;

дамыған капиталистік елдер тобы (АҚШсыз)

АҚШ

Мұнда қолданылған 31 көрсеткіштен тыс жаңа көрсеткіштерді енгізу немесе оларды басқалармен алмастыру, әрине, елдік жіктеу нәтижелерінің өзгеруіне әкеледі.

2. Мәдениеттің жақындық критерийі бойынша елдердің бөлінуі.

Өздеріңіз білетіндей, маркетинг елдердің мәдениетін (салт, дәстүр, т.б.) ескеруі керек.

Кластерлеу арқылы келесі елдер топтары алынды:

· Араб тілі;

Таяу Шығыс

· скандинавиялық;

неміс тілінде сөйлейтін

· Ағылшынша сөйлейтін;

Романдық еуропалық;

· Латын Америкасы;

Қиыр Шығыс.

3. Мырыш нарығының болжамын әзірлеу.

Кластерлік талдау тауар конъюнктурасының экономикалық-математикалық моделін қысқарту кезеңінде маңызды рөл атқарады, есептеу процедураларын жеңілдетуге және жеңілдетуге ықпал етеді, қажетті дәлдікті сақтай отырып, алынған нәтижелердің үлкен жинақтылығын қамтамасыз етеді. Кластерлік талдауды қолдану нарықтық көрсеткіштердің барлық бастапқы жинағын тиісті критерийлер бойынша топтарға (кластерлерге) бөлуге мүмкіндік береді, осылайша ең өкілді көрсеткіштерді таңдауды жеңілдетеді.

Кластерлік талдау нарық жағдайын модельдеу үшін кеңінен қолданылады. Тәжірибеде болжау тапсырмаларының көпшілігі кластерлік талдауды қолдануға негізделген.

Мысалы, мырыш нарығының болжамын әзірлеу міндеті.

Бастапқыда жаһандық мырыш нарығының 30 негізгі көрсеткіші таңдалды:

X 1 - уақыт

Өндіріс көрсеткіштері:

X 2 - әлемде

X 4 - Еуропа

X 5 - Канада

X 6 - Жапония

X 7 - Австралия

Тұтыну көрсеткіштері:

X 8 - әлемде

X 10 - Еуропа

X 11 - Канада

X 12 - Жапония

X 13 - Австралия

Мырыштың өндіруші қоры:

X 14 - әлемде

X 16 - Еуропа

X 17 - басқа елдер

Мырыштың тұтынушылық қоры:

X 18 - АҚШ-та

X 19 - Англияда

X 10 - Жапонияда

Мырыш кендері мен концентраттарының импорты (мың тонна)

X 21 - АҚШ-та

X 22 - Жапонияда

X 23 - Германияда

Мырыш кендері мен концентраттарының экспорты (мың тонна)

X 24 - Канададан

X 25 - Австралиядан

Мырыш импорты (мың тонна)

X 26 - АҚШ-та

X 27 - Англияға

X 28 - Германияда

Мырыш экспорты (мың тонна)

X 29 - Канададан

X 30 - Австралиядан

Нақты тәуелділіктерді анықтау үшін корреляциялық және регрессиялық талдау аппараты пайдаланылды. Байланыстар жұптық корреляция коэффициенттерінің матрицасы негізінде талданды. Мұнда конъюнктураның талданатын көрсеткіштерінің қалыпты таралу гипотезасы қабылданды.r ij қолданылатын көрсеткіштер арасындағы байланыстың мүмкін болатын жалғыз көрсеткіші емес екені анық. Бұл мәселеде кластерлік талдауды қолдану қажеттілігі мырыш бағасына әсер ететін көрсеткіштер санының өте көп болуына байланысты. Төмендегі бірқатар себептерге байланысты оларды азайту қажет:

а) барлық айнымалылар бойынша толық статистикалық мәліметтердің болмауы;

б) модельге айнымалылардың көп саны енгізілгенде есептеу процедураларының күрт күрделенуі;

в) регрессиялық талдау әдістерін оңтайлы қолдану айнымалылар санынан байқалатын мәндер санының кем дегенде 6-8 есе асып кетуін талап етеді;

г) модельде статистикалық тәуелсіз айнымалыларды қолдануға ұмтылу және т.б.

Корреляция коэффициенттерінің салыстырмалы көлемді матрицасында мұндай талдауды тікелей жүргізу өте қиын. Кластерлік талдаудың көмегімен нарықтық айнымалылардың барлық жиынтығын топтарға бөлуге болады, осылайша әрбір кластердің элементтері бір-бірімен күшті корреляцияланады, ал әртүрлі топтардың өкілдері әлсіз корреляциямен сипатталады.

Бұл мәселені шешу үшін агломеративті иерархиялық кластерлік талдау алгоритмдерінің бірі қолданылды. Әрбір қадамда екі топтың оңтайлы, белгілі бір мағынада бірігуіне байланысты кластерлердің саны біреуге азаяды. Қосылу критерийі сәйкес функцияны өзгерту болып табылады. Осының функциясы ретінде келесі формулалар бойынша есептелген квадраттық ауытқулар қосындыларының мәндері пайдаланылды:

(j = 1, 2, …,м),

қайда j- кластер нөмірі, n- кластердегі элементтер саны.

Риж-жұптық корреляция коэффициенті.

Осылайша, топтастыру процесі критерий мәнінің дәйекті минималды өсуіне сәйкес келуі керек Е.

Бірінші кезеңде бастапқы деректер массиві әрқайсысы бір элементтен тұратын кластерлерден тұратын жиын ретінде ұсынылады. Топтастыру процесі осындай кластерлер жұбының бірігуінен басталады, бұл квадраттық ауытқулар сомасының минималды өсуіне әкеледі. Бұл мүмкін болатындардың әрқайсысы үшін квадраттық ауытқулар сомасының мәндерін бағалауды талап етеді кластерлік бірлестіктер. Келесі кезеңде квадраттық ауытқулар сомасының мәндері қазірдің өзінде қарастырылады кластерлер және т.б. Бұл процесс бір қадамда тоқтатылады. Ол үшін квадраттық ауытқулар қосындысының мәнін бақылау керек. Мәндердің өсу тізбегін ескере отырып, оның динамикасында секіруді (бір немесе бірнеше) ұстауға болады, мұны зерттелетін популяцияда «объективті» бар топтар санының сипаттамасы ретінде түсіндіруге болады. Жоғарыда келтірілген мысалда кластерлердің саны 7 және 5 болған кезде секірулер орын алды. Әрі қарай, топтардың санын азайтуға болмайды, өйткені бұл модель сапасының төмендеуіне әкеледі. Кластерлерді алғаннан кейін экономикалық мағынада ең маңызды және таңдалған нарық критерийіне ең тығыз байланысты айнымалылар таңдалады - бұл жағдайда Лондон металл биржасында мырыш баға белгілеулерімен. Бұл тәсіл конъюнктураның бастапқы көрсеткіштерінің бастапқы жинағында қамтылған ақпараттың едәуір бөлігін сақтауға мүмкіндік береді.

Статистикада кластерлік талдаудың екі негізгі түрі бар (екеуі де SPSS-те ұсынылған): иерархиялық және k-орталар. Бірінші жағдайда автоматтандырылған статистикалық процедура кластерлердің оңтайлы санын және кластерлеуге қажетті басқа да бірқатар параметрлерді дербес анықтайды.

талдау. Талдаудың екінші түрі практикалық қолдануда айтарлықтай шектеулерге ие - ол үшін бөлінген кластерлердің нақты санын және әрбір кластердің орталықтарының (центроидтар) бастапқы мәндерін және кейбір басқа статистиканы дербес анықтау қажет. k-орталары әдісімен талдау кезінде бұл мәселелер алдын ала иерархиялық кластерлік талдау жүргізу арқылы шешіледі, содан кейін оның нәтижелері бойынша k-орталары әдісін қолдана отырып, кластер моделін есептейді, бұл көп жағдайда жеңілдетіп қана қоймайды, бірақ , керісінше, зерттеушінің жұмысын қиындатады (әсіресе дайын емес).

Жалпы алғанда, иерархиялық кластерлік талдау компьютердің аппараттық ресурстарына өте қажет болғандықтан, көптеген мыңдаған бақылаулардан (респонденттерден) тұратын өте үлкен деректер жиынын өңдеу үшін SPSS жүйесіне k-means кластерлік талдау енгізілген деп айта аламыз. компьютерлік техниканың сыйымдылығының жеткіліксіздігі1. Маркетингтік зерттеулерде қолданылатын іріктеу мөлшері көп жағдайда төрт мың респонденттен аспайды. Маркетингтік зерттеулер тәжірибесі көрсеткендей, бұл кластерлік талдаудың бірінші түрі - иерархиялық - ең өзекті, әмбебап және дәл ретінде барлық жағдайларда қолдануға ұсынылады. Сонымен бірге кластерлік талдау жүргізу кезінде сәйкес айнымалыларды таңдау маңызды екенін атап өткен жөн. Бұл ескерту өте маңызды, өйткені талдауға бірнеше немесе тіпті бір маңызды емес айнымалыны қосу бүкіл статистикалық процедураның сәтсіздігіне әкелуі мүмкін.

Біз маркетингтік зерттеулер тәжірибесінен келесі мысалды пайдалана отырып, кластерлік талдау жүргізу әдістемесін сипаттаймыз.

Бастапқы деректер:

Зерттеу барысында ресейлік және шетелдік 22 әуе компаниясының бірімен ұшатын 745 әуе жолаушысынан сауалнама алынды. Әуе жолаушыларына бес балдық шкала бойынша 1 (өте нашар)-дан 5 (өте жақсы) аралығында авиакомпания жерүсті персоналының тіркелу кезінде жеті аспектісін бағалау ұсынылды: сыпайылық, кәсібилік, жеделдік, көмек көрсету, кезекті басқару , сыртқы түрі, жалпы жұмыс персоналы.

Міндетті:

Зерттелетін авиакомпанияларды әуе жолаушылары қабылдайтын жердегі персонал жұмысының сапасы деңгейіне қарай сегменттеңіз.

Сонымен, бізде бес балдық шкала бойынша ұсынылған әртүрлі авиакомпаниялардың жердегі персоналының өнімділік рейтингтерін (ql3-ql9) білдіретін жеті аралық айнымалылардан тұратын деректер файлы бар. Деректер файлында респонденттер таңдаған авиакомпанияларды көрсететін жалғыз айнымалы q4 бар (барлығы 22). Біз кластерлік талдау жүргіземіз және авиакомпания деректерін қандай мақсатты топтарға бөлуге болатынын анықтаймыз.

Иерархиялық кластерлік талдау екі кезеңде жүзеге асырылады. Бірінші кезеңнің нәтижесі респонденттердің зерттелетін іріктемесі бөлінуі тиіс кластерлердің (мақсатты сегменттер) саны болып табылады. Кластерлік талдау процедурасы мұндай емес

кластерлердің оңтайлы санын өз бетінше анықтай алады. Ол тек қалаған нөмірді ұсына алады. Сегменттердің оңтайлы санын анықтау мәселесі негізгі болғандықтан, ол әдетте талдаудың жеке кезеңінде шешіледі. Екінші кезеңде бақылаулардың нақты кластерленуі талдаудың бірінші кезеңінде анықталған кластерлердің санына сәйкес орындалады. Енді осы кластерлік талдау қадамдарын ретімен қарастырайық.

Кластерді талдау процедурасы Талдау > Жіктеу > Иерархиялық кластер мәзірі арқылы іске қосылады. Ашылатын диалогтық терезеде деректер файлында қолжетімді барлық айнымалы мәндердің сол жақ тізімінен сегменттеу шарты болып табылатын айнымалы мәндерді таңдаңыз. Біздің жағдайда олардың жетеуі бар және олар жердегі персоналдың ql3-ql9 жұмысының параметрлерін бағалауды білдіреді (5.44-сурет). Негізінде, кластерлік талдаудың бірінші кезеңін орындау үшін сегменттеу критерийлерінің жиынтығын көрсету жеткілікті болады.

Күріш. 5.44.

Әдепкі бойынша, кластерлерді құру нәтижелері бар кестеге қосымша, оның негізінде біз олардың оңтайлы санын анықтаймыз, SPSS сонымен қатар бағдарламаны жасаушылардың ниеті бойынша арнайы инверттелген гистограммалық мұзды көрсетеді. , кластерлердің оңтайлы санын анықтауға көмектеседі; Диаграммалар Plots батырмасы арқылы көрсетіледі (5.45-сурет). Дегенмен, егер біз бұл опцияны орнатуды қалдырсақ, біз тіпті салыстырмалы түрде шағын деректер файлын өңдеуге көп уақыт жұмсаймыз. Айдаққа қосымша, Plots терезесінде жылдамырақ Дендограмма бағаналы диаграммасын таңдауға болады. Бұл кластердің қалыптасу процесін көрсететін көлденең жолақтар. Теориялық тұрғыдан алғанда, респонденттердің аз санымен (50-100-ге дейін) бұл диаграмма кластерлердің қажетті санына қатысты оңтайлы шешімді таңдауға көмектеседі. Дегенмен, маркетингтік зерттеулердің барлық дерлік мысалдарында таңдама мөлшері осы мәннен асып түседі. Дендограмма мүлдем жарамсыз болады, өйткені бақылаулардың салыстырмалы түрде аз санының өзінде бұл көлденең және тік сызықтармен қосылған бастапқы деректер файлының жол нөмірлерінің өте ұзақ тізбегі. SPSS оқулықтарының көпшілігінде дәл осындай жасанды, шағын үлгілер бойынша кластерлік талдау мысалдары бар. Бұл оқулықта біз практикалық жағдайда SPSS-ті қалай барынша тиімді пайдалану керектігін және нарықты зерттеудің нақты мысалдарын көрсетеміз.

Күріш. 5.45.

Біз анықтағандай, Icicle да, Дендограмма да практикалық мақсаттарға жарамайды. Сондықтан, иерархиялық кластерлік талдаудың негізгі диалогтық терезесінде Дисплей аймағындағы әдепкі Plots опциясын таңдауды алып тастау арқылы диаграммаларды көрсетпеу ұсынылады, суретте көрсетілгендей. 5.44. Қазір кластерлік талдаудың бірінші кезеңін орындауға барлығы дайын. OK түймесін басу арқылы процедураны бастаңыз.

Біраз уақыттан кейін нәтижелер SPSS Viewer терезесінде пайда болады. Жоғарыда айтылғандай, біз үшін маңызды болып табылатын талдаудың бірінші кезеңінің жалғыз нәтижесі суретте көрсетілген Орташа байланыс (топтар арасындағы) кестесі болады. 5.46. Осы кестеге сүйене отырып, біз кластерлердің оңтайлы санын анықтауымыз керек. Айта кету керек, кластерлердің оңтайлы санын анықтаудың бірыңғай әмбебап әдісі жоқ. Әрбір жағдайда зерттеуші бұл санды өзі анықтауы керек.

Тәжірибеге сүйене отырып, автор бұл процестің келесі схемасын ұсынады. Ең алдымен кластерлердің санын анықтаудың ең кең тараған стандартты әдісін қолдануға тырысайық. Орташа байланыс (Топтар арасындағы) кестесін пайдалана отырып, кластерді құру процесінің қай сатысында (баған кезеңі) агломерация коэффициентіндегі бірінші салыстырмалы үлкен секіріс (коэффициенттер бағандары) болатынын анықтау қажет. Бұл секіру оған дейін бір-бірінен жеткілікті аз қашықтықта орналасқан бақылаулар кластерлерге біріктірілгенін білдіреді (біздің жағдайда, талданған параметрлер бойынша бағалау деңгейі ұқсас респонденттер) және осы кезеңнен бастап алыстағы бақылаулар. біріктіріледі.

Біздің жағдайда коэффициенттер 0-ден 7,452-ге дейін біркелкі өседі, яғни біріншіден 728-ге дейінгі қадамдардағы коэффициенттер арасындағы айырмашылық аз болды (мысалы, 728 және 727 қадамдар арасында - 0,534). 729-шы қадамнан бастап коэффициентте бірінші маңызды секіріс орын алады: 7,452-ден 10,364-ке дейін (2,912-ге). Коэффициент бірінші рет секіретін қадам 729. Енді кластерлердің оңтайлы санын анықтау үшін бақылаулардың жалпы санынан алынған мәнді алып тастау керек (үлгі мөлшері). Жалпы іріктеу мөлшері біздің жағдайда 745 адамды құрайды; сондықтан кластерлердің оңтайлы саны 745-729 = 16.


Күріш. 5.46.

Бізде өте көп кластерлер алдық, оларды болашақта түсіндіру қиын болады. Сондықтан қазір алынған кластерлерді зерттеп, олардың қайсысы маңызды екенін және қайсысын азайтуға тырысу керектігін анықтау керек. Бұл мәселе кластерлік талдаудың екінші кезеңінде шешіледі.

Кластерді талдау процедурасының негізгі диалогтық терезесін ашыңыз (мәзір Талдау > Классификация > Иерархиялық кластер). Талданатын айнымалылар өрісінде бізде жеті параметр бар. Сақтау түймесін басыңыз. Ашылатын диалогтық терезе (5.47-сурет) респонденттерді мақсатты топтарға тарататын бастапқы деректер файлында жаңа айнымалыны жасауға мүмкіндік береді. Бірыңғай шешім опциясын таңдап, сәйкес өрісте кластерлердің қажетті санын көрсетіңіз - 16 (кластерлік талдаудың бірінші кезеңінде анықталады). Жалғастыру түймешігін басу сізді негізгі тілқатысу терезесіне қайтарады, мұнда кластерді талдау процедурасын бастау үшін OK түймесін басуға болады.

Кластерлік талдау процесінің сипаттамасын жалғастырмас бұрын, басқа параметрлерді қысқаша сипаттау қажет. Олардың арасында пайдалы және іс жүзінде артық (практикалық маркетингтік зерттеулер тұрғысынан) ерекшеліктері бар. Мысалы, негізгі иерархиялық кластерді талдау тілқатысу терезесінде респонденттерді анықтайтын мәтіндік айнымалы мәнді қосымша орналастыруға болатын өрістер бойынша белгілер жағдайлары бар. Біздің жағдайда респонденттер таңдаған авиакомпанияларды кодтайтын q4 айнымалысы осы мақсаттарға қызмет ете алады. Іс жүзінде, жапсырма жағдайларын өрістер бойынша пайдаланудың ұтымды түсіндірмесін табу қиын, сондықтан оны әрқашан бос қалдыруға болады.

Күріш. 5.47.

Кластерлік талдауды орындау кезінде негізгі диалогтық терезедегі аттас батырмамен шақырылатын Статистика диалогтық терезесі сирек қолданылады. Ол бастапқы деректер файлындағы әрбір респондент кластер нөмірімен салыстырылатын SPSS Viewer терезесінде Кластерге мүшелік кестесін көрсетуге мүмкіндік береді. Респонденттердің жеткілікті көп санымен (маркетингтік зерттеулердің барлық дерлік мысалдарында) бұл кесте мүлдем пайдасыз болады, өйткені бұл «респондент саны / кластер нөмірі» мәндерінің жұптарының ұзақ тізбегі, оны бұл пішінде түсіндіру мүмкін емес. . Кластерлік талдаудың техникалық мақсаты әрқашан деректер файлында респонденттердің мақсатты топтарға бөлінуін көрсететін қосымша айнымалы мәнді жасау болып табылады (кластерді талдаудың негізгі диалогтық терезесіндегі Сақтау түймешігін басу арқылы). Бұл айнымалы респонденттердің санымен бірге Кластерге мүшелік кестесі болып табылады. Статистика терезесіндегі жалғыз практикалық опция - Орташа байланыс (топтар арасындағы) кестесін көрсету, бірақ бұл әдепкі бойынша орнатылған. Осылайша, Статистика түймешігін пайдалану және SPSS Viewer терезесінде бөлек кластерге мүшелік кестесін көрсету практикалық емес.

Сюжеттер түймесі жоғарыда айтылған: оны кластерді талдаудың негізгі диалогтық терезесіндегі Plots параметрін таңдауды алып тастау арқылы өшіру керек.

Кластерлік талдау процедурасының сирек қолданылатын мүмкіндіктеріне қоса, SPSS сонымен қатар өте пайдалы опцияларды ұсынады. Олардың ішінде, ең алдымен, респонденттерді кластерлерге тарататын бастапқы деректер файлында жаңа айнымалыны жасауға мүмкіндік беретін Сақтау түймесі. Сондай-ақ негізгі диалогтық терезеде кластерлеу объектісін таңдау аймағы бар: респонденттер немесе айнымалылар. Бұл мүмкіндік жоғарыда 5.4 бөлімінде талқыланды. Бірінші жағдайда кластерлік талдау негізінен респонденттерді кейбір критерийлер бойынша сегменттеу үшін қолданылады; екіншісінде кластерлік талдаудың мақсаты факторлық талдауға ұқсас: айнымалылардың жіктелуі (санының азаюы).

Суреттен көрініп тұрғандай. 5.44, кластерлік талдаудың жалғыз мүмкіндігі қарастырылмаған статистикалық процедураны жүргізу әдісін таңдау түймесі Әдіс. Осы Параметрмен тәжірибе жасау кластерлердің оңтайлы санын анықтауда үлкен дәлдікке қол жеткізуге мүмкіндік береді. Әдепкі параметрлері бар осы диалогтық терезенің жалпы көрінісі күріш. 5.48.

Күріш. 5.48.

Бұл терезеде орнатылатын бірінші нәрсе - кластерлерді қалыптастыру әдісі (яғни бақылауларды біріктіру). SPSS ұсынатын статистикалық әдістердің барлық мүмкін нұсқаларының ішінен әдепкі Топтар арасындағы байланыстыру әдісін немесе Ward (Ward әдісі) таңдау керек.Бірінші әдіс оның әмбебаптығы мен салыстырмалы қарапайымдылығына байланысты жиі қолданылады. ол негізделген статистикалық процедура Бұл әдісті қолдана отырып, кластерлер арасындағы қашықтық әрбір итерация бір кластерден бір бақылауды және екіншісінен екіншісін қамтитын бақылаулардың барлық мүмкін жұптары арасындағы қашықтықтардың орташа мәні ретінде есептеледі.теориялық мүмкін болатын жұптар Уорд әдісі түсіну қиынырақ және сирек қолданылады. Ол көптеген кезеңдерден тұрады және әрбір бақылау үшін барлық айнымалылардың мәндерін орташалауға, содан кейін есептелген орташа мәндерден әрбір бақылауға дейінгі квадраттық қашықтықтарды қосуға негізделген. практикалық мақсаттар, маркетинг Жаңа зерттеулер үшін әрқашан әдепкі Топтар арасындағы байланыс әдісін пайдалануды ұсынамыз.

Статистикалық кластерлеу процедурасын таңдағаннан кейін бақылаулар арасындағы қашықтықты есептеу әдісін таңдаңыз (Әдіс диалогтық терезесіндегі аумақты өлшеу). Кластерлік талдауға қатысатын айнымалылардың үш түрі үшін қашықтықты анықтаудың әртүрлі әдістері бар (сегментация критерийлері). Бұл айнымалылар аралық (Интервал), номиналды (Санаулар) немесе дихотомиялық (екілік) шкалаға ие болуы мүмкін. Дихотомиялық шкала (Екілік) оқиғаның пайда болуын/болмауын көрсететін айнымалыларды ғана білдіреді (сатып алынған/сатып алынған жоқ, иә/жоқ және т.б.). Дихотомиялық айнымалылардың басқа түрлерін (мысалы, еркек/әйел) номиналды (Санаулар) ретінде қарастыру және талдау керек.

Интервалдық айнымалылар үшін қашықтықты анықтаудың ең жиі қолданылатын әдісі әдепкі Шаршы евклидтік қашықтық болып табылады. Дәл осы әдіс маркетингтік зерттеулерде өзін ең дәл және әмбебап ретінде дәлелдеді. Дегенмен, бақылаулар тек екі мәнмен (мысалы, 0 және 1) ұсынылған дихотомиялық айнымалылар үшін бұл әдіс жарамайды. Мәселе мынада: ол тек типтегі бақылаулар арасындағы өзара әрекеттесулерді ескереді: X = 1,Y = 0 және X = 0, Y=l (мұнда X және Y айнымалылар) және басқа өзара әрекеттесу түрлерін есепке алмайды. Екі дихотомиялық айнымалылар арасындағы өзара әсерлесудің барлық маңызды түрлерін ескере отырып, қашықтықтың ең жан-жақты өлшемі Ламбда әдісі болып табылады. Бұл әдісті оның әмбебаптығына байланысты пайдалануды ұсынамыз. Дегенмен, басқа әдістер бар, мысалы, Shape, Hamann немесе Anderbergs D.

Дихотомиялық айнымалылар үшін қашықтықты анықтау әдісін көрсету кезінде тиісті өрісте зерттелетін дихотомиялық айнымалылар қабылдай алатын нақты мәндерді көрсету қажет: Present өрісінде - Иә кодтау жауабы, ал Absent өрісінде - Жоқ. . Бар және жоқ өрістердің атаулары екілік әдіс тобында оқиғаның пайда болуын/болмауын көрсететін дихотомиялық айнымалыларды ғана пайдалану керектігімен байланысты. Интервал және Екілік айнымалылардың екі түрі үшін қашықтықты анықтаудың бірнеше әдістері бар. Номиналды шкала түрі бар айнымалылар үшін SPSS тек екі әдісті ұсынады: (Хи-квадрат өлшемі) және (Phi-квадрат өлшемі). Ең көп таралған әдіс ретінде бірінші әдісті пайдалануды ұсынамыз.

Әдіс диалогтық терезесінде Стандарттау өрісін қамтитын Мәндерді түрлендіру аймағы бар. Бұл өріс кластерлік талдауға әртүрлі масштаб типтері бар айнымалылар (мысалы, интервал және номиналды) қатысқан кезде пайдаланылады. Бұл айнымалыларды кластерлік талдауда қолдану үшін оларды бір типті шкалаға – интервалға апаратын стандарттауды жүргізу қажет. Айнымалы стандарттаудың ең кең тараған әдісі 2-стандарттау (Zscores): барлық айнымалылар -3-тен +3-ке дейінгі бір мәндер диапазонына дейін төмендетіледі және трансформациядан кейін интервал болады.

Барлық оңтайлы әдістер (кластерлеу және қашықтықты анықтау) әдепкі бойынша орнатылғандықтан, Method диалогтық терезесін тек талданатын айнымалылардың түрін көрсету үшін, сонымен қатар айнымалылардың 2-стандарттауын орындау қажеттілігін көрсету үшін қолданған жөн.

Сонымен, біз кластерлік талдау үшін SPSS ұсынған барлық негізгі мүмкіндіктерді сипаттадық. Авиакомпанияларды сегменттеу мақсатында жүргізілген кластерлік талдаудың сипаттамасына оралайық. Еске салайық, біз он алты кластерлік шешімге тоқталып, барлық талданған авиакомпанияларды кластерлерге тарата отырып, бастапқы деректер файлында clul6_l жаңа айнымалысын жасадық.

Кластерлердің оңтайлы санын қаншалықты дұрыс анықтағанымызды анықтау үшін clul6_l айнымалысының сызықтық таралуын құрастырамыз (мәзір Талдау > Сипаттама статистика > Жиіліктер). Суретте көрсетілгендей. 5.49, 5-16 саны бар кластерлерде респонденттердің саны 1-ден 7-ге дейін ауытқиды. Кластерлердің оңтайлы санын анықтаудың жоғарыда сипатталған әмбебап әдісімен қатар (респонденттердің жалпы саны мен бірінші секіріс арасындағы айырмашылық негізінде) агломерация коэффициенті), сонымен қатар қосымша ұсыныс бар: кластерлердің мөлшері статистикалық мағыналы және практикалық болуы керек. Біздің іріктеме өлшемімізбен мұндай сыни мәнді кем дегенде 10 деңгейінде орнатуға болады. Бұл шартқа тек 1-4 сандары бар кластерлер ғана түсетінін көреміз. Сондықтан, енді төрт кластерлік шешімнің шығысымен кластерді талдау процедурасын қайта есептеу қажет (жаңа du4_l айнымалысы жасалады).


Күріш. 5.49.

Жаңадан құрылған du4_l айнымалысы бойынша сызықтық үлестіруді құрастыра отырып, біз тек екі кластерде (1 және 2) респонденттердің саны іс жүзінде маңызды екенін көреміз. Бізге кластер үлгісін қайта құру керек -- енді екі кластерлік шешім үшін. Осыдан кейін du2_l айнымалысына қатысты үлестірімді құрастырамыз (5.50-сурет). Кестеден көріп отырғаныңыздай, екі кластерлік шешімде екі қалыптасқан кластердің әрқайсысында респонденттердің статистикалық және практикалық маңызды саны бар: 1 кластерде – 695 респондент; 2 кластерде – 40. Осылайша, біз тапсырмамыз үшін кластерлердің оңтайлы санын анықтадық және таңдалған жеті критерий бойынша респонденттерді нақты сегменттеуді жүргіздік. Енді біздің міндетіміздің негізгі мақсатын қол жеткізілді деп санап, кластерлік талдаудың соңғы кезеңіне – алынған мақсатты топтарды (сегменттерді) түсіндіруге көшуге болады.


Күріш. 5.50.

Алынған шешім SPSS оқулықтарында көргеніңізден біршама ерекшеленеді. Тіпті ең практикалық бағдарланған оқулықтар да жасанды мысалдар келтіреді, онда кластерлеу респонденттердің идеалды мақсатты топтарына әкеледі. Кейбір жағдайларда (5) авторлар мысалдардың жасанды шығу тегін көрсетеді. Бұл оқулықта біз кластерлік талдау жұмысының иллюстрациясы ретінде идеалды пропорциялармен сипатталмайтын практикалық маркетингтік зерттеулердің нақты мысалын қолданамыз. Бұл кластерлік талдау жүргізудегі ең жиі кездесетін қиындықтарды, сондай-ақ оларды жоюдың ең жақсы әдістерін көрсетуге мүмкіндік береді.

Алынған кластерлерді түсіндіруге кіріспес бұрын, қорытындылайық. Бізде кластерлердің оңтайлы санын анықтаудың келесі схемасы бар.

¦ 1-қадамда агломерация коэффициентіне негізделген математикалық әдіс негізінде кластерлердің санын анықтаймыз.

¦ 2-кезеңде біз респонденттерді кластерлердің алынған санына қарай кластерлейміз, содан кейін қалыптасқан жаңа айнымалыға (clul6_l) сәйкес сызықтық үлестірімді құрастырамыз. Мұнда сонымен қатар респонденттердің статистикалық маңызды санынан қанша кластер тұратынын анықтау керек. Жалпы алғанда, кластерлердің ең аз маңызды санын кемінде 10 респондент деңгейінде белгілеу ұсынылады.

¦ Барлық кластерлер осы критерийді қанағаттандырса, біз кластерлік талдаудың соңғы кезеңіне өтеміз: кластерлерді түсіндіру. Егер олардың құрамдас бақылауларының елеусіз саны бар кластерлер болса, респонденттердің айтарлықтай санынан қанша кластер тұратынын анықтаймыз.

¦ Сақтау тілқатысу терезесінде бақылаулардың маңызды санынан тұратын кластерлердің санын көрсету арқылы кластерді талдау процедурасын қайта есептейміз.

¦ Біз жаңа айнымалыға сызықтық үлестіруді құрастырамыз.

Бұл әрекеттер тізбегі барлық кластерлер респонденттердің статистикалық маңызды санынан тұратын шешім табылмайынша қайталанады. Осыдан кейін кластерлік талдаудың соңғы кезеңіне – кластерлерді түсіндіруге көшуге болады.

Кластер санының практикалық және статистикалық маңыздылығының критерийі кластерлердің оңтайлы санын анықтауға болатын жалғыз критерий емес екенін ерекше атап өткен жөн. Зерттеуші өз тәжірибесіне сүйене отырып, кластерлердің санын өз бетінше ұсына алады (маңыздылық шарты орындалуы керек). Тағы бір нұсқа - зерттеу мақсаттары үшін респонденттерді мақсатты топтардың берілген санына сәйкес сегменттеу шарты алдын ала қойылған кездегі өте кең таралған жағдай. Бұл жағдайда кластерлердің қажетті санын сақтай отырып, иерархиялық кластерлік талдауды бір рет жасау керек, содан кейін не болып жатқанын түсіндіруге тырысыңыз.

Алынған мақсатты сегменттерді сипаттау үшін зерттелетін айнымалылардың (кластер центроидтары) орташа мәндерін салыстыру процедурасын қолдану керек. Біз екі алынған кластердің әрқайсысында қарастырылған жеті сегменттеу критерийінің орташа мәндерін салыстырамыз.

Орташа мәндерді салыстыру процедурасы Талдау > Орташаларды салыстыру > Құралдар мәзірі арқылы шақырылады. Ашылған диалогтық терезеде (5.51-сурет) сол жақ тізімнен сегменттеу шарты (ql3-ql9) ретінде таңдалған жеті айнымалыны таңдап, оларды тәуелді айнымалылар үшін Тәуелді тізім өрісіне тасымалдаңыз. Содан кейін есептің соңғы (екі кластерлік) шешімінде респонденттердің кластерлерге бөлінуін көрсететін сШ2_1 айнымалысын сол жақтағы тізімнен тәуелсіз айнымалылар өрісіне Тәуелсіз тізімге жылжытыңыз. Содан кейін Параметрлер түймесін басыңыз.

Күріш. 5.51.

Параметрлер диалогтық терезесі ашылады, кластерлерді салыстыру үшін ондағы қажетті статистиканы таңдаңыз (5.52-сурет). Ол үшін «Ұяшық статистикасы» өрісінде басқа әдепкі статистиканы алып тастап, тек орташа мәндердің шығысын қалдырыңыз. Жалғастыру түймешігін басу арқылы Параметрлер тілқатысу терезесін жабыңыз. Соңында, негізгі құралдар диалогтық терезесінен орташа салыстыру процедурасын бастаңыз (ОК түймесі).

Күріш. 5.52.

Ашылған SPSS Viewer терезесінде орташа мәндерді салыстырудың статистикалық процедурасының нәтижелері пайда болады. Бізді Есеп кестесі қызықтырады (5.53-сурет). Одан SPSS респонденттерді қандай негізде екі кластерге бөлгенін көруге болады. Біздің жағдайда мұндай критерий талданатын параметрлер бойынша бағалау деңгейі болып табылады. 1-кластер барлық сегменттеу критерийлері бойынша орташа ұпайлары салыстырмалы түрде жоғары деңгейде (4,40 балл және одан жоғары) респонденттерден тұрады. 2-кластерге қарастырылған сегменттеу критерийлеріне өте төмен баға берген респонденттер кіреді (3,35 балл және одан төмен). Осылайша, 1-кластерді құраған респонденттердің 93,3%-ы талданған авиакомпанияларды барлық көрсеткіштер бойынша жалпы жақсы деп бағалады деген қорытынды жасауға болады; 5,4% өте төмен; 1,3% жауап беруге қиналған (5.50-суретті қараңыз). Суреттен. 5.53, жеке қарастырылатын параметрлердің әрқайсысы бойынша рейтингтердің қай деңгейі жоғары және қайсысы төмен екендігі туралы қорытынды жасауға болады (және бұл қорытындыны респонденттер жасайды, бұл жоғары классификация дәлдігіне қол жеткізуге мүмкіндік береді). Есеп кестесінен Queue Throttling 4,40 орташа жоғары балл, ал сыртқы түрі 4,72 екенін көруге болады.


Күріш. 5.53.

Осыған ұқсас жағдайда X параметрі үшін 4,5 жоғары балл, ал Y параметрі үшін тек 3,9 балл болып саналады. Бұл кластерлік қате болмайды, керісінше респонденттер үшін қарастырылатын параметрлердің маңыздылығына қатысты маңызды қорытынды жасауға мүмкіндік береді. Осылайша, Y параметрі үшін қазірдің өзінде 3,9 ұпай жақсы баға болып табылады, ал X параметрі үшін респонденттер қатаң талаптарды қояды.

Біз сегменттеу критерийлеріне сәйкес орташа балл деңгейінде ерекшеленетін екі маңызды кластерді анықтадық. Енді сіз алынған кластерлерге белгілерді тағайындай аласыз: 1 үшін - респонденттердің талаптарына сәйкес келетін авиакомпаниялар (талданған жеті критерий бойынша); 2 үшін -- Респонденттердің талаптарына сәйкес келмейтін авиакомпаниялар. Енді сіз қандай авиакомпаниялардың (q4 айнымалысында кодталған) респонденттердің талаптарына сәйкес келетінін және сегменттеу критерийлеріне сәйкес келмейтінін көре аласыз. Бұл әрекетті орындау үшін, clu2_l кластерлік айнымалысына байланысты q4 айнымалысының (талданатын авиакомпаниялар) кросс-таралуын құру керек. Осындай көлденең қималық талдаудың нәтижелері күріш. 5.54.

Осы кестеге сүйене отырып, таңдалған мақсатты сегменттерге зерттелетін авиакомпаниялардың мүшелігіне қатысты келесі қорытындыларды жасауға болады.


Күріш. 5.54.

1. Жер бетіндегі персоналдың жұмысы бойынша барлық тұтынушылардың талаптарына толық жауап беретін авиакомпаниялар (тек бір бірінші кластерге кіреді):

¦ Внуково әуе жолдары;

¦ American Airlines;

¦ Delta Airlines;

Austrian Airlines;

¦ British Airways;

¦ Korean Airlines;

Japan Airlines.

2. Жер бетіндегі персоналдың жұмысы бойынша тұтынушыларының көпшілігінің талаптарына сәйкес келетін авиакомпаниялар (осы авиакомпаниялармен ұшатын респонденттердің көпшілігі жерүсті персоналының жұмысына қанағаттанған):

¦ Трансаэро.

3. Жер бетіндегі персоналдың жұмысы бойынша тұтынушыларының көпшілігінің талаптарына сәйкес келмейтін авиакомпаниялар (осы авиакомпаниялармен ұшатын респонденттердің көпшілігі жерүсті персоналының жұмысына қанағаттанбайды):

¦ Домодедово әуе жолдары;

¦ Пулково;

¦ Сібір;

¦ Орал әуе жолдары;

¦ Самара әуе жолдары;

Осылайша, респонденттердің жер үсті персоналының жұмысына қанағаттануының әртүрлі дәрежелерімен сипатталатын орташа рейтингтер деңгейі бойынша авиакомпаниялардың үш мақсатты сегменті алынды:

  • 1. жерүсті персоналының жұмыс деңгейі бойынша жолаушылар үшін ең тартымды авиакомпаниялар (14);
  • 2. айтарлықтай тартымды авиакомпаниялар (1);
  • 3. айтарлықтай тартымсыз авиакомпаниялар (7).

Біз кластерлік талдаудың барлық кезеңдерін сәтті аяқтадық және таңдалған жеті критерий бойынша авиакомпанияларды сегменттедік.

Енді факторлық талдаумен жұптастырылған кластерлік талдау әдістемесіне сипаттама береміз. 5.2.1 бөліміндегі есеп шартын қолданамыз (факторлық талдау). Жоғарыда айтылғандай, көп айнымалылары бар сегменттеу мәселелерінде кластерлік талдаудан бұрын факторлық талдаумен айналысқан жөн. Бұл сегменттеу критерийлерінің санын ең маңыздыларына дейін азайту үшін жасалады. Біздің жағдайда бастапқы деректер файлында 24 айнымалы бар. Факторлық талдау нәтижесінде олардың санын 5-ке дейін қысқартуға қол жеткіздік. Енді бұл факторлар санын кластерлік талдау үшін тиімді пайдалануға болады, ал факторлардың өзін сегменттеу критерийлері ретінде пайдалануға болады.

Егер алдымызда респонденттерді Х авиакомпаниясының ағымдағы бәсекелестік позициясының әртүрлі аспектілерін бағалауы бойынша сегменттеу міндеті тұрса, біз анықталған бес критерий бойынша (nfacl_l-nfac5_l айнымалылары) иерархиялық кластерлік талдау жүргізе аламыз. Біздің жағдайда айнымалылар әртүрлі шкала бойынша бағаланды. Мысалы, «Мен авиакомпанияның өзгергенін қаламаймын» мәлімдемесі үшін 1 балл және «Авиакомпаниядағы өзгерістер» мәлімдемесі үшін бірдей балл мағынасы жағынан диаметральді қарама-қайшы келетін оң сәт болады. Бірінші жағдайда 1 балл (толық келіспеймін) респонденттің авиакомпаниядағы өзгерістерді құптайтынын білдіреді; екінші жағдайда 1 балл респонденттің авиакомпаниядағы өзгерістерді қабылдамайтынын көрсетеді. Кластерлерді түсіндіру кезінде біз сөзсіз қиындықтарға тап боламыз, өйткені мағынасы жағынан қарама-қарсы айнымалылар

бірдей факторға түседі. Осылайша, сегменттеу мақсаттары үшін алдымен зерттелетін айнымалылардың шкалаларын бір сызыққа келтіру, содан кейін факторлық модельді қайта есептеу ұсынылады. Ал қазірдің өзінде факторлық талдау нәтижесінде алынған айнымалы-факторлар бойынша кластерлік талдау жүргізу. Біз қайтадан факторлық және кластерлік талдау процедураларын егжей-тегжейлі сипаттамаймыз (бұл жоғарыда тиісті бөлімдерде жасалды). Осы әдістеме арқылы біз таңдалған факторларды (яғни айнымалылар топтарын) бағалау деңгейінде ерекшеленетін әуе жолаушыларының үш мақсатты тобын алдық: ең төменгі, орташа және ең жоғары.

Кластерлік талдаудың өте пайдалы қолданбасы жиілік кестелерінің топтарына бөлу болып табылады. Сіздің ұйымыңызда антивирустардың қандай брендтері орнатылған? деген сұраққа жауаптардың сызықтық таралуы бар делік. Бұл бөлу бойынша қорытындыларды қалыптастыру үшін антивирустық брендтерді бірнеше топқа бөлу қажет (әдетте 2-3). Барлық брендтерді үш топқа бөлу үшін (ең танымал брендтер, орташа танымалдылық және танымал емес брендтер) кластерлік талдауды қолданған дұрыс, дегенмен, әдетте, зерттеушілер субъективті пікірлерге негізделген жиілік кестелерінің элементтерін көзбен бөледі. Бұл тәсілден айырмашылығы, кластерлік талдау орындалған топтастыруды ғылыми негіздеуге мүмкіндік береді. Ол үшін SPSS-те әрбір параметрдің мәндерін енгізіңіз (бұл мәндерді пайызбен көрсеткен жөн), содан кейін осы деректерге кластерлік талдау жасаңыз. Топтардың қажетті санына (біздің жағдайда 3) кластер шешімін жаңа айнымалы ретінде сақтау арқылы біз статистикалық жарамды топтауды аламыз.

Біз осы бөлімнің қорытынды бөлігін айнымалыларды жіктеу үшін кластерлік талдауды қолдануды сипаттауға және оның нәтижелерін 5.2.1-бөлімде жүргізілген факторлық талдау нәтижелерімен салыстыруға арнаймыз. Ол үшін біз Х авиакомпаниясының әуе тасымалы нарығындағы ағымдағы жағдайын бағалау туралы мәселенің шартын қайтадан қолданамыз. Кластерлік талдау жүргізу әдістемесі жоғарыда сипатталғанды ​​толығымен қайталайды (респонденттерді сегменттеу кезінде).

Сонымен, бастапқы деректер файлында респонденттердің X авиакомпаниясының ағымдағы бәсекелестік позициясының әртүрлі аспектілеріне қатынасын сипаттайтын 24 айнымалы бар. Негізгі иерархиялық кластерді талдау диалогтық терезесін ашып, Айнымалыға 24 айнымалы мәнді (ql-q24) орналастырыңыз. (s) өріс, сур. 5.55. Кластер аймағында айнымалыларды жіктеп жатқаныңызды көрсетіңіз (Айнымалылар опциясын тексеріңіз). Сақтау түймешігі қолжетімсіз болғанын көресіз -- факторлық талдаудан айырмашылығы, кластерлік талдау барлық респонденттер үшін фактор рейтингтерін сақтай алмайды. Сюжеттер опциясын өшіру арқылы графикті өшіріңіз. Бірінші қадамда сізге басқа опциялар қажет емес, сондықтан кластерді талдау процедурасын бастау үшін OK түймесін басыңыз.

SPSS Viewer терезесінде «Агломерация кестесі» кестесі пайда болды, оған сәйкес біз жоғарыда сипатталған әдіс арқылы кластерлердің оңтайлы санын анықтадық (5.56-сурет). Агломерация коэффициентінің бірінші секірісі 20-қадамда байқалады (18834.000-нан 21980.967-ге дейін). 24-ке тең талданатын айнымалылардың жалпы санына сүйене отырып, кластерлердің оңтайлы санын есептеуге болады: 24 - 20 = 4.

Күріш. 5.55.


Күріш. 5.56.

Айнымалыларды жіктеу кезінде тек бір айнымалыдан тұратын кластер практикалық және статистикалық маңызды болып табылады. Сондықтан, біз математикалық әдіспен кластерлердің қолайлы санын алғандықтан, қосымша тексерулер қажет емес. Оның орнына кластерді талдаудың негізгі диалогтық терезесін қайта ашыңыз (алдыңғы қадамда пайдаланылған барлық деректер сақталады) және жіктеу кестесін көрсету үшін Статистика түймешігін басыңыз. Сіз аттас диалогтық терезені көресіз, онда 24 айнымалы бөлінетін кластерлердің санын көрсету керек (5.57-сурет). Ол үшін Бірыңғай шешім опциясын таңдап, сәйкес өрісте кластерлердің қажетті санын көрсетіңіз: 4. Енді Жалғастыру түймешігін басу арқылы Статистика тілқатысу терезесін жабыңыз және кластерді талдаудың негізгі терезесінен процедураны орындаңыз.

Нәтижесінде SPSS Viewer терезесінде талданатын айнымалыларды төрт кластерге тарататын Cluster Membership кестесі пайда болады (5.58-сурет).

Күріш. 5.58.

Осы кестеге сәйкес, қарастырылатын әрбір айнымалы белгілі бір кластерге келесідей тағайындалуы мүмкін.

1-кластер

ql. X авиакомпаниясы жолаушыларға тамаша қызмет көрсету үшін беделге ие.

q2. Airline X әлемдегі ең жақсы әуе компанияларымен бәсекелесе алады.

q3. Менің ойымша, X Airline-ның жаһандық авиацияда болашағы зор.

q5. Мен Airline X компаниясында жұмыс істегенімді мақтан тұтамын.

q9. Әлемдік деңгейдегі авиакомпания боламыз дегенге дейін бізде ұзақ жол бар.

qlO. Airline X жолаушыларға шынымен қамқорлық жасайды.

ql3. Маған X Airline-ның өзін көпшілікке көрнекі түрде көрсетуі ұнайды (түстер мен корпоративтік сәйкестілік тұрғысынан).

ql4. X авиакомпаниясы - Ресейдің бет-бейнесі.

ql6. Airline X қызметі дәйекті және бүкіл әлемде танымал

ql8. X авиакомпаниясы өзінің әлеуетін толық пайдалану үшін өзгеруі керек.

ql9. Менің ойымша, Airline X өзін заманауи түрде көрнекі түрде көрсетуі керек.

q20. Х авиакомпаниясындағы өзгерістер оң болады. q21. Airline X - тиімді әуе компаниясы.

q22. Мен X әуе компаниясының шетелдік жолаушыларға қатысты имиджінің жақсарғанын қалаймын.

q23. X әуе компаниясы көптеген адамдар ойлағаннан да жақсы.

q24. Бүкіл дүние жүзіндегі адамдар біздің ресейлік авиакомпания екенімізді білуі маңызды.

2-кластер

q4. Мен X Airline-ның болашақ стратегиясы қандай болатынын білемін.

q6. X авиакомпаниясының бөлімшелер арасында жақсы байланысы бар.

q7. Әуе компаниясының әрбір қызметкері оның табысты болуы үшін бар күш-жігерін салады.

q8. Қазір X Airline тез дамып келеді.

qll. Авиакомпания қызметкерлерінің жұмысқа қанағаттану деңгейі жоғары.

ql2. Аға менеджерлер авиакомпанияның табысына жету үшін көп жұмыс істейді деп ойлаймын.

3-кластер

ql5. Басқа әуе компанияларымен салыстырғанда біз «кеше» сияқтымыз.

4-кластер

ql7. Мен X әуе компаниясының өзгергенін қаламас едім.

Факторлық талдау (5.2.1-бөлім) мен кластерлік талдау нәтижелерін салыстырсаңыз, олардың айтарлықтай айырмашылығы бар екенін көресіз. Кластерлік талдау факторлық талдаумен салыстырғанда айнымалы кластерлеуге (мысалы, топтық рейтингтерді сақтау мүмкін еместігі) айтарлықтай аз мүмкіндік беріп қана қоймайды, сонымен қатар әлдеқайда аз көрнекі нәтижелер береді. Біздің жағдайда, егер 2, 3 және 4 кластерлер әлі де логикалық түсіндіруге қабілетті болса1, онда 1 кластер мағынасы жағынан мүлдем басқа мәлімдемелерді қамтиды. Бұл жағдайда сіз 1 кластерді сол күйінде сипаттауға немесе статистикалық үлгіні кластерлердің басқа санымен қайта құруға болады. Соңғы жағдайда логикалық сипаттауға болатын кластерлердің оңтайлы санын табу үшін, сәйкес өрістерде кластерлердің ең аз және ең көп санын көрсете отырып, Статистика диалогтық терезесіндегі Шешімдер ауқымы параметрін қолдануға болады (5.57 суретті қараңыз). біздің жағдайда, тиісінше, 4 және 6). Мұндай жағдайда SPSS кластерлердің әрбір саны үшін кластерге мүшелік кестесін қайта құрады. Бұл жағдайда талдаушының міндеті - барлық кластерлер бір мағыналы түсіндірілетін классификация моделін таңдауға тырысу. Айнымалыларды кластерлеуге арналған кластерлік талдау процедурасының мүмкіндіктерін көрсету үшін біз кластер үлгісін қайта құрмаймыз, бірақ жоғарыда айтылғандармен шектелеміз.

Факторлық талдаумен салыстырғанда кластерлік талдаудың қарапайымдылығына қарамастан, маркетингтік зерттеулердің барлық дерлік жағдайларында факторлық талдау кластерлік талдауға қарағанда тезірек және тиімдірек екенін атап өткен жөн. Сондықтан, айнымалыларды жіктеу (азайту) үшін факторлық талдауды қолдануды қатаң ұсынамыз және респонденттерді жіктеу үшін кластерлік талдауды пайдалануды қалдырамыз.

Классификациялық талдау дайын емес пайдаланушының көзқарасы бойынша ең күрделі статистикалық құралдардың бірі болуы мүмкін. Бұл оның маркетингтік компанияларда өте төмен таралуына байланысты. Сонымен қатар, статистикалық әдістердің осы тобы маркетингтік зерттеулер саласындағы практиктер үшін ең пайдалыларының бірі болып табылады.