Interessant

Clusteranalyse en hoe het wordt gebruikt in onderzoek

Clusteranalyse en hoe het wordt gebruikt in onderzoek

Clusteranalyse is een statistische techniek die wordt gebruikt om te identificeren hoe verschillende eenheden - zoals mensen, groepen of samenlevingen - kunnen worden gegroepeerd vanwege kenmerken die ze gemeen hebben. Ook bekend als clustering, het is een verkennend gegevensanalysetool dat verschillende objecten in groepen wil sorteren op een manier dat wanneer ze tot dezelfde groep behoren, ze een maximale associatiegraad hebben en wanneer ze niet tot dezelfde groep behoren mate van associatie is minimaal. In tegenstelling tot sommige andere statistische technieken, behoeven de structuren die worden ontdekt door clusteranalyse geen uitleg of interpretatie - het ontdekt structuur in de gegevens zonder uit te leggen waarom ze bestaan.

Wat is clustering?

Clustering bestaat in bijna elk aspect van ons dagelijks leven. Neem bijvoorbeeld artikelen in een supermarkt. Verschillende soorten items worden altijd weergegeven op dezelfde of nabijgelegen locaties - vlees, groenten, frisdrank, ontbijtgranen, papierproducten, enz. Onderzoekers willen vaak hetzelfde doen met gegevens en groepsobjecten of onderwerpen in logische clusters.

Om een ​​voorbeeld uit de sociale wetenschappen te nemen, laten we zeggen dat we naar landen kijken en ze in clusters willen groeperen op basis van kenmerken zoals arbeidsverdeling, militairen, technologie of geschoolde bevolking. We zouden merken dat Groot-Brittannië, Japan, Frankrijk, Duitsland en de Verenigde Staten vergelijkbare kenmerken hebben en zouden worden geclusterd. Oeganda, Nicaragua en Pakistan zouden ook in een ander cluster worden gegroepeerd, omdat ze een andere reeks kenmerken hebben, waaronder een laag welvaartsniveau, eenvoudigere arbeidsverdelingen, relatief onstabiele en ondemocratische politieke instellingen en lage technologische ontwikkeling.

Clusteranalyse wordt meestal gebruikt in de verkennende fase van onderzoek wanneer de onderzoeker geen vooraf opgestelde hypothesen heeft. Het is meestal niet de enige statistische methode die wordt gebruikt, maar wordt eerder in de vroege stadia van een project gedaan om de rest van de analyse te begeleiden. Om deze reden is het testen op significantie meestal niet relevant en ook niet geschikt.

Er zijn verschillende soorten clusteranalyse. De twee meest gebruikte zijn K-middelenclustering en hiërarchische clustering.

K betekent Clustering

K-betekent clustering behandelt de waarnemingen in de gegevens als objecten met locaties en afstanden van elkaar (merk op dat de afstanden die worden gebruikt in clustering vaak geen ruimtelijke afstanden vertegenwoordigen). Het verdeelt de objecten in K elkaar uitsluitende clusters zodat objecten binnen elke cluster zo dicht mogelijk bij elkaar en tegelijkertijd zo ver mogelijk van objecten in andere clusters mogelijk zijn. Elke cluster wordt dan gekenmerkt door zijn gemiddelde of middelpunt.

Hiërarchische clustering

Hiërarchische clustering is een manier om groeperingen in de gegevens tegelijkertijd te onderzoeken over verschillende schalen en afstanden. Het doet dit door een clusterboom met verschillende niveaus te maken. In tegenstelling tot K-clustering, is de boom geen enkele set clusters. Integendeel, de boom is een hiërarchie met meerdere niveaus waarbij clusters op één niveau worden samengevoegd als clusters op het volgende hogere niveau. Het gebruikte algoritme begint met elke case of variabele in een afzonderlijk cluster en combineert vervolgens clusters totdat er nog maar één over is. Hiermee kan de onderzoeker beslissen welk niveau van clustering het meest geschikt is voor zijn of haar onderzoek.

Een clusteranalyse uitvoeren

De meeste statistische softwareprogramma's kunnen clusteranalyse uitvoeren. Selecteer in SPSS analyseren uit het menu dan classificeren en cluster analyse. In SAS, de proc cluster functie kan worden gebruikt.

Bijgewerkt door Nicki Lisa Cole, Ph.D.

Bekijk de video: How to pronounce Clusteranalyse in German (November 2020).