Mietflächen clustern für flächenbasierte Prognosen, R

Mietflächen clustern für flächenbasierte Prognosen

#R version 3.3.2 
# Quelle dg: https://www.xing.com/communities/posts/einfache-gruppierungen-von-umsaetzen-kosten-oder-flaechen-mit-der-clusteranalyse-1012698909 #dg
# Datenmanagement bedeutet auch Datenklassifikation, um überhaupt verwertbare Regressionsfunktionen zur Prognose zu ermitteln
# Mietflächendaten clustern als Datenmanagement-Vertreterbeispiel zur Gruppenbildung von 
# Flächen-, Umsatz-, Störmelde-, Besucher-, Kosten- und Energieverbrauchsdaten 
# kurz von Daten im betriebswirtschaftlichen und technischen Facility Management 
# Datenquelle https://www.uni-erfurt.de/fileadmin/user-docs/Oekonometrie/WS_2010/miete.xls
library(cluster) 
# Die Clustermethode kann in Zeile 23 und der zugehörige Dendrogramm-Titel in Zeile 25 geändert werden.
# Für das Mietflächenbeispiel sind 2 Vektoren zu erstellen, Wohnflächen (wfl) und Wohnflächen-Namen (wfln)
# Der Wohnflächen-Vektor im csv-Format muß noch zuvor von den Dubletten (gleiche Flächengrößen) bereinigt werden
# um eine sortierte Liste von kleinster bis größter einzeln vorkommender Wohnfläche zu erhalten.
# R-Profis würden die o.g. xls-Datei gleich in R einlesen und per Script aufbereiten, hier soll ein einfach R-Beispiel genügen.
# Die aufbereitete singuläre Wohnflächen-Matrix mit 134 verschiedenen Flächen wurde hier über die Zwischablage in den R-Editor kopiert: 
wfl <- matrix(c(17,18,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79,80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95,96,97,98,99,100,101,102,103,104,105,106,107,108,109,110,111,112,113,114,115,116,117,118,120,121,122,123,124,125,126,128,129,130,131,133,135,136,137,140,144,145,146,147,150,152,155,160,163,166,167,170,173,174,178,180,185)) 
# Wohnflächen-Namensvektor wfln erzeugen für WE MMüller, WE Lehmann etc., hier beispielhaft laufende Nummern von 1 bis 134
wfln <- c("1","2","3","4","5","6","7","8","9","10","11","12","13","14","15","16","17","18","19","20","21","22","23","24","25","26","27","28","29","30","31","32","33","34","35","36","37","38","39","40","41","42","43","44","45","46","47","48","49","50","51","52","53","54","55","56","57","58","59","60","61","62","63","64","65","66","67","68","69","70","71","72","73","74","75","76","77","78","79","80","81","82","83","84","85","86","87","88","89","90","91","92","93","94","95","96","97","98","99","100","101","102","103","104","105","106","107","108","109","110","111","112","113","114","115","116","117","118","119","120","121","122","123","124","125","126","127","128","129","130","131","132","133","134") 
# Zeilennamen zuordnen 
rownames(wfl) <- wfln 
# Clusteranalyse vgl. Prof. Petra Stein - Sven Vollnhals S. 54-56 unter: 
# http://www.uni-due.de/imperia/md/content/soziologie/stein/skript_clusteranalyse_sose2011.pdf 
dist.euclid<-daisy(wfl,metric="euclidean",stand=TRUE) 
dendrogramm<-hclust(dist.euclid,method="average") 
# folgende Zeile gibt den Plot ohne Ländernamen aus 
plot(dendrogramm,xlab="Objekte",ylab="Distanzen", main="Dendrogramm der Wohnflächen-Clusteranalyse (Average)",labels=FALSE) 
# Diese Zeilen für zu Hause einfach kopieren und in den eigenen R-Editor einfügen 
# viel Erfolg beim Entwickeln datendiktierender Gruppierungen 
wflclustdiv <- diana(dist.euclid, stand=TRUE) 
# folgende Zeile kann den Teilungskoeffizienten (divisive coeffizient) ausgeben 
# wflclustdiv$dc 
# folgende Zeile kann den Plot im heimischen R mit Flächennamen ausgeben 
# pltree(wflclustdiv, main="Teilungsverfahren", xlab="Wohnflächen", sub="", labels=wfln)


run \| edit \| history \| help	0

λ

                                      .NET NoSQL database for rapid development