{"id":11012,"date":"2013-09-10T08:08:59","date_gmt":"2013-09-10T06:08:59","guid":{"rendered":"https:\/\/towerconsult.de\/bewerberblog\/?p=11012"},"modified":"2016-06-08T16:39:59","modified_gmt":"2016-06-08T14:39:59","slug":"data-mining-2","status":"publish","type":"post","link":"https:\/\/towerconsult.de\/bewerberblog\/2013\/09\/data-mining-2\/","title":{"rendered":"Data Mining (2) &#8211; Funktionen und Verfahren"},"content":{"rendered":"<p><em>Im zweiten Artikel zur Serie informiert euch Jan heute weiter \u00fcber die M\u00f6glichkeit, Data Mining bei der Personalsuche anzuwenden.<\/em><\/p>\n<p>Im <a title=\"\u00dcbernehmen demn\u00e4chst Computeralgorithmen die Personalauswahl? \u2013 Data Mining (1)\" href=\"https:\/\/towerconsult.de\/bewerberblog\/2013\/09\/data-mining-1\/\" target=\"_blank\">ersten Teil des Artikels<\/a> habe ich Data Mining allgemein anhand des Beispiels &#8222;Schufa&#8220; vorgestellt. Es geht um Techniken, die aus un\u00fcberschaubaren Informationsmengen neue, nicht triviale Erkenntnisse ableiten. In diesem Teil m\u00f6chte ich auf die verschiedenen Verwendungsm\u00f6glichkeiten von Data Mining eingehen.<!--more--><\/p>\n<h3>Funktionen von Data Mining<\/h3>\n<p>Die wohl wichtigsten Funktionen<b>,<\/b> die Data Mining erf\u00fcllen kann, sind:<\/p>\n<ul>\n<li>Segmentierung: Beispielsweise Kundengruppen identifizieren, um diese durch Marketingma\u00dfnahmen gezielter ansprechen zu k\u00f6nnen.<\/li>\n<li>Klassifikation und Prognose:\u00a0 Also zum Beispiel die Einteilung in gute und schlechte Kreditnehmer oder im weiteren Sinne automatisierte Handschriftenerkennung und Spracherkennung.<\/li>\n<li>Abh\u00e4ngigkeitsentdeckung: Kunden die sich f\u00fcr Schuhcreme interessieren m\u00f6gen auch &#8222;Sneaker-Socken&#8220;; &#8222;Sportfreunde Stiller&#8220;.<\/li>\n<\/ul>\n<p>Im Personalbereich sind m\u00f6gliche Anwendungsfelder die Analyse der Personalstruktur, Fluktuationsanalyse (Einflussfaktoren auf die Abwanderung von Mitarbeitern), Verg\u00fctungsgestaltung, Karrieremodelle\u00a0 und die Bewerbervorauswahl. Auf letztere bezieht sich dieser Artikel haupts\u00e4chlich.<\/p>\n<h3>Verfahren<\/h3>\n<p>Die Verfahren<b>, <\/b>die man hierf\u00fcr einsetzt, h\u00e4ngen davon ab, was man herausfinden m\u00f6chte. Eine sehr simple (aber dennoch wirkungsvolle) Methode zur Klassifikation ist z.B. der kNN-Algorithmus (&#8222;k N\u00e4chste Nachbarn&#8220;). Stellen wir uns einen zweidimensionalen Raum vor, auf der X-Achse steht die Note des Hochschulabschlusses einer Person, auf der Y-Achse das vorherige Einkommen. In diesem Diagramm sind nun viele Personen eingetragen, die vom Personaler in die Kategorien &#8222;Outperformer&#8220; und &#8222;Underperformer&#8220; eingeteilt werden sollen. Die Kategorie, in die ein Bewerber geh\u00f6rt, wird nach der Einstellung sichtbar, das hei\u00dft, man kann von den Daten der fr\u00fcheren F\u00e4lle \u00fcber Einkommen und Alter auf die aktuellen Bewerber schlie\u00dfen.<\/p>\n<p>Der neue Bewerber wird nun in das Diagramm eingetragen und der kNN-Algorithmus ordnet ihn derjenigen Kategorie zu, in die diejenigen fr\u00fcheren Bewerber fallen, die ihm am \u00e4hnlichsten sind &#8211; also die ein \u00e4hnliches Alter und ein \u00e4hnliches vorheriges Einkommen haben. Je nachdem, wie man den Wert &#8222;k&#8220; festlegt wird entweder nur der n\u00e4chstgelegene Nachbar oder die n\u00e4chstgelegenen zwei, drei usw. zur Prognose herangezogen.<\/p>\n<p><a href=\"https:\/\/towerconsult.de\/bewerberblog\/wp-content\/uploads\/2013\/09\/hl_knn.png\"><img decoding=\"async\" loading=\"lazy\" class=\"alignleft size-full wp-image-11015\" src=\"https:\/\/towerconsult.de\/bewerberblog\/wp-content\/uploads\/2013\/09\/hl_knn.png\" alt=\"\" width=\"286\" height=\"255\" \/><\/a>Das klingt trivial? Nichts, wof\u00fcr man unbedingt einen Computer oder ausgefeilte Techniken br\u00e4uchte? Okay, aber wie sieht es aus, wenn man anstatt zwei Dimensionen (Einkommen, Alter) pl\u00f6tzlich 10 Dimensionen hat &#8211; Abiturnoten, Studiumsabschluss, Studiendauer, Anzahl Jobwechsel usw. &#8211; dann ist es nicht mehr m\u00f6glich, die Daten per Hand zuzuordnen. Hier k\u00f6nnen nur spezialisierte Programme weiterhelfen. Die gibt es \u00fcbrigens h\u00e4ufig sogar kostenlos. Zu empfehlen ist &#8211; je nach Anwendungsfeld Weka und Rapidminer.<\/p>\n<p>Einne \u00e4hnliche Methode wurde mal an amerikanischen Basketballspielern angewendet. Dabei wurden die Anf\u00e4nge der Karrieren von erfolgreichen Topstars mit denen von jungen Talenten verglichen, um herauszufinden, welche Talente hohe Erfolgschancen haben.<\/p>\n<p>Nat\u00fcrlich gibt es noch viele weitere Verfahren: Entscheidungsb\u00e4ume, Neuronale Netzwerke und zahlreiche statistische Methoden wie z.B. Regression. Manche Methoden kommen dabei mit fehlenden Werten besser klar, andere k\u00f6nnen nur mit Zahlenwerten als Ausgangsinformationen umgehen, manche eignen sich zur Prognose, andere zur Abh\u00e4ngigkeitsanalyse.<\/p>\n<p>Neben den grundlegenden Verfahren wurden f\u00fcr die einzelnen Methoden im Laufe der Jahre immer weitere Verbesserungsm\u00f6glichkeiten entwickelt, die jedoch nur in bestimmten Situationen sinnvoll sind. Man kann das mit dem Tuning eines Autos vergleichen: Bei einem Sportwagen n\u00fctzen Gel\u00e4ndereifen nicht viel, ein Off-Road-Fahrzeug wird hingegen kaum von einem Heckspoiler profitieren. Beim Data Mining ist es anfangs leider nicht unbedingt erkennbar, ob sich der Einsatz einer bestimmten Methode lohnt oder nicht. Daher ist man neben dem Wissen \u00fcber die grunds\u00e4tzlichen Eigenschaften der einzelnen Verfahren auch immer auf eine gute Intuition und auf Ausprobieren angewiesen.<\/p>\n<p>Auch wenn es kein Patentrezept gibt, die Zielsetzung der Analyse sollte klar definiert sein. Denn dann ist die \u00dcberpr\u00fcfung der gew\u00e4hlten Algorithmen nicht schwierig. Sie ist elementarer Bestandteil des Data Minings und erfolgt beispielsweise, indem man von einem kleinen Teil der bereits entschiedenen Bewerbungen, die in der Datenbank enthalten sind, die Information &#8222;Eingestellt&#8220; oder &#8222;Nicht eingestellt&#8220; entfernt und dann \u00fcberpr\u00fcft, ob der Algorithmus sie richtig zuordnen w\u00fcrde, wenn es neue F\u00e4lle w\u00e4ren. Dadurch wird unmittelbar klar, wie gut die gew\u00e4hlte Methode funktioniert. In den letzten Jahren wurden auch Techniken entwickelt, die diese Arbeit teilweise selbst \u00fcbernehmen, das hei\u00dft, verschiedene Parameter eines Algorithmus &#8222;durchprobieren&#8220; und somit schneller herausfinden, was die optimalen Einstellungen sind.<\/p>\n<h3>Die Daten<\/h3>\n<p>Die Daten in eine analysierbare Form zu bringen ist sicher eine weitere Herausforderung. Dabei d\u00fcrfte einiges an Handarbeit anfallen aber die Standardisierungsbestrebungen im Personalwesen z.B. durch den HR-XML-Standard ebnen hier den Weg. In vielen F\u00e4llen ist dennoch die Beurteilung und das Eingreifen des Personalers notwendig.<\/p>\n<p>In der Regel ben\u00f6tigt die Vorbereitung der Daten f\u00fcr eine Analyse mehr als die H\u00e4lfte des gesamten Zeitaufwands. Wichtig hierbei ist, dass die Daten so skaliert sind, dass der Algorithmus sie versteht. So kann z.B. kNN nur mit Zahlen umgehen, das hei\u00dft, Werte wie &#8222;Ja&#8220; und &#8222;Nein&#8220; m\u00fcssen vorher in 0 und 1 umgewandelt werden. Oftmals muss man sich auch \u00fcberlegen, wie man mit fehlenden Werten umgeht, z.B. wenn die Berufserfahrung eines Bewerbers unbekannt ist. L\u00f6scht man den Datensatz komplett oder versucht man den fehlenden Wert zu sch\u00e4tzen, z.B. indem man den Mittelwert verwenden l\u00e4sst?<\/p>\n<p>Man sieht hier schon, dass Data Mining an sich schon eine ziemlich komplizierte Angelegenheit ist, erst recht dann, wenn es darum geht, es fernab von grauer Lehrbuchtheorie auf einen konkreten Anwendungsfall zuzuschneiden. Im dritten und letzten Teil des Artikels m\u00f6chte ich auf rechtliche und ethische Bedenken eingehen und die Anwendung von Data Mining speziell in Bezug auf die Personalauswahl nochmal etwas n\u00e4her beleuchten.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Im zweiten Artikel zur Serie informiert euch Jan heute weiter \u00fcber die M\u00f6glichkeit, Data Mining bei der Personalsuche anzuwenden. Im ersten Teil des Artikels habe ich Data Mining allgemein anhand des Beispiels &#8222;Schufa&#8220; vorgestellt. Es geht um Techniken, die aus un\u00fcberschaubaren Informationsmengen neue, nicht triviale Erkenntnisse ableiten. In diesem Teil m\u00f6chte ich auf die verschiedenen [&hellip;]<\/p>\n","protected":false},"author":41,"featured_media":15871,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[100],"tags":[],"_links":{"self":[{"href":"https:\/\/towerconsult.de\/bewerberblog\/wp-json\/wp\/v2\/posts\/11012"}],"collection":[{"href":"https:\/\/towerconsult.de\/bewerberblog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/towerconsult.de\/bewerberblog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/towerconsult.de\/bewerberblog\/wp-json\/wp\/v2\/users\/41"}],"replies":[{"embeddable":true,"href":"https:\/\/towerconsult.de\/bewerberblog\/wp-json\/wp\/v2\/comments?post=11012"}],"version-history":[{"count":0,"href":"https:\/\/towerconsult.de\/bewerberblog\/wp-json\/wp\/v2\/posts\/11012\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/towerconsult.de\/bewerberblog\/wp-json\/wp\/v2\/media\/15871"}],"wp:attachment":[{"href":"https:\/\/towerconsult.de\/bewerberblog\/wp-json\/wp\/v2\/media?parent=11012"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/towerconsult.de\/bewerberblog\/wp-json\/wp\/v2\/categories?post=11012"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/towerconsult.de\/bewerberblog\/wp-json\/wp\/v2\/tags?post=11012"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}