Eine detaillierte und sorgfältige Vorbereitung von Data-Mining-Projekten ist sehr wesentlich für die erfolgreiche Durchführung eines solchen Unternehmens. An erster Stelle steht hier natürlich die Festlegung der Zielsetzung eines Data-Mining-Projektes, was aber in aller Regel wenig problematisch ist.
Viel schwieriger hingegen ist die Planung des notwendigen Datenbedarfs und die Inventur des momentan vorhandenen Datenbestandes. Schon die Übersicht über die vorliegenden Datenbestände wird oft durch mangelhafte Datensatzbeschreibungen erheblich erschwert. Wir übertreiben mit dieser Darstellung keinesfalls, das Problem ist den Datenverantwortlichen oft gar nicht bewusst und wird erst im Lauf von Data-Mining-Projekten zu einem echten, schwerwiegenden Hindernis. Eine möglichst frühzeitige und exakte Klärung der Datenlage ist von größter Wichtigkeit.
Problematisch ist weiterhin das Fehlen eines geeigneten Data Warehouse. Der Zugriff auf operative Systeme ist zwar immer möglich, hat aber den gravierenden Nachteil, dass hier in der Regel keinerlei Kundenhistorie verfügbar ist, was die meisten Data-Mining-Aktivitäten extrem stark einschränkt. Der Aufbau eines Data Warehouse sollte also normalerweise Voraussetzung für ein erfolgreiches Data-Mining-Projekt sein, wenn dies auch nicht immer erforderlich ist.
Sind Daten zur Kundenhistorie nicht vorhanden, sollte möglichst frühzeitig mit einer Sammlung von historischen Daten begonnen werden, am einfachsten durch Auslesen der entsprechenden Backups der operativen Systeme. Ist dies nicht möglich, muss wenigstens sofort mit dem Sammeln der Daten in geeigneten Strukturen begonnen werden, am besten natürlich in einem regelrechten Data Warehouse.
Genaue Untersuchungen zur Korrektheit der vorliegenden Kundendaten sind sinnvoll: spätestens während der ersten Data-Mining-Analysen werden Datenfehler als Störfaktoren auftreten und sollten deshalb schon vorher erkannt und falls möglich eliminiert werden.
Die vorliegenden Kundendaten, am besten in einem Data Warehouse, sollten möglichst vollständig sein, einem Aussortieren von scheinbar sinnlosen Daten ist unbedingt abzuraten. Welche Daten für die späteren Analysen tatsächlich benötigt werden, kann sich erst zum Zeitpunkt der Analyse selbst herausstellen. Ein starkes Analysetool wie Score™ 4.0 ermittelt selbständig die für die Analyse relevanten Daten und eliminiert automatisch die irrelevanten.
weiter zur Datenaufbereitung...