Der Nutzen von Big Data (für die Marktforschung)

Zugegeben, Big Data ist ein Hypethema. Aber immerhin eines, das quer durch die ganze IT-Industrie eingeschlagen hat und aufgegriffen wird. Die Vorträge beispielsweise im AK Big Data des BITKOM sind interessant und inspirierend, auch für langjährige IT-Experten. Diese sind es aber auch, die eines der Top-Totschlagargumente mitbringen: “Im Prinzip nichts Neues”. Ein Argument hingegen, das immer seine Berechtigung hat, ist hingegen: Was bringt Big Data dem Kunden / Anwender / Unternehmer? Dazu muss man in der Tat ein wenig weiter ausholen.

Big Data entsteht aus Messdaten. Was ich besser messen kann, kann ich besser managen. Je mehr Messdaten ich intelligent finde, zusammenführe und auswerte, desto höher die Wahrscheinlichkeit, dass ich daraus einen Nutzen ziehen kann.

Big Data betrifft zu einem großen Teil die Datenberge, die heute schon in den Unternehmen vorhanden sind und die aus irgendwelchen Gründen heute nur abgespeichert, aber nicht wirklich genutzt werden. Weblogfiles, Callcenterdaten, eingescannte Kundenkommunikation, Wartungsprotokolle, etc. sind dafür Beispiele. Genauer gesagt werden diese Daten schon genutzt, aber nur für einen, ursprünglich gedachten Zweck: Verbindungsdaten bei Telekommunikationsunternehmen zu Abrechnungszwecken; Netzwerktraffic-Daten zur Lastoptimierung. Was aber, wenn man die beiden Töpfe zusammenfahren würde und dann bestimmen könnte, welcher Sendemast wie profitabel ist und welche Investitionssumme für welche Aufrüstung sich an genau diesem Sendemast rechnet?

Big Data meint darüberhinaus aber auch die gigantische Datenmenge, die quasi von selbst täglich weiter wächst, nämlich im sogenannten Social Web: Facebook, Twitter, Youtube, etc. Dazu kommen die professionellen Datendienstleister, die weitere Datensätze anbieten können – also eine nie dagewesene Menge von extern verfügbaren Daten, teils aus öffentlichen Quellen (“open data”). Erneut kommt es darauf an, die Daten zusammenzuführen und daraus neue Erkenntnisse zu gewinnen.

Was könnte es daraus für Möglichkeiten geben? Ich war diese Woche auf einer Big-Data-Konferenz für Marktforscher. Dort ist es nicht gelungen, den Mehrwert von Big Data für diese Zielgruppe aufzuzeigen, zumindest lese ich so den kritischen Bericht von Dominik Henn auf Google+. Warum?

Aus der ex-post-Betrachtung komme ich auf folgende Überlegungen: Wenn ich als Marktforscher die gleichen Fragen wie immer stelle und nun nach der Stichprobe und dem Panel jetzt Big Data als Methode verwende, sehe ich den Mehrwert nicht- dazu sind die Methoden zu ausgereift und wurden zu recht vehement verteidigt. Könnten aber nicht ganz andere Fragen gestellt werden? Oder können die Antworten auf die gleichen Fragen nicht ganz anders gefunden werden, als durch Fragen?

Ich zitiere aus “Data Unser” (siehe meine Kurzrezension): “Wenn wir heute Daten intelligent verknüpfen, wird ein tiefes Verständnis auf Einzelkundenebene real möglich. Denn dann befragen wir nicht mehr kleine Fokusgruppen [...] Wir wechseln endlich von der Rolle des Fragenden in die Perspektive des Beobachters.” (S. 13)

Big Data erlaubt es mir dann, nicht nur das Ergebnis eines Handelns (Kauf der Ware) auszuwerten (Wann, wie viel, wie oft, wo), sondern auch den Weg zum Ziel: Wie lange hat er gesucht, was hat er gesucht und was hat dann seine Aufmerksamkeit gefesselt, hat er Werbung dafür gesehen, etc. letztlich: WARUM hat er gekauft? Das erhalte ich, wenn ich alle mir zur Verfügung stehenden Daten auswerte. Und das muss am Ende nicht darauf hinauslaufen, dass der Marktforscher dann den einzelnen Kunden namentlich kennen oder erkennen muss, sondern mir als Unternehmen genügt zunächst die Produktperspektive: Welcher Typologie entsprechen die Käufer meines Produkts, welche Features sprechen die meisten an, was sorgt für die größte Zufriedenheit, was für den meisten Ärger?

Beispiele von Big Data (oder genauer Big Data Analytics), die Marktforscher interessieren können:

  • Messung der Werbewirksamkeit von Plakaten und Printwerbung (über Bewegungssensoren und Zähler, über QR-Code der lokal markiert wird) (nebenbei: ein ähnliches Projekt von Fraunhofer hat dazu mal einen Preis von der Arbeitsgemeinschaft Mediaanalyse erhalten.)
  • Messung der Markenwahrnehmung zum eigenen Unternehmen mit einem Benchmark aus Wettbewerbern, verteilt über die ganze Welt, korreliert mit Werbemaßnahmen
  • Modellierung von Kundengruppen auf einer wesentlich größeren Zahl von Inputvariablen quasi in Echtzeit (Warenkorbanalysen am Point-of-Sale mit Couponingaktionen)
  • Käuferverhalten und Käuferreaktionen auf Shoplayouts, In-Shop-Ads, Produktplatzierungen und sonstiger Umgebungsfaktoren über automatische Erfassung mittels Sensoren (zum Beispiel den ohnehin vorhandenen Überwachungskameras)
  • Sentimentanalyse auf Einzelkundenebene über alle eingehenden Kanäle: Brief, Mail, Call; Erkennung von Mustern und Ableiten von automatisierten Aktionen
Veröffentlicht unter Big Data, Business Analytics, Open Data | Hinterlasse einen Kommentar

Paralleles Arbeiten

Die Zeit ist unerbittlich. Jede Stunde, die vergangen ist, ist unwiederbringlich verloren. Wer mehr Aufgaben in der gleichen Zeit erledigen will, muss parallel an diesen arbeiten.

Parallelität ist daher auch eines der großen Paradigmen im Computerzeitalter. Angefangen hat das gefühlt mit dem virtuellen Multitasking, das bei Windows 3.x eingeführt wurde (so jedenfalls habe ich das in Erinnerung). Dort wurden Task in Scheibchen aufgeteilt und immer noch nacheinander gerechnet – aber eben in so schnellem Wechsel, dass für den Anwender zumindest das Gefühl entstand, das hier zwei Dinge gleichzeitig bearbeitet werden.

Der Stand der Technik ist heute ein anderer. Heute bestehen moderne CPUs aus mehreren Kernen, die zudem noch mehrere Threads parallel fahren können. Das heißt, das heute bereits in einer einzigen CPU physikalisch voneinander getrennt parallel gerechnet wird. Auf die Spitze getrieben wird dies allerdings in den Rechenkernen von Grafikkarten. Hier enthält eine einzige GPU (graphical processing unit) oft schon mehrere Hundert von Kernen, die hochspezialiserte Aufgaben abarbeiten. (Die neueste Nvida-Karte GeForce GTX 690 hat 3072 “Recheneinheiten” im Grafikprozessor.)

Nun lassen sich einzelne Server auch zu Serverfarmen zusammenschalten – und auf diese Weise sind heute für vergleichsweise geringes Geld Rechenleistungen darstellbar, die noch vor wenigen Jahren lediglich einer Handvoll Supercomputern vorbehalten waren.

Die Softwareindustrie macht sich diese Parallelität in der Rechenpower zu nutze. Es gibt sogar BI- und Datenbankanbieter, die gezielt die GPU, also die Grafikkartenkapazität ausnutzen. Auch der Hype um das Open-Source-Framework Hadoop rührt daher, dass damit verteiltes Rechnen über sehr große Datenmengen möglich wird.

Wie wird das Rechnen in der Zukunft aussehen? Haben wir in fünf Jahren mit dem iPhone X (“Leopard”) dann einen 64-Core-Chip in der Hand, der Hologramme in Echtzeit projezieren kann? Was die Hardwareseite angeht, ist das nicht unrealistisch. Die Frage ist eher, ob die gewünschten Features auf Algorithmen basieren, die sich überhaupt parallelisieren lassen bzw. auf diese Hardwarearchitektur hin optimiert ist? Nach dem Ahmdalschen Gesetz ist eine Beschleunigung durch paralleles Arbeiten natürlich nur soweit möglich, wie sich die Berechnung überhaupt parallelisieren lässt. Ist ein Algorithmus zu 95% Parallelisierbar, beträgt die maximale Beschleunigung durch noch so viele Rechenkerne eben nur eine Verzwanzigfachung.

Hardware ist dann nicht der entscheidende Hebel, sondern die Software, die das nutzen kann. Mit Map-Reduce, dem Programmierschema, auf das Hadoop aufsetzt, ist eine nahezu unbegrenzte Parallelisierung möglich. Darin liegt einer der Schlüssel für den Wirbel, den dieses Open-Source-Framework momentan verursacht.

Und auch hier komme ich auf SAS zu sprechen: SAS hat in den letzten Jahren viel Energie darauf investiert, die vorhandenen komplexen Algorithmen auf Parallelität zu trimmen und eben mit 192 oder 1152 Cores zu rechnen. Was passiert nun, wenn SAS und Hadoop zusammenkommen? Und das Ganze noch mit In-Memory und neuartiger Visualisierung kombiniert wird? Ich zitiere: “Analytics giant SAS is planning to step up competition in the business intelligence arena with a new high-performance platform that will hit on three of the hottest hot buttons in the data-analysis arena: big data, in-memory, and business analytics.” (Informationweek, 14.2.2012)

Veröffentlicht unter Big Data, Business Analytics, Software | Hinterlasse einen Kommentar

Das Ende des Datawarehouses?

Mit der Vorstellung von In-Memory-Technologie ist häufig die Vorstellung verbunden, damit würden Datawarehäuser überflüssig. Da ist schon etwas dran, wie ich finde.

Man stelle sich ein typisches Transaktionssystem vor, wie einen Kleiderschrank. Jeden Tag entnimmt man diesem die Kleidung, die man braucht und hängt sie abends wieder zurück. Dieses alltägliche Tun erfordert eine hohe Zuverlässigkeit und eine gewisse Robustheit. Auch wird der Kleiderschrank typischerweise immer größer.

Ein Datawarehouse kann man sich nun vorstellen wie den Koffer, den man packt, wenn man in den Urlaub fährt. Man überlegt sich genau, welche Sachen man mitnimmt und welche nicht. Natürlich könnte man in einen ziemlich großen Koffer investieren und so gut wie alles mitnehmen. Das wird aber teuer, unhandlich und das Befüllen eines solchen Koffers dauert schon länger als der Urlaub.

Kommt man nun im Urlaub / DWH an, ist man also schon ein ganzes Stück weit weg vom Transaktionssystem und tut nun das, was man tun will. Stellt man aber nun fest, dass eine unvorhergesehene Situation eintritt (es regnet, eine neue Frage taucht auf), müsste man seinen Koffer eigentlich neu packen. Oder einen zweiten anfordern. Oder auf die Antwort verzichten / daheim bleiben. In jedem Fall entsteht ein nicht unerheblicher Aufwand. Die IT muss gefragt werden und nach einiger Zeit steht das neue Datenmodell zur Verfügung.

In-Memory, gepaart mit einer guten Visualisierung funktioniert anders. Sie nehmen einfach nur ein iPad mit. Vor Ort haben Sie Zugriff auf alle Daten aus dem Transaktionssystem und navigieren durch, einfach und bequem. Mit einem Fingerwisch ziehen Sie sich dann genau das Kleidungsstück hervor, das sie für den Abend benötigen oder für den Regen am nächsten Tag. Mit ein bisschen Glück haben Sie dann noch Advanced Analytics integriert – und Sie erhalten den perfekten Vorschlag für das genau passende Outfit. Nie mehr overdressed…

So ungefähr funktioniert SAS Visual Analytics.

Veröffentlicht unter Big Data, Definitionen, Software | Hinterlasse einen Kommentar