Big Data – Hadoop

In dieser Gruppe diskutieren wir über Einsatzszenarien, Technologien und Trends zu Big Data und hadoop.

Acht häufige Fehler mit Big Data Analytics

Marc-David Militz
Expert
Wenn es um Big Data Analytics geht, dann ist das was normalerweise zu hören bekommt, der Hype der um das Thema gemacht wird. In Vertriebsjargon würde man sagen, eine gute Story. Das Problem ist, dass die Leute die Story glauben und denken Big Data Analytics würde automatisch alle Probleme lösen. Ein zweiter Effekt ist, dass die Leute glauben, sie müssten das jetzt machen, weil sie sonst etwas verpassen. Angeheizt wird das von den Herstellern die das unüberlegte Sammeln von Daten in das Zentrum ihrer Vertriebsstrategie stellen. Überlegen was man damit macht, könne man ja noch später!

In der Folge werden sinn- und kopflos alle möglichen Daten gesammelt, was dazu führt das Firmen auf einem Datenberg sitzen ohne zu wissen was sie damit anfangen sollen. Nur weil man viele Daten hat löst man damit noch keine Business Probleme. Es ist schwierig und zeitaufwändig aus solchen Daten wertvolle Erkenntnisse zu gewinnen, aber es ist nicht unmöglich!

1. blindes Datensammeln
Große Mengen von umfassenden, unterschiedlichen, sehr großen und sich oftmals schnell ändernden Daten bieten keinen Mehrwert für Firmen, die keine Ahnung haben wie sie diese verarbeiten können.

2. die Grenzen unstrukturierter Daten nicht kennen
Wer sich der Grenzen von unstrukturierten Daten nicht bewusst ist wird völlig überfordert sein, sobald er versucht irgendwelche Erkenntnisse aus den Daten zu gewinnen.

3. Mehr Daten nutzen als benötigt werden
Nur weil man viele Daten hat, heißt das noch lange nicht, dass da ein Wert drinsteckt. Nur "gute Daten" liefern wertvolle Erkenntnisse. Wenn man die richtigen Daten hat, dann machen mehr Daten das Ergebnis nicht besser.

4. Integration falsch verstehen
Big Data stammt oft von unterschiedlichen Quellen und ist nicht zwangsläufig kongruent oder einfach zu integrieren. Kompatibilität und Integration sind deshalb komplizierte und teure Prozesse.

5. Aus Big Data ein IT Projekt machen
Für die IT ist Big Data eine technische Sache die Server, Software und das verknüpfen von Daten beinhaltet. Besser wäre es erstmal unternehmensstrategische Fragen zu stellen und dann Daten zu sammeln um diese zu beantworten.

6. "Fehlerfrei" heißt nicht "Richtig"
Nur weil die Ausführung von Analytics-Programmen/Prozessen keine Fehlermeldungen ausspuckt heißt das noch lange nicht, dass das Ergebnis korrekt ist. Derjenige der eine Statistik erstellt oder interpretiert muss wissen wie die Zahlen zustande gekommen sind und wie er die Statistik zu lesen hat.

7. Korrelationen sind nicht immer wertvoll
Je größer die untersuchte Datenmenge ist, desto wahrscheinlicher wird es Korrelationen zu finden. Aber ob diese Korrelationen auch Kausal sind, das kann bis heute kein Computersystem feststellen. Machen die Leute ihre Regenschirme auf, weil es regnet, oder regnet es, weil alle Leute ihre Regenschirme öffnen?

8. Statistisch Signifikanz liefert nicht unbedingt Mehrwert
Wenn eine Statistik oder Auswertung zu einer Erkenntnis geführt hat, dann müsste man - zumindest in der Wissenschaft - eine statistische Signifikanz nachweisen, bevor man dies veröffentlichen darf. Bei vielen Business Cases führt der Versuch eine statistische Signifikanz nachzuweisen höchstens dazu, dass man erkennt, dass der Effekt für das eigene Geschäft zu klein ist. In der Regel weist man die statistische Signifikanz seiner Erkenntnisse aber immer nur wieder aufs Neue nach.

Latest member activities

Recommend this community post