Experten und Kunden aus dem Bereich IT, Softwareentwicklung und Digitalisierung vermitteln wir ab sofort unter der Marke Randstad Digital.
Mehr Informationen
Big Data
Um was geht es bei Big Data?
Schon längst bewegt man sich in Grössen jenseits der Vorstellungskraft eines Menschen. Und auch der Dynamik des exponentiellen Wachstums von Massendaten scheinen keine Grenzen zu kennen. So gehen aktuell Experten davon aus, dass sich die Menge verfügbarer Daten weltweit im Zwei-Jahres-Schritt verdoppelt, im Jahre 2020 sollen bereits knapp 45 Zettabytes (44’000’000’000 Terrabytes) gespeichert und verfügbar sein. Keine Frage, Big Data ist eines der zentralen Themen von Gegenwart und Zukunft, das auch immer mehr IT-Selbstständige beschäftigt.
Wenn riesige, meist unstrukturierte Datenmengen nicht mehr mit der herkömmlichen Datenverarbeitung organisiert und ausgewertet werden können, spricht man von Big Data. Der Begriff umfasst zudem IT-Lösungen und Systeme, die zum Sammeln und Auswerten der Daten verwendet werden. Noch weiter gefasst wird Big Data als Sammelbegriff für Technologien, die nicht nur eine neue Ära der digitalen Kommunikation vorantreiben, sondern auch einen einschneidenden Wandel im sozialen Gefüge der internationalen Gemeinschaft herbeiführen.
Für die Wirtschaft ist Big Data eine Schlüsseltechnologie für die digitale Transformation. Die Experten sind sich darin einig, dass für Unternehmen ein zunehmender Erfolgsfaktor die Fähigkeit sein wird, Daten zu gewinnen und vor allem auszuwerten und zu nutzen.
In den Fokus der Öffentlichkeit rückte Big Data in besonderer Weise 2016 beim Volksentscheid zum Austritt Grossbritanniens aus der EU («Brexit») und den Präsidentschaftswahlen in den USA: beide Male wurde von den späteren Gewinnern die Firma Cambridge Analytica beauftragt, personenbezogene, meist im Internet gewonnene Daten zu erheben, auszuwerten und zusammen mit Methoden der Psychometrik bei der Werbung um Stimmen anzuwenden.
Charakteristika von Big Data
Der Begriff Big Data, zuweilen auch Massendaten genannt, bezieht sich im Kern auf riesige Datenmengen, die für die herkömmliche Datenverarbeitung
- zu gross,
- zu komplex,
- zu schnelllebig und
- zu schwach strukturiert sind.
Neben der Sammlung, Organisation und Auswertung von riesigen, exponentiell wachsenden Datenmengen gehört bei Big Data ein besonderes Augenmerk auch der Sicherstellung der Datenqualität sowie der unternehmerische Mehrwert. Die Datenquellen sind dabei unterschiedlichster Art: Neben der Datengewinnung aus Industrie und Wissenschaft gehören zu den weltweiten Haupterzeugern vor allem privater Daten zweifellos die Protokolle von Telekommunikationsverbindungen und Web-Zugriffen sowie Verbraucherdaten aus Finanzindustrie, Energiesektor und Gesundheitswesen.
Navigationssysteme, Fitness- und Gesundheitsarmbänder, Smart Home und Smart Meter im Haus, Social Media, Onlineshops, Smartphones und vieles mehr – Big Data ist überall. Und damit natürlich auch die Herausforderung, wie man einerseits mit privaten Daten umgeht und andererseits von Seiten der User verhindert, dass persönliche Informationen ohne eigene Zustimmung genutzt bzw. öffentlich gemacht werden. Stichwort: Die Anonymisierung der Daten.
Big Data in der Praxis
Die Anwendungsgebiete und Nutzen von Big Data liegen nahe, denn Daten sind der Grundstoff für viele Prozesse und Anwendungen über alle Branchen hinweg samt Forschung, Politik und staatliche Stellen (u.a. bei der Kriminalistik und Terrorismusbekämpfung). Entwicklung, Produktion, Marketing, Vertrieb, Service und Strategie – überall werden riesige Datenmengen erfasst und entsprechende digitale Methoden genutzt, um aktuelle Problem- und Fragestellungen ebenso zu beantworten wie künftige Herausforderungen und Trends.
Das trifft auf ein Kraftwerk ebenso zu wie auf Suchmaschinen wie Google oder Internet-Versandhändler wie Amazon: Beim einen geht es um Effizienz und Sicherheit, beim anderen um bestmögliche Kundenansprache – stets geht es dabei aber um Big Data. Mit der technischen Entwicklung wachsen Möglichkeiten und Bedeutung von Big Data und damit auch von Business Intelligence (BI). Je leistungsstärker und ausgefeilter Speicher- und Rechentechnologien werden, desto massentauglicher wird Big Data. Die Erweiterung der herkömmlichen BI-Plattformen mit Big Data ermöglicht es, unstrukturierte Daten aus Quellen wie Social Media, Blogs und mit dem „Internet der Dinge“ verbundenen Geräten zu nutzen und eine 360 Grad-Sicht auf Kundenprofile zu erhalten.
Big Data: Fähigkeiten und Kenntnisse
IT-Experten und IT-Freelancer mit den nötigen Skills, um Big Data zu nutzen, sind heiss begehrt. Als Data Scientists sind sie ausgewiesene Experten in der Datenanalyse. So komplex und vielschichtig das Thema Big Data ist, so vielfältig ist das Spektrum ihrer Kenntnisse, die meist mehrere Fachbereiche umspannen.
Data Scientists bringen meist mehrere, wenn nicht sogar alle folgende Skills mit. Sie besitzen Kenntnisse in:
Programmierkenntnisse
Für all diejenigen, die aus der klassischen IT kommen, ist dieser Bereich der naheliegendste. In Sachen Programmiersprachen sind Python, Java, R und C++ empfehlenswert. Das wichtigste Framework für Big Data – Apache Hadoop (s. unten) – basiert auf Java, sodass die Programmiersprache essentiell ist, um mit Hadoop arbeiten zu können.
Datenstrukturen und Algorithmen
Welche Möglichkeiten gibt es, die zu analysierenden Daten zu speichern und zu organisieren? Dazu sollten Big Data Experten die Grundlagen unterschiedlicher Datentypen und -strukturen kennen, zum Beispiel binäre Suchbäume, Rot-Schwarz-Bäume oder Hashtabellen. Auch ein Grundverständnis von Algorithmen ist wichtig, um die Daten auf ein Problem hin zu analysieren.
Datenbank-Skills
Wo viele Daten sind, da ist auch SQL – eine unbedingte Empfehlung für die Know-how-Liste. Doch immer öfter stossen relationale SQL-Datenbanken an ihre Grenzen. Hier kommen NoSQL-Datenbanken ins Spiel, mit denen sich auch unstrukturierte Daten speichern lassen.
Mathematische und statistische Grundlagen
Quantitative Methoden sind ebenfalls hilfreich für Big Data Spezialisten. Hier helfen Grundkenntnisse der Mathematik (v.a. lineare Algebra und multivariable Infinitesimalrechnung) und Statistik. Auch mit entsprechenden Softwarelösungen wie SAS, Matlab oder SPSS sollten sich Data Scientists auskennen.
Datenvisualisierung
Oft ist es in Big Data Projekten unumgänglich, die Rohdaten auch visuell aufzubereiten, um so neue Blickwinkel auf die Informationen zu bekommen und neue Erkenntnisse zu gewinnen. Spätestens bei der Kommunikation über die Arbeit oder Ergebnisse eines Big Data Projekts sollten «bunte Bildchen» nicht fehlen. Denn nicht jeder Kollege oder Entscheidungsträger kann mit seitenlangen Datenauswertungen etwas anfangen. Ein Big Data Experte muss auch ein Gespür dafür haben, welche Darstellungsform der Informationen am besten ist: «klassisch» als Säulen-, Balken oder Torten-Diagramm oder in neueren Formen wie Karten, Heat Maps oder Tree Maps. Auch sollte man sich mit entsprechenden Tools zur Visualisierung auseinandersetzen, zum Beispiel tableau oder dygraphs.
Tätigkeitsbereich des Unternehmens
Hier geht es weniger um konkrete Skills, die man nach einer Liste abarbeiten kann, sondern um den Blick über den Tellerrand. Data Scientists müssen wissen und verstehen, um was es im Big Data Projekt überhaupt geht. Hier helfen die Mitarbeiter der Fachbereiche: Was versprechen sich die Mitarbeiter eigentlich von einer Big Data Lösung? Was sagen die erhobenen Daten aus und wie können sie bewertet werden? Welche Kennzahlen werden zur Evaluierung herangezogen?
Soft Skills Data Scientists
- ausgeprägte Kommunikationsfähigkeiten um die Ergebnisse zu vermitteln,
- einen langen Atem, viel Gespür für Zusammenhänge und Lernfähigkeit bzw. Neugierde, denn in kaum einem anderen Bereich gibt es so viele neue technische Entwicklungen wie rund um das Sammeln und Auswerten von Daten. Sorgten in den zurückliegenden Jahren Themen wie Hadoop, Data Lakes und In-memory-Computing für Schlagzeilen, ist es aktuell die Künstliche Intelligenz (KI), die rund um Big Data, Smart Data und Analytics für Furore sorgt.
Fünf Typen von Data Scientiests
- Business Developer entwickeln u. a. erste Fragestellungen.
- Data Analysts bewerten die Aussagekraft der Daten.
- Data Manager optimieren die Qualität der Daten.
- Application Developer setzten die Plattform auf, auf der die Daten integriert und die Anwendungen entwickelt und installiert werden.
- Security Manager setzten den Datenschutz organisatorisch und technisch um.
Apache Hadoop: Die Technologie mit dem Elefanten
Neben all diesen Skills kommt beim Thema Big Data kaum jemand an Apache Hadoop vorbei. Das Open Source Framework basiert auf dem MapReduce-Algorithmus von Google. Damit können Berechnungen für grosse Datenmengen parallel auf Computerclustern ablaufen. Hadoop ist in Java geschrieben und spätestens jetzt wird deutlich, warum der Programmiersprache so grosse Bedeutung zukommt.
Ebenso wichtig sind viele Tools innerhalb des immer grösser werdenden Hadoop-Ökosystems. Ein paar Beispiele:
- Das Hadoop Distributed File System (HDFS) als Dateisystem, das speziell auf die verteilte Verwaltung sehr grosser Datenmengen ausgelegt ist.
- NoSQL-Datenbanken wie Cassandra, HBase oder MongoDB, die die Beschränkungen von relationalen SQL-Datenbanken überwinden. Sie kommen vor allem bei Datenmengen im Petabyte-Bereich zum Einsatz.
- Werkzeuge für SQL-Abfragen auf Hadoop-Clustern, zum Beispiel Hive, Impala oder Phoenix.
- Analyseplattformen wie Pig, mit dem sich komplexe MapReduce-Transformationen auf einem Hadoop-Cluster ausführen lassen.
- Mit Apache Flume können grosse Mengen an Logdaten verarbeitet werden.