Herr Graf, erinnern Sie sich an die erste Begebenheit, als Sie einen Datensatz verarbeiten wollten, der aber schlichtweg zu groß war, um nützliche Informationen zu filtern?
Der erste Datensatz, der die Fähigkeiten meines Laptops überschritt, war etwa 300GB groß. Nach heutigen Maßstäben relativ klein. Er ließ sich zwar in einer normalen Datenbank speichern, aber nicht vernünftig statistisch analysieren. Da wir aber statistische Feinheiten in den Daten finden sollten, war ein Arbeiten auf aggregierten Daten nicht akzeptabel. Die Lösung: Wir haben die Daten in eine SAP-HANA-Datenbank gespeichert und die statistischen Berechnungen mit R in der Datenbank ausgeführt. Ich war damals einer der ersten Tester dieser SAP-HANA-R-Integration, noch bevor sie auf den Markt kam.
Der Big Data-Begriff ist in aller Munde, doch ist die Analyse von großen Datenmengen bei Weitem nicht das einzige Feld der Data Science, oder?
Richtig. Der Begriff Big Data bezieht sich nicht unbedingt auf große Datenmengen. Laut Gartner kann ein Datensatz dann als Big Data bezeichnet werden, wenn er eins der drei folgenden Kriterien, die sogenannten „3 Vs“, erfüllt: Die Daten sind entweder groß („Volume“), ändern sich häufig („Velocity“) oder sind heterogen („Variety“). Im Kern geht es weniger um die Bearbeitung großer Datenmengen, sondern vielmehr um die Informationen, die aus ihnen gewonnen werden können.
Um Data Science besser zu verstehen, sollte der Unterschied zu Business Intelligence (BI) klar sein. Die neueste technische Entwicklung hat Business Intelligence einen neuen Fokus gegeben. Dadurch sind ganz neue Möglichkeiten entstanden. Während im klassischen BI die Vergangenheit und Gegenwart statistisch zusammengefasst werden, ist es heute möglich, auch komplexere Zusammenhänge in Daten zu finden und daraus Schlussfolgerungen und Prognosen zu gewinnen.
Diese Veränderung kam nicht nur durch die rasante Entwicklung des weltweiten Datenvolumens zustande, sondern auch durch Fortschritte in Bereichen des maschinellen Lernens, der Bearbeitung von natürlicher Sprache und der Bildverarbeitung. Um dieser Entwicklung einen Namen zu geben, kam die Bezeichnung Data Science auf.
Was ist Ihre Hauptaufgabe als Data Scientist bei SAP?
In meiner Abteilung entwickeln wir neuartige Geschäftsanwendungen in Zusammenarbeit mit Kunden. In den letzten Jahren hat SAP nicht nur in SAP HANA, sondern allgemein in Data-Science-Technologien investiert. Dazu gehören auch Komponenten zur Suche und Sprachverabeitung sowie Visualisierungstools.
Whitepaper: Auf 170 Seiten ausführlicher Einblick in DAS Zukunfts-Thema der Wirtschaft
Unser Team besteht aus verschiedenen Experten und unsere Aufgabe ist es, Produkte zu entwickeln, die diese neuen Möglichkeiten nutzen. Ich selbst schaue mir Daten an und erörtere, welche Analysen und Prognosen am meisten Kundenwert stiften könnten und wie sie sich umsetzen lassen. Außerdem bin ich als Softwareentwickler auch an der Implementierung und Produktisierung der Anwendungen beteiligt.
Haben Sie ein konkretes Beispiel aus Ihrem beruflichen Alltag, wo Ihr Fachwissen Ihnen einen entscheidenden Vorteil einbrachte?
Am Anfang meiner Karriere arbeitete ich als Softwareentwickler. Damals war Thema Data Science noch nicht bekannt.
Kurz nach meinem Einstieg bei SAP kam aber das Thema Predictive Analytics auf und ich hatte das Glück, von Anfang an dabei zu sein. Damals gab es ein zentrales Team, das verschiedene Abteilungen bei ihren Prognoseproblemen beriet. Mit meinem Hintergrund im Bereich „Machine Learning“ konnte ich ganz andere Ansätze, die über gewöhnliche Statistik hinausgehen, ausprobieren. Damit konnten wir wesentlich bessere Vorhersagen erzielen.
Was muss jemand idealerweise „mitbringen“, wenn er Data Scientist werden will?
Das Feld ist extrem umfangreich und in Bewegung! Wer sich für Data Science interessiert, sollte neugierig sein und bereit sein, ständig dazuzulernen. Neben Expertise in Statistik und Visualisierung sollte man auch das technische Wissen im Bereich Datenbanken und verteilte Systeme mitbringen. Natürlich kann kein einzelner Data Scientist in allen Bereichen Spezialwissen haben, aber ein Breitenwissen ist notwendig.
Aus Daten allein lassen sich selten Erkenntnisse gewinnen. Daher ist es unerlässlich, mehr über die Erfassung der Daten und den Fachbereich zu erfahren, um sinnvolle statistische Modelle entwerfen zu können. Man braucht deshalb auch Kommunikations- und Teamfähigkeiten, um mit Domänenexperten die Anforderungen gemeinsam zu erarbeiten und eine Lösung zu finden.
Welche Sektoren benötigen heute/in naher Zukunft gut ausgebildete Data Scientists?
In vielen Industrien ist Data Science schon längst angekommen und der Bedarf an Data Scientists über sämtliche Branchen hinweg ist groß.
Beispiele gefällig? Im Maschinen- und Automobilbau sammelt man Telemetriedaten, um vorrausschauende Wartung zu ermöglichen und Konstruktionsmängel zu finden. Internet- und Gaming-Portale sammeln und werten Nutzerdaten aus, um Spiele zu verbessern oder passendere Werbung zu schalten. Im Einzelhandel ist es üblich, Kassendaten mit anderen Datenquellen wie zum Beispiel Wettervorhersagen zu verbinden und so genauere Bedarfsprognosen zu erstellen. Energieversorger zeichnen mit sogenannten intelligenten Stromzählern die Energienutzung einzelner Haushalte auf und können so den Energieverbrauch besser vorhersagen – was wiederum Einfluss auf den Energiemix hat.
Herrscht Ihrer Meinung nach ein Mangel an Experten auf dem Gebiet?
Es ist schwierig, Experten zu finden, die sich in den einzelnen Fachgebieten sehr gut auskennen. Es ist heute beispielsweise eine Herausforderung, jemanden zu finden, der sich mit Statistik oder künstlicher Intelligenz oder Hadoop auskennt. Ein echtes Breitenwissen und praktische Erfahrung als Data Scientist sind seltener.
Angehende Data Scientists bringen meistens bereits Expertise in einem sehr engen Bereich mit. Sie brauchen aber viel Zeit, um ihr Wissen zu erweitern und praktische Erfahrungen zu sammeln. Theoretisches Wissen in praktische Erfolge umzuwandeln ist sehr schwierig, weil das Feld noch sehr neu ist. Bislang haben sich noch keine standardisierten Herangehensweisen,wie beispielsweise im Software Engineering, etabliert.
Was ist für Sie das besondere an dem berufsbegleitendem Studium „Data Science & Big Data“ an der TU Dortmund?
Dieser Studiengang versucht, genau den Mangel zu beheben, den ich vorher beschrieben habe: Die Studenten bekommen alle fachlichen Voraussetzungen, zumindest im Crashkursformat, vermittelt. Im Rahmen des Studiums erhalten sie die Möglichkeit, Datensätze aus dem eigenen Unternehmen zu verwenden. So können sie die Theorie in einem Bereich anwenden, der für ihr Unternehmen relevant ist.
Autor: Benjamin Graf, Data Scientist / Software Developer, SAP AG | XING
Das Interview führte Hennink Haake, Content Marketing Manager EUROFORUM | XING
Kontakt: Tobias Knoben, Senior-Konferenz-Manager EUROFORUM | XING
Whitepaper kostenlos downloaden: Branchenführer erklären Erfolgsgeheimnisse der Datenanalyse