Beschreiben Sie uns bitte ein klassisches OpenSource Tool und ein passendes Anwendungsszenario
In der Big Data "Bewegung" beherrschen offene Tools die Software-Landschaft. Das bekannteste Beispiel ist Hadoop - das "Betriebssystem" für beliebig skalierbare Datenspeicherung, auf dem sich auch viele Rechenoperationen nahezu unbegrenzt auf einzelne, kleine Rechner verteilen lassen. Ebenso viele Datenbanken und Software zur Analyse. wie etwa das bekannte Statistik-Paket 'R'.
Parallel zur Infrastruktur werden auch Daten zunehmend besser zugänglich. Zum einen gibt Open Data, wertvolle, aussagekräftige Daten, die offen zur Verfügung stehen. Zum anderen werden getrennte Datenbanken aus ihren "Silos" herausgeholt und miteinander verbunden.
Offen bedeutet aber nicht in jedem Fall "völlig frei". Viele Datenbanken stehen zwar zur Verfügung, sind aber dennoch z.B. durch Urheberrecht geschützt. Und für Business-Anwendungen gibt es Enterprise-Lösungen, freie Software, die kommerziell gepflegt wird, so dass Unternehmen sich nicht um Installation, Patches und Sicherheit kümmern müssen.
Big Data mit Open Source Tools analysieren - es klingt so einfach und vor allem so günstig. Warum macht es dann nicht jeder?
Obwohl viele freie Tools seit langem verfügbar sind, setzen sie sich erstaunlich langsam durch. Auch nach zwanzig Jahren Open Source, zehn Jahren Wikipedia und fünf Jahren Github setzen Anwender gerade in großen Unternehmen gerne weiter auf "große Namen". Dieses konservative Verhalten von großen Unternehmen, und die damit verbundene Ineffizienz bietet mehr Chancen denn je, dass sich kleine Teams mit ihren Lösungen am Markt durchsetzen - wir erleben das regelmäßig, wenn wieder ein Start-Up eine vermeintlich stabile Branche umkrempelt.
Auch den Universitäten hat sich (allein aus Kostengründen) Open Source überall durchgesetzt. Die nächste Generation von "Quants", also von Leuten, die mit Zahlen arbeiten, wird daher ganz selbstverständlich mit offenen Tools umgehen.
Auf dem Forum wird es auch einen Beitrag von Florian Schumacher von Quantified-Self geben. Wo sehen Sie die bedeutendsten Anwendungspotenziale von Wearables und Self-Tracking?
Warum gibt es heute "so viele Daten", dass wir von "Big Data" sprechen? Zum einen werden immer mehr Datenpunkte gespeichert, die bei der Steuerung von Maschinen anfallen. Jedes Auto besitzt zwanzig, dreißig Sensoren, die detailliert alle Möglichen Informationen protokollieren. Neben den Maschinendaten ist die wichtigste Datenquelle aber der Mensch- "Data is made of people."
Wearable Technology, das sind in der Regel Sensoren, Messgeräte, die wir als Teil unserer Kleidung, als Accessoirs tragen. Über Wearable Tech bekommen wir jede Menge Feedback über uns, so ähnlich, wie mit der guten alten Badezimmerwaage. Und diese Daten sind nicht nur hilfreich, um z.B. unser Gewicht zu halten, unsere sportliche Leistung zu messen oder unsere täglichen Schritte zu zählen. Wenn wir uns selbst tracken, selbst vermessen, können wir stärker aktiv als bisher unser Leben gestalten.
Bei vielen chronischen Krankheiten kann Self-Tracking Menschen sogar helfen, ihren Zustand dauerhaft zu stabilisieren oder zu verbessern. Neben den Sportlern und Menschen, die sich für Trainingszwecke selbst tracken, sind chronisch Kranke die Treiber dieser Technologie.
In Social Media veröffentlichen Menschen im Internet "Content": Blog-Posts, Facebook-Updates, Flickr-Bilder, Tweets, etc. Durch Social Media kam dadurch die erste Datenexplosion.
Mit "Quantified Self", der Bewegung der "Selbst-Vermessung" erzeugen die Menschen sehr persönliche Daten über sich selbst. Aber Viele teilen ihre Messergebnisse mit ihren Freunden, so wie sie ihre Gedanken und Gefühle in den Social Networks posten. Das Self-Tracking wird dadurch, neben Social Media zur wichtigsten Datenquelle über Menschen.
Autor: Jörg Blumtritt ist Experte für Zukunft und Entwicklung der Medienindustrie, der Markt- und Sozialforschung und berät dazu Unternehmen und Organisationen. Er ist Gründer von zwei Startups im Bereich Big Data: iognos, ein Plattformbetreiber, der aus Daten Erkenntnisse und Vorhersagen über menschliches Verhalten gewinnt, und Datarella™, ein Data Science Development Lab.
Auf dem 4. Praxisforum Big Data und Data Science am 3. und 4. September 2014 in Köln wird Herr Blumtritt einen Vortrag zu "Open Foresight" halten.
Kontakt: Tobias Knoben, Senior-Konferenz-Manager EUROFORUM | XING