Was ist Big Data und Data Science

Wenn man 10 Personen zum Thema befragt, bekommt man wahrscheinlich 10 Antworten. Nicht immer lässt sich Big Data oder Data Science im Detail definieren. In diesem Artikel möchte ich auf die Charakteristiken eingehen, wann man von Big Data und/oder Data Science spricht. Welche Themen umfasst es und wo sind die Berührungspunkte zu anderen Themen.

Definition Big Data

Prinzipiell kann man sagen, dass es sich dann um Big Data handelt, wenn die Speicherung der Daten im herkömmlichen Sinn nicht mehr funktioniert d.h. eine relationale Datenbank an Ihre Grenzen stösst, Daten vorliegen die man nicht einfach klassifizieren kann oder so viele Quellen von Daten vorhanden sind, dass es kaum möglich ist diese an einem zentralen Ort zu erfassen. Immer unter Berücksichtigung der Zeit die es in Anspruch nimmt, denn nur wer schnellen Zugriff auf die Daten hat, hat auch den Vorteil.

Um dies etwas einfacher in Listenform zu bringen kann man von folgenden Charakteristiken sprechen, welche man auch die V’s nennt. Meistens findet man 3-4, aktuell sind wir bei 5 V’s:

  • Volume –> Die Menge der Daten welche über mehrere 100 TB’s bis Zetabytes gehen kann
  • Variety –> Die Unterschiedlichkeit von Daten wie Text, Bilder, Filme, Tabellen, Log-Files usw…
  • Velocity –> Die Geschwindigkeit der Daten wie Sensordaten, Börsenkurse, Smartphone-Verbindungen
  • Veracity –> Die Richtigkeit oder Wahrheit der Daten, also wie sicher ist es, dass die Daten auch stimmen
  • Value –> Der Wert der Daten, welcher sich primär aus dem Nutzen erschliesst z.B. Mehr Umsatz, weniger Kosten

Wenn mindestens zwei der oben genannten Punkte ein Problem darstellen kann man von Big Data sprechen. Es muss sich nicht immer um sehr viele Daten handeln, alleine schon 100GB können zur Herausforderung werden wenn innert Minuten  zugegriffen werden muss um diese zu verarbeiten.

Definition Data Science

Da unsere Daten für die weitere Verarbeitung bereit stehen, kommen wir zu Data Science. Grundsätzlich kann man sagen, es geht um die Extraktion von Wissen aus Daten. Dies muss nicht immer mit Big Data zu tun haben. Es kann ohne weiteres sein, dass man auf strukturierte Daten zurück greift, die vorliegen und verwendet werden können. Eigentlich ist Data Science nichts anderes als die logische Fortführung von Business Intelligence.

Ich zitiere hier Wikipedia, da dies meiner Meinung nach das Thema gut auf den Punkt bringt

Der Studiengang Data Science verwendet Techniken und Theorien aus den Fächern MathematikStatistik und Informationstechnologie, einschließlich der Signalverarbeitung, verwendet Wahrscheinlichkeitsmodelle, des maschinellen Lernens, des statistischen Lernens, der Computerprogrammierung, der Datentechnik, der Mustererkennung, der Prognostik, der Modellierung von Unsicherheiten und der Datenlagerung.

Der einzige Punkt der aus meiner Sicht fehlt aber sehr wichtig ist, ist das Verständnis für Betriebswirtschaft und des Business allgemein. Denn Mehrwert aus Daten schafft man, indem die Ergebnisse in direkten Nutzen umgewandelt werden können. Dies kann von Kostenreduktion, Umsatz / Margensteigerung oder Geschäftsfeldausbau bis hin zu neuen Produkten und Märkten führen.

Ein kleines Beispiel

Anhand folgendem Beispiel möchte ich dies noch etwas einfacher darstellen.

Peter ist Geschäftsführer eines Sportartikelgeschäfts. Er verkauft in zwei Läden, hat einen Webshop und verkauft an Grossanlässen mit seinem fahrbaren Anhänger den er zu einem Verkaufsstand umbauen kann. Weiter nutzt er diverse Marketingkanäle wie auch digitale Medien. Eine Kundenkarte hat er eingeführt für besonders gute Kunden, wie auch Sportvereine die günstiger einkaufen können.

Folgende Herausforderung hat Peter aus Sicht von Big Data

  • Volume – neben seinem ERP für den Verkauf, Lagerhaltung und Planung bekommt er Produkt und Preislisten seiner Lieferanten. Seine Mitarbeiter nutzen zwar das ERP, haben aber auch separate Excel-Listen. Der Verkaufsstand wird noch mit Papier geführt und im Marketing wird Facebook, Google wie auch eine Marketingfirma eingesetzt. Der Webshop läuft extern bei einem Provider. Die Kundenkarten sind nur in den Läden nutzbar.
  • Variety – All diese Daten kommen in unterschiedlichsten Formaten daher, Datenbank, XLS, PDF, Bilder usw…
  • Velocity – Dies ist weniger kritisch, trotzdem generieren aber diverse Quellen zu jeder Zeit Daten, die erst viel später zentral verfügbar sind (Abrechnungen, Bestellungen, Lagerbestände usw…). Aber auch Informationen aus Social Media und Kundenmeinungen stehen nur mit viel Aufwand und langsam zur Verfügung.
    Wenn ein Kunde mit einer Kundenkarte am Verkaufsstand kaufen möchte, so muss dies mühsam nachbearbeitet werden.
  • Veracity – Peter ist darauf angewiesen dass die Preislisten stimmen, der Verkaufsstand sauber geführt und das Lager gemäss der Lagerliste übereinstimmt.
  • Value –  Für Peter sind all diese Daten bis jetzt wichtig, doch so richtig abschätzen kann er nicht ob und was ihm diese bringen könnten.

Weiter ist Peter bewusst, wenn z.B. der Ladenverkäufer Hans von Laden B in die Ferien geht, er sich selber um den Einkauf kümmern muss. Da die Erfahrung von Hans viel Wert ist (Er weiss wann was benötigt wird), braucht er für die selbe Arbeit viel mehr Zeit.

Peter hat sich bis jetzt auf sein Bauchgefühl und seine Erfahrung verlassen, doch nun will er diese mit Fakten untermauern. Ausserdem wäre es im wohler, wenn nicht alles auf seinen Schultern liegen würde bei Entscheidungen.

Aus Sicht von Data Science könnte man nun folgende, nicht abschliessenden, Verbesserungen angehen:

  • Alle Daten werden zentral gesammelt und soweit aufbereitet, dass man diese für Auswertungen verwenden kann
  • Anhand der Daten wird geprüft, ob es Zusammenhänge gibt, welche nützlich sein könnten z.B. im Frühling werden vermehrt Joggingschuhe gekauft, doch gibt es einen Zusammenhang mit dem Verkauf von Trainerhosen?
  • Durch die Hinzunahme von weiteren Informationen wie Webshop-Logfiles, Google Analytics und Facebook Analytics kann Peter sich eine Übersicht über alle Absatzmärkte machen, unabhängig von Standort und Zeit.
  • Die Informationen wären auf Knopfdruck verfügbar und somit ist die Lagerhaltung, die Bestückung des Verkaufsstandes wie auch die Produktauswahl effizienter. Abgesehen davon ist er nicht mehr nur auf Erfahrungen von Mitarbeitern angewiesen und kann so beim Ausfall eines Mitarbeiters den Zeitaufwand trotzdem klein halten.
  • Eine Übersicht was aktuell bei den Kunden hoch im Trend liegt und auf was Kunden reagieren erlaubt Peter, die Kunden individueller und direkter anzusprechen. Evtl. liegt er mit seinem Bauchgefühl richtig, doch was, wenn er etwas verpasst weil er einfach nicht wusste dass es aktuell im Trend liegt?
  • Gibt es Unterschiede von gekauften Artikeln und Standort A, Standort B und Webshop? Falls ja, was sind die Einflussfaktoren für die Unterschiede und wie kann man diese nutzen?

Ich könnte hier nun noch lange weiter schrieben, das Ziel ist aber dass man versteht, warum Daten uns unterstützen können im Geschäftsleben. Oftmals sagt uns unser Bauchgefühl, ich gehe davon aus…. , mit den Daten lässt sich dies erhärten oder verwerfen, und zum anderen lässt sich viel Zeit damit einsparen bis man die Informationen dazu hat.

Ein sehr breites Feld

Man sieht schnell dass sehr viele Disziplinen da aufeinander treffen. Alleine für Statistik gibt es Spezialisten, die ich in keiner Weise konkurrenzieren könnte mit meinem Wissen. Auch im Bereich von Machine Learning braucht es viele Jahre Tätigkeit um in die Tiefen des Themas eintauchen zu können. Und genau hier setzt die Tätigkeit des Data Scientisten an. Es geht darum zwischen den Rollen wie C-Level Busniness, Statistiker, Programmierer, Daten-Engineers usw… das Bindeglied zu sein und in den jeweiligen Sprachen mit den Personen sprechen zu können. Man könnte auch von Übersetzer sprechen. Die Verantwortung liegt darin die vom Business gestellten Fragen unter Zuhilfenahme von jeweiligen Spezialisten oder Tools so zu beantworten, dass wiederum die Verantwortlichen (CEO, CIO, CFO usw…) eine Entscheidungsgrundlage haben.

Insofern kommen Menschen die sich in dieses Thema bewegen von unterschiedlichen Seiten. Von Informatikern über Statistiker / BI bis hin zu Betriebswirtschaftern bringen all diese Personen Kenntnisse mit, welche gebraucht werden. Und das, was man bis anhin nicht weiss oder nicht brauchte, muss man dazu lernen bis zu einer gewissen Tiefe.

Im nächsten Artikel gehe ich auf die Frage ein: Wie erkenne ich ob Big Data / Data Science für mich relevant ist

 

Erfolgreiche Marketingkampagnen bedingen dass ich meine Daten im Griff habe

In der heutigen Zeit ist Marketing auch zu einer technischen Disziplin geworden. Natürlich stehen nach wie vor an oberster Stelle die Kundenbedürfnisse. Und die Aktivitäten müssen diese Bedürfnisse, resp. die Probleme, die wir mit unseren Produkten lösen ansprechen.

Im Zeitalter der Digitalisierung stehen uns unzählige Tools und Services zur Verfügung, um mit den Kunden in Kontakt zu treten. Das ist auf der einen Seite fantastisch, auf der anderen Seite lauern aber auch Gefahren. In den meisten Fällen setzen Firmen diverse Tools ein was natürlich sinnvoll ist. Diese Tools sind auf Ihre Aufgabe spezialisiert und lösen diese hervorragend. Es fallen aber Daten und Ergebnisse an verschiedenen Orten an, da die Tools nicht integriert sind. Dadurch erhöht sich der Administrationsaufwand und das Risiko, die Übersicht zu verlieren, nimmt stark zu. Die Wirksamkeit von Kampagnen reduziert sich dramatisch weil die Nachbearbeitung nicht erfolgt.

Alles etwas theoretisch?…In der Praxis kann das so aussehen:

  • Eine Webseite wurde durch eine Agentur erstellt. Auf dieser Webseite gibt es Formulare, die der Kunde ausfüllen kann. Das generiert ein Email, das in irgendein Postfach gelangt. Diese Informationen werden ins CRM übertragen.
  • Von diversen Marketingaktivitäten bestehen Landinpages die den Kunden ebenfalls zu einer Aktion auffordern. Auch diese lösen wieder eine E-Mail aus.
  • Ein regelmässiger Newsletter wird natürlich auch angeboten. Dies wieder in einer anderen Anwendung. Auch hier sollte eine Selektion möglich sein, damit der Kunde individuell angesprochen werden kann.
  • Vielleicht wird auch noch Facebook oder AdWords Werbung gemacht.
  • Eine Callout Aktivität durch eine externe Agentur produziert ebenfalls interessante Daten und Ergebnisse. Diese werden in einem Excel oder PDF angeliefert.
  • Google Analytics erlaubt es zu erkennen wieviele Benutzer die Webseite besucht haben und was sie besonders interessiert hat. Auch das generiert wieder Daten.
  • Die Verkaufsmitarbeiter haben Kundenkontakt und erstellen Notizen und Besuchsberichte. Idealerweise im CRM oft auch auf Notizblock oder Word Dokumenten.

Diese Liste kann beliebig fortgesetzt werden… vermutlich haben Sie selber noch 2-3 weitere Beispiele bereit.

Bei dieser Vielfalt ist es nahezu unmöglich das Potential all dieser Daten optimal zu nutzen und die weitere Verarbeitung sicherzustellen.

Wie wir alle wissen bringt eine einzelne Marketingaktivität in den allermeisten Fällen keinen Erfolg. Erst das Zusammenspiel aller Aktivitäten und die systematische Nutzung der gewonnenen Daten machen die Kundengewinnung erfolgreich.

Gerade hier eröffnen sich fantastische Möglichkeiten. Services für Newsletter, Webinare, Landingpages, SMS und viele mehr sind inzwischen einfach zu bedienen und benötigen keine Programmierkenntnisse mehr. Ausserdem bieten diese Anwendungen Schnittstellen, die es erlauben die gewonnenen Daten automatisch in andere Programme zu überführen so die oben genannte Problematik dramatisch zu reduzieren.

Interessiert an der Umsetzung?

Woher kommt Big Data?

Da ich die Ausbildung zum Data Scientist mache und somit viel Wissen in den nächsten eineinhalb Jahren aneignen kann, möchte ich dieses auch gerne weiter geben. Meine Blogs machen aus dem Leser zwar keinen Data Scientisten, für Interessierte gibt es viele gute Schulen / Onlineressourcen und Unterlagen. Aber für alle anderen, die hinter die Kulisse von Big Data und Data Mining sehen möchten, sei es weil sie mit Data Scientisten zusammen arbeiten, in Entscheidungspositionen sind und verstehen möchten oder weil man einfach Interesse am Thema hat, für all jene werden die vielen Blogs sein, die ich hier in Zukunft schreiben werde.

Anfangen möchte ich mit einem Rückblick auf die Datenverarbeitung in der IT und warum es zwangsläufig dazu kommen musste, dass das Thema Big Data in den Vordergrund gerückt ist. Das Ziel dieses Artikels ist zu verstehen, woher kommt der Begriff Big Data und welche Herausforderungen damit gelöst wurden bzw. werden.

Die menschliche Entwicklung lebt von strukturierten Daten

Gemäss Wikipedia ist eine Datenbank ein Zusammenzug von Daten in organisierter Form. Also das aufbewahren von Daten in einer strukturierten Form. Dies war schon immer ein zentraler Faktor der menschlichen Entwicklung z.B. in Form von Büchern. Die Daten (Schrift) wurden auf Papier geschrieben und waren strukturiert (Titel, Kapitel, Seitenzahlen usw…) für andere Menschen verfügbar. Insofern handelt es sich um Daten die generiert werden und später abgerufen werden können. Der Ausdruck „Datenbank“ selber kam aber erst in den späten 60er Jahren auf.

Bevor es relationale Datenbanken gab

Als die elektronischen Rechenmaschinen nach dem zweiten Weltkrieg in der Wirtschaft zunahmen, gab es den Bedarf Daten nicht nur zu berechnen, sondern diese für einen späteren Zeitpunkt auch vorzuhalten. Die erste Möglichkeit wurde durch das Magnetband geschaffen. Kurz darauf, 1955, lieferte IBM die erste Harddisk aus, welche einen, für damalige Verhältnisse, schneller Zugriff auf gespeicherte Daten erlaubte. Das Vor- und Zurückspulen war nicht mehr nötig und man konnte punktuell auf die Bereiche zugreifen die man gerade brauchte. Somit war die erste Datenbank geboren, strukturiertes Speichern von Daten.

Ueber die Jahre hinweg entwickelten sich Programme, welche alle im Hintergrund zwar ähnlich funktionierten (Daten schreiben, abrufen, aktualisieren oder löschen), doch die Logik zwischen Benutzerinterface und Datenablage wurde von jedem Hersteller neu erfunden und war fix an die Applikation gebunden. Als Beispiel: Eine Applikation konnte nur mit sehr grossem Aufwand angepasst werden, wenn man z.B. ein neues Datenfeld wie „Geburtsdatum“ hinzufügen wollte, da sich dies vom Interface bis zur Datenablage durchzog. Auch Abfragen waren nur möglich, welche schon in der Designphase berücksichtigt wurden. Reports auf Basis von BI waren nahezu unmöglich oder nur mit massiven Aufwand zu programmieren.

Die Geburt der relationalen Datenbank

In den späten 60er war es wieder IBM welche dafür sorgte, dass hier ein gewaltiger Schritt gemacht wurde. Die zweite Generation Datenbank (Relationale Datenbank) wurde entwickelt mit dem Ziel, einfachere Handhabung, Flexibilität, keine direkte Abhängigkeit eingesetzter Hardware-Speichermedien und das Wichtigste, Konsistenz in der Datentransaktion. Wie dieses Konzept funktioniert und im Detail aussieht würde den Artikel sprengen, doch alle Datenbank-Admins kennen dies im Detail als Transaktions-Model oder ACID-Transaktion. Hier im Detail nachzulesen

Dieses neue Modell der Datenbank wurde von IBM als System R entwickelt welches die erste relationale Datenbank war. Mit diesem Schritt wurde auch die bekannte SQL-Sprache entwickelt. Zur nahezu gleichen Zeit entstand INGRES mit dem selben Datenbank-Modell, aber einer anderen Anfragesprache QUEL, welche sich aber nie durchsetzte. 1977 wurde Oracle gegründet und war die erste kommerziell verfügbare relationale Datenbank.

Ab Mitte der 80er Jahre wurde die relationale Datenbank von einer breiten Masse angenommen und die Abfragesprache SQL wurde von allen Herstellern übernommen, auch von INGRES. Um es hier abzukürzen, ab dieser Zeit begann der Kampf der Datenbank-Hersteller welches Produkt sich durchsetzen würde. Aus dieser Zeit entstanden viele Produkte die uns auch heute noch bekannt sind wie Microsoft SQL, MySQL, DB2, Informix um nur ein paar zu nennen. Obwohl es so viele Hersteller und Produkte gibt, das Transaktionskonzept mit ACID ist die Grundlage aller Datenbank-Systeme.

Als dann noch Client-Server Computing mit IBM und Microsoft das Licht der Welt erblickten, gab es kein entkommen mehr von Produkten die mit Datenbanken zusammen arbeiteten. Die relationale Datenbank hielt sich so über mehrere Jahrzehnte und wird auch heute immer noch gerne eingesetzt. Mitte der 2000er Jahre sah es so aus, als wäre dieses Konstrukt fest verwurzelt. Es gab und gibt zwar Weiterentwicklungen und Verbesserungen, aber das Grundkonstrukt ist das Selbe.

Hinweis: Als die Objekt orientierte Programmierung aufkam gab es kurzeitig Bemühungen auf ein sogenanntes Objekt orientiertes Datenbank Modell zu wechseln. Dies wurde aber vom Markt nicht angenommen da es nur für die Programmierer interessant war, aber nicht die Einfachheit von SQL hatte und somit viele Anwender nicht mehr in der Lage waren die Datenbank produktiv und effizient zu nutzen.

Die dritte Datenbank Generation, Google als Treiber von Big Data

Ziemlich genau in der Zeit, 2005, als die relationale Datenbank als gesetzt galt, war Google schon dabei etwas neues zu entwickeln. Denn Google hatte die Limiten der relationalen Datenbank schon erkannt und konnte die Datenmenge und Geschwindigkeit der Daten nicht mehr mit relationalen Datenbanken abarbeiten. Auch andere Webfirmen in dieser Zeit wie Amazon, Yahoo, MySpace und später Facebook konnten Ihre Anforderungen mit relationalen Datenbanken nicht lösen. Weiter konnten klassische Speichersysteme mit den Anforderungen nicht mehr Schritt halten, abgesehen von den immensen Kosten die dadurch verursacht wurden.

Google publizierte in dieser Zeit mehrere Dokumente zu Themen wie MapReduce (verteilter, paralleler Prozess Algorithmus), Google File System GFS (Verteiltes Dateisystem, heute HDFS Hadoop File System) und BigTable (Verteilte, strukturierte Datenbank, heute HBase und Cassandra). Diese Konzepte wie auch weitere Technologien reiften bei Yahoo schlussendlich zum heute bekannten Hadoop EcoSystem. Auch Oracle nahm sich in dieser Zeit der Thematik an und versuchte mit einer Scaled-Out RDBMS Architektur das Problem zu lösen. Ökonomisch war dies aber nicht interessant für die Firmen und so suchten diese eine Lösung im OpenSource Bereich.

Viele damalige Firmen mit grossen Webdaten versuchten durch zusätzliche „Tricks“ wie Memcache (Daten direkt im Server-Memory vorhalten) und Shardening (Datenbanken aufsplitten) Ihre riesigen Datenmengen auf MySQL in den Griff zu bekommen. Doch meistens führte dies zum Verlust von Flexibilität, Integrität und/oder Konsistenz der Daten.

Auch Amazon war zu dieser Zeit damit beschäftigt seine eCommerce Platform zu optimieren. Durch interne Entwicklungen, welche man heute als Dokument Datenbanken wie z.B. DominoDB und MongoDB kennt, entstand so die heute bekannte Amazon Cloud AWS. Natürlich auch mit den Errungenschaften von Google und Yahoo. Auch weitere Technologien wie AJAX (Asynchronous JavaScript and XML) welches noch verbessert wurde mit JSON, wurden zu dieser Zeit entwickelt und von diesen Firmen gerne eingesetzt. Wer sich dafür interessiert, einfach googlen. Wichtig zu Wissen ist: Das alte Problem der Programmierer dass Objekt Orientierte Programmierung und relationale Datenbanken ein Ärgernis waren, konnte nun mit den neuen Technologien besser gelöst werden und gleichzeitig für alle einfacher genutzt werden.

2008-2009 explodierte die Welt der Datenbank-Entwicklungen. Durchgesetzt haben sich nicht alle, aber z.B. MongoDB, Cassandra und HBase haben es geschafft und werden weltweit in unzähligen Projekten eingesetzt. Da es sich dabei um verteilte, NICHT-Relationale Datenbanken handelt, nennt man diese NoSQL Datenbanken.

Wenn man sich die Entwicklung von 2005 bis heute anschaut stellt man fest, dass Unmengen an neuen Produkten, Konzepten und Lösungen entwickelt wurden.  Eine Liste all dieser neuen Produkte wäre riesig lang und kaum vollständig. Aber genau hier kommen wir endlich zur Beantwortung der Frage im Titel.

Woher kommt Big Data?

Der Begriff kam 2012 an die Öffentlichkeit und umfasst alle Technologien und Methoden welche die Probleme der relationalen Datenbank adressieren oder diese Produkte ergänzen, erweitern. Wobei nicht zwangsläufig alle eingesetzten Produkte neu sein müssen. Einfach ausgedrückt könnte man sagen, das Bearbeiten von Datenmengen welche mit einer relationalen Datenbank nicht mehr erledigt werden können, müssen mit Big Data Lösungen angegangen werden. Dabei muss es sich nicht immer um viel Daten handeln, auch die Geschwindigkeit der Veränderung oder die unterschiedlichsten Quellen von Daten, können die Entscheidung für den Einsatz dieser Produkte beeinflussen.

Die klassische, relationale Datenbank hat Ihre Marktposition verloren und teilt sich diese nun mit weiteren NoSQL Datenbanken. Nach wie vor ist aber auch die relationale Datenbank eine gute Wahl für viele Lösungen. In Zukunft werden wir auswählen wann wir was einsetzen und müssen uns nicht mit der Limite zufrieden geben. Welche Modelle überleben werden wird sich noch zeigen. Aber dass ein einziges Modell wieder über Jahrzehnte den Markt beherrschen wird ist eher unwahrscheinlich. Wir können nun heute alle Daten vorhalten und verarbeiten. Und vor allem kann mehr Wert aus den Daten geschaffen werden dank all diesen neuen Technologien.

Nachdem nun die Geschichte von Big Data erklärt ist werde ich im nächsten Artikel darauf eingehen, was Big Data ist und welche Bausteine es gibt. Denn Big Data ist nicht nur Datenbank.

 

 

Disruption oder einfach nur Produktentwicklung?

Als ich diesen Blog zum Thema „Disruption in der Speichertechnologie, SSD vs HDD“ fertig hatte und meinem Kollegen Christof Koller zum lesen gab, meinte er warum ich über so etwas schreibe. „Ist dies nicht eher eine einfache Produkt-Weiterentwicklung?“ fragte er. Er sehe hier nicht wirklich eine Disruption in dem Ganzen. Ich war zuerst überrascht, und wir diskutierten noch eine Weile weiter ob dies nun Disruption ist oder doch nur einfach eine Weiterentwicklung einer schon bestehenden Lösung. Unterdessen bin ich selber am zweifeln, evtl. lies ich mich von der Nachricht der 60TB SSD etwas hinreissen.

Wer zuerst den geplanten Blog lesen möchten, kann nach unten zum Titel „Originalblog“ scrollen. Meine Gedanken nach der Diskussion habe ich hier an den Anfang gesetzt.

Was spricht für Disruption

Aus meiner Sicht erfüllt die SSD gegenüber der Harddisk folgenden Kriterien damit man von Disruption sprechen kann:

  • Die Architektur und der Aufbau unterscheiden sich grundsätzlich von der alten Technologie
  • Die SSD ist in jedem Fall der Harddisk massiv überlegen und hat damit innert ein paar Jahren eine 60 jährige Technologie nahezu obsolet gemacht (Geschwindigkeit, Stromverbrauch, Speicherdichte)
  • Unzählige Komponenten und somit Zulieferer der alten Technologien werden nicht mehr gebraucht
  • Firmen die bis anhin nicht mit Speichermedien in Verbindung gebracht wurden, sind mit der neuen Technologie auf einmal eine grosse Nummer am Markt, Beispiel: Samsung, Intel (Diese hatten nie Harddisk)

Was spricht gegen Disruption

  • Die Wertschöpfungskette wird nicht gänzlich umgekrempelt. Einzig das Speichermedium ist innovativ
  • Wenn schon Disruption, dann müsste sich die SSD wie ein Cloud Storage verhalten, also skalierbar nach Bedarf
  • Da die Grundanforderung des Benutzers, Daten auf einem Gerät zu speichern, nicht wirklich eine Veränderung erlebt, handelt es sich um reine Produkte-Innovation ohne Disruptions-Charakteristik.

Keine definitive Antwort

Ich möchte an dieser Stelle nicht eine definitive Antwort geben, da ich selber gespannt bin auf weitere Kommentare. Aus meiner Sicht handelt es sich um eine ähnliche Thematik wie bei Glühbirnen und LED-Lampen. Doch auch beim Beispiel Tesla ist es eine Ansichtssache was nun disruptiv ist und was nicht. Natürlich, für einen Treibstoffhersteller ist das Elektroauto disruptiv, für einen Autohändler aber eher weniger. Disruption ist also auch immer erst dann gegeben, wenn man den entsprechenden Standpunkt einnimmt.

Originalblog

Seit nun mehr als 60 Jahren werden Daten auf Festplatten gespeichert. IBM, Pionier und Erfinder des mechanischen Speichermediums, hatte damit eine bahnbrechende Erfindung gemacht. Nur wenige Errungenschaften können sich in der IT Branche über einen so langen Zeitraum im Markt halten.

Dann kam die SSD

Schon seit einigen Jahren kennen wir die Alternative SSD. Diese Speichermedien, basierend auf reiner Chiptechnologie, haben mehrere Vorteil gegenüber den mechanischen Speichermedien. Zum einen brauchen die nur einen Bruchteil an Energie und sind gegen Erschütterungen nahezu unempfindlich. Aber vor allem sind diese um Faktor 100 und mehr schneller als die trägen, mechanischen Festplatten.

Diese Geschwindigkeit ermöglichte es den SSD’s den Markt nach und nach zu erobern. Zusammen mit der Energieeffizienz, die vor allem bei Laptops und Tablets wichtig ist (Batterielaufzeit), waren Hauptgründe für die Hersteller wie auch den Konsumenten. Ausserdem ist der Speicherbedarf bei mobilen Geräten nicht so hoch wie bei zentralen Datenspeichersystemen in Firmen.

SSD verdrängen SAS-Festplatten

Aktuell sieht es so aus, dass vor allem die teuren SAS-Hardisks, welche in Server- und Storagesystemen eingesetzt werden, durch die SSD verdrängt werden. Der Preisunterschied ist nahezu Null, aber die Vorteile von Stromverbrauch und Geschwindigkeit liegen auf der Hand.

Der Hauptgrund warum wir heute noch mechanische Festplatten einsetzen ist die Speichermenge. Eine 8TB Harddisk kostet einen Bruchteil gegenüber 8TB SSD. Und gerade bei so grossen Datenmengen war bis jetzt die Geschwindigkeit eher zweitrangig, Hauptsache viel Speicher für wenig Geld. Ausserdem war der physikalische Platzbedarf für die selbe Datenmenge mit herkömmlichen SATA-Festplatten noch kleiner als mit SSD’s.

60TB sind eine Ansage

Dies scheint sich nun ziemlich schnell zu ändern. Diese Woche stellte die Firma Seagate (Einer der Top-Festplatten Hersteller) seine neue SSD vor Hier geht es zum Artikel von Speicherguide. Sagenhafte 60TB Daten lassen sich auf eine SSD speichern. Dies entspricht 6mal mehr als der aktuell grössten, verfügbaren Festplatte. Die SSD hat den selben Formfaktor (3’5“ Zoll Grösse) wie eine herkömmliche 8TB Festplatte, hat die Vorteile der Geschwindigkeit (Ca. 300mal schneller), und verbraucht ca. gleich viel Strom.

Somit hat wieder einmal eine neue Technologie dafür gesorgt dass eine riesige Branche Disruption erleidet. In diesem Fall hat sich aber ein Hersteller selber darum gekümmert (Interne Disruption) und wurde nicht von einem Startup oder einer branchenfremden Firma erwischt.

Der Zeitpunkt ist reif

Aus meiner Sicht ist nun der entscheidende Zeitpunkt gekommen. Die neue Technologie braucht weniger Strom und hat mehr Performance bzw. ist der alten Technologie in allen belangen weit überlegen. Das Einzige was aktuell noch dafür sorgt dass dies nicht von heute auf morgen passieren wird ist der Fakt, dass die neuen SSD’s vom Preis her noch viel teurer sind. Schätzungsweise wird die 60TB SSD rund 50’000 CHF kosten während 60TB mit herkömmlichen Festplatten gerade mal 7’000 CHF kostet. Aber die Kosten waren selten ein Grund dass etwas „altes“ überlebt hat, denn diese werden in den nächsten Jahren so schnell gesenkt werden wie es bei Flachbildschirmen der Fall war, bei Solarzellen, Elektroautos usw…

Ich gebe der physikalischen Harddisk noch ca. 5 Jahre, vielleicht auch ein paar mehr. Aber das Ende dieser Technologie ist sicher. Wobei dies auch Zeit wurde, denn die ganzen Themen wie Big Data / Data Analytics haben nicht nur die Anforderung an viele Daten, sondern die müssen auch schnell verarbeitet werden können.