direkt zum Inhalt springen

direkt zum Hauptnavigationsmenü

Sie sind hier

TU Berlin

Inhalt des Dokuments

Forschung

Apache Flink

Berliner Computerprogramm erobert die Welt

Big Data wird von immer mehr Unternehmen als Geldquelle angezapft. Doch welcher Computer ist schnell genug, um diese riesigen Datenmengen zu analysieren? Die Software „Apache Flink“ aus der TU Berlin hat eine schlaue Lösung gefunden

Die „Flink“-Community ist mittlerweile zu großer Stärke angewachsen. Sie traf sich unter anderem zum „Flink“-Forward-Kongress im Oktober 2015 in der Berliner Kulturbrauerei
Lupe [1]

Ein einziger Tweet mag für sich genommen noch nicht viel sagen. Kombiniert mit anderen Informationen können diese 140 Zeichen jedoch von unschätzbarem Wert sein. Je sinnvoller die Verknüpfung, Kombination und Analyse von Daten erfolgt, je mehr Datenquellen zur Verfügung stehen, desto präziser, zuverlässiger und wertvoller ist das Ergebnis. Industrieunternehmen, die Informationen über Kunden, Zulieferer, Rohstoffquellen, Transportwege oder auch den Wettbewerb schneller und systematischer nutzen als andere, werden einen klaren Wettbewerbsvorteil haben. Das ist das Geheimnis von „Big Data“: Riesige Datenmengen werden in Beziehung zueinander gesetzt, um Wissen zu erzeugen – und um am Ende damit Geld zu verdienen.

Das Ganze hat nur einen Haken: „Je größer oder komplexer der Datenberg, je schneller die Daten erzeugt werden, desto länger braucht ein Computer, um diesen zu analysieren“, erklärt Professor Volker Markl, Leiter des Fachgebiets für Datenbanksysteme und Informationsmanagement der TU Berlin, Direktor am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) und Leiter des Berlin-Big-Data-Centers. In den meisten Anwendungsfällen von Big Data wollen Unternehmen die Ergebnisse aber nicht erst nach ein paar Wochen erhalten. Mit „Apache Flink“ hat ein Team von Studierenden und Wissenschaftlern unter seiner Leitung in den vergangenen acht Jahren eine Software-Lösung gebaut, die genau dieses Problem löst – und mittlerweile weltweit zur Analyse von Big Data eingesetzt wird.

„,Apache Flink‘ arbeitet nach dem System: Teile und herrsche“, erklärt Markl. Das bedeutet: Der Datensatz wird auf beliebig viele Computer in einem System aufgeteilt; jeder einzelne Computer muss dann nur noch einen Teil der Gesamtmenge analysieren. „Apache Flink“ zerteilt die Daten allerdings nicht nur in einzelne Päckchen, sondern koordiniert auch die weitere Arbeit. „Wenn ich eine Fragestellung anhand von Big Data beantwortet haben will, dann muss sichergestellt sein, dass ,Apache Flink‘ zu jeder Zeit den Überblick hat, auf welchem Rechner welcher Teil des Datensatzes zu finden ist und wie daraus das Endergebnis zusammengesetzt wird“, veranschaulicht Markl die Komplexität der Software.

Stolz wie ein Vater

Als der Informatiker im Jahr 2008 mit seinen Doktoranden Stephan Ewen und Fabian Hüske die ersten Schritte in Richtung der parallelen Verarbeitung großer Datenströme unternahm, war Big Data noch Zukunftsmusik, und jede Bemühung in diese Richtung galt als Grundlagenforschung. Das Team um Markl entschloss sich 2014, den Forschungsprototyp bei der Apache Software Foundation (ASF) einzureichen, einer Stiftung zur Förderung von Open-Source-Software, und ihn so einer weltweiten Community zu präsentieren. Je mehr Interessenten über die Stiftung mit dem Berliner Team in Kontakt kamen, desto deutlicher kristallisierten sich Alleinstellungsmerkmale heraus. Nutzer, die sich für Flink entscheiden, schätzen vor allem die Möglichkeit, auch Daten mit hoher Datenrate analysieren zu können – im Fachjargon „Streaming“ genannt. Die dafür in Flink vorhandene Technologie der parallelen Verarbeitung von Datenströmen ermöglicht eine schnelle Datenanalyse von ständig neuen Daten beinahe in Echtzeit.

„Ein Software-Projekt, das eine Vision war, die man dann aber mit seinen Kollegen umgesetzt hat, von der Grundlagenforschung in die Open-Source-Community und an reale Nutzer gibt, ist, als würde man dem eigenen Kind beim Erwachsenwerden zuschauen“, gesteht Volker Markl. Einerseits ist der Informatiker stolz wie ein Vater, andererseits musste er auch Kontrolle abgeben. „In den letzten Jahren wurde das Projekt so groß! In der Community sind mittlerweile weltweit über zweihundert Programmierer aktiv, die an ,Apache Flink‘ weiterarbeiten“, so Markl. In „data Artisans“, einer Ausgründung aus seiner Forschungsgruppe, haben Dr. Kostas Tzoumas und Dr. Stephan Ewen das System für den Einsatz in realen Anwendungen fit gemacht – und dafür über sechs Millionen Euro Risikokapitalfinanzierung erhalten.

Inzwischen ist „Flink“ durch Beiträge der internationalen Open-Source-Community zu einem robusten System geworden, das weltweit kommerziell in geschäftskritischen Anwendungen genutzt wird. Bei Apache ist „Flink“ unlängst von der Inkubationsphase zu einem „Top Level“-Projekt befördert worden – eine Art Ritterschlag in IT-Kreisen. 2015 fand in Berlin der erste „Apache-Flink“-Kongress statt. Die Konferenz wurde von 250 Teilnehmern aus der ganzen Welt besucht. Markl freut sich schon darauf, beim zweiten Kongress vom 12. bis 14. September 2016 in Berlin zu hören, wie „Flink“ von Firmen in Handel, Logistik, Finanzen, Industrie 4.0 eingesetzt wird, und welche neuen Features Mitglieder der „Flink“-Community in das System einbauen.

Michael Metzger

Aus der Praxis

Prof. Seif Haridi, Königlich Technische Hochschule Stockholm/Swedish Institute of ­Computer Science
Lupe [2]

Aktuell ist „Apache Flink“ die beste Datenanalyse-Umgebung für Echtzeit-Analysen. Es ist das Flaggschiff europäischer Forschung im Bereich von Analyse-Software, die in breiten Anwendungsfeldern eingesetzt wird.

Dr. Kostas Tzoumas, data Artisans
Lupe [3]

Das Start-up data Artisans wurde von Personen, die von Anfang an am Projekt „Apache Flink“ mitgearbeitet haben, aus der TU Berlin heraus gegründet. Ich denke, Flink ist ein fantastisches Beispiel einer erfolgreichen Technologie-Entwicklung ausgehend von akademischer Grundlagenforschung über eine breite Open Source Community bis hin zu einer marktreifen Anwendung.

Prof. Dr. Erhard Rahm, Universität Leipzig und BMBF Kompetenzzentrum ScaDS
Lupe [4]

Im Big-Data-Zentrum ScaDS Dresden/Leipzig wird „Apache Flink“ zur Realisierung eines Gradoop genannten Systems zur schnellen Analyse sehr großer Mengen vernetzter Daten eingesetzt. Dank Flink konnte das System in kurzer Zeit entwickelt werden – die Berechnungen werden zudem automatisch auf viele Rechner und Prozessoren verteilt.

Viele Stärken bei der Datenauswertung

Volker Markl hat die Software „Apache Flink“ entscheidend mitentwickelt
Lupe [5]

„Apache Flink“ ist eine Open-Source-Software, die die verteilte Analyse von Big Data ermöglicht. Bei diesem Analyse-Prozess werden große Datenmengen auf mehreren Computern in einem Netzwerk verteilt, deren addierte Rechenkapazität schnellere Datenverarbeitung ermöglicht. Apache Flink übernimmt dabei nicht nur die Verteilung der Daten, sondern auch die Koordination der einzelnen Rechenschritte. Eine große Stärke des Programmes liegt in der Parallelisierung, also im Unterteilen der Datenmengen auf mehrere Verarbeitungsprozesse. Eine weitere Stärke ist das „Pipelining“, eine Technologie, die Datenstreaming ermöglicht. Auf diese Weise beschränkt sich die Analyse nicht auf abgeschlossene Datenpakete, sondern es können stets neue Daten in den Prozess eingespeist werden – eine Voraussetzung etwa für Datenauswertung in Echtzeit.   

Weitere Infos unter:
http://flink.apache.org [6]
http://www.dima.tu-berlin.de [7]
bbdc.berlin [8]

Michael Metzger

tui, "TU intern" 22. Juli 2016
------ Links: ------

Zusatzinformationen / Extras

Direktzugang

Schnellnavigation zur Seite über Nummerneingabe

Diese Seite verwendet Matomo für anonymisierte Webanalysen. Mehr Informationen und Opt-Out-Möglichkeiten unter Datenschutz.
Copyright TU Berlin 2008