Big Data aus der Microsoft-Cloud Hadoop 3.1 in Azure HDInsight
Die bekannte Big-Data-Lösung Hadoop ist schon längere Zeit über den Dienst „HDInsight“ in Microsoft Azure integriert. Mittlerweile ist auch Version 3.1 verfügbar.
Anbieter zum Thema

Durch die Verfügbarkeit von Hadoop 3.1 in Microsoft Azure profitieren Unternehmen, die den Big-Data-Dienst in Microsoft Azure buchen von einer Vielzahl an Neuerungen. Mit Apache Hive 3.0 lassen sich Datenbankanwendungen auf Basis von Data Lakes erstellen. Entwickler können mit Hive direkt die Daten abfragen, die im Hadoop-Dateisystem HDFS gespeichert sind.
Ebenfalls integriert ist Hive Warehouse Connector für Apache Spark. Dadurch lassen sich die beiden Big-Data-Lösungen Hive und Spark effektiver betreiben und in HDInsight nutzen. Apache Spark erweitert die Möglichkeit von Hadoop-Clustern um Echtzeitabfragen, ähnlich zu SQL. Dazu bietet das Framework In-Memory-Technologien, kann also Abfragen und Daten direkt im Arbeitsspeicher der Clusterknoten speichern.
Apache HBase 2.0 und Apache Phoenix 5.0 sind ebenfalls Bestandteil der neuen Hadoop 3.1-Implementation in Azure HDInsight. So lässt sich zum Beispiel HBase als Datenbank für Big Data nutzen. Diese Datenbank baut auf Google Big Table auf und kann sehr große Datenmengen speichern. Die Datenbank ist vor allem für Infrastrukturen gedacht, die sehr häufig große Datenmengen berechnen müssen, deren Datenstruktur sich aber selten ändert. Apache HBase unterstützt in HDInsight auch Enterprise Security Package (ESP). Dadurch lassen sich Anmeldeinformationen von lokalen Netzwerken in HDInsight nutzen.
Bei Spark IO Cache handelt es sich um einen Speicherdienst, der die Leistung von Apache Spark-Jobs verbessert. Apache Kafka unterstützt in HDInsight eigene Verschlüsselungsschlüssel mit Azure Key Vault. Dadurch lassen sich Azure Managed Disks verschlüsseln, die durch Apache Kafka genutzt werden. Mit Apache Kafka lässt sich eine Analyse-Plattform in Microsoft Azure erstellen, die in Echtzeit Daten analysieren kann.
(ID:45874945)