Suchen

GPU-beschleunige SQL-Engine für die Datenanalysen BlazingSQL wird Open Source

| Autor / Redakteur: Thomas Joos / Stephan Augsten

Die SQL-Engine BlazingSQL basiert auf RAPIDS und ermöglicht über GPU-Beschleunigung eine bessere Analytik. Die Open-Source-Lösung wird in Zusammenarbeit mit Nvidia entwickelt.

BlazingSQL soll ETL-Prozesse bis zu 20 Mal schneller abarbeiten als Apache Spark.
BlazingSQL soll ETL-Prozesse bis zu 20 Mal schneller abarbeiten als Apache Spark.
(Bild: BlazingSQL)

BlazingSQL ist eine SQL-Engine, die für Nvidia RAPIDS entwickelt wurde. Die SQL-Engine wurde jetzt unter der Apache-2-Lizenz als Open-Source-Projekt freigegeben. Die Entwickler beschreiben in einem Blog-Beitrag, welche Möglichkeiten BlazingSQL bietet. Die SQL-Schnittstelle zu cuDF bietet erweiterte Funktionen. Der Fokus liegt auf großen Datenmengen und Data Science.

Bei RAPIDS von Nvidia handelt es sich um eine Open-Source-Suite mit Softwarebibliotheken für die Ausführung von End-to-End-Pipelines in den Bereichen Datenwissenschaft und Analytik. Die Bibliotheken werden auf Grafikprozessoren (GPUs) ausgeführt. RAPIDS nutzt Apache Arrow und cuDF zum Laden, verarbeiten der Daten. Der Fokus von BlazingSQL liegt darin, den Umgang mit großen Datensätzen zu vereinfachen.

Außerdem soll das Tempo im Bereich der Analyse verbessert werden. BlazingSQL arbeitet mit einer GPU-SQL-Engine, die einfach und gleichzeitig sehr schnell sein soll. Die SQL-Engine soll bereits mit einfachem Code Rohdaten abfragen. Dabei spielt es keine Rolle, wo die Daten gespeichert sind. Auch Cloud-Speicher wie zum Beispiel Amazon S3 werden unterstützt. BlazingSQL unterstützt Data Lakes und kann Daten mit GPU DataFrame (GDF) direkt in den Speicher des Grafikprozessors laden.

Bei GDF handelt es sich um ein Projekt, das die Interoperabilität zwischen GPU-Anwendungen unterstützt. Es definiert eine gemeinsame GPU-Datenschicht im Speicher. Das Projekt ist Teil einer Strategie zwischen dem NVIDIA RAPIDS-Team und BlazingSQL. Zusammen mit BlazingSQL wird Apache Arrow auf GPUs unterstützt und Dask integriert. Die SQL-Engine will die Herausforderungen an Analysepipelines vereinfachen. Ein Beispielcode sieht folgendermaßen aus:

from blazingsql import BlazingContext
bc = BlazingContext()
# Create Table from CSV
bc.create_table('taxi', '/blazingdb/data/taxi.csv', delimiter= ',', names = column_names)
# Query
result = bc.sql('SELECT count(*) FROM main.taxi GROUP BY year(key)').get()
result_gdf = result.columns
#Print GDF
print(result_gdf)

(ID:46077860)

Über den Autor

 Thomas Joos

Thomas Joos

Freiberuflicher Autor und Journalist