GitHub Copilot Automatisierte Entwicklung von Code für Data Science
Anbieter zum Thema
GitHub unterstützt mit seinem neuen Copilot-Dienst bei der Entwicklung von Apps für die Datenanalyse. Copilot ist vor allem für Anfänger hilfreich, sodass Analysten und Datenwissenschaftler optimalen Code entwickeln können, ohne die Programmiersprache perfekt beherrschen zu müssen.

GitHub Copilot unterstützt bei der Programmierung, indem der Dienst den aktuellen Code analysiert und auf Basis der Vorgaben und des bereits vorhandenen Codes oder durch Kommentare Vorschläge unterbreitet, wie der Code am besten weitergeführt wird. Damit richtet sich GitHub vor allem an Anfänger oder wenig erfahrene Entwickler, die zwar programmieren müssen, aber keine reinen Entwickler sind.
Der Dienst unterstützt aktuell Python, JavaScript, TypeScript, Go und Ruby. Arbeiten Datenwissenschaftler mit VS Code, können sie parallel Jupyter Notebooks und Copilot nutzen, was die Arbeit mit Daten deutlich erleichtert. Der automatische Code, den Copilot erstellt, gehört dem Anwender des Dienstes, es sind keine weiteren Lizenzen notwendig.
Unterstützung auch für ML-Tasks
Vor allem Analysten und Datenwissenschaftler müssen häufig kleine Programme schreiben, die für die Analyse von Daten oder für Machine-Learning-Aufgaben notwendig sind. Dabei sind die Experten zwar fit im Analysieren von Daten oder dem Erstellen von Modellen, aber nicht unbedingt erfahrene Entwickler. Hier setzt Github Copilot an und hilft beim Schreiben von Code. GitHub bietet Copilot für Studenten und die Entwicklungs-Community kostenlos an. Andere User können den Dienst für zehn US-Dollar pro Monat abonnieren.
Besonders wertvoll ist dabei das Feature, in Copilot Funktionen oder anderen Code automatisch zu schreiben, nur auf Basis von Kommentaren, die ein Datenwissenschaftler schreibt. Hier kann Copilot auch auf importierte Bibliotheken zugreifen. So kann zum Beispiel in Kommentaren der Text „Erstelle eine Funktion, die zwei Zeitreihen aufzeichnet, um ihr Wachstum zu vergleichen“ eingetragen werden. Dadurch erstellt Copilot automatisch den passenden Code und passt diesen auch an, wenn der Kommentar geändert oder präzisiert wird. Um optimalen Code zu erhalten, ist es sehr wichtig, die Kommentare so genau wie möglich zu schreiben.
Copilot kann für seine Arbeit auch auf Programmcode zugreifen, der in Github verfügbar ist. Dadurch hat die KI den Vorteil auch auf relativ neue Technologien wie Uniform Manifold Approximation and Projection (UMAP) zugreifen zu können. Dabei handelt es sich um ein ist Reduktionsverfahren für Dimensionen, das ähnlich wie t-SNE zur Visualisierung zum Einsatz kommen kann oder einfach nur zur Reduktion von Dimensionen.
Diese Technik lässt sich mit Copilot zusammen einsetzen. Alles was dazu notwendig ist, besteht im Import von UMAP durch „import umap“. Danach lassen sich auch Funktionen dieser Bibliothek mit Kommentaren in den eigenen Code einbinden, ohne sich umfassend mit der Syntax auszukennen. Copilot kann bei Bedarf auch selbst notwendige Bibliotheken laden oder auch entladen, wenn diese nicht mehr notwendig sind. Das gilt auch für stationary columns. Auch hier kann Copilot durch Kommentare den notwendigen Quellcode erstellen. Im Bereich der Datentransformationen, Modellierungen und Tests kann Copilot viele Aufgaben vereinfachen und durch Kommentare sogar Case-Anweisungen in SQL vereinfachen oder sogar komplett erstellen.
GitHub Copilot bringt Entwicklungsumgebungen näher zu Analysten
Viele Analysten und Datenwissenschaftler nutzen meistens andere Lösungen zum Entwickeln ihrer Anwendungen als zum Beispiel Microsoft VS Code. Zwar steht der Editor kostenlos zur Verfügung, richtet sich aber eher an Entwickler als an Analysten oder Datenwissenschaftler. Copilot kann das ändern. Die Hilfen, die Copilot im Rahmen seiner KI bietet, mag für erfahrene Entwickler nicht immer perfekt sein, für Datenwissenschaftler in vielen Fällen aber schon. Hier geht es vor allem darum, Daten optimal zu verarbeiten, nicht immer um den bestmöglichen Code.
Importieren von Matplotlib für die Visualisierung von Daten mit Python
Setzen Analysten auf Python für die Verarbeitung von Daten, kommt oft noch die Bibliothek Matplotlib zum Einsatz. Diese hilft bei der Visualisierung von Daten mit Python. Die Bibliothek lässt sich sehr leicht mit VS Code und auch mit GitHub Copilot nutzen, genauso wie andere Bibliotheken in diesem Bereich, wie zum Beispiel NumPy.
Wenn Matplotlib importiert ist, was sich mit einer einzelnen Zeile erledigen lässt, zum Beispiel mit „import matplotlib.pyplot as plt“, schlägt Copilot beim Verwenden von Scikit-learn-Anweisungen bereits automatisch weitere Klassen aus der Bibliothek vor.
Funktionen und Diagramme durch einfache Kommentare
Im Rahmen einer Verarbeitung von Daten kann Copilot komplette Funktionen aus einer einzigen Kommentarzeile aufbauen. Das ist für erfahrene Entwickler unter Umständen vernachlässigbar, Datenwissenschaftler können sich dadurch aber auf das Wesentliche konzentrieren und die Vorschläge von Copilot nahtlos übernehmen. Dafür sorgt das KI-Modell OpenAI Codex, das auch natürliche Sprache versteht. Dadurch kann Copilot auch Kommentare auslesen und automatisch Code vorschlagen, der sich dann mit einem Mausklick übernehmen lässt.
Dabei ist es auch möglich, in Kommentaren Copilot zu bitten, Visualisierungen auf Basis der vorhandenen Daten und Funktionen zu erstellen. Hier zeigen sich die Vorteile bei der Zusammenarbeit von Copilot und Matplotlib, denn Copilot kann Visualisierungen ebenfalls auf Basis von Kommentaren erstellen. Datenwissenschaftler müssen Diagramme nicht mehr manuell aufbauen, sondern können das der KI überlassen.
ML-Aufgaben mit Copilot
Über die bereits beschriebenen Möglichkeiten mit Kommentaren Quellcode zu erstellen, lassen sich auch ML-Aufgaben erstellen. Mit „a function to fit lineare regression model“ erstellt Copilot verschiedene Vorschläge, die sich natürlich auch an die eigenen Anforderungen anpassen lassen.
Fazit
Copilot erkennt den Kontext von Kommentaren und dem bereits vorhandenen Quellcode. Auch die importierten Bibliotheken bindet Copilot ein und kann umfassenden Quellcode vorschlagen, nur auf Basis von Kommentaren. Das macht es Datenwissenschaftlern sehr einfach, eigenen Code zu entwickeln, ohne die Syntax umfassend zu beherrschen.
Wer sich im Bereich von Big Data mit der Entwicklung von Programmen zur Analyse oder für KI beschäftigt und auf Python, JavaScript, TypeScript, Go oder Ruby setzt, sollte sich als Datenwissenschaftler und Analyst die Funktionen von Copilot anschauen. Der Dienst ist eine echte Hilfe für alle, die nicht oft programmieren, aber schnell ein Ergebnis erhalten müssen, wenn sie Code entwickeln. Der Dienst passt sich an den Entwickler und seinen Stil an, hilft bei der Verwaltung von Variablen und dem Ergänzen von Schleifen, oder erstellt ganze Codeabschnitte auf Basis von Kommentaren. Schlussendlich ist Copilot für alle unerfahrene Entwickler und Analysen eine enorm große Zeitersparnis.
(ID:48725915)