SPSS, Textdateien oder Tabellen als Datenquelle Daten in RStudio importieren

Autor / Redakteur: Thomas Joos / Stephan Augsten

Wer mithilfe der Programmiersprache R Daten verarbeitet, kann Datensätze direkt selbst erstellen. In den meisten Fällen aber werden die Daten aus anderen Quellen importiert. Wir zeigen die Vorgehensweise und die Möglichkeiten.

Firmen zum Thema

Erfolgreich nach RStudio importierte Daten.
Erfolgreich nach RStudio importierte Daten.
(Bild: RStudio / Joos)

Es gibt verschiedene Möglichkeiten, um Daten in R zu importieren. In vielen Fällen werden CSV- oder XLS-Dateien für den Import verwendet. Generell ist es empfehlenswert die Quelldateien für den Import in einem Verzeichnis auf dem Rechner zu speichern, dass zu dem entsprechenden R-Projekt gehört. So besteht die Möglichkeit, die Datenbasis jederzeit zu verifizieren oder neu einzulesen, wenn das notwendig ist.

Packages für Funktionsaufrufe vorbereiten

Daten lassen sich mit R auch als Funktionsaufruf importieren, wobei hierfür das Package „readr“ benötigt wird. Dann stehen verschiedene Funktionen zur Verfügung:

Bildergalerie
Bildergalerie mit 8 Bildern
  • read_csv()
  • read_csv2()
  • read_sav()
  • read_excel()

Damit die Befehle aus diesem Package verwendet werden können, muss es zunächst integriert und geladen werden. Die explizite Installation von readr kann über folgenden Befehl erfolgen.

install.packages("readr")

Ein besserer Ausgangspunkt ist es aber, die komplette Data-Science-Paketsammlung Tidyverse zu installieren, dies gelingt analog dazu mit dem Befehl:

install.packages("tidyverse")

Die Funktionen werden dann innerhalb der R Session einmal mittels „library(tidyverse)“ bzw. „library(readr) geladen. Werden Daten über die grafische Oberfläche importiert, erkennt RStudio die fehlenden Pakete und ermöglicht deren Installation über die GUI. Dazu gehören auch die beiden erwähnten Packages.

RStudio kann Excel-Tabellen (*.xls, *.xlsx) auch ohne eine vorhandene Excel-Installation öffnen und anzeigen. Wenn Excel-Tabellen importiert werden, muss zwingend das Package „readxl“ geladen werden. Der Code für das Importieren von Daten aus einer Excel-Tabelle sieht zum Beispiel folgendermaßen aus:

library(readxl)
Einnahmen_Ausgaben_Tabelle <- read_excel("C:/Users/User /Desktop/Einnahmen-Ausgaben Tabelle.xlsx")
View(Einnahmen_Ausgaben_Tabelle)

Daten in RStudio mit der grafischen Oberfläche importieren

In den meisten Fällen ist es beim einmaligen Importieren von Daten einfacher und auch effektiver, wenn die grafische Oberfläche von RStudio genutzt wird, um Daten zu importieren. Der Vorteil besteht darin, dass die Daten nicht nur importiert, sondern zuvor auch noch einmal angezeigt werden. Wer Daten häufiger importieren muss, ist mit einem Skript natürlich besser bedient, weil sich hier die Vorgänge automatisieren lassen.

Die Import-Möglichkeiten im RStudio sind über den Menüpunkt „File\Import Dataset“ zu finden. Hier sind eigene Menüpunkte für den Import von Excel-Tabellen, Text-Dateien oder anderen Quell-Daten zu finden. Über die Registerkarte „Environment“ können ebenfalls Daten importiert werden. Hier stehen über die Schaltfläche „Import Dataset“ die gleichen Optionen zur Verfügung, wie bei „File\Import Dataset“.

Teilweise werden für das Importieren von Daten noch aktuelle Versionen der notwendigen Packages benötigt, zum Beispiel „haven“ und „Rcpp“. Sind diese nicht installiert, zeigt das RStudio diese an und ermöglicht auch gleich die Installation.

Importvorgang steuern und ausführen

Wenn die Daten zum Import ausgewählt werden, zeigt RStudio die eingelesenen Daten bei „Data Preview“ an. Im unteren Bereich können noch Einstellungen für den Importvorgang ausgewählt werden. Auf der rechten Seite ist der Quellcode zu sehen, mit dem die Daten importiert werden.

Wird eine Option geändert, sind die Auswirkungen bei „Data Preview“ zu sehen. Außerdem zeigt das RStudio bei „Code Preview“ den entsprechenden Code an. Wenn zum Beispiel die Option „First Row as Names“ verwenden, liest R die Daten der ersten Zeile nicht aktiv ein.

Welche Optionen das RStudio für den Import anzeigt, hängt davon ab, welche Daten importiert werden. Beim Importieren von SPSS-Datensätzen (Statistical Package für Social Science) kann zum Beispiel nur der Name ausgewählt werden. Abhängig von dem importierten Datensatz erhalten die Daten auch unterschiedliche Attribute.

Über die Schaltfläche „Import“ werden die Daten eingelesen. Auf der Registerkarte „Environment“ ist bei „Data“ die Bezeichnung des Data Frames zu sehen. Dabei handelt es sich um die gerade importierten Daten. Der Name wird als Option beim Importieren der Daten festgelegt. Für den Import wird der Code verwendet, der bei „Code Preview“ zuvor angezeigt wurden.

SPSS-Daten importieren

Wer im Bereich der SPSS mit Open-Source-Software arbeiten will, kann zum Erstellen der Importdatei auch mit GNU PSPP arbeiten. GNU PSPP ist ein Open Source-Programm zur statistischen Analyse von Daten. Das Tool ist ein freier Ersatz für das proprietäre Programm IBM SPSS. GNU PSPP steht für Windows, Linux und macOS zur Verfügung.

Mit dem Tool lassen sich SAV-Dateien erstellen, die R wiederum über das RStudio importieren kann. Dadurch haben Entwickler die Möglichkeit Daten zuvor anzupassen, bevor diese in RStudio importiert werden können. Für das Importieren von SPSS-Dateien wird das Package „haven“ benötigt. Ist dieses auf dem Computer nicht verfügbar, kann es mit dem folgenden Befehl heruntergeladen und im RStudio importiert werden:

install.packages("haven")

SPSS-Dateien können zum Beispiel mit dem folgenden Code importiert werden:

library(haven)
DatenAusSPSS_spss <- read_sav("data/spss-daten.sav")

Daten speichern und importieren

Mit dem RStudio ist es auch möglich, Daten aus einem Data Frame zu bearbeiten und anschließend als RData-Datei zu speichern. Diese Dateien können wiederum im RStudio neu geladen werden. Gespeichert werden die Daten eines Frames mit der Funktion „save()“ Die Syntax dazu ist:

save(<Name des Frames>, file = "<Pfad zur RDA-Datei>")

Beispiel:

save(Einnahmen_Ausgaben_Tabelle, file = "daten.rda")

Die Dateien können wiederum mit der Funktion „load()“ geladen werden. Die Syntax in diesem Beispiel dazu ist:

load(file = "daten.Rda")

(ID:47067341)

Über den Autor

 Thomas Joos

Thomas Joos

Freiberuflicher Autor und Journalist