Veranstaltungsdetails

Cleaning Data. SQL für das wissenschaftliche Arbeiten und Bereinigung von Daten in R

Spannende Daten sind häufig ursprünglich nicht für eine wissenschaftliche Auswertung erhoben. Sie liegen in Datenbanken, die durch andere Eingabeprogramme gespeist wurden. Die Struktur des Datensatzes und die Qualität der Daten sind oft anders, als es für eine statistische Auswertung gewohnt sein mag.

Dieser Workshop bietet eine Einführung in SQL-Datenbanken und wie man mit ihnen umgehen kann. Behandelt werden die technischen Zugriffsmöglichkeiten auf SQL-Datenbanken: Wie geht man mit einem direkten, wie mit einem indirekten Zugriff um? Gerade die direkte Anbindung an eine Datenbank ist aufgrund von Sicherheitsbedenken nicht immer möglich.

Neben einer allgemeinen Einführung in einfache SQL-Befehle liegt der Fokus auf dem Import der Daten in die eigene Statistiksoftware (am Beispiel R), denn in dieser sind weitere Arbeitsschritte meist simpler, und es bieten sich bessere Möglichkeiten der Auswertung. Davor müssen Datensätze jedoch meist umgeformt und ihre Inhalte bereinigt werden. In R bietet das Paket »dplyr« eine einfache Sprache zur Bearbeitung von Datensätzen. Wie man sie nutzt, um fehlerhafte Einträge zu erkennen und zu korrigieren, wird gemeinsam erarbeitet.

Wichtiger Hinweis

Der Workshop gehört zum Angebot des Projekts "Data.Literacy@RUB". Nähere Information zu weiteren Angeboten im Bereich Data Literacy finden Sie auf der Website des Projekt.

Leitung

Valentin Fuchs

Termine

Freitag, 20.11.2020
14:00 bis 18:00 Uhr