Kursprogramm

Text Mining, XML und Web Scraping mit R: Analyse schwach strukturierter Daten

R ist ein Werkzeug zur statistischen Datenanalyse und zur grafischen Darstellung der Daten bzw. der Ergebnisse. Vorteil von R ist, dass R eine Open Source Software ist, d. h., der Quellcode ist frei erhältlich und daher ist auch die Nutzung kostenfrei. In diesem Kurs lernen Sie Möglichkeiten kennen, R für die Analyse von Textdaten zu verwenden.

Ziel: Sie erhalten einen Überblick über die verwendeten Pakete für die Analyse von Text in R und erhalten eine Einführung in die klassischen Probleme (und deren Lösung), die bei der Analyse von Texten (aus dem Web) auftauchen. Nach einer kurzen Einführung in XML und in die Arbeit mit regulären Ausdrücken (regular expressions) lernen sie neuere (teilweise experimentelle) Verfahren der Textanalyse und automatischen Klassifikation kennen.


Voraussetzung: Interesse an der Bearbeitung unstrukturierter Daten. Gute Kenntnisse in R, insbesondere routinierter Umgang mit den gängigen Datentypen, idealerweise auch mit dem Paket dplyr sowie der verwendeten IDE „RStudio“.
Grundlegende Kenntnisse in HTML (HTML-Grundgerüst, Tabellen in html) sowie XML und der Funktionsweise von Webtechnologien sind für das Verständnis hilfreich, aber nicht Voraussetzung.

Zielgruppe: Interessierte mit Vorkenntnissen, die R für neuere (teilweise noch experimentelle) Verfahren abseits der „klassischen“ Statistik für Textdaten einsetzen möchten.

Inhalte:
• Dateiformate der Rohdaten, extrahieren von Text von Webseiten – Übersicht über verwendete Pakete (z.B.rvest, quanteda)
• Einführung in XML
• Typischer Arbeitsablauf: Auswahl der Datenquellen – Aufbereitung – Analyse.
• Arbeiten mit Textstrings: das package stringr
• Aufbereitung und erste Strukturierung der Primärdaten
• String, Corpus, DTM
• Kurze Einführung in reguläre Ausdrücke
• Visualisierung (wordclouds, Häufigkeiten, Arbeiten mit tokens)
• Experimentelle Verfahren: Stimmungsanalyse, Klassifikation
Termin Anmeldefristen Kursort freie Plätze
01.07.2019 09:00 - 16:00 02.07.2019 09:00 - 16:00 14.01.2019 - 17.06.2019 Class Room 1 (CLS1), Hof 7, Eingang 7.1, 1. Stock, Spitalgasse 2 11 Abgesagt


Zurück zum Kursprogramm