Data Science: Auf der Suche nach Mustern und Informationen
Data Science hilft uns, aus riesigen Mengen an Daten (Stichwort: Big Data) nützliche Informationen zu gewinnen, um bessere Entscheidungen zu treffen, Probleme zu lösen und neue Dinge zu entdecken. Unternehmen können so Handlungsempfehlungen ableiten, Abläufe optimieren oder Kaufverhalten analysieren und Trends vorhersagen.
Der vierteilige Selbstlernkurs „Data Science“ von unserem Projektpartner Institut für Textiltechnik RWTH Aachen University (ITA) erläutert wichtige Begriffe und zeigt an konkreten Beispielen, wie Data Science durchgeführt werden kann. Der erste Teil führt kurz in die Programmiersprache (Code) Python ein. Die zweite Lerneinheit widmet sich dem Thema Datenvisualisierung, bei der sich mithilfe von Datenpunkten Grafiken, Diagramme, Plots und andere Bilder ableiten lassen. Auf das Thema Maschinelles Lernen mit SciKit Learn wird im dritten Teil näher eingegangen und damit ein Teilbereich der Künstlichen Intelligenz näher vorgestellt. Am Ende des Kurses lernen die Nutzerinnen und Nutzer einen ersten eigenen Machine Learning-Code unter Verwendung der Bibliotheken scikit-learn, pandas, NumPy und seaborn zu schreiben.
Übersicht Selbstlernheiten
Diese Selbstlerneinheit bietet eine Einführung in die Grundlagen der Data Science und Python-Programmierung. Der Kurs umfasst:
- Erster Code: Einführung in die Programmierung mit einem einfachen "Hallo Welt!"-Beispiel
- Datenstrukturen: Grundlagen der Variablen, Listen und Wörterbücher
- Kontrollfluss: Erklärung und Anwendung von IF-Anweisungen, Schleifen und Funktionen
- Objektorientierung: Grundlegendes Verständnis von Klassen und Objektorientierung
- Bibliotheken: Import und Nutzung der wichtigsten Python-Bibliotheken für Data Science, einschließlich scikit-learn, pandas, NumPy und seaborn
Der Kurs richtet sich an Anfänger und bietet eine solide Basis für weiterführende Studien in Data Science und maschinellem Lernen.
Diese Selbstlerneinheit bietet eine vertiefende Einführung in die Datenvisualisierung mit Python. Der Kurs umfasst folgende Themen:
- Datenplotten mit Matplotlib
- Grundlagen von Figure und Axes
- Anpassung von Grafiken: Titel, Beschriftung, Farben, Stile, Legenden - Datenvisualisierung mit Seaborn
- Erstellen von Relplots (Streudiagramme und Liniendiagramme)
- Erstellen von Histogrammen - Datenexploration
- Herunterladen und Visualisieren von Daten auf Bildern
Der Kurs richtet sich an Lernende, die bereits grundlegende Python-Kenntnisse besitzen und sich nun auf die Erstellung und Anpassung von Grafiken sowie die visuelle Datenanalyse spezialisieren möchten.
Diese Selbstlerneinheit bietet eine Einführung in das maschinelle Lernen mit Scikit-Learn. Der Kurs deckt folgende Themen ab:
- Scikit-Learn Estimator-API
- Implementierung und Nutzung von Regressoren
- Datenanalyse und Modellbewertung
- Verlustfunktion - Klassifikatoren
- Implementierung und Nutzung von Klassifikatoren
- Datenanalyse und Modellbewertung
- Konfusionsmatrix
- Vergleich verschiedener Modelle
Der Kurs richtet sich an Lernende, die grundlegende Kenntnisse im Bereich Data Science besitzen und sich nun auf maschinelles Lernen spezialisieren möchten. Es werden verschiedene Machine-Learning-Algorithmen vorgestellt und deren Anwendung anhand der einheitlichen Estimator-API von Scikit-Learn erläutert.
Diese Selbstlerneinheit fokussiert sich auf die Erstellung einer Machine Learning Pipeline zur Vorhersage von Qualitätsparametern in einem industriellen Kontext. Der Kurs umfasst folgende Themen:
- Projektbeschreibung
- Ziel: Erstellung eines Regressionsmodells zur Vorhersage der Bruchkraft von Kopierpapier
- Nutzung vorhandener Labordaten, die als CSV-Datei bereitgestellt werden - Datenanalyse und -vorbereitung
- Einlesen und Vorverarbeiten der CSV-Daten
- Untersuchung und Bereinigung der Daten - Modellierung
- Training eines Regressionsmodells unter Verwendung von Mahlgrad, Füllstoffdosierung und Langfaseranteil als Features
- Evaluierung der Modellleistung - Spezifikationen und Anforderungen
- Sicherstellung, dass die vorhergesagten Qualitätsparameter innerhalb der vorgegebenen Spezifikationen liegen
Der Kurs richtet sich an Lernende mit grundlegenden Kenntnissen in Data Science und maschinellem Lernen. Ziel ist es, praktische Fähigkeiten in der Entwicklung und Implementierung von Machine Learning Modellen zu vertiefen, insbesondere im Kontext industrieller Anwendungen.