Aus dem Kurs: Python für die Datenanalyse 2: Machine Learning

Bibliotheken und Frameworks

Wenn Sie im Umfeld von Big Data, aber auch KI, also Künstliche Intelligenz, oder maschinellem Lernen arbeiten, wird sehr oft Magie im Spiel sein. Magie insofern, dass gewisse Dinge irgendwo aus einer Black Box kommen oder irgendwie vom Himmel fallen. Sie werten irgendwelche Daten aus und plötzlich haben Sie irgendein Ergebnis. Diese Magie basiert auf der Verwendung von diversen Bibliotheken, Frameworks und deren Methoden, die im Rahmen von Python benutzt werden können beispielsweise NumPy oder TensorFlow. Sie sehen, dass die Anaconda-Distribution bereits diverse dieser Frameworks mitbringt. NumPy schon erwähnt, matplotlib, pandas, TensorFlow und noch einige andere. NumPy ist dabei so die grundlegendste Bibliothek eigentlich. Sie finden sie unter "numpy.org" und sie wird, wie gesagt, von der Anaconda-Distribution automatisch mitgeliefert, aber Sie können selbstverständlich diese auch isoliert verwenden, installieren und dann direkt mit Python benutzen. Sie finden so in diesem Framework das grundlegende Paket für das wissenschaftliche Rechnen mit Python. Also alles, was man so rund um irgendwelche wissenschaftlichen Prozesse braucht, und das betrifft natürlich auch Big Data, maschinelles Lernen oder Künstliche Intelligenz. Als nächstes soll pandas erwähnt werden. pandas baut auf NumPy auf und vereinfacht die Arbeit mit Arrays. Das heißt, NumPy ist auch oft die Basis für weitere Frameworks, die explizit schon diese Features von NumPy benutzen. Sie finden pandas unter der Adresse "pandas.pydata.org." Und sofern Ihnen das Framework bei Bedarf nicht automatisch zur Verfügung steht, finden Sie hier alles, um es nachzuinstallieren oder auch Hinweise, wie Sie es direkt benutzen können. pandas ist also eine Bibliothek, die insbesondere eine schnelle Datenbereinigung, Vorbereitung und Analyse ermöglicht und das ist für eine spätere Visualisierung der Daten und auch für das maschinelle Lernen sehr wichtig. Man bereitet die Daten so vor, dass sie automatisch von aufbauenden Frameworks, zur Visualisierung oder zum maschinellen Verarbeiten optimal genutzt werden können. Speziell in Richtung mathematischer Prozesse ist jetzt matplotlib gedacht. Beachten Sie, dass hier kein "th" ist, sondern nur "matplotlib.org" die Adresse beziehungsweise der Name. Man nutzt hier matplotlib im Wesentlichen zur einfachen Anwendung und zum Erstellen von Plots, Histogrammen, Leistungsspektren, Balkendiagrammen, Fehlerdiagrammen, Streudiagrammen und so weiter. Es handelt es sich also um eine 2D-Bibliothek speziell für Python. Und in eine ähnliche Richtung geht auch seaborn, was Sie unter "seaborn.pydata.org" finden. Das ist auch eine Bibliothek zur Visualisierung von Python-Daten. Auch hier gilt, dass Sie viele dieser Ressourcen automatisch beim Jupyter Notebook beziehungsweise der Anaconda-Distribution dabei haben. Und es gibt eine andere Möglichkeit. Es gibt ein Framework oder eine Bibliothek SciPy, die bereits diverse eben auch schon erwähnte Bibliotheken inkludiert. Sie sehen, hier ist NumPy, matplotlib oder auch pandas dabei. Und von daher kann man auch direkt zu dieser Adresse hier "scipy.org" gehen, wenn man die gesamten Bibliotheken sowieso braucht. Aber nochmal, durch die Anaconda-Distribution und das Jupyter Notebook haben Sie sowieso schon eine ganze Menge Ressourcen automatisch dabei. SciPy fasst also mehrere Bibliotheken zusammen und dient im Wesentlichen zur Visualisieren und Aufbereitung von wissenschaftlichen und technischen Dateien und Daten. Nun soll noch als Abschluss von diesen Ressourcen Scikit-learn oder kurz S-learn erwähnt werden. Sie finden das unter dieser Adresse hier, denn das ist eine spezielle Bibliothek für das Maschinenlernen mit Python. Es ist nicht die einzige aber eine der am häufigsten benutzten, und sie stellt Lösungen beziehungsweise Methoden, Funktionalitäten bereit für die wichtigsten Dinge, die man so beim Maschinenlernen braucht. Also die Klassifizierung von Daten, die sogenannte Regression, das Clustering, die Reduktion von Dimensionen und so weiter und so weiter. Wir werden in dem Kurs mit dieser Bibliothek arbeiten, denn sie ist zum einen frei und speziell für Python gedacht. Hat geeignete Algorithmen und sie basiert explizit auf NumPy und SciPy. Nun gibt es auch noch weitere Ressourcen, die gerade im Umfeld von maschinellem Lernen wichtig sein können, gerade wenn Sie tiefer einsteigen in die Thematik. Caffe, GNU R, MATLAB beispielsweise oder auch KNIME, PyTorch oder auch vor allen Dingen TensorFlow, was von Google bereitgestellt wird und sich im Moment zu einer Art Standard im Bereich vom maschinellen Lernen entwickelt. Diese sollen hier aber nur angedeutet werden zum Teil, während wir im Rahmen des Kurses da ein bisschen mitmachen. Aber das ist nur ein Randthema.

Inhalt