Dieses Projekt wurde im Rahmen der Data SmartPoint Academy erstellt.
Ziel war es, mithilfe von Python eine umfangreiche Sammlung internationaler Stellenanzeigen zu untersuchen, aufzubereiten und visuell darzustellen â mit dem Fokus darauf, zu verstehen, wo, wie und in welchen Rollen weltweit am hĂ€ufigsten gesucht wird.
Das Ziel war es, die mit Python erlernten Methoden praxisnah einzusetzen â von der Datenbereinigung ĂŒber explorative Analysen bis hin zur Visualisierung.
Im Mittelpunkt stand der Umgang mit echten, ungeschliffenen Daten und die FĂ€higkeit, daraus relevante Muster und Erkenntnisse zu gewinnen.
Der Datensatz umfasst tausende Stellenausschreibungen aus verschiedenen Plattformen und enthĂ€lt u.âŻa. folgende Informationen:
- Jobtitel, Unternehmen, Standorte und LĂ€nder
- Angaben zu GehÀltern (pro Jahr und pro Stunde)
- Skills und Qualifikationen
- Veröffentlichungsplattformen
- Art der BeschÀftigung (Vollzeit, Teilzeit etc.)
- Remote-Status der Stelle
- Zeitliche Einordnung der Ausschreibungen
Die Daten stammen aus mehreren Quellen und wurden vor der Analyse zunĂ€chst grĂŒndlich geprĂŒft und angepasst, um eine konsistente Auswertung zu ermöglichen.
Bevor es an die Analyse ging, wurden die Daten strukturell aufbereitet und in eine saubere Form gebracht. Zu den wichtigsten Schritten zÀhlten:
- Ersetzen fehlender Werte in SchlĂŒsselfeldern (z.âŻB. durch logische Annahmen wie âSearch Locationâ)
- Umbenennen und Vereinheitlichen der Spalten fĂŒr bessere Lesbarkeit
- Entfernen irrelevanter oder fehlerhafter EintrÀge
- Formatierung von Datumsangaben fĂŒr zeitbasierte Auswertungen
- Kategorisierung von Jobrollen und Arbeitszeitmodellen
- Erste PlausibilitĂ€tsprĂŒfungen und Mustererkennung (z.âŻB. AusreiĂer in Gehaltsangaben)
Die Analyse und Visualisierung erfolgte mit Pandas, Matplotlib und Seaborn.
Dabei wurden unter anderem folgende Fragestellungen untersucht:
- In welchen LĂ€ndern gibt es die meisten Stellenausschreibungen?
- Welche Jobtitel sind besonders gefragt â und welche kaum vertreten?
- Wie sieht das VerhÀltnis zwischen Remote und nicht-Remote aus?
- Welche Skills werden besonders oft verlangt?
- Wie sind GehĂ€lter verteilt â und welche Rollen verdienen am meisten?
- Gibt es saisonale Unterschiede bei der Anzahl der Ausschreibungen?
- Welche Unternehmen schreiben am hĂ€ufigsten aus â und wo?
Die Ergebnisse wurden zusĂ€tzlich in einer begleitenden PowerPoint-PrĂ€sentation (Projekt Python.pptx) zusammengefasst â inklusive Diagrammen, Screenshots und einer Auswahl besonders interessanter Erkenntnisse.
- Vollzeit dominiert: Der GroĂteil der Ausschreibungen entfĂ€llt auf Full-Time-Stellen
- Remote-Arbeit ist möglich, aber noch nicht Standard: Nur ca. 18âŻ% der Jobs sind Remote
- SQL ist King: HĂ€ufigster geforderter Skill in den Ausschreibungen
- âData Analystâ ĂŒberall gesucht â aber âCloud Engineerâ? Kaum
- GehÀlter schwanken stark je nach Region und Rolle
- Starke Unterschiede zwischen LĂ€ndern: USA fĂŒhrt, andere wie Australien oder Spanien sind kaum vertreten
- Klassischer Dezember-Effekt: Weniger Ausschreibungen zum Jahresende
Der verwendete Datensatz wurde im Rahmen einer Schulung zur VerfĂŒgung gestellt und basiert auf öffentlich zugĂ€nglichen Ăbungsdaten von Kaggle.
Aus lizenzrechtlichen GrĂŒnden wird der Datensatz in diesem Repository nicht veröffentlicht.
Perfekt? Muss es nicht sein.
Ein paar kleine Eigenheiten und UnschĂ€rfen wurden bewusst nicht bereinigt â weil man daran sieht, wie man mit realen Daten arbeitet: nicht alles ist sauber, nicht alles passt auf den ersten Blick.
Und wer in den Fehlern was erkennt, hat die Analyse schon verstanden. đ