Aus dem Kurs: Künstliche Intelligenz (KI) – Grundlagen

Computer Vision

Aus dem Kurs: Künstliche Intelligenz (KI) – Grundlagen

Computer Vision

"Computer Vision", auf Deutsch oft auch "Bilderkennung" genannt, bezeichnet KI-Methoden, die die Analyse von Bildern und Videos ermöglichen. Computer Vision ist sehr verbreitet und wird heute in vielen Bereichen eingesetzt, von Robotik und Industrie über Gesichtserkennung und medizinische Bildanalyse bis hin zum autonomen Fahren. Auch auf unserem Smartphone begegnet uns Computer Vision täglich. Angefangen von der Entsperrung mittels unserem Gesicht bis hin zum Porträt-Modus, wo ein KI-System den Hintergrund erkennt und diesen mit einem Unschärfe-Effekt versieht. Aber was genau macht Computer vision eigentlich? Im Kern geht es darum, Informationen aus Bildern und Videos zu gewinnen. Genau wie wir Menschen Licht in Bilder umwandeln und interpretieren, analysiert die KI Bilddaten mithilfe von neuronalen Netzen. So können zum Beispiel Objekte erkannt, klassifiziert und sogar deren Position, Zustand und Entfernung bestimmt werden. Computer Vision arbeitet mit unterschiedlichen Methoden. Je nachdem, welche Aufgabe durchgeführt wird, kann sie in vier Grundtypen eingeteilt werden. Die einfachste Ausprägung ist die Klassifikation von Bildern. Hierbei lernt das KI-System, Bilder in Kategorien einzuteilen. Wenn Sie in Ihrem Smartphone eine App verwenden, um Pflanzen oder Tiere zu bestimmen, kommt eine Klassifizierungs-KI zum Einsatz. Einen Schritt weiter geht Klassifikation in Kombination mit Lokalisierung. Dabei wird nicht nur die Kategorie des Objektes erkannt, sondern auch dessen Position im Bild. Um bei unserem Smartphone-Beispiel zu bleiben: Wenn Sie von der Fotoapp gefragt werden, Personen zu taggen, kam dabei bereits eine Klassifikation und Lokalisierung zur Anwendung. Bei der Objekterkennung werden mehrere Objekte in einem Bild erkannt und lokalisiert. Dabei handelt es sich um eine Weiterentwicklung von Klassifikation und Lokalisierung, bei der gleich mehrere Objekte und deren Position identifiziert werden. Dann wäre noch die heute fortschrittlichste Methode zu nennen: die Instanz-Segmentierung. Sie beinhaltet zusätzlich zur Erkennung und Lokalisierung von mehreren Objekten auch die genaue Abgrenzung der Umrisse jedes einzelnen Objekts. Dies ermöglicht es, die Form jedes Objektes genau zu erfassen und zu verstehen, wie sich die Objekte überlappen oder zueinander stehen. Dadurch wird es möglich, eine Bestimmung der relativen Position von Objekten untereinander durchzuführen, ohne dass dafür ein Laserscanner oder ähnliches notwendig ist. Computer Vision stellt einen der größten Durchbrüche der letzten Jahrzehnte dar und ist entscheidend für die Entwicklung von Systemen, die unsere physische Welt verstehen können. Auch in Zukunft wird die ständige Weiterentwicklung dieser Methode unsere Interaktion mit Computern immer intuitiver und natürlicher machen.

Inhalt