Computer Vision: Automatisierte Analyse der visuellen Welt

Computer Vision ist ein Prozess, um die Fähigkeit des Sehens für eine Vielzahl von automatisierten Anwendungen zu nutzen. Unser jambitee Stefan Kinauer ist Experte im Bereich Computer Vision. Er gibt in diesem Beitrag Einblicke in die steigende Relevanz von Computer Vision in den letzten Jahren.

Sie bietet unter anderem für jambits Kundenbereiche Banking & Insurance oder die produzierende Industrie große Chancen. Lernen Sie die Möglichkeiten des maschinellen Sehens kennen.

Wie Computer Vision funktioniert

In der Computergrafik wird ein 3D-Modell mit Geometrie und Oberflächeneigenschaften wie etwa Farbe, Reflektivität und Transparenz erzeugt. Dieses wird auf der Basis von Beleuchtungs- und Kameramodellen gerendert und auf einem Bildschirm dargestellt.

Maschinelles Sehen bzw. Computer Vision dreht diesen Prozess um. Es schließt vom Bild auf das 3D-Modell, sprich die Semantik und andere Eingangsgrößen. Alle Informationen, die in die Entstehung des Bildes eingeflossenen sind, können Gegenstand und Ziel von Computer Vision sein.

Anstatt die Welt auf eine 2D-Bildebene zu projizieren, wird die Welt aus einem Bild rekonstruiert. Aus einzelnen Informationen entsteht ein Gesamtbild. Diese Zusammenhänge werden entweder von Menschen modelliert oder durch neuronale Netze datengetrieben erschlossen.

Im Training lernt das Netz ein Modell der Umwelt zu erschließen. Die Basis sind eine Vielzahl von Bildern sowie eine vorgegebene Lösung.

Durchbrüche auf dem Weg zur Computer Vision seit 2012

Durchbruch Computer Vision — Mit der Veröffentlichung von "Imagenet classification with deep convolutional neural networks" (2012) hat Alex Krizhevsky et al. dem Deep Learning zum Durchbruch verholfen. Quelle: https://paperswithcode.com/sota/image-classification-on-imagenet (CC-BY-SA)

Verschiedene Entwicklungen der letzten Jahre sorgten dafür, dass Computer Vision auch von Unternehmen eingesetzt werden kann. Das beruht in größten Teilen auf dem Einsatz von komplexen neuronalen Netzen. Um diese zu trainieren, braucht es erstens große Rechenkapazitäten und zweitens enorme (Trainings-) Datenmengen.

Die Entwicklung von Grafikkarten und deren massive Rechenparallelität war hierfür entscheidend. Gleichzeitig standen durch das Internet immer mehr Trainingsdaten zur Verfügung. Der Durchbruch für neuronale Netze wurde 2012 in der Arbeit von Alex Krizhevsky et al. erzielt.

Dadurch wurde die Konkurrenz bei Weitem übertroffen. Nach diesem Vorbild hat das Deep Learning große Beliebtheit erfahren.

Was Computer Vision aktuell kann

Durch die bahnbrechenden Erfolge seit 2012 ist der Forschungsbereich um Computer Vision und Machine Learning stark gewachsen. Es können immer schneller Fortschritte erzielt werden. Heute ist das allgemeine Klassifizieren des Bildinhaltes oder Erkennen eines Autos im Bildbereich eine Standardaufgabe. Sie kann mit frei zugänglichen Bibliotheken gelöst werden.

Die entwickelten Techniken erlauben es, beispielsweise eine Automarke auf Basis eines Bildes zu bestimmen. Auch der Bewegungsablauf eines Menschen in einem Video kann analysiert werden.

Es ist möglich, einfache Objektzusammenhänge zu erschließen (z. B. das Buch liegt auf dem Tisch, ein Stuhl steht neben dem Fahrrad, etc.). Ebenso lassen sich Objekte in allen drei Dimensionen rekonstruieren.

In den letzten Jahren entstanden populäre generative neuronalen Netzwerke (GANs), mit denen u. a. Bilder manipuliert werden können. Das geschieht etwa durch das Ergänzen fehlender Bildinformation (Image Inpainting), das Verändern bzw. Hinzufügen von „falschen“ Informationen (sog. Deep Fakes) oder das Verändern des Stils eines Gemäldes (Style Transfer).

Wo Manipulationen und Veränderungen Menschen täuschen können, müssen Lösungen erarbeitet werden, um diese aufzudecken. Daher arbeitet die Forschung parallel dazu an der Erkennung solcher Bildmanipulationen.

Impainting Beispiel — "Global and Local Attention-Based Free-Form Image Inpainting, by Uddin et al, '2020"

Bevor diese Ansätze in der Praxis funktionieren, muss der Algorithmus normalerweise auf den konkreten Anwendungsfall und die Charakteristika des Bildmaterials angepasst werden.

Für die meisten Aufgaben wird außerdem ein mehr oder weniger großer Datensatz benötigt. Auf Basis dessen wird für den Algorithmus ersichtlich, wie die korrekte „Lösung“ bestimmt werden kann. Besonders in dieser Phase sind in Entwicklungsprojekten der Wissenstransfer und der enge Austausch zwischen Softwaredienstleister und Kunde bzw. Kundin wichtig. Denn unsere Kund*innen kennen ihre Domäne meist besser als wir.

Wir unterstützen oft in der Anpassung oder Neuerstellung von Algorithmen und deren Training. Mit unserer Expertise helfen wir aber auch dabei, Datensätze zu erstellen oder aufzufinden. Und natürlich beraten wir unsere Kund*innen in den Bereichen Computer Vision und Machine Learning.

Das Potenzial von Computer Vision für den Finanzsektor

Finanzunternehmen können von Computer Vision profitieren. Aufwändige und bisher händisch stattgefundene Prozesse zur Analyse von maschinell erstellten sowie handgeschriebenen Dokumenten können automatisiert werden. Analysierte Dokumente können anschließend kategorisiert und an die richtige Kontaktperson weitergeleitet werden.

In einem späteren Schritt können mithilfe von Machine Learning Vorhersagen von finanziellen Größen, wie z. B. Aktienkurse oder Kreditwürdigkeit, getroffen werden.

Satellitendaten lassen Rückschlüsse auf wirtschaftliche Entwicklungen zu. Durch die Analyse dieser großen Bilddatenmengen aus dem All können Wachstumsraten von Ländern oder Regionen somit nicht nur anhand von publizierten Zahlen belegt werden, sondern durch reale Bilder von Verkehr, Infrastruktur oder Ressourcen. Daraus ergeben sich wiederum relevante Informationen für z. B. Investor*innen.

Potenziale von Computer Vision für die produzierende Industrie

Maschinelles Sehen — Objekterkennung im Straßenverkehr durch Computer Vision

Im Bereich der Industrie können Computer-Vision-Systeme menschliche Tätigkeiten in Produktionsprozessen unterstützen, die in der Vergangenheit sehr zeitaufwändig waren.

Computer Vision ermöglicht etwa eine Bauteilrückverfolgung oder ein besseres Qualitätsmonitoring. Auch Inventuren oder die kontinuierliche Abschätzung von Stauraumauslastungen können durch Computer Vision unterstützt werden. Damit können Räumlichkeiten optimal genutzt und ausgelastet und damit hinsichtlich ihres wirtschaftlichen Wertes maximiert werden.

Gleichzeitig erhöhen automatisierte Monitoring-Möglichkeiten die Sicherheit von Gebäuden oder von Personen, die sich darin bewegen.

Im Bereich der Qualitätskontrolle kann sichergestellt werden, ob die Teile vollständig sind. Die Verarbeitungsqualität wird z. B. durch die Kontrolle von Schweißnähten bestimmt.

Baustellen können durch Computer Vision hinsichtlich ihres Fortschritts, z. B. durch die Bauleitung, besser betreut werden.

Welche Hardware-Ausstattungen sind notwendig?

Eine gewisse Ausstattung an Hardware ist für die Nutzung von Computer Vision notwendig. Je nach Anwendung kommen herkömmliche Kameras oder hochwertige Modelle in Frage. Erstere sind in vielen Fällen ausreichend, z. B. Handy-Kameras.

Im industriellen Bereich ist eine höhere Qualität oft angebracht, z. B. bei der Analyse von feinen Oberflächenstrukturen oder schnell ablaufenden Vorgängen. Für die Überwachung von Bereichen sind Kameras mit Weitwinkellinsen eine Option.

In speziellen Anwendungsfällen, wie der Automobilbranche, kommen LIDARs zum Einsatz. Auch multispektrale Kameras, um Licht in relevanten Wellenlängen wahrzunehmen, werden beispielsweise in der Landwirtschaft verwendet.

Manche Computer-Vision-Algorithmen sind sehr rechenintensiv. Daher ist die Rechenleistung entscheidend, die auf den Chips im Gerät verbaut ist oder in der Cloud zur Verfügung steht. Durch Cloud-Lösungen werden viele Anwendungen zudem skalierbar, da für Unternehmen keine physische Infrastruktur nötig ist.

Dieses Know-how brauchen Softwaredienstleister, um im Bereich Computer Vision zu beraten

Stefan Kinauer jambit GmbH — Stefan Kinauer, Computer-Vision-Experte bei jambit

Im Leistungsbereich Künstliche Intelligenz versammelt jambit Rollen wie KI-Fachleute, Data Scientists, Big Data Engineers und Research Engineers. In aktuellen Projekten arbeiten jambits Expert*innen mit den Entwicklungsumgebungen IntelliJ und VS Code. Als Programmiersprachen kommen unter anderem Python und C++ zum Einsatz.

Expert*innen benötigen Kenntnisse im Bereich Machine Learning und ein klares Verständnis für die Prozesse der Bildentstehung. Wichtig ist zudem eine solide mathematische Basis in folgenden Bereichen: