Deep learning in der industriellen Bildverarbeitung – Gamechanger oder Ergänzung der klassischen Methoden?

Künstliche Intelligenz (KI) ist in aller Munde. Für die industrielle Bildverarbeitung ist dabei insbesondere Deep Learning als KI-Variante interessant. Die Technologie ermöglicht robuste Erkennungsraten und ebnet den Weg für völlig neue Anwendungen. Aber ist Deep Learning wirklich der vielbeschriebene Gamechanger? Oder liegt das große Potenzial nicht eher in der Kombination mit klassischen Bildverarbeitungsverfahren?

Christian Eckstein Product Manager und Business Developer bei MVTec

Künstliche Intelligenz ist heute aus vielen Lebensbereichen nicht mehr wegzudenken: Chatbots, Übersetzungssoftware, digitale Assistenten oder autonom fahrende Autos. Auch im industriellen Umfeld findet KI zunehmend Verbreitung, beispielsweise in der Robotik und der digitalen Vernetzung von Maschinen im Sinne von Industrie 4.0. In der industriellen Bildverarbeitung (Machine Vision) setzt sich immer mehr eine ganz spezielle KI-Variante durch – Deep Learning. Die Technologie basiert auf einer komplexen Architektur von neuronalen Netzen (Convolutional Neural Networks / CNNs) und gilt als wahrer Booster für die industrielle Bildverarbeitung.

Flaschenhälse, wie hier dargestellt, können mit Anomaly Detection auf Defekte überprüft werden

Herausragende Ergebnisse in der Objekterkennung

Fest steht: Mit Deep Learning werden bisher nicht gekannte Ergebnisse in der Objekterkennung erreicht. Wie ist das möglich? Wie alle KI-Technologien ist auch Deep Learning in der Lage, eigenständig zu lernen. So müssen nicht für jeden möglichen Anwendungsfall eigene Algorithmen programmiert werden. Der Hintergrund dafür ist folgender:

Deep Learning basiert auf neuronalen Netzen. Diese können trainiert werden, woraufhin die Technologie in der Lage ist, große Mengen an Bilddaten (Big Data) zu analysieren, so bestimmte Muster und Zusammenhänge zu erkennen und diese auf neue Fälle anzuwenden.

Das macht sich die industrielle Bildverarbeitung zunutze: So werden mittels Deep Learning typische Eigenschaften identifiziert, mit denen sich die zu erkennenden Objekte oder Fehler mit hoher Genauigkeit zuordnen und klassifizieren lassen.

Daraus ergeben sich eine Reihe von Vorteilen: Beispielsweise kann der Entwicklungsaufwand für Machine-Vision-Prozesse deutlich reduziert werden, da einschlägige Merkmale und Objekteigenschaften für die Erkennung nicht manuell definiert werden müssen. Darüber hinaus macht die Technologie den Weg für neue Applikationen frei, die sich mit traditionellen Bildverarbeitungsverfahren bislang nicht umsetzen ließen. Paradebeispiel hierfür ist das neue MVTec-Feature „Global Context Anomaly Detection“: Mittels Deep Learning werden logische Inhalte eines Bildes verstanden, womit komplett neue Varianten von Fehlern erkannt werden. So können verrutschte oder falsch bedruckte Flaschenetiketten oder fehlende Bauteile – etwa auf Leiterplatten – als Fehler identifiziert werden.

Deep Learning stößt an Grenzen

So überzeugend die Vorteile von Deep Learning für die industrielle Bildverarbeitung auch sein mögen – es gibt Grenzen. Die Technologie ist für die drei klassischen Einsatzfelder Klassifizierung, Objekterkennung und semantische Segmentierung gut geeignet. Hier entfaltet Deep Learning seine Vorteile in idealer Weise.

Das „Aber“ beginnt mit der Nachvollziehbarkeit der Entscheidungsfindung innerhalb des neuronalen Netzes. Als sogenannte „Black Box“ erlaubt die Technologie kaum Einblick in interne Prozesse. Dies kann jedoch gerade im industriellen Umfeld enorm wichtig sein. Klar wird dies an folgendem Beispiel: Ist ein Ingenieur für die Qualität einer bestimmten Halbleiterkomponente in der Elektronikfertigung verantwortlich, benötigt er eine detaillierte Dokumentation des gesamten Inspektions-Workflows. Lässt sich dieser in der Black Box nicht lückenlos nachverfolgen, gerät der Ingenieur im Falle eines unentdeckten Fehlers in Erklärungsnöte. Klassische Bildverarbeitungsmethoden bieten diesbezüglich deutlich mehr Transparenz: Denn hier werden die Bildeigenschaften, auf denen bestimmte Entscheidungen basieren, explizit und nachvollziehbar beschrieben.

Darstellung der Deep-Learning-Methode Objekterkennung mit ausgerichteten Rechtecken

Performante Hardware-Plattform ist gefragt

Eine weitere Einschränkung: Deep Learning verursacht mitunter einen hohen Trainingsaufwand, der entsprechend dimensionierte Ressourcen voraussetzt. Auch bedarf es an der Produktionslinie einer performanten Hardware-Plattform, die nicht in allen Industrieanwendungen zur Verfügung steht. Letzteres ist vor allem dann der Fall, wenn KI-basierte Bildverarbeitungstechnologien auf Embedded-Geräten genutzt werden. Dazu kommt: Deep Learning ist in manchen Anwendungsfällen schlichtweg überdimensioniert, sodass sich der hohe Leistungs- und Speicherbedarf der Technologie – und damit auch die entsprechenden Kosten – kaum rechtfertigen lassen. Hier können die Aufgaben mit klassischer Bildverarbeitung oft eleganter, einfacher und preisgünstiger gelöst werden.

Um dennoch auf die Vorteile der KI-Technologie nicht verzichten zu müssen, stellt die intelligente Kombination aus Deep Learning und traditionellen, regelbasierten Bildverarbeitungsverfahren eine ideale Lösung dar.

Im Rahmen eines solchen hybriden Ansatzes können beide Technologiewelten ihre besonderen Stärken für den jeweiligen Anwendungsfall optimal ausspielen. Beispielsweise kann mit klassischen Verfahren eine Vorverarbeitung wie die korrekte Orientierung von Objekten erfolgen. Die Entscheidung, ob es sich um ein Fehlerteil handelt, kann dann effizient auf einem kleineren Bildbereich mittels Deep Learning erledigt werden. Mit einer Kombination lassen sich auch die spezifischen Entscheidungskriterien für die Klassifizierung von Objekten oder Fehlern transparenter nachvollziehen.