
Muss ich ein Programmierprofi für Deep Learning sein? Spoiler: Nein
Spätestens seit dem Siegeszug neuer generativer KI-Modelle wie ChatGPT ist künstliche Intelligenz (KI) in aller Munde. In der industriellen Bildverarbeitung kommt die Technologie schon seit etlichen Jahren gewinnbringend zum Einsatz. Hier wird sie von der Defekt- bis zur Positionserkennung komplexer Objekte genutzt. Wie gelingt der Einstieg und welches Wissen muss ich mitbringen? Ulf Schulmeyer erklärt, wie auch Einsteiger schnell und einfach von der Technologie profitieren.

Wenn von Künstlicher Intelligenz oder Deep Learning die Rede ist, fallen häufig Vokabeln wie neuronale Netze, Black Box, Labeln und so weiter. Für den Laien sind das böhmische Dörfer. Außerdem suggeriert die Technologie, dass diese nur mit einem soliden Programmier-Know-How wirklich durchdrungen werden kann. Diese Zuschreibung verdeckt leider den Blick, welches Potenzial KI für den praktischen industriellen Einsatz bietet. Gerade für die industrielle Bildverarbeitung bietet Künstliche Intelligenz enorme Vorteile – und ist dabei nicht nur Profis vorbehalten.
Von Anfang an: Was ist Deep Learning?
Als Teilbereich des maschinellen Lernens beruht Deep Learning auf mehrschichtigen neuronalen Netzwerken. Diese sind in der Lage, komplexe Strukturen und Vorgänge des menschlichen Gehirns realistisch nachzuahmen und eigenständige Entscheidungen zu treffen. Im Zuge eines umfassenden Trainingsprozesses lernen Deep-Learning-Modelle durch die Analyse großer Datenmengen, bestimmte Muster und Zusammenhänge zu erkennen.
Soweit die Theorie. Aber warum ist die Technologie gerade in der industriellen Bildverarbeitung so erfolgreich im Einsatz? Der Grund:
Bei Machine Vision entstehen sehr, sehr viele Bilddaten. Das ist die perfekte Grundlage, neuronale Netze sauber zu trainieren.
Das ist die technische Seite. Gleichzeitig profitieren aber auch die Nutzer von der Technologie. Die Erkennungsraten, die Deep Learning liefern kann, erreichen eine neue Qualität. Zudem lassen sich damit völlig neue Anwendungen auf Basis industrieller Bildverarbeitung automatisieren. Deep Learning ist eine Entwicklung, die Machine Vision als Ganzes weiter Schub verleiht.
Wenn man eine neue Machine-Vision-Applikation plant, kann man weiter ausschließlich auf klassische Bildverarbeitungsmethoden oder komplett auf Deep-Learning-Methoden setzen. Der Königsweg ist jedoch die Kombination von klassischen Methoden und Deep Learning.
Für welchen Weg man sich auch entscheidet, der Kreis derer, für die sich der Einsatz von Deep Learning lohnt, steigt stetig. Wie wir immer wieder bei Gesprächen mit Kunden zu hören bekommen, spielen viele Unternehmen, egal ob klein oder groß, mit dem Gedanken, Künstliche Intelligenz bzw. Deep Learning bei sich einzuführen. Häufig sind es aber Berührungsängste, die Unternehmen davon abhalten. Dabei ist die Technologie in der Anwendung nicht so kompliziert, wie man meinen könnte. Zudem gibt es Tools, die die Arbeit mit Deep Learning erleichtern.
Für jede Anwendung die passende Deep-Learning-Methode

Die wichtigste Frage bei der Umsetzung lautet: Was genau will ich automatisieren? Integratoren, Anlagenbetreibern, Maschinenbauern, einfach allen Personen, die sich mit dieser Fragestellung beschäftigen, steht dafür eine immer breiter werdende Palette an Deep-Learning-Methoden zur Verfügung. Eine der häufigsten Anwendungsbereiche ist die Qualitätsinspektion. Die Methoden Anomaly Detection bzw. Global Context Anomaly Detection identifizieren Fehler, Defekte, Kratzer und weitere Abweichungen. Eine weitere Anwendung ist das Finden von Objekten. Die Deep-Learning-basierte Technologie Object Detection findet, wie der Name schon sagt, Objekte und führt zudem Vollständigkeitsprüfungen sowie automatisiertes Zählen aus. Eine Technologie, die das Zählen von großen Mengen einfach und robust ermöglicht, ist Deep Counting. Für das pixelgenaue Lokalisieren von Objekten eignen sich Methoden wie Segmentation oder Instance Segmentation. Neben dem Bestimmen, wo sich ein Objekt im Bild befindet, sind die beiden Methoden auch als Vorstufe für weitere Bildverarbeitungen wichtig. Schließlich gibt es mit Deep OCR die Möglichkeit, Texte (Optical Character Recognition, OCR) auf Basis von Deep Learning sehr robust zu lesen.
Diese Aufführung umfasst nur einen Teil der zur Verfügung stehenden Methoden, zeigt aber, wie vielfältig die Anwendungsmöglichkeiten sind.
Und wie geht’s jetzt los?
Um eine Applikation zum Laufen zu bringen, bedarf es zunächst eines klassischen Machine-Vision-Setups. Dieses besteht aus einer Kamera, einer angemessenen Beleuchtung und einer geeigneten Rechner-Hardware wie etwa einem Industrie-PC inklusive performanter CPU oder – noch besser – GPU. Das Herzstück eines jeden Machine-Vision-Aufbaus bildet jedoch eine leistungsstarke Bildverarbeitungssoftware. Bei MVTec bieten wir neben HALCON, der leistungsstarken Standardsoftware für die industrielle Bildverarbeitung, mit MERLIC eine Machine-Vision-Software, die auch von Bildverarbeitungs-Einsteigern genutzt werden kann – ohne jedoch auf leistungsstarke Deep-Learning-Technologien zu verzichten.
Der Vorteil für Einsteiger: Die Software ermöglicht es, ohne Programmierkenntnisse Bildverarbeitungsanwendungen zu lösen. Dafür sorgen eine bildzentrierte Benutzeroberfläche und ein intuitives Bedienkonzept. Somit lassen sich die Erstellung und Inbetriebnahme von Bildverarbeitungsanwendungen enorm vereinfachen und beschleunigen.
Bilddaten für Training optimal aufbereiten

Das Labeln der Bilddaten ist eine unverzichtbare Vorarbeit für Deep-Learning-Anwendungen. Es gibt Tools, wie etwa das Deep Learning Tool von MVTec, die auch hierbei Hilfestellung leisten. Beim Labeln geht es darum, dem Bildverarbeitungssystem weitere Informationen zu jedem Bild zu geben. Solche Informationen können die Bildklasse oder die Position des Objekts innerhalb des Bildes sein. Mit einer Software, die eine intuitive Benutzeroberfläche bietet, ist das Labeln auch für Einsteiger sehr einfach und ohne jegliche Programmierkenntnisse möglich. Besonders praktisch: Für das Training bestimmter Deep-Learning-Technologien reichen ausschließlich Gut-Bilder. Diese sind einfach zu bekommen. Zudem beträgt die erforderliche Anzahl dieser Bilddatensätze – abhängig von der Beschaffenheit der zu prüfenden Objekte – lediglich zwischen 30 und 100 Gut-Bilder. Das Training selbst erfolgt auf Knopfdruck.
Blick in die Black Box Deep Learning
Eine Kritik an Deep Learning ist die Intransparenz der Entscheidungswege. Neueste Entwicklungen können zwar nicht vollständig Licht in diese Black Box bringen, erlauben aber den ein oder anderen Blick ins Innere der neuronalen Netze. Es gibt Tools, die via Heatmap die relevanten Bildbereiche der Entscheidungsfindung hervorheben. Außerdem ist es möglich, mit Hilfe des Schwellenwertes die Deep-Learning-Ergebnisse zu beeinflussen. Wenn ich beispielsweise den Schwellenwert für eine Anomaly Detection sehr hoch einstelle, dann bekomme ich nur „OK“-Ergebnisse, die vollständig den trainierten Bildern entsprechen. Stelle ich den Schwellenwert niedriger ein, werden auch Bilder mit entsprechend stärkeren Abweichungen als OK-Ergebnisse ausgegeben. So lässt sich flexibel und individuell einstellen, wie empfindlich das Modell auf Unregelmäßigkeiten reagiert.
Worauf warten?
Kein Unternehmen muss den Einstieg in die Deep-Learning-Welt scheuen. Es gibt passende Tools auf dem Markt, um diesen Weg erfolgreich zu gehen und von validen Erkennungsergebnissen zu profitieren. Zugleich sind diese Softwareprodukte wie MERLIC in aller Regel sehr leistungsfähig. So dass auch Einsteiger einfach performante Deep-Learning-Technologien in ihr Unternehmen holen und somit den Prozessreifegrad erhöhen können.