[Translate to Deutsch:]

Klassische Bildverarbeitung vs. Deep Learning

Vergleicht man Deep Learning mit traditionellen Bildverarbeitungsmethoden liegt der größte Unterschied in der Art und Weise, wie die Merkmalsextraktion durchgeführt wird.

Bei traditionellen Methoden muss der Bildverarbeitungsingenieur entscheiden, nach welchen Merkmalen er suchen muss, um ein bestimmtes Objekt in einem Bild zu erkennen, und er muss auch die richtige Kombination von Merkmalen für jede Klasse auswählen. Dies wird schnell umständlich, wenn die Anzahl der möglichen Klassen wächst. Sucht man nach Farbinformationen? Kanten? Textur? Abhängig von der Anzahl der verwendeten Merkmale müssen viele Parameter auch manuell feinjustiert werden.

Im Gegensatz dazu kommt bei Deep Learning das Konzept des "End-to-End-Lernens" zum Einsatz. Hier wird dem Algorithmus einfach gesagt, dass er lernen soll, worauf er in Zusammenhang mit jeder spezifischen Klasse achten muss. Durch die Analyse von Beispielbildern ermittelt er selbstständig die markantesten und aussagekräftigsten Merkmale für jede Klasse bzw. jedes Objekt.

Welche Methode soll gewählt werden?

Traditionelle Methoden und Deep Learning haben beide Bereiche, in denen sie besonders hervorstechen. Gleichzeitig sollten diese Bereiche nicht als sich gegenseitig ausschließend betrachtet werden. Viele Anwendungen profitieren auch von der Kombination traditioneller, regelbasierter Ansätze mit Deep-Learning-Komponenten. Die Entscheidung für eine der beiden Methoden oder für eine Kombination beider hängt in der Regel von der Art der jeweiligen Anwendung und deren Eigenschaften ab. Ebenso sind die Menge der verfügbaren Daten sowie die verfügbare Rechenleistung zu berücksichtigen.

 Deep LearningTraditionelle Methoden
Typische Anwendungen
  • Oberflächeninspektion
  • Texturinspektion
  • Qualitätskontrolle
  • Objekt- oder Defekt-Klassifikation
  • Erkennung von Defekten (Anomalien)
  • Kantenextraktion
  • Texterkennung (optical character recognition, OCR)
  • Hochpräzises Vermessen und Matching
  • Lesen von Bar- und Datacodes
  • Druckbildinspektion
  • 3D-Vision (Robot Vision)
  • Leistungsstarkes Matching
  • Sehr präzise Segmentierung
Merkmale der Anwendung
  • Hohe Objektvariabilität
  • Variable Objektorientierung
  • Unspezifische Merkmale
  • "Amorphe" Objekte
  • Unbekannte Defekttypen
  • Ausreichende Menge an Bilddaten verfügbar
  • Starre Objekte
  • Feste Position und Ausrichtung
  • Spezifische Merkmale
  • Maximale Transparenz erforderlich