Modell [HALCON Operator-Referenz / Version 19.05.0.0]

Modell

Diese Kapitel erklärt das generelle Konzept des Deep Learning-Modells in HALCON und die Daten Handhabung.

Ein Deep Learning-Modell ist in HALCON ein Neuronales Netzwerk. Jedes Neuronale Netzwerk hat seine Architektur, welche seine Funktion definiert und damit bestimmt, für welche Aufgaben es verwendet werden kann. Dabei sind verschiedene Netzwerk-Architekturen für eine Funktionalität möglich. Diese Funktionalitäten werden auch als Methoden oder Typ bezeichnet. Momentan sind folgende Funktionalitäten in HALCON als Modell implementiert:

Für die implementierten Methoden können weitere Informationen zum spezifischen Ablauf, den Daten-Anforderungen und Evaluierungsmöglichkeiten in den jeweiligen Kapiteln gefunden werden. Informationen zu Deep Learning (DL) im Allgemeinen befinden sich im Kapitel Deep Learning.

In diesem Kapitel finden sich Informationen, welche Daten ein DL Modell benötigt und zurück gibt sowie auch wie diese Daten übergeben werden.

Daten

Unabhängig von der Methode gelten gewisse Konventionen, wie die Daten dem Modell übergeben werden. Der Grundgedanke: Das Modell interagiert mit den Daten über Dictionaries. Genauer gesagt, für jedes Eingabebild erhält das Modell ein Dictionary DLSampleDLSampleDLSampleDLSampleDLSample. Dieses Dictionary enthält das Eingabebild selbst und, im Falle des Trainings und der Evaluierung, Informationen wie z.B. die Ground Truth Annotationen. Als Ausgabe gibt das Modell ein Dictionary DLResultDLResultDLResultDLResultDLResult mit den Resultaten zurück. Eine Darstellung ist unten gegeben.


(1)	(2)

Schematische Darstellung der Dictionaries, welche als Modell-Eingabe dienen: (1) Training und Evaluierung: DLSampleDLSampleDLSampleDLSampleDLSample beinhaltet das Bild sowie Informationen über das Bild und seinen Inhalt. Zu Darstellungszwecken ist die BatchSizeBatchSizeBatchSizeBatchSizebatchSize auf drei gesetzt, zudem sind nur wenige Einträge aufgelistet. (2) Inferenz: DLSampleDLSampleDLSampleDLSampleDLSample beinhaltet das blanke Bild. Diese Dictionaries können einzeln oder im Tupel übergeben werden.

Für das Training und die Evaluierung dient ein weiteres Dictionary DLDatasetDLDatasetDLDatasetDLDatasetDLDataset als Datenbank, in welcher auch die Dictionaries mit den Informationen zu den einzelnen Bildern (gespeichert unter dem Schlüssel samplessamplessamplessamplessamples) gesammelt werden. Aus dieser Datenbank werden die Eingabe-Dictionaries für das Modell erstellt, die DLSampleDLSampleDLSampleDLSampleDLSample. Siehe auch die folgende Darstellung und den Abschnitt „Eingabedaten beim Training und der Evaluierung“.

Schematische Darstellung der verschiedenen Dictionaries des Datensatzes, welche während des Trainings und der Evaluation verwendet werden. Zu Darstellungszwecken ist die BatchSizeBatchSizeBatchSizeBatchSizebatchSize auf drei gesetzt, zudem sind nur wenige Einträge aufgelistet. In diesem Beispiel werden aus den insgesamt Samples drei zufällig ausgewählt. Die entsprechenden DLSampleDLSampleDLSampleDLSampleDLSample werden erstellt und im Tupel DLSampleBatchDLSampleBatchDLSampleBatchDLSampleBatchDLSampleBatch vereint.

Obwohl für das Modell selbst nicht zwingend notwendig, wird das Dictionary DLDatasetDLDatasetDLDatasetDLDatasetDLDataset von den Trainings- und Evaluaierungs-Prozeduren verwendet. So wird stark empfohlen, aus den vorliegenden Daten ein Dictionary DLDatasetDLDatasetDLDatasetDLDatasetDLDataset zu erstellen. Dieses Dictionary wird direkt erzeugt, wenn die Daten mit Hilfe des MVTec Deep Learning Tools gelabelt werden. Alternativ wird es erstellt, wenn zum Einlesen der Daten eine der folgenden Prozeduren verwendet wird: read_dl_dataset_from_coco (Objektdetektion mit 'instance_type'"instance_type""instance_type""instance_type""instance_type" = 'rectangle1'"rectangle1""rectangle1""rectangle1""rectangle1") und read_dl_dataset_segmentation (Semantische Segmentierung). Bezüglich der genauen Datenanforderungen um diese Prozeduren zu verwenden wird auf die jeweilige Prozedurendokumentation verwiesen. Wird DLDatasetDLDatasetDLDatasetDLDatasetDLDataset auf anderen Wegen erstellt, muss es zumindest die Einträge beinhalten, die in der unteren Erklärung nicht mit einer Zahl markiert sind. Während der Vorverarbeitung des Datensatzes werden dem Dictionary DLDatasetDLDatasetDLDatasetDLDatasetDLDatasetdie weiteren Einträge von den jeweiligen Prozeduren hinzugefügt.

Im Folgenden werden die verschiedenen Daten erklärt sowie die dazugehörigen Dictionaries. Um zu markieren, welche Methoden (M) den jeweiligen Eintrag nutzen, verwenden wir folgende Abkürzungen:

'A': jede Methode

'D': Objektdetektion

Falls der Eintrag nur auf gewisse 'instance_type'"instance_type""instance_type""instance_type""instance_type" zutrifft, ist dieser spezifiziert mit 'r1': 'rectangle1'"rectangle1""rectangle1""rectangle1""rectangle1", 'r2': 'rectangle2'"rectangle2""rectangle2""rectangle2""rectangle2"

'S': Semantische Segmentierung

Die Einträge, die nur auf einzelne Methoden zutreffen, werden in den jeweiligen Kapiteln genauer beschrieben.

Eingabedaten beim Training und der Evaluierung

Der Datensatz besteht aus Bildern und den dazugehörigen Informationen. Damit das Modell diese verarbeiten kann, müssen sie bestimmte Anforderungen erfüllen. Informationen zu den Bildanforderungen finden sich im unteren Abschnitt „Bilder“.

Die Informationen zu den Bildern und dem Datensatz werden im Dictionary DLDatasetDLDatasetDLDatasetDLDatasetDLDataset vermerkt. Dabei dient dieses Dictionary als Datenbank. Genauer gesagt, werden darin die generellen Informationen über den Datensatz gespeichert sowie die Dictionaries der einzelnen Sample unter dem Schlüssel samplessamplessamplessamplessamples gesammelt. Werden die jeweiligen Bilddaten benötigt, wird für jedes erforderte Bild ein Dictionary DLSampleDLSampleDLSampleDLSampleDLSample erstellt (oder gelesen, falls dieses bereits existiert). Der Zusammenhang zwischen diesen Dictionaries ist in der obigen Darstellung illustriert. Im Folgenden werden die einzelnen Dictionaries mit ihren Schlüssel/Wert-Paaren genauer erklärt.

DLDatasetDLDatasetDLDatasetDLDatasetDLDataset

Das Dictionary DLDatasetDLDatasetDLDatasetDLDatasetDLDataset speichert die generellen Informationen zum Datensatz und sammelt die Dictionaries der individuellen Samples. Dabei sind ikonische Daten nicht in DLDatasetDLDatasetDLDatasetDLDatasetDLDataset enthalten, aber dei Pfade zu den entsprechenden Bildern. Das Dictionary hat die folgenden Schlüssel:

Schlüssel Beschreibung Format M

image_dirimage_dirimage_dirimage_dirimageDir Basispfad zu allen Bildern String A

dlsample_dirdlsample_dirdlsample_dirdlsample_dirdlsampleDir [1] Basispfad zu allen Sample Dateien (sofern vorhanden) String A

class_namesclass_namesclass_namesclass_namesclassNames Namen aller zu unterscheidenden Klassen Tupeln von Strings A

class_idsclass_idsclass_idsclass_idsclassIds IDs aller zu unterscheidenden Klassen (Bereich: 0-65534) Tupel von ganzzahligen Werten A

preprocess_parampreprocess_parampreprocess_parampreprocess_parampreprocessParam [1] Alle während der Vorverarbeitung verwendeten Parameter Dictionary A

class_weightsclass_weightsclass_weightsclass_weightsclassWeights [1] Gewichte der verschiedenen Klassen Tupel von Gleitkommazahlen S

segmentation_dirsegmentation_dirsegmentation_dirsegmentation_dirsegmentationDir Basispfad zu allen Segmentierungsbildern String S

Dieses Dictionary wird direkt erzeugt, wenn die Daten mit Hilfe des MVTec Deep Learning Tools gelabelt werden. Ebenso wird es von den Prozeduren erstellt: read_dl_dataset_from_coco (Objektdetektion mit 'instance_type'"instance_type""instance_type""instance_type""instance_type" = 'rectangle1'"rectangle1""rectangle1""rectangle1""rectangle1") und read_dl_dataset_segmentation (Semantische Segmentierung). Die mit [1] markierten Einträge werden von den Vorverarbeitungsprozeduren eingetragen.

samplessamplessamplessamplessamples

Der Schlüssel samplessamplessamplessamplessamples des Dictionary DLDatasetDLDatasetDLDatasetDLDatasetDLDataset hat als Wert ein Tupel von Dictionaries, eines für jedes Sample des Datensatzes. Diese Dictionaries beinhalten die Information der jeweiligen Samples und haben die folgenden Schlüssel:

Schlüssel Beschreibung Format M

image_file_nameimage_file_nameimage_file_nameimage_file_nameimageFileName Dateiname des Bildes und sein Pfad relativ zu image_dirimage_dirimage_dirimage_dirimageDir String A

image_idimage_idimage_idimage_idimageId Eindeutige Bild-ID (Zeichenkodierungsformat: UINT8) Ganzzahl A

splitsplitsplitsplitsplit [2] Gibt den bei der Aufteilung zugordneten Datensatz an ('train'"train""train""train""train",'validation'"validation""validation""validation""validation",'test'"test""test""test""test") String A

dlsample_file_namedlsample_file_namedlsample_file_namedlsample_file_namedlsampleFileName[3] Dateiname des entsprechenden Dictionary DLSampleDLSampleDLSampleDLSampleDLSample und sein Pfad relativ zu dlsample_dirdlsample_dirdlsample_dirdlsample_dirdlsampleDir String A

segmentation_file_namesegmentation_file_namesegmentation_file_namesegmentation_file_namesegmentationFileName Dateiname des Ground Truth Segmentierungsbildes und sein Pfad relativ zu segmentation_dirsegmentation_dirsegmentation_dirsegmentation_dirsegmentationDir String S

bbox_label_idbbox_label_idbbox_label_idbbox_label_idbboxLabelId Ground Truth Label für den Bildausschnitt innerhalb des umschließenden Rechtecks (als ID aus class_idsclass_idsclass_idsclass_idsclassIds) Tupel von Ganzzahlen D

bbox_row1bbox_row1bbox_row1bbox_row1bboxRow1 [4] BBoxGT: Obere linke Ecke, Zeilenkoordinate Tupel von Gleitkommazahlen D:r1

bbox_col1bbox_col1bbox_col1bbox_col1bboxCol1 [4] BBoxGT: Obere linke Ecke, Spaltenkoordinate Tupel von Gleitkommazahlen D:r1

bbox_row2bbox_row2bbox_row2bbox_row2bboxRow2 [4] BBoxGT: Untere rechte Ecke, Zeilenkoordinate Tupel von Gleitkommazahlen D:r1

bbox_col2bbox_col2bbox_col2bbox_col2bboxCol2 [4] BBoxGT: Untere rechte Ecke, Spaltenkoordinate Tupel von Gleitkommazahlen D:r1

coco_raw_annotationscoco_raw_annotationscoco_raw_annotationscoco_raw_annotationscocoRawAnnotations Optional. Für jede bbox_label_idbbox_label_idbbox_label_idbbox_label_idbboxLabelId innerhalb dieses Bildes enthält dieser Wert ein Dictionary mit allen unverarbeiteten COCO Annotations-Informationen Tupel von Dictionaries D:r1

bbox_rowbbox_rowbbox_rowbbox_rowbboxRow [4] BBoxGT: Mittelpunkt, Zeilenkoordinate Tupel von Gleitkommazahlen D:r2

bbox_colbbox_colbbox_colbbox_colbboxCol [4] BBoxGT: Mittelpunkt, Spaltenkoordinate Tupel von Gleitkommazahlen D:r2

bbox_phibbox_phibbox_phibbox_phibboxPhi [4] BBoxGT: Winkel phi Tupel von Gleitkommazahlen D:r2

bbox_length1bbox_length1bbox_length1bbox_length1bboxLength1 [4] BBoxGT: Halbe Kantenlänge 1 Tupel von Gleitkommazahlen D:r2

bbox_length2bbox_length2bbox_length2bbox_length2bboxLength2 [4] BBoxGT: Halbe Kantenlänge 2 Tupel von Gleitkommazahlen D:r2

Diese Dictionaries sind Teil von DLDatasetDLDatasetDLDatasetDLDatasetDLDataset und werden als solche zugleich erstellt. Ausnahme sind dabei die markierten Einträge der Tabelle, [2]: Die Prozedur split_dl_dataset fügt den Eintrag splitsplitsplitsplitsplit hinzu, [3]: Die Prozedur preprocess_dl_samples fügt den Eintrag dlsample_file_namedlsample_file_namedlsample_file_namedlsample_file_namedlsampleFileName hinzu. [4]: Für die Parameter der umschließenden Ground Truth Rechtecke (BBoxGT) werden pixel-zentrierte, subpixel-genaue Koordinaten verwendet.

DLSampleDLSampleDLSampleDLSampleDLSample

Das Dictionary DLSampleDLSampleDLSampleDLSampleDLSample dient als Eingabewert des Modells. Für einen Batch werden sie als Einträge des Tupels DLSampleBatchDLSampleBatchDLSampleBatchDLSampleBatchDLSampleBatch übergeben.

Ein solches Dictionary DLSampleDLSampleDLSampleDLSampleDLSample wird für jedes Bild von der Prozedur gen_dl_samples aus den Daten in DLDatasetDLDatasetDLDatasetDLDatasetDLDataset erstellt. Es enthält alle Ground Truth Annotationen eines Bildes. Wird die Vorverarbeitung mit den Standard-Prozedur preprocess_dl_samples durchgeführt, werden sie automatisch von dieser erstellt. Es gilt zu beachten, dass die Vorverarbeitung zu Aktualisierungen des entsprechenden DLSampleDLSampleDLSampleDLSampleDLSample führen kann.

Das Dictionary DLSampleDLSampleDLSampleDLSampleDLSample hat folgende Schlüssel:

Schlüssel Beschreibung Format M

imageimageimageimageimage Eingabebild Bild A

image_idimage_idimage_idimage_idimageId Eindeutige Bild-ID (wie in DLDatasetDLDatasetDLDatasetDLDatasetDLDataset) Ganzzahl A

segmentation_imagesegmentation_imagesegmentation_imagesegmentation_imagesegmentationImage Bild mit den Ground Truth Segmentierungen, eingelesen von segmentation_file_namesegmentation_file_namesegmentation_file_namesegmentation_file_namesegmentationFileName Bild S

weight_imageweight_imageweight_imageweight_imageweightImage [5] Bild mit den Pixel-Gewichten Bild S