Modell [HALCON Operator-Referenz / Version 18.11.3.0]

Modell

Diese Kapitel erklärt das generelle Konzept des Deep Learning-Modells in HALCON und die Daten Handhabung.

Ein Deep Learning-Modell ist in HALCON ein Neuronales Netzwerk. Jedes Neuronale Netzwerk hat seine Architektur, welche seine Funktion definiert und damit bestimmt, für welche Aufgaben es verwendet werden kann. Dabei sind verschiedene Netzwerk-Architekturen für eine Funktionalität möglich. Diese Funktionalitäten werden auch als Methoden oder Typ bezeichnet. Momentan sind folgende Funktionalitäten in HALCON als Modell implementiert:

Für die implementierten Methoden können weitere Informationen zum spezifischen Ablauf, den Daten-Anforderungen und Evaluierungsmöglichkeiten in den jeweiligen Kapiteln gefunden werden. Informationen zu Deep Learning (DL) im Allgemeinen befinden sich im Kapitel Deep Learning.

In diesem Kapitel finden sich Informationen, welche Daten ein DL Modell benötigt und zurück gibt sowie auch wie diese Daten übergeben werden.

Daten

Unabhängig von der Methode gelten gewisse Konventionen, wie die Daten dem Modell übergeben werden. Der Grundgedanke: Das Modell interagiert mit den Daten über Dictionaries. Genauer gesagt, für jedes Eingabebild erhält das Modell ein Dictionary DLSampleDLSampleDLSampleDLSampleDLSample. Dieses Dictionary enthält das Eingabebild selbst und, im Falle des Trainings und der Evaluierung, Informationen wie z.B. die Ground Truth Annotationen. Als Ausgabe gibt das Modell ein Dictionary DLResultDLResultDLResultDLResultDLResult mit den Resultaten zurück. Eine Darstellung ist unten gegeben.


(1)	(2)

Schematische Darstellung der Dictionaries, welche als Modell-Eingabe dienen: (1) Training und Evaluierung: DLSampleDLSampleDLSampleDLSampleDLSample beinhaltet das Bild sowie Informationen über das Bild und seinen Inhalt. Zu Darstellungszwecken ist die BatchSizeBatchSizeBatchSizeBatchSizebatchSize auf drei gesetzt, zudem sind nur wenige Einträge aufgelistet. (2) Inferenz: DLSampleDLSampleDLSampleDLSampleDLSample beinhaltet das blanke Bild. Diese Dictionaries können einzeln oder im Tupel übergeben werden.

Für das Training und die Evaluierung dient ein weiteres Dictionary DLDatasetDLDatasetDLDatasetDLDatasetDLDataset als Datenbank, in welcher auch die Dictionaries mit den Informationen zu den einzelnen Bildern (gespeichert unter dem Schlüssel samplessamplessamplessamplessamples) gesammelt werden. Aus dieser Datenbank werden die Eingabe-Dictionaries für das Modell erstellt, die DLSampleDLSampleDLSampleDLSampleDLSample. Siehe auch die folgende Darstellung und den Abschnitt „Eingabedaten beim Training und der Evaluierung“.

Schematische Darstellung der verschiedenen Dictionaries des Datensatzes, welche während des Trainings und der Evaluation verwendet werden. Zu Darstellungszwecken ist die BatchSizeBatchSizeBatchSizeBatchSizebatchSize auf drei gesetzt, zudem sind nur wenige Einträge aufgelistet. In diesem Beispiel werden aus den insgesamt Samples drei zufällig ausgewählt. Die entsprechenden DLSampleDLSampleDLSampleDLSampleDLSample werden erstellt und im Tupel DLSampleBatchDLSampleBatchDLSampleBatchDLSampleBatchDLSampleBatch vereint.

Obwohl für das Modell selbst nicht zwingend notwendig, wird das Dictionary DLDatasetDLDatasetDLDatasetDLDatasetDLDataset von den Trainings- und Evaluaierungs-Prozeduren verwendet. So wird stark empfohlen, aus den vorliegenden Daten ein Dictionary DLDatasetDLDatasetDLDatasetDLDatasetDLDataset zu erstellen. Seine notwendigen Einträge sind unten genauer aufgeführt. Dieses Dictionary kann bei der Objektdetektion von der Prozedur read_dl_dataset_from_coco erstellt, bzw. bei der Semantischen Segmentierung von der Prozedur read_dl_dataset_segmentation. Bezüglich der genauen Datenanforderungen um diese Prozeduren zu verwenden wird auf die jeweilige Prozedurendokumentation verwiesen. Wird DLDatasetDLDatasetDLDatasetDLDatasetDLDataset auf anderen Wegen erstellt, muss es zumindest die Einträge beinhalten, die in der unteren Erklärung nicht mit einer Zahl markiert sind. Während der Vorverarbeitung des Datensatzes werden dem Dictionary DLDatasetDLDatasetDLDatasetDLDatasetDLDatasetdie weiteren Einträge von den jeweiligen Prozeduren hinzugefügt.

Im folgenden werden die verschiedenen Daten erklärt sowie die dazugehörigen Dictionaries. Um zu markieren, welche Methoden (M) den jeweiligen Eintrag nutzt, verwenden wir folgende Abkürzungen: 'A': jede Methode, 'D': Objektdetektion, 'S': Semantische Segmentierung. Die Einträge, die nur auf einzelne Methoden zutreffen, werden in den jeweiligen Kapiteln genauer beschrieben.

Eingabedaten beim Training und der Evaluierung

Der Datensatz besteht aus Bildern und den dazugehörigen Informationen. Damit das Modell diese verarbeiten kann, müssen sie bestimmte Anforderungen erfüllen. Informationen zu den Bildanforderungen finden sich im unteren Abschnitt „Bilder“.

Die Informationen zu den Bildern und dem Datensatz werden im Dictionary DLDatasetDLDatasetDLDatasetDLDatasetDLDataset vermerkt. Dabei dient dieses Dictionary als Datenbank. Genauer gesagt, werden darin die generellen Informationen über den Datensatz gespeichert sowie die Dictionaries der einzelnen Sample unter dem Schlüssel samplessamplessamplessamplessamples gesammelt. Werden die jeweiligen Bilddaten benötigt, wird für jedes erforderte Bild ein Dictionary DLSampleDLSampleDLSampleDLSampleDLSample erstellt (oder gelesen, falls dieses bereits existiert). Der Zusammenhang zwischen diesen Dictionaries ist in der obigen Darstellung illustriert. Im Folgenden werden die einzelnen Dictionaries mit ihren Schlüssel/Wert-Paaren genauer erklärt.

DLDatasetDLDatasetDLDatasetDLDatasetDLDataset

Das Dictionary DLDatasetDLDatasetDLDatasetDLDatasetDLDataset speichert die generellen Informationen zum Datensatz und sammelt die Dictionaries der individuellen Samples. Dabei sind ikonische Daten nicht in DLDatasetDLDatasetDLDatasetDLDatasetDLDataset enthalten, aber dei Pfade zu den entsprechenden Bildern. Das Dictionary hat die folgenden Schlüssel:

Schlüssel Beschreibung Format M

image_dirimage_dirimage_dirimage_dirimageDir Basispfad zu allen Bildern String A

dlsample_dirdlsample_dirdlsample_dirdlsample_dirdlsampleDir [1] Basispfad zu allen Sample Dateien (sofern vorhanden) String A

class_namesclass_namesclass_namesclass_namesclassNames Namen aller zu unterscheidenden Klassen Tupeln von Strings A

class_idsclass_idsclass_idsclass_idsclassIds IDs aller zu unterscheidenden Klassen (Bereich: 0-65534) Tupel von ganzzahligen Werten A

preprocess_parampreprocess_parampreprocess_parampreprocess_parampreprocessParam [1] Alle während der Vorverarbeitung verwendeten Parameter Dictionary A

class_weightsclass_weightsclass_weightsclass_weightsclassWeights [1] Gewichte der verschiedenen Klassen Tupel von Gleitkommazahlen S

segmentation_dirsegmentation_dirsegmentation_dirsegmentation_dirsegmentationDir Basispfad zu allen Segmentierungsbildern String S

Dieses Dictionary wird bei der Objektdetektion von der Prozedur read_dl_dataset_from_coco erstellt, bzw. bei der Semantischen Segmentierung von der Prozedur read_dl_dataset_segmentation. Bezüglich der genauen Datenanforderungen um diese Prozeduren zu verwenden wird auf die jeweilige Prozedurendokumentation verwiesen. Die mit [1] markierten Einträge werden von den Vorverarbeitungsprozeduren eingetragen.

samplessamplessamplessamplessamples

Der Schlüssel samplessamplessamplessamplessamples des Dictionary DLDatasetDLDatasetDLDatasetDLDatasetDLDataset hat als Wert ein Tupel von Dictionaries, eines für jedes Sample des Datensatzes. Diese Dictionaries beinhalten die Information der jeweiligen Samples und haben die folgenden Schlüssel:

Schlüssel Beschreibung Format M

image_file_nameimage_file_nameimage_file_nameimage_file_nameimageFileName Dateiname des Bildes und sein Pfad relativ zu image_dirimage_dirimage_dirimage_dirimageDir String A

image_idimage_idimage_idimage_idimageId Eindeutige Bild-ID (Zeichenkodierungsformat: UINT8) Ganzzahl A

splitsplitsplitsplitsplit [2] Gibt den bei der Aufteilung zugordneten Datensatz an ('train'"train""train""train""train",'validation'"validation""validation""validation""validation",'test'"test""test""test""test") String A

dlsample_file_namedlsample_file_namedlsample_file_namedlsample_file_namedlsampleFileName[3] Dateiname des entsprechenden Dictionary DLSampleDLSampleDLSampleDLSampleDLSample und sein Pfad relativ zu dlsample_dirdlsample_dirdlsample_dirdlsample_dirdlsampleDir String A

segmentation_file_namesegmentation_file_namesegmentation_file_namesegmentation_file_namesegmentationFileName Dateiname des Ground Truth Segmentierungsbildes und sein Pfad relativ zu segmentation_dirsegmentation_dirsegmentation_dirsegmentation_dirsegmentationDir String S

bbox_label_idbbox_label_idbbox_label_idbbox_label_idbboxLabelId Ground Truth Label für den Bildausschnitt innerhalb des umschließenden Rechtecks (als ID aus class_idsclass_idsclass_idsclass_idsclassIds) Tupel von Ganzzahlen D

bbox_row1bbox_row1bbox_row1bbox_row1bboxRow1 [4] Koordinaten des Ground Truth umschließenden Rechtecks: Zeile 1 Tupel von Gleitkommazahlen D

bbox_col1bbox_col1bbox_col1bbox_col1bboxCol1 [4] Koordinaten des Ground Truth umschließenden Rechtecks: Spalte 1 Tupel von Gleitkommazahlen D

bbox_row2bbox_row2bbox_row2bbox_row2bboxRow2 [4] Koordinaten des Ground Truth umschließenden Rechtecks: Zeile 2 Tupel von Gleitkommazahlen D

bbox_col2bbox_col2bbox_col2bbox_col2bboxCol2 [4] Koordinaten des Ground Truth umschließenden Rechtecks: Spalte 2 Tupel von Gleitkommazahlen D

coco_raw_annotationscoco_raw_annotationscoco_raw_annotationscoco_raw_annotationscocoRawAnnotations Optional. Für jede bbox_label_idbbox_label_idbbox_label_idbbox_label_idbboxLabelId innerhalb dieses Bildes enthält dieser Wert ein Dictionary mit allen unverarbeiteten COCO Annotations-Informationen Tupel von Dictionaries D

Diese Dictionaries sind Teil von DLDatasetDLDatasetDLDatasetDLDatasetDLDataset und werden als solche zugleich von der Prozedur read_dl_dataset_from_coco im Falle der Objektdetektion, bzw. read_dl_dataset_segmentation im Falle der Semantischen Segmentierung erstellt. Ausnahme sind dabei die markierten Einträge der Tabelle, [2]: Die Prozedur split_dl_dataset fügt den Eintrag splitsplitsplitsplitsplit hinzu, [3]: Die Prozedur preprocess_dl_samples fügt den Eintrag dlsample_file_namedlsample_file_namedlsample_file_namedlsample_file_namedlsampleFileName hinzu. [4]: Für die umschließenden Rechtecke werden pixel-zentrierte, subpixel-genaue Koordinaten verwendet.

DLSampleDLSampleDLSampleDLSampleDLSample

Das Dictionary DLSampleDLSampleDLSampleDLSampleDLSample dient als Eingabewert des Modells. Für einen Batch werden sie als Einträge des Tupels DLSampleBatchDLSampleBatchDLSampleBatchDLSampleBatchDLSampleBatch übergeben.

Ein solches Dictionary DLSampleDLSampleDLSampleDLSampleDLSample wird für jedes Bild von der Prozedur gen_dl_samples aus den Daten in DLDatasetDLDatasetDLDatasetDLDatasetDLDataset erstellt. Es enthält alle Ground Truth Annotationen eines Bildes. Wird die Vorverarbeitung mit den Standard-Prozedur preprocess_dl_samples durchgeführt, werden sie automatisch von dieser erstellt. Es gilt zu beachten, dass die Vorverarbeitung zu Aktualisierungen des entsprechenden DLSampleDLSampleDLSampleDLSampleDLSample führen kann.

Das Dictionary DLSampleDLSampleDLSampleDLSampleDLSample hat folgende Schlüssel:

Schlüssel Beschreibung Format M

imageimageimageimageimage Eingabebild Bild A

image_idimage_idimage_idimage_idimageId Eindeutige Bild-ID (wie in DLDatasetDLDatasetDLDatasetDLDatasetDLDataset) Ganzzahl A

segmentation_imagesegmentation_imagesegmentation_imagesegmentation_imagesegmentationImage Bild mit den Ground Truth Segmentierungen, eingelesen von segmentation_file_namesegmentation_file_namesegmentation_file_namesegmentation_file_namesegmentationFileName Bild S

weight_imageweight_imageweight_imageweight_imageweightImage [5] Bild mit den Pixel-Gewichten Bild S

bbox_row1bbox_row1bbox_row1bbox_row1bboxRow1 [4] Koordinaten des Ground Truth umschließenden Rechtecks: Zeile 1 Tupel von Gleitkommazahlen D

bbox_col1bbox_col1bbox_col1bbox_col1bboxCol1 [4] Koordinaten des Ground Truth umschließenden Rechtecks: Spalte 1 Tupel von Gleitkommazahlen D

bbox_row2bbox_row2bbox_row2bbox_row2bboxRow2 [4] Koordinaten des Ground Truth umschließenden Rechtecks: Zeile 2 Tupel von Gleitkommazahlen D

bbox_col2bbox_col2bbox_col2bbox_col2bboxCol2 [4] Koordinaten des Ground Truth umschließenden Rechtecks: Spalte 2 Tupel von Gleitkommazahlen D

Diese Dictionaries werden von der Prozedur gen_dl_samples erzeugt. Eine Ausnahme stellt der markierte Eintrag dar, [5]: wird von der Prozedur gen_dl_segmentation_weights erstellt. [4]: Für die umschließenden Rechtecke werden pixel-zentrierte, subpixel-genaue Koordinaten verwendet.

Falls die Dictionaries DLSampleDLSampleDLSampleDLSampleDLSample gespeichert werden sollen, kann die Prozedur write_dl_samples verwendet werden. Eingelesen können die gespeicherten DLSampleDLSampleDLSampleDLSampleDLSample Dictionaries über die Prozedur read_dl_samples.

Eingabedaten bei der Inferenz

Die Eingabedaten bei der Inferenz bestehen aus den blanken Bildern. Damit das Modell diese verarbeiten kann, müssen sie bestimmte Anforderungen erfüllen. Informationen zu den Bildanforderungen finden sich im unteren Abschnitt „Bilder“.

Das Modell ist so konzipiert, dass alle Daten über ein Dictionary DLDatasetDLDatasetDLDatasetDLDatasetDLDataset übergeben wird. Für die Inferenz beinhaltet ein solches Dictionary nur das Bild und wird von der Prozedur gen_dl_samples_from_images erstellt. Diese Dictionaries können einzeln oder als Einträge des Tupels übergeben werden DLSampleBatchDLSampleBatchDLSampleBatchDLSampleBatchDLSampleBatch.

Ausgabedaten beim Training

Als Ausgabe des Operators train_dl_model_batchtrain_dl_model_batchTrainDlModelBatchTrainDlModelBatchTrainDlModelBatch gibt das Modell ein Dictionary DLTrainResultDLTrainResultDLTrainResultDLTrainResultDLTrainResult zurück. In diesem Dictionary befinden sich der aktuelle Wert der Gesamt-Zielfunktion unter dem Schlüssel total_losstotal_losstotal_losstotal_losstotalLoss sowie die Werte aller weiteren im Modell enthaltenen Zielfunktionen.

Ausgabedaten bei der Inferenz und der Evaluation

Als Ausgabe des Operators apply_dl_modelapply_dl_modelApplyDlModelApplyDlModelApplyDlModel gibt das Modell für jedes Sample ein Dictionary DLResultDLResultDLResultDLResultDLResult. Abhängig vom Modell-Typ kann dieses Dictionary die folgenden Einträge haben:

Schlüssel Beschreibung Format M

segmentation_imagesegmentation_imagesegmentation_imagesegmentation_imagesegmentationImage Bild mit dem Segmentierungsresultat Bild S

segmentation_confidencesegmentation_confidencesegmentation_confidencesegmentation_confidencesegmentationConfidence Bild mit den Konfidenz-Werten des Segmentierungs-Resultats Bild S

bbox_class_idbbox_class_idbbox_class_idbbox_class_idbboxClassId Vorhergesagte Klasse für das umschließende Rechteck (als ID aus class_idsclass_idsclass_idsclass_idsclassIds) Tupel von Ganzzahlen D

bbox_confidencebbox_confidencebbox_confidencebbox_confidencebboxConfidence Konfidenz-Wert für die Vorhersage des umschließenden Rechteckes Tupel von Gleitkommazahlen D

bbox_row1bbox_row1bbox_row1bbox_row1bboxRow1 Vorhergesagte Koordinaten des umschließenden Rechtecks: Zeile 1 Tupel von Gleitkommazahlen D

bbox_col1bbox_col1bbox_col1bbox_col1bboxCol1 Vorhergesagte Koordinaten des umschließenden Rechtecks: Spalte 1 Tupel von Gleitkommazahlen D

bbox_row2bbox_row2bbox_row2bbox_row2bboxRow2 Vorhergesagte Koordinaten des umschließenden Rechtecks: Zeile 2 Tupel von Gleitkommazahlen D

bbox_col2bbox_col2bbox_col2bbox_col2bboxCol2 Vorhergesagte Koordinaten des umschließenden Rechtecks: Spalte 2 Tupel von Gleitkommazahlen D

Für weitere Informationen zu den Ausgabewerten wird auf das Kapitel Deep Learning / Semantische Segmentierung, bzw. Deep Learning / Objektdetektion verwiesen.

Bilder

Unabhängig von der Anwendung stellt das Netzwerk Anforderungen an die Bilder. Die spezifischen Werte hängen vom Netzwerk selbst ab und können mit get_dl_model_paramget_dl_model_paramGetDlModelParamGetDlModelParamGetDlModelParam abgefragt werden. Um diese Anforderungen zu erfüllen, müssen die Bilder evt. vorverarbeitet werden. Die Standard-Vorverarbeitung für den ganzen Datensatz und damit auch der Bilder kann mit Hilfe der Prozedur preprocess_dl_samples durchgeführt werden. Für eine selbst erstellte Vorverarbeitung liefert diese Prozedur eine Anleitung für die Implementierung.

Liste der Operatoren

apply_dl_modelApplyDlModelApplyDlModelapply_dl_model

Anwenden des Deep Learning-basierten Netzwerkes zur Inferenz auf einer Menge an Bildern.