Modell [HALCON Operator-Referenz / Version 21.05.0.0]

Modell

Dieses Kapitel erklärt das generelle Konzept des Deep Learning-Modells in HALCON und die Handhabung der Daten.

Ein Deep Learning-Modell ist in HALCON eine interne Repräsentation eines Neuronalen Netzwerkes. Jedes Neuronale Netzwerk hat seine Architektur, welche seine Funktion definiert und damit bestimmt, für welche Aufgaben es verwendet werden kann. Dabei sind verschiedene Netzwerk-Architekturen für eine Funktionalität möglich. Momentan sind folgende Funktionalitäten in HALCON als Modell implementiert:

Anomalieerkennung, siehe Deep Learning / Anomalieerkennung.
Klassifikation, siehe Deep Learning / Klassifikation.
Objektdetektion, siehe Deep Learning / Objektdetektion.
Semantische Segmentierung, siehe Deep Learning / Semantische Segmentierung.

Jede Funktionalität ist über ihren Modelltypen bezeichnet. Für die implementierten Methoden können weitere Informationen zum spezifischen Ablauf, den Daten-Anforderungen und Evaluierungsmöglichkeiten in den jeweiligen Kapiteln gefunden werden. Informationen zu Deep Learning (DL) im Allgemeinen befinden sich im Kapitel Deep Learning.

In diesem Kapitel finden sich Informationen, welche Daten ein DL Modell benötigt und zurück gibt sowie auch wie diese Daten übergeben werden.

Daten

Bei Deep Learning Anwendungen werden Daten verschiedener Art unterschieden. Grob gesagt sind dies die Rohbilder mit möglichen Annotationen, für das Modell passend verarbeitete Daten und Ausgabedaten.

Bevor die verschiedenen Daten und die Einträge spezifischer Dictionaries erläutert werden, wird ein grober Überblick gegeben, wie die Daten zusammenhängen. Dabei beziehen sich Farben und Symbole auf die darunter gegebenen schematischen Darstellungen.

Grob gesagt, beginnt die Datenstruktur beim Training und der Evaluierung mit den rohen Bildern und ihren Ground Truth Annotationen (graue Rahmen). Mit den eingelesenen Daten werden die folgenden Dictionaries erstellt: Ein Dictionary DLDataset (rot) dient als Datenbank und verweist für jedes Eingabebild auf ein spezifisches Dictionary (gelb). Jedes Dictionaries DLSample (orange) enthält die Daten eines Samples in der Art wie das Modell sie als Eingabe benötigt. Ein Batch von DLSamples wird dem Modell bei der Evaluierung als DLSampleBatch übergeben. Bei der Evaluierung wird ein DLResultBatch zurückgegeben, ein Tupel von Dictionaries DLResult (dunkelblau), jeweils eines pro Sample. Diese Resultate werden für die Evaluierungsresultate in EvaluationResults (türkis) benötigt. Beim Training werden die Trainingsresultate (z.B. Losswerte) im Dictionary DLTrainResult (hellblau) zurückgegeben. Die wichtigsten Schritte, in welchen die Dictionaries erstellt oder modifiziert werden:

Einlesen der Rohdaten (Symbol: Papier mit Pfeil)
Vorverarbeitung der Daten (Symbol: Zahnräder)
Training des Netzwerkes (Symbol: transparentes Gehirn in Kreissegment)
Evaluierung des Modells (Symbol: Graph)
Evaluierung des Samples (Symbol: Lupe)

Schematische Darstellung der Datenstruktur beim Training und der Evaluierung.

Bei der Inferenz sind keine Annotationen notwendig. Somit startet die Datenstruktur mit den rohen Bilder (grauer Rahmen). Das Dictionary DLSample (orange) enthält die Daten eines Samples in der Art wie das Modell sie als Eingabe benötigt. Die Resultate für ein Sample werden im Dictionary DLResult (dunkelblau) zurückgegeben. Die wichtigsten Schritte, in welchen die Dictionaries erstellt oder modifiziert werden:

Einlesen der Rohdaten (Symbol: Papier mit Pfeil)
Vorverarbeitung der Daten (Symbol: Zahnräder)
Inferenz (Symbol: Gehirn in Kreis)
Evaluierung des Samples (Symbol: Lupe)

Schematische Darstellung der Datenstruktur bei der Inferenz.

Damit das Modell die Daten verarbeiten kann, müssen diese gewisse Konventionen einhalten bezüglich welche Informationen benötigt werden und wie die Daten dem Modell übergeben werden. Wie aus den obigen Schemata ersichtlich, werden die Daten in HALCON über Dictionaries übergeben.

Die einzelnen Dictionaries, wie sie erstellt werden können und ihre Einträge werden im Folgenden genauer erläutert. Um zu markieren, welche Methoden (M) den jeweiligen Eintrag nutzen, verwenden wir folgende Abkürzungen:

'Any': Jede Methode
'AD': Anomalieerkennung
'CL': Klassifikation
'OD': Objektdetektion

Falls der Eintrag nur auf gewisse 'instance_type'"instance_type""instance_type""instance_type""instance_type""instance_type" zutrifft, ist dieser spezifiziert mit 'r1': 'rectangle1'"rectangle1""rectangle1""rectangle1""rectangle1""rectangle1", 'r2': 'rectangle2'"rectangle2""rectangle2""rectangle2""rectangle2""rectangle2"
'SE': Semantische Segmentierung

Die Einträge, die nur auf einzelne Methoden zutreffen, werden in den jeweiligen Kapiteln genauer beschrieben.

Eingabedaten beim Training und der Evaluierung

Der Datensatz besteht aus Bildern und den dazugehörigen Informationen. Damit das Modell diese verarbeiten kann, müssen sie bestimmte Anforderungen erfüllen. Informationen zu den Bildanforderungen finden sich im unteren Abschnitt „Bilder“.

Die Informationen zu den Bildern und dem Datensatz werden im Dictionary DLDatasetDLDatasetDLDatasetDLDatasetDLDatasetdldataset vermerkt. Dabei dient dieses Dictionary als Datenbank. Genauer gesagt, werden darin die generellen Informationen über den Datensatz gespeichert sowie die Dictionaries der einzelnen Samples unter dem Schlüssel samples gesammelt. Werden die jeweiligen Bilddaten benötigt, wird für jedes erforderte Bild ein Dictionary DLSampleDLSampleDLSampleDLSampleDLSampledlsample erstellt (oder gelesen, falls dieses bereits existiert). Der Zusammenhang zwischen diesen Dictionaries ist in der folgenden Darstellung illustriert.

Schematische Darstellung der verschiedenen Dictionaries des Datensatzes, welche während des Trainings und der Evaluierung verwendet werden. Zu Darstellungszwecken ist die BatchSizeBatchSizeBatchSizeBatchSizebatchSizebatch_size auf drei gesetzt und werden nur wenige Einträge aufgelistet. In diesem Beispiel werden aus den insgesamt Samples drei zufällig ausgewählt, jene mit den Indizes i,j und k. Die entsprechenden DLSampleDLSampleDLSampleDLSampleDLSampledlsample werden erstellt und im Tupel DLSampleBatchDLSampleBatchDLSampleBatchDLSampleBatchDLSampleBatchdlsample_batch vereint.

Im Folgenden werden die einzelnen Dictionaries mit ihren Schlüssel/Wert-Paaren genauer erklärt.

DLDatasetDLDatasetDLDatasetDLDatasetDLDatasetdldataset

Das Dictionary DLDatasetDLDatasetDLDatasetDLDatasetDLDatasetdldataset dient als Datenbank. Es speichert die generellen Informationen zum Datensatz und sammelt die Dictionaries der individuellen Samples. Dabei sind keine ikonischen Daten in DLDatasetDLDatasetDLDatasetDLDatasetDLDatasetdldataset enthalten, aber die Pfade zu den entsprechenden Bildern. Das Dictionary DLDatasetDLDatasetDLDatasetDLDatasetDLDatasetdldataset von den Trainings- und Evaluierungs- Prozeduren verwendet. Es ist für das Modell selbst nicht notwendig, aber seine Erstellung wird stark empfohlen. Dieses Dictionary wird direkt erzeugt, wenn die Daten mit Hilfe des MVTec Deep Learning Tools gelabelt werden. Alternativ wird es erstellt, wenn zum Einlesen der Daten eine der folgenden Prozeduren verwendet wird:

read_dl_dataset_anomaly (Anomalieerkennung)
read_dl_dataset_classification (Klassifikation)
read_dl_dataset_from_coco (Objektdetektion mit 'instance_type'"instance_type""instance_type""instance_type""instance_type""instance_type" = 'rectangle1'"rectangle1""rectangle1""rectangle1""rectangle1""rectangle1")
read_dl_dataset_segmentation (Semantische Segmentierung).

Bezüglich der genauen Datenanforderungen um diese Prozeduren zu verwenden wird auf die jeweilige Prozedurendokumentation verwiesen. Wird DLDatasetDLDatasetDLDatasetDLDatasetDLDatasetdldataset auf anderen Wegen erstellt, muss es zumindest die Einträge beinhalten, die in der unteren Erklärung nicht mit einer Zahl markiert sind. Während der Vorverarbeitung des Datensatzes werden dem Dictionary DLDatasetDLDatasetDLDatasetDLDatasetDLDatasetdldataset die weiteren Einträge von den jeweiligen Prozeduren hinzugefügt.

Vom Modell abhängig kann das Dictionary die folgenden Einträge haben:

image_dir: Any

Basispfad zu allen Bildern.

Format: String

dlsample_dir: Any [1]

Basispfad zu allen Sample Dateien (sofern vorhanden).

Format: String

class_names: Any

Namen aller zu unterscheidenden Klassen.

Format: Tupel von Strings

class_ids: Any

IDs aller zu unterscheidenden Klassen (Wertebereich: 0-65534).

Format: Tupel von ganzzahligen Werten

preprocess_param: Any [1]

Alle während der Vorverarbeitung verwendeten Parameter.

Format: Dictionary

anomaly_dir: AD

Basispfad zu allen Anomalieregionen (Regionen, die eine Anomalie auf dem Bild kennzeichnen).

Format: String

class_weights: CL, SE [1]

Gewichte der verschiedenen Klassen.

Format: Tupel von Gleitkommazahlen

segmentation_dir: SE

Basispfad zu allen Segmentierungsbildern.

Format: String

Dieses Dictionary wird direkt erzeugt, wenn die Daten mit Hilfe des MVTec Deep Learning Tools gelabelt werden. Ebenso wird es von den oben erwähnten Prozeduren erstellt. Die mit [1] markierten Einträge werden von den Vorverarbeitungsprozeduren eingetragen.

samples

Der Schlüssel samples des Dictionary DLDatasetDLDatasetDLDatasetDLDatasetDLDatasetdldataset hat als Wert ein Tupel von Dictionaries, eines für jedes Sample des Datensatzes. Diese Dictionaries beinhalten die Information der jeweiligen Samples und haben die folgenden Einträge:

image_file_name: Any

Dateiname des Bildes und sein Pfad relativ zu image_dir.

Format: String

image_id: Any

Eindeutige Bild-ID (Zeichenkodierungsformat: UINT8).

Format: Ganzzahl

split: Any [2]

Gibt den bei der Aufteilung zugeordneten Datensatz an ('train'"train""train""train""train""train",'validation'"validation""validation""validation""validation""validation",'test'"test""test""test""test""test").

Format: String

dlsample_file_name: Any [3]

Dateiname des entsprechenden Dictionary DLSampleDLSampleDLSampleDLSampleDLSampledlsample und sein Pfad relativ zu dlsample_dir.

Format: String

anomaly_file_name: AD

Optional. Pfad zu den Dateien mit den Ground Truth Anomalieregionen (relativ zu anomaly_dir).

Format: String

anomaly_label: AD

Ground Truth Anomalie Label (als Name aus class_names).

Format: String

image_label_id: CL

Ground Truth Label des Bildes (als ID aus class_ids).

Format: Tupel von Ganzzahlen

bbox_label_id: OD

Ground Truth Label für den Bildausschnitt innerhalb des umschließenden Rechtecks (als ID aus class_ids).

Format: Tupel von Ganzzahlen

bbox_row1: OD:r1 [4]

Ground Truth umschließendes Rechteck: Obere linke Ecke, Zeilenkoordinate.

Format: Tupel von Gleitkommazahlen

bbox_col1: OD:r1 [4]

Ground Truth umschließendes Rechteck: Obere linke Ecke, Spaltenkoordinate.

Format: Tupel von Gleitkommazahlen

bbox_row2: OD:r1 [4]

Ground Truth umschließendes Rechteck: Untere rechte Ecke, Zeilenkoordinate.

Format: Tupel von Gleitkommazahlen

bbox_col2: OD:r1 [4]

Ground Truth umschließendes Rechteck: Untere rechte Ecke, Spaltenkoordinate.

Format: Tupel von Gleitkommazahlen

coco_raw_annotations: OD:r1

Optional. Für jede bbox_label_id innerhalb dieses Bildes enthält dieser Wert ein Dictionary mit allen unverarbeiteten COCO Annotations-Informationen.

Format: Tupel von Dictionaries

bbox_row: OD:r2 [4]

Ground Truth umschließendes Rechteck: Mittelpunkt, Zeilenkoordinate.

Format: Tupel von Gleitkommazahlen

bbox_col: OD:r2 [4]

Ground Truth umschließendes Rechteck: Mittelpunkt, Spaltenkoordinate.

Format: Tupel von Gleitkommazahlen

bbox_phi: OD:r2 [4]

Ground Truth umschließendes Rechteck: Winkel phi.

Format: Tupel von Gleitkommazahlen

bbox_length1: OD:r2 [4]

Ground Truth umschließendes Rechteck: Halbe Kantenlänge 1.

Format: Tupel von Gleitkommazahlen

bbox_length2: OD:r2 [4]

Ground Truth umschließendes Rechteck: Halbe Kantenlänge 2.

Format: Tupel von Gleitkommazahlen

segmentation_file_name: SE

Dateiname des Ground Truth Segmentierungsbildes und sein Pfad relativ zu segmentation_dir.

Format: String

Diese Dictionaries sind Teil von DLDatasetDLDatasetDLDatasetDLDatasetDLDatasetdldataset und werden als solche zugleich erstellt. Ausnahme sind dabei die markierten Einträge der Tabelle, [2]: Die Prozedur split_dl_dataset fügt den Eintrag split hinzu, [3]: Die Prozedur preprocess_dl_samples fügt den Eintrag dlsample_file_name hinzu. [4]: Für die Parameter der umschließenden Ground Truth Rechtecke (BBoxGT) werden pixel-zentrierte, subpixel-genaue Koordinaten verwendet.

DLSampleDLSampleDLSampleDLSampleDLSampledlsample

Das Dictionary DLSampleDLSampleDLSampleDLSampleDLSampledlsample dient als Eingabewert des Modells. Für einen Batch werden sie als Einträge des Tupels DLSampleBatchDLSampleBatchDLSampleBatchDLSampleBatchDLSampleBatchdlsample_batch übergeben.

Ein solches Dictionary DLSampleDLSampleDLSampleDLSampleDLSampledlsample wird für jedes Bild von der Prozedur gen_dl_samples aus den Daten in DLDatasetDLDatasetDLDatasetDLDatasetDLDatasetdldataset erstellt. Es enthält alle Ground Truth Annotationen eines Bildes. Wird die Vorverarbeitung mit den Standard-Prozedur preprocess_dl_samples durchgeführt, werden sie automatisch von dieser erstellt. Es gilt zu beachten, dass die Vorverarbeitung zu Aktualisierungen des entsprechenden DLSampleDLSampleDLSampleDLSampleDLSampledlsample führen kann.

Das Dictionary DLSampleDLSampleDLSampleDLSampleDLSampledlsample hat folgende Einträge:

image: Any

Eingabebild

Format: Bild

image_id: Any

Eindeutige Bild-ID (wie in DLDatasetDLDatasetDLDatasetDLDatasetDLDatasetdldataset).

Format: Ganzzahl

anomaly_ground_truth: AD

Bild oder Region, aus anomaly_file_name.

Format: Bild oder Region

anomaly_label: AD

Ground Truth Anomalie Label auf Bildebene (als Name aus class_names).

Format: String

anomaly_label_id: AD

Ground Truth Anomalie Label auf Bildebene (als ID aus class_ids).

Format: Ganzzahl

image_label_id: CL

Ground Truth Label des Bildes (als ID aus class_ids).

Format: Tupel von Ganzzahlen

bbox_label_id: OD

Ground Truth Label für den Bildausschnitt innerhalb des umschließenden Rechtecks (als ID aus class_ids).

Format: Tupel von Ganzzahlen

bbox_row1: OD:r1 [4]

Ground Truth umschließendes Rechteck: Obere linke Ecke, Zeilenkoordinate.

Format: Tupel von Gleitkommazahlen

bbox_col1: OD:r1 [4]

Ground Truth umschließendes Rechteck: Obere linke Ecke, Spaltenkoordinate.

Format: Tupel von Gleitkommazahlen

bbox_row2: OD:r1 [4]

Ground Truth umschließendes Rechteck: Untere rechte Ecke, Zeilenkoordinate.

Format: Tupel von Gleitkommazahlen

bbox_col2: OD:r1 [4]

Ground Truth umschließendes Rechteck: Untere rechte Ecke, Spaltenkoordinate.

Format: Tupel von Gleitkommazahlen

bbox_row: OD:r2 [4]

Ground Truth umschließendes Rechteck: Mittelpunkt, Zeilenkoordinate.

Format: Tupel von Gleitkommazahlen

bbox_col: OD:r2 [4]

Ground Truth umschließendes Rechteck: Mittelpunkt, Spaltenkoordinate.

Format: Tupel von Gleitkommazahlen

bbox_phi: OD:r2 [4]

Ground Truth umschließendes Rechteck: Winkel phi.

Format: Tupel von Gleitkommazahlen

bbox_length1: OD:r2 [4]

Ground Truth umschließendes Rechteck: Halbe Kantenlänge 1.

Format: Tupel von Gleitkommazahlen

bbox_length2: OD:r2 [4]

Ground Truth umschließendes Rechteck: Halbe Kantenlänge 2.

Format: Tupel von Gleitkommazahlen

segmentation_image: SE

Bild mit den Ground Truth Segmentierungen, eingelesen von segmentation_file_name.

Format: Bild

weight_image: SE [5]

Bild mit den Pixel-Gewichten.

Format: Bild

Diese Dictionaries werden von der Prozedur gen_dl_samples erzeugt. Eine Ausnahme stellt der markierte Eintrag dar, [5]: wird von der Prozedur gen_dl_segmentation_weights erstellt. [4]: Für die Parameter der Ground Truth umschließenden Rechtecke werden pixel-zentrierte, subpixel-genaue Koordinaten verwendet.

Falls die Dictionaries DLSampleDLSampleDLSampleDLSampleDLSampledlsample gespeichert werden sollen, kann die Prozedur write_dl_samples verwendet werden. Eingelesen können die gespeicherten DLSampleDLSampleDLSampleDLSampleDLSampledlsample Dictionaries über die Prozedur read_dl_samples.

Eingabedaten bei der Inferenz

Die Eingabedaten bei der Inferenz bestehen aus den blanken Bildern. Damit das Modell diese verarbeiten kann, müssen sie bestimmte Anforderungen erfüllen. Informationen zu den Bildanforderungen finden sich im unteren Abschnitt „Bilder“.

Das Modell ist so konzipiert, dass alle Daten über ein Dictionary DLDatasetDLDatasetDLDatasetDLDatasetDLDatasetdldataset übergeben wird. Für die Inferenz beinhaltet ein solches Dictionary nur das Bild und wird von der Prozedur gen_dl_samples_from_images erstellt. Diese Dictionaries können einzeln oder als Einträge des Tupels übergeben werden DLSampleBatchDLSampleBatchDLSampleBatchDLSampleBatchDLSampleBatchdlsample_batch.

Ausgabedaten beim Training

Die Trainingsresultate werden im Dictionary DLTrainResultDLTrainResultDLTrainResultDLTrainResultDLTrainResultdltrain_result gesammelt. Die spezifischen Einträge hängen vom Modell und damit vom verwendeten Operator ab (für weitere Informationen, siehe die Dokumentation des entsprechendes Operators):

CL, OD, SE:

Der Operator train_dl_model_batchtrain_dl_model_batchTrainDlModelBatchTrainDlModelBatchTrainDlModelBatchtrain_dl_model_batch gibt folgende Einträge zurück:

total_loss
weitere mögliche Zielfunktionen des Modells

AD:

Der Operator train_dl_model_anomaly_datasettrain_dl_model_anomaly_datasetTrainDlModelAnomalyDatasetTrainDlModelAnomalyDatasetTrainDlModelAnomalyDatasettrain_dl_model_anomaly_dataset gibt folgende Einträge zurück:

final_error
final_epoch

Als Ausgabe des Operators train_dl_model_batchtrain_dl_model_batchTrainDlModelBatchTrainDlModelBatchTrainDlModelBatchtrain_dl_model_batch gibt das Modell ein Dictionary DLTrainResultDLTrainResultDLTrainResultDLTrainResultDLTrainResultdltrain_result zurück. In diesem Dictionary befinden sich der aktuelle Wert der Gesamt-Zielfunktion unter dem Schlüssel total_loss sowie die Werte aller weiteren im Modell enthaltenen Zielfunktionen.

Ausgabedaten bei der Inferenz und der Evaluierung

Als Ausgabe des Operators apply_dl_modelapply_dl_modelApplyDlModelApplyDlModelApplyDlModelapply_dl_model gibt das Modell für jedes Sample ein Dictionary DLResultDLResultDLResultDLResultDLResultdlresult, siehe die unten folgende Darstellung. Die Evaluierung basiert auf diesen Resultaten und den dem Bild zugehörigen Annotationen. Die Evaluierungsresultate werden im Dictionary EvaluationResults gespeichert.


(1)	(2)

Schematische Darstellung der Dictionaries, welche als Modell-Eingabe dienen: (1) Evaluierung: DLSampleDLSampleDLSampleDLSampleDLSampledlsample beinhaltet das Bild sowie Informationen über das Bild und seinen Inhalt. Diese Daten dienen als Basis der Evaluierung. Zu Darstellungszwecken ist die BatchSizeBatchSizeBatchSizeBatchSizebatchSizebatch_size auf drei gesetzt, zudem sind nur wenige Einträge aufgelistet. (2) Inferenz: DLSampleDLSampleDLSampleDLSampleDLSampledlsample beinhaltet das Bild. Diese Dictionaries können einzeln oder im Tupel übergeben werden.

Abhängig vom Modell-Typ kann dieses Dictionary die folgenden Einträge haben:

anomaly_image: AD

Grauwertbild mit Scores als Pixelwerte, die angeben wie wahrscheinlich der entsprechende Pixel im Eingabebild zu einer Anomalie gehört.

Format: Bild

anomaly_score: AD

Score der Anomalie aufgrund der Werte in anomaly_image.

Format: Gleitkommazahl

classification_class_ids: CL

IDs der vorhergesagten Klassen des Bildes sortiert nach Konfidenzwerten.

Format: Tupel von Ganzzahlen

classification_class_names: CL

Vorhergesagte Klassennamen des Bildes sortiert nach Konfidenzwerten.

Format: Tupel von Strings

classification_confidences: CL

Konfidenzwerte für die Vorhersage des Bildes für jede Klasse.

Format: Tupel von Gleitkommazahlen

bbox_class_id: OD

Vorhergesagte Klasse für das umschließende Rechteck (als ID aus class_ids).

Format: Tupel von Ganzzahlen

bbox_confidence: OD

Konfidenzwerte für die Vorhersage des umschließenden Rechtecks.

Format: Tupel von Gleitkommazahlen

bbox_row1: OD:r1 [6]

Inferiertes umschließendes Rechteck: Obere linke Ecke, Zeilenkoordinate.

Format: Tupel von Gleitkommazahlen

bbox_col1: OD:r1 [6]

Inferiertes umschließendes Rechteck: Obere linke Ecke, Spaltenkoordinate.

Format: Tupel von Gleitkommazahlen

bbox_row2: OD:r1 [6]

Inferiertes umschließendes Rechteck: Untere rechte Ecke, Zeilenkoordinate.

Format: Tupel von Gleitkommazahlen

bbox_col2: OD:r1 [6]

Inferiertes umschließendes Rechteck: Untere rechte Ecke, Spaltenkoordinate.

Format: Tupel von Gleitkommazahlen

bbox_row: OD:r2 [6]

Inferiertes umschließendes Rechteck: Mittelpunkt, Zeilenkoordinate.

Format: Tupel von Gleitkommazahlen

bbox_col: OD:r2 [6]

Inferiertes umschließendes Rechteck: Mittelpunkt, Spaltenkoordinate.

Format: Tupel von Gleitkommazahlen

bbox_phi: OD:r2 [6]

Inferiertes umschließendes Rechteck: Winkel phi.

Format: Tupel von Gleitkommazahlen

bbox_length1: OD:r2 [6]

Inferiertes umschließendes Rechteck: Halbe Kantenlänge 1.

Format: Tupel von Gleitkommazahlen

bbox_length2: OD:r2 [6]

Inferiertes umschließendes Rechteck: Halbe Kantenlänge 2.

Format: Tupel von Gleitkommazahlen

segmentation_image: SE

Bild mit dem Segmentierungsresultat.

Format: Bild

segmentation_confidence: SE

Bild mit den Konfidenzwerten des Segmentierungs-Resultats.

Format: Bild

[6]: Für die Parameter der inferierten umschließenden Rechtecke werden pixel-zentrierte, subpixel-genaue Koordinaten verwendet.

Für weitere Informationen zu den Ausgabewerten wird auf das Kapitel der entsprechenden Methode verwiesen, z.B. Deep Learning / Semantische Segmentierung.

Bilder

Unabhängig von der Anwendung stellt das Netzwerk Anforderungen an die Bilder. Die spezifischen Werte hängen vom Netzwerk selbst ab und können mit get_dl_model_paramget_dl_model_paramGetDlModelParamGetDlModelParamGetDlModelParamget_dl_model_param abgefragt werden. Um diese Anforderungen zu erfüllen, müssen die Bilder evt. vorverarbeitet werden. Die Standard-Vorverarbeitung für den ganzen Datensatz und damit auch der Bilder kann mit Hilfe der Prozedur preprocess_dl_samples durchgeführt werden. Für eine selbst erstellte Vorverarbeitung liefert diese Prozedur eine Anleitung für die Implementierung.

Liste der Operatoren

add_dl_pruning_batchAddDlPruningBatchadd_dl_pruning_batchAddDlPruningBatchadd_dl_pruning_batch: Berechnen von Scores für das Pruning eines Deep Learning-Modells.

apply_dl_modelApplyDlModelapply_dl_modelApplyDlModelapply_dl_model: Anwenden des Deep Learning-basierten Netzwerkes zur Inferenz auf einer Menge an Bildern.

clear_dl_modelClearDlModelclear_dl_modelClearDlModelclear_dl_model: Löschen eines Deep Learning-Modells.

create_dl_pruningCreateDlPruningcreate_dl_pruningCreateDlPruningcreate_dl_pruning: Erstellen eines Handles für Pruning-Daten.

deserialize_dl_modelDeserializeDlModeldeserialize_dl_modelDeserializeDlModeldeserialize_dl_model: Deserialisiert ein Deep Learning-Modell.

gen_dl_model_heatmapGenDlModelHeatmapgen_dl_model_heatmapGenDlModelHeatmapgen_dl_model_heatmap: Inferieren eines Samples und generieren einer Heatmap.

gen_dl_pruned_modelGenDlPrunedModelgen_dl_pruned_modelGenDlPrunedModelgen_dl_pruned_model: Pruning eines Deep Learning-Modells.

get_dl_model_paramGetDlModelParamget_dl_model_paramGetDlModelParamget_dl_model_param: Auslesen der Parameter des Deep Learning-Modells.

get_dl_pruning_paramGetDlPruningParamget_dl_pruning_paramGetDlPruningParamget_dl_pruning_param: Auslesen der Parameter des Pruning Handles.

read_dl_modelReadDlModelread_dl_modelReadDlModelread_dl_model: Lesen eines Deep Learning-Modells aus einer Datei.

serialize_dl_modelSerializeDlModelserialize_dl_modelSerializeDlModelserialize_dl_model: Serialisiert ein Deep Learning-Modell.

set_dl_model_paramSetDlModelParamset_dl_model_paramSetDlModelParamset_dl_model_param: Setzen der Parameter des Deep Learning-basierten Models.

set_dl_pruning_paramSetDlPruningParamset_dl_pruning_paramSetDlPruningParamset_dl_pruning_param: Setzen der Parameter in einem Pruning Handle.

train_dl_model_batchTrainDlModelBatchtrain_dl_model_batchTrainDlModelBatchtrain_dl_model_batch: Trainieren eines Deep Learning-Modells.

write_dl_modelWriteDlModelwrite_dl_modelWriteDlModelwrite_dl_model: Abspeichern eines Deep Learning-Modells in eine Datei.

Operatoren