| Operatoren |
select_feature_set_trainf_mlp — Wählt die optimalen Merkmale für ein bestimmtes OCR-Klassifikationsproblem aus.
select_feature_set_trainf_mlp( : : TrainingFile, FeatureList, SelectionMethod, Width, Height, GenParamName, GenParamValue : OCRHandle, FeatureSet, Score)
select_feature_set_trainf_mlp wählt die optimalen Merkmale für ein bestimmtes OCR-Klassifikationsproblem aus. Die Daten für das OCR-Klassifikationsproblem werden mit der Trainingsdatei TrainingFile ausgewählt. Als Klassifikator wird ein mehrschichtiges Perzeptron (MLP) verwendet.
Es wird eine Untermenge aller angegebenen OCR-Merkmale gewählt. Alle zu untersuchenden Merkmale werden in FeatureList spezifiziert. Die Liste der möglichen OCR-Merkmale wird in der Dokumentation von create_ocr_class_mlp näher erläutert. Die letztendlich ausgewählte Merkmalsuntermenge wird in FeatureSet zurückgegeben.
select_feature_set_trainf_mlp ist auf OCR-Klassifikationsprobleme spezialisiert und unterstützt nur Merkmale die in der Auswahlliste stehen. Für andere Merkmale bietet sich somit die Nutzung des generellen Operators select_feature_set_mlp an.
Für den Selektionsprozess können in SelectionMethod zwei verschiedene Methoden ausgewählt werden: entweder die Greedy-Variante 'greedy' (das momentan erfolgversprechendste Merkmal wird zur Auswahl hinzugefügt) oder die dynamisch oszillierende Suche 'greedy_oscillating' (Das momentan erfolgversprechendste Merkmal wird zur Auswahl hinzugefügt. Danach wird getestet ob eines der hinzugefügten Merkmale entbehrlich ist.). Während 'greedy' schneller terminiert, kann 'greedy_oscillating' bessere Ergebnisse erzielen wenn viele Trainingsdaten vorliegen. Während 'greedy' schneller terminiert, kann 'greedy_oscillating' besser mit voneinander abhängigen Merkmalen umgehen. Als Optimierungskriterium dient die Klassifikationsrate, die mit einem zwei-fachen Kreuzvalidierungsverfahren ermittelt wird. Das beste erreichte Klassifikationsrate wird in Score zurückgegeben.
Über die generischen Parameter GenParamName und GenParamValue kann die Anzahl der verwendeten Neuronen in der versteckten Schicht des MLP über 'num_hidden' gesetzt werden. Standard ist hierfür 80, größere Werte führen zu längeren Trainingszeiten, erlauben aber eine ausdrucksstärkere Klassifikation.
Die Laufzeit dieses Operators kann mit größeren Datensätzen und einer längeren Merkmalsliste unter Umständen sehr lang sein.
Es ist zu beachten, dass dieser Operator nicht aufgerufen werden sollte, wenn für das Training nur ein kleiner Datensatz verfügbar ist. Auf Grund des Risikos der Überanpassung kann der Operator select_feature_set_trainf_mlp zwar einerseits einen Klassifikator mit sehr hohem Score liefern. Andererseits weist der Klassifikator jedoch eine schlechte Erkennungsrate auf, wenn dieser getestet wird.
Dieser Operator liefert ein Handle zurück. Es ist zu beachten, dass der Zustand einer Instanz dieses Handletyps durch bestimmte Operatoren geändert werden kann, obwohl das Handle als Eingabeparameter in diesen Operatoren verwendet wird.
Namen der Trainingsdateien.
Defaultwert: ''
Dateiendung: .trf, .otr
Merkmale, die zur Klassifikation verwendet werden können.
Defaultwert: ['zoom_factor','ratio','width','height','foreground','foreground_grid_9','foreground_grid_16','anisometry','compactness','convexity','moments_region_2nd_invar','moments_region_2nd_rel_invar','moments_region_3rd_invar','moments_central','phi','num_connect','num_holes','projection_horizontal','projection_vertical','projection_horizontal_invar','projection_vertical_invar','chord_histo','num_runs','pixel','pixel_invar','pixel_binary','gradient_8dir','cooc','moments_gray_plane']
Werteliste: 'anisometry', 'chord_histo', 'compactness', 'convexity', 'cooc', 'default', 'foreground', 'foreground_grid_16', 'foreground_grid_9', 'gradient_8dir', 'height', 'moments_central', 'moments_gray_plane', 'moments_region_2nd_invar', 'moments_region_2nd_rel_invar', 'moments_region_3rd_invar', 'num_connect', 'num_holes', 'num_runs', 'phi', 'pixel', 'pixel_binary', 'pixel_invar', 'projection_horizontal', 'projection_horizontal_invar', 'projection_vertical', 'projection_vertical_invar', 'ratio', 'width', 'zoom_factor'
Methode zur Auswahl der Merkmale.
Defaultwert: 'greedy'
Werteliste: 'greedy', 'greedy_oscillating'
Breite des Rechtecks, auf die die Grauwerte des segmentierten Zeichens skaliert werden.
Defaultwert: 15
Höhe des Rechtecks, auf die die Grauwerte des segmentierten Zeichens skaliert werden.
Defaultwert: 16
Namen von (optionalen) Parametern für die Steuerung des Verhaltens des verwendeten MLP Klassifikators.
Defaultwert: []
Werteliste: 'nu'
Zu den optionalen generischen Parametern gehörende Werte.
Defaultwert: []
Wertevorschläge: '0.1'
Mit den ausgewählten Merkmalen trainierter OCR-MLP-Klassifikator.
Ausgewählte Merkmale.
Klassifikationsrate, die mit dem ausgewählten Merkmalssatz erreicht wurde.
Sind die Parameterwerte korrekt, dann liefert select_feature_set_trainf_mlp den Wert 2 (H_MSG_TRUE). Gegebenenfalls wird eine Fehlerbehandlung durchgeführt.
select_feature_set_trainf_svm, select_feature_set_trainf_knn
select_feature_set_trainf_mlp_protected, select_feature_set_mlp
OCR/OCV
| Operatoren |