| Operatoren |
select_characters — Selektieren von Zeichen aus einer gegebenen Region.
select_characters(Region : RegionCharacters : DotPrint, StrokeWidth, CharWidth, CharHeight, Punctuation, DiacriticMarks, PartitionMethod, PartitionLines, FragmentDistance, ConnectFragments, ClutterSizeMax, StopAfter : )
select_characters selektiert aus der gegebenen Region die Bereiche, die Zeichen darstellen. Hierfür werden Eigenschaften wie StrokeWidth, DotPrint, die Größe der Zeichen und einige weitere verwendet. Die übergebene Region sollte vereinigt sein, da ansonsten jede Region einzeln verarbeitet wird. Aus diesem Grund sollte der Operator connection nicht vorher aufgerufen werden. Sollten mehrere Textbereiche vorhanden sein, so können diese selbstverständlich ohne vorheriges Zusammenfügen der Regionen behandelt werden. Die übergebene Region wird typischerweise vom Operator segment_characters geliefert, sie kann jedoch auch von anderen Segmentierungsoperatoren bereitgestellt werden.
Der Prozess zur Auswahl der Zeichen kann in vier Schritte unterteilt werden. Jeder Verarbeitungsschritt wird durch die Parameter StrokeWidth, CharHeight und CharWidth beeinflusst. Wenn kleine Objekte wie Punkte verloren gehen, dann sollte die minimale CharWidth und die minimale CharHeight angepasst werden. Die Ergebnisse der einzelnen Schritte sind allerdings von manchen Parametern besonders abhängig. Eine nähere Beschreibung folgt. Mit dem Parameter StopAfter kann die Verarbeitung nach einem bestimmten Schritt beendet werden.
Der erste Schritt ist 'step1_select_candidates'. In diesem Schritt werden CharWidth und CharHeight verwendet, um die Kandidaten auszuwählen. Zusätzlich beeinflusst ClutterSizeMax das Ergebnis von diesem Schritt.
Im nächsten Schritt, 'step2_partition_characters', nehmen die Parameter PartitionMethod und PartitionLines Einfluss auf das Ergebnis.
Schritt drei, 'step3_connect_fragments', verwendet die Parameter ConnectFragments und DotPrint. Sollen Dot-Prints gelesen werden und manche Punkte werden nicht zu den Zeichen hinzugefügt, so gibt es zwei Möglichkeiten, dieses Problem zu beheben. Zum einen kann man den Wert des Parameter FragmentDistance erhöhen und/oder die StrokeWidth herunter setzen.
Im letzten Schritt, 'step4_select_characters', beeinflussen die Parameter DiacriticMarks und Punctuation das Ergebnis.
RegionCharacters: Nach dem Ausführen enthält RegionCharacters die extrahierten Zeichen von der übergebenen Region.
DotPrint: Sollte auf 'true' gesetzt werden, wenn Dot-Prints gelesen werden sollen, ansonsten auf 'false'.
StrokeWidth: Spezifiziert die Strichstärke des Textes und wird zur Bestimmung von Filtergrößen für die Zeichendetektion verwendet. Die Filtergrößen werden auch durch die Parameter DotPrint, die durchschnittliche Zeichenbreite CharWidth und die durchschnittliche Zeichenhöhe CharHeight festgelegt.
CharWidth: Dieser Parameter kann durch ein Tupel, welches bis zu drei Werten besitzen kann, gesetzt werden. Der erste Wert ist die durchschnittliche Breite, der zweite ist die minimale und der dritte die maximale Zeichenbreite. Wenn die minimale Zeichenbreite auf -1 gesetzt wird, berechnet der Operator den Wert automatisch in Abhängigkeit von der durchschnittlichen Zeichenbreite. Das gleiche gilt für den Fall, dass der maximale Wert nicht gesetzt wird. Einige Beispiele:
[10] setzt die durchschnittliche Zeichenbreite auf 10, die minimale und maximale Zeichenbreite werden vom Operator berechnet.
[10,-1,20] setzt die durchschnittliche Zeichenbreite auf 10, der minimale Wert wird vom Operator bestimmt und der maximale auf 20 gesetzt.
[10,5,20] setzt die durchschnittliche Zeichenbreite auf 10, der minimale Wert wird auf 5 und der maximale Wert auf 20 gesetzt.
CharHeight: Dieser Parameter kann durch ein Tupel, welches bis zu drei Werten besitzen kann, gesetzt werden. Der erste Wert ist die durchschnittliche Höhe, der zweite ist die minimale und der dritte die maximale Zeichenhöhe. Wenn die minimale Zeichenhöhe auf -1 gesetzt wird, berechnet der Operator den Wert automatisch in Abhängigkeit von der durchschnittlichen Zeichenhöhe. Das gleiche gilt für den Fall, dass der maximale Wert nicht gesetzt wird. Einige Beispiele:
[10] setzt die durchschnittliche Zeichenhöhe auf 10, die minimale und maximale Zeichenhöhe werden vom Operator berechnet.
[10,-1,20] setzt die durchschnittliche Zeichenhöhe auf 10, der minimale Wert wird vom Operator bestimmt und der maximale auf 20 gesetzt.
[10,5,20] setzt die durchschnittliche Zeichenhöhe auf 10, der minimale Wert wird auf 5 und der maximale Wert auf 20 gesetzt.
Punctuation: Dieser Parameter sollte auf 'true' gesetzt werden, wenn der Operator Satzzeichen (wie .,:'´") detektieren soll, ansonsten werden diese unterdrückt.
DiacriticMarks: Dieser Parameter sollte auf 'true' gesetzt werden, wenn die Anwendung diakritisches Zeichen (wie â,é,ö) enthält oder auf 'false' um diese zu unterdrücken.
PartitionMethod: Benachbarte Zeichen, welche sehr dicht nebeneinander gedruckt wurden, können teilweise nicht getrennt detektiert werden. Mit diesem Parameter kann die Methode zum Trennen dieser Zeichen festgelegt werden. Die möglichen Werte sind 'none', wodurch kein Auftrennen durchgeführt wird. 'fixed_width' bedeutet, dass die Auftrennung davon ausgeht, dass alle Zeichen gleich breit sind. Falls die Breite der extrahierten Region merklich über der durchschnittlichen Zeichenbreite liegt, wird die Region in Teile getrennt, welche dann die durchschnittliche Zeichenbreite besitzen. Das Aufteilen beginnt an der linken Seite der Region. 'variable_width' bedeutet, dass die Zeichen an ihrer dünnsten Verbindung getrennt werden. Diese Methode kann für Fonts mit unterschiedlich breiten Zeichen ausgewählt werden, oder falls viele aufeinanderfolgende Zeichen als eines extrahiert werden. Es könnte hilfreich sein, text_line_slant und/oder text_line_orientation auszuführen, bevor select_characters aufgerufen wird.
PartitionLines: Wenn einige Textzeilen oder einige Zeichen von unterschiedlichen Textzeilen verbunden sind, sollte dieser Parameter auf 'true' gesetzt werden.
FragmentDistance: Dieser Parameter beeinflusst die Verknüpfung von Zeichenfragmenten und Zeichen. Wenn zu viel verbunden wird, sollte der Parameter auf 'narrow' oder 'medium' gesetzt werden. Im Fall dass mehr Fragmente verbunden werden sollen, sollte der Parameter auf 'medium' oder 'wide' gesetzt werden. Das Verbinden wird außerdem vom Maximum von CharWidth und dem Maximum von CharHeight beeinflusst. Siehe auch ConnectFragments.
ConnectFragments Dieser Parameter sollte auf 'true' gesetzt werden, wenn die extrahierten Zeichen fragmentiert sind, zum Beispiel wenn ein Zeichen nicht als ein Zeichen detektiert wird, sondern in mehrere Einzelteile zerfällt. Weitere Infos findet man unter FragmentDistance und StopAfter im Schritt 'step3_connect_fragments'.
ClutterSizeMax: Sollten die segmentierten Zeichen Störungen enthalten, zum Beispiel kleine Regionen neben den Zeichen, sollte dieser Wert erhöht werden. Wenn Teile der Zeichen fehlen, dann sollte dieser Wert verkleinert werden.
StopAfter: Dieser Parameter sollte verwendet werden, wenn select_characters nicht das gewünschte Ergebnis liefert. Durch Modifizieren des Parameters wird bestimmt, nach welchem Schritt der Operator die Ausführung beendet und es werden die dazugehörigen Ergebnisse geliefert. Um den Operator nicht abzubrechen sollte StopAfter auf 'completion' gesetzt werden.
Region mit Textzeilen, in der die Zeichen segmentiert werden sollen.
Selektierte Zeichen.
Sollen Dot-Print-Zeichen detektiert werden?
Defaultwert: 'false'
Werteliste: 'false', 'true'
Strichstärke der Zeichen.
Defaultwert: 'medium'
Werteliste: 'bold', 'light', 'medium', 'ultra_light'
Breite eines Zeichens.
Defaultwert: 25
Typischer Wertebereich: 1 ≤ CharWidth
Restriktion: CharWidth >= 1
Höhe eines Zeichens.
Defaultwert: 25
Typischer Wertebereich: 1 ≤ CharHeight
Restriktion: CharHeight >= 1
Satzzeichen hinzufügen?
Defaultwert: 'false'
Werteliste: 'false', 'true'
Sind diakritsche Zeichen vorhanden?
Defaultwert: 'false'
Werteliste: 'false', 'true'
Methode zum Trennen von benachbarten Zeichen.
Defaultwert: 'none'
Werteliste: 'fixed_width', 'none', 'variable_width'
Sollen Zeilen getrennt werden?
Defaultwert: 'false'
Werteliste: 'false', 'true'
Abstand von Fragmenten.
Defaultwert: 'medium'
Werteliste: 'medium', 'narrow', 'wide'
Sollen Fragmente zusammmengefügt werden?
Defaultwert: 'false'
Werteliste: 'false', 'true'
Maximaler Größe von Störungen.
Defaultwert: 0
Typischer Wertebereich: 0 ≤ ClutterSizeMax
Restriktion: 0 < ClutterSizeMax
Beende die Ausführung nach diesem Schritt.
Defaultwert: 'completion'
Werteliste: 'completion', 'step1_select_candidates', 'step2_partition_characters', 'step3_connect_fragments', 'step4_select_characters'
for Index := 1 to 5 by 1
read_image (Image, 'dot_print_rotated/dot_print_rotated_'+Index$'02d')
text_line_orientation (Image, Image, 50, rad(-30), rad(30), OrientationAngle)
rotate_image (Image, ImageRotate, deg(-OrientationAngle), 'constant')
segment_characters (ImageRotate, ImageRotate, ImageForeground, \
RegionForeground, 'local_auto_shape', 'false', 'false', 'medium', \
25, 25, 0, 10, UsedThreshold)
select_characters (RegionForeground, RegionCharacters, 'true', 'ultra_light', \
[60,1,100], [60,1,100], 'false', 'false', 'none', 'true', 'wide', 'true', 0, \
'completion')
endfor
Sind die Eingabeparameter korrekt besetzt, dann liefert select_characters den Wert 2 (H_MSG_TRUE). Andernfalls wird eine Fehlerbehandlung durchgeführt.
segment_characters, text_line_slant
do_ocr_single_class_mlp, do_ocr_multi_class_mlp
Foundation
| Operatoren |