select_characters
— Selektieren von Zeichen aus einer gegebenen Region.
select_characters(Region : RegionCharacters : DotPrint, StrokeWidth, CharWidth, CharHeight, Punctuation, DiacriticMarks, PartitionMethod, PartitionLines, FragmentDistance, ConnectFragments, ClutterSizeMax, StopAfter : )
select_characters
selektiert aus der gegebenen Region
die Bereiche, die Zeichen darstellen. Hierfür werden Eigenschaften wie
StrokeWidth
, DotPrint
, die Größe der Zeichen und einige
weitere verwendet.
Die übergebene Region
sollte vereinigt sein, da ansonsten jede
Region
einzeln verarbeitet wird. Aus diesem Grund sollte der
Operator connection
nicht vorher aufgerufen werden.
Sollten mehrere Textbereiche vorhanden sein, so können diese
selbstverständlich ohne vorheriges Zusammenfügen der Regionen behandelt
werden. Die übergebene Region
wird typischerweise vom Operator
segment_characters
geliefert, sie kann jedoch auch von anderen
Segmentierungsoperatoren bereitgestellt werden.
Der Prozess zur Auswahl der Zeichen kann in vier Schritte unterteilt werden.
Jeder Verarbeitungsschritt wird durch die Parameter StrokeWidth
,
CharHeight
und CharWidth
beeinflusst.
Wenn kleine Objekte wie Punkte verloren gehen, dann sollte die minimale
CharWidth
und die minimale CharHeight
angepasst werden.
Die Ergebnisse der einzelnen Schritte sind allerdings von manchen
Parametern besonders abhängig. Eine nähere Beschreibung folgt.
Mit dem Parameter StopAfter
kann die Verarbeitung nach einem
bestimmten Schritt beendet werden.
Der erste Schritt ist 'step1_select_candidates' . In diesem Schritt
werden CharWidth
und CharHeight
verwendet, um die
Kandidaten auszuwählen. Zusätzlich beeinflusst ClutterSizeMax
das
Ergebnis von diesem Schritt.
Im nächsten Schritt, 'step2_partition_characters' , nehmen die
Parameter PartitionMethod
und PartitionLines
Einfluss
auf das Ergebnis.
Schritt drei, 'step3_connect_fragments' , verwendet die Parameter
ConnectFragments
und DotPrint
. Sollen Dot-Prints gelesen
werden und manche Punkte werden nicht zu den Zeichen hinzugefügt, so gibt es
zwei Möglichkeiten, dieses Problem zu beheben. Zum einen kann man den Wert des
Parameter FragmentDistance
erhöhen und/oder die StrokeWidth
herunter setzen.
Im letzten Schritt, 'step4_select_characters' , beeinflussen die
Parameter DiacriticMarks
und Punctuation
das Ergebnis.
RegionCharacters
:
Nach dem Ausführen enthält RegionCharacters
die extrahierten Zeichen
von der übergebenen Region
.
DotPrint
:
Sollte auf 'true' gesetzt werden, wenn Dot-Prints gelesen werden
sollen, ansonsten auf 'false' .
StrokeWidth
:
Spezifiziert die Strichstärke des Textes und wird zur Bestimmung von
Filtergrößen für die Zeichendetektion verwendet. Die Filtergrößen werden
auch durch die Parameter DotPrint
, die durchschnittliche
Zeichenbreite CharWidth
und die durchschnittliche Zeichenhöhe
CharHeight
festgelegt.
CharWidth
:
Dieser Parameter kann durch ein Tupel, welches bis zu drei Werten besitzen
kann, gesetzt werden. Der erste Wert ist die durchschnittliche Breite,
der zweite ist die minimale und der dritte die maximale Zeichenbreite.
Wenn die minimale Zeichenbreite auf -1 gesetzt wird, berechnet der Operator
den Wert automatisch in Abhängigkeit von der durchschnittlichen
Zeichenbreite. Das gleiche gilt für den Fall, dass der maximale Wert nicht
gesetzt wird. Einige Beispiele:
[10] setzt die durchschnittliche Zeichenbreite auf 10, die minimale und maximale Zeichenbreite werden vom Operator berechnet.
[10,-1,20] setzt die durchschnittliche Zeichenbreite auf 10, der minimale Wert wird vom Operator bestimmt und der maximale auf 20 gesetzt.
[10,5,20] setzt die durchschnittliche Zeichenbreite auf 10, der minimale Wert wird auf 5 und der maximale Wert auf 20 gesetzt.
CharHeight
:
Dieser Parameter kann durch ein Tupel, welches bis zu drei Werten besitzen
kann, gesetzt werden. Der erste Wert ist die durchschnittliche Höhe, der
zweite ist die minimale und der dritte die maximale Zeichenhöhe.
Wenn die minimale Zeichenhöhe auf -1 gesetzt wird, berechnet der Operator
den Wert automatisch in Abhängigkeit von der durchschnittlichen Zeichenhöhe.
Das gleiche gilt für den Fall, dass der maximale Wert nicht gesetzt wird.
Einige Beispiele:
[10] setzt die durchschnittliche Zeichenhöhe auf 10, die minimale und maximale Zeichenhöhe werden vom Operator berechnet.
[10,-1,20] setzt die durchschnittliche Zeichenhöhe auf 10, der minimale Wert wird vom Operator bestimmt und der maximale auf 20 gesetzt.
[10,5,20] setzt die durchschnittliche Zeichenhöhe auf 10, der minimale Wert wird auf 5 und der maximale Wert auf 20 gesetzt.
Punctuation
:
Dieser Parameter sollte auf 'true' gesetzt werden, wenn der
Operator Satzzeichen (wie .,:'´") detektieren soll, ansonsten werden
diese unterdrückt.
DiacriticMarks
:
Dieser Parameter sollte auf 'true' gesetzt werden, wenn die
Anwendung diakritisches Zeichen (wie â,é,ö) enthält oder auf
'false' um diese zu unterdrücken.
PartitionMethod
:
Benachbarte Zeichen, welche sehr dicht nebeneinander gedruckt wurden,
können teilweise nicht getrennt detektiert werden. Mit diesem Parameter
kann die Methode zum Trennen dieser Zeichen festgelegt werden. Die
möglichen Werte sind 'none' , wodurch kein Auftrennen
durchgeführt wird. 'fixed_width' bedeutet, dass die Auftrennung
davon ausgeht, dass alle Zeichen gleich breit sind. Falls die Breite
der extrahierten Region merklich über der durchschnittlichen
Zeichenbreite liegt, wird die Region in Teile getrennt, welche dann die
durchschnittliche Zeichenbreite besitzen. Das Aufteilen beginnt an der
linken Seite der Region.
'variable_width' bedeutet, dass die Zeichen an ihrer dünnsten
Verbindung getrennt werden. Diese Methode kann für Fonts mit
unterschiedlich breiten Zeichen ausgewählt werden, oder falls viele
aufeinanderfolgende Zeichen als eines extrahiert werden.
Es könnte hilfreich sein, text_line_slant
und/oder
text_line_orientation
auszuführen, bevor select_characters
aufgerufen wird.
PartitionLines
:
Wenn einige Textzeilen oder einige Zeichen von unterschiedlichen
Textzeilen verbunden sind, sollte dieser Parameter auf 'true'
gesetzt werden.
FragmentDistance
:
Dieser Parameter beeinflusst die Verknüpfung von Zeichenfragmenten und
Zeichen. Wenn zu viel verbunden wird, sollte der Parameter auf
'narrow' oder 'medium' gesetzt werden. Im Fall dass
mehr Fragmente verbunden werden sollen, sollte der Parameter auf
'medium' oder 'wide' gesetzt werden.
Das Verbinden wird außerdem vom Maximum von CharWidth
und
dem Maximum von CharHeight
beeinflusst. Siehe auch
ConnectFragments
.
ConnectFragments
Dieser Parameter sollte auf 'true' gesetzt werden, wenn
die extrahierten Zeichen fragmentiert sind, zum Beispiel wenn ein
Zeichen nicht als ein Zeichen detektiert wird, sondern in mehrere
Einzelteile zerfällt. Weitere Infos findet man unter
FragmentDistance
und StopAfter
im Schritt
'step3_connect_fragments' .
ClutterSizeMax
:
Sollten die segmentierten Zeichen Störungen enthalten, zum Beispiel
kleine Regionen neben den Zeichen, sollte dieser Wert erhöht werden.
Wenn Teile der Zeichen fehlen, dann sollte dieser Wert verkleinert
werden.
StopAfter
:
Dieser Parameter sollte verwendet werden, wenn select_characters
nicht das gewünschte Ergebnis liefert. Durch Modifizieren des Parameters
wird bestimmt, nach welchem Schritt der Operator die Ausführung beendet und
es werden die dazugehörigen Ergebnisse geliefert. Um den Operator nicht
abzubrechen sollte StopAfter
auf 'completion' gesetzt
werden.
Region
(input_object) region(-array) →
object
Region mit Textzeilen, in der die Zeichen segmentiert werden sollen.
RegionCharacters
(output_object) region(-array) →
object
Selektierte Zeichen.
DotPrint
(input_control) string →
(string)
Sollen Dot-Print-Zeichen detektiert werden?
Defaultwert: 'false'
Werteliste: 'false' , 'true'
StrokeWidth
(input_control) string →
(string)
Strichstärke der Zeichen.
Defaultwert: 'medium'
Werteliste: 'bold' , 'light' , 'medium' , 'ultra_light'
CharWidth
(input_control) integer-array →
(integer)
Breite eines Zeichens.
Defaultwert: 25
Typischer Wertebereich: 1
≤
CharWidth
Restriktion: CharWidth >= 1
CharHeight
(input_control) integer-array →
(integer)
Höhe eines Zeichens.
Defaultwert: 25
Typischer Wertebereich: 1
≤
CharHeight
Restriktion: CharHeight >= 1
Punctuation
(input_control) string →
(string)
Satzzeichen hinzufügen?
Defaultwert: 'false'
Werteliste: 'false' , 'true'
DiacriticMarks
(input_control) string →
(string)
Sind diakritsche Zeichen vorhanden?
Defaultwert: 'false'
Werteliste: 'false' , 'true'
PartitionMethod
(input_control) string →
(string)
Methode zum Trennen von benachbarten Zeichen.
Defaultwert: 'none'
Werteliste: 'fixed_width' , 'none' , 'variable_width'
PartitionLines
(input_control) string →
(string)
Sollen Zeilen getrennt werden?
Defaultwert: 'false'
Werteliste: 'false' , 'true'
FragmentDistance
(input_control) string →
(string)
Abstand von Fragmenten.
Defaultwert: 'medium'
Werteliste: 'medium' , 'narrow' , 'wide'
ConnectFragments
(input_control) string →
(string)
Sollen Fragmente zusammmengefügt werden?
Defaultwert: 'false'
Werteliste: 'false' , 'true'
ClutterSizeMax
(input_control) integer →
(integer)
Maximaler Größe von Störungen.
Defaultwert: 0
Typischer Wertebereich: 0
≤
ClutterSizeMax
Restriktion: 0 < ClutterSizeMax
StopAfter
(input_control) string →
(string)
Beende die Ausführung nach diesem Schritt.
Defaultwert: 'completion'
Werteliste: 'completion' , 'step1_select_candidates' , 'step2_partition_characters' , 'step3_connect_fragments' , 'step4_select_characters'
for Index := 1 to 5 by 1 read_image (Image, 'dot_print_rotated/dot_print_rotated_'+Index$'02d') text_line_orientation (Image, Image, 50, rad(-30), rad(30), OrientationAngle) rotate_image (Image, ImageRotate, deg(-OrientationAngle), 'constant') segment_characters (ImageRotate, ImageRotate, ImageForeground, \ RegionForeground, 'local_auto_shape', 'false', 'false', 'medium', \ 25, 25, 0, 10, UsedThreshold) select_characters (RegionForeground, RegionCharacters, 'true', 'ultra_light', \ [60,1,100], [60,1,100], 'false', 'false', 'none', 'true', 'wide', 'true', 0, \ 'completion') endfor
Sind die Eingabeparameter korrekt besetzt, dann liefert
select_characters
den Wert 2 (H_MSG_TRUE).
Andernfalls wird eine Fehlerbehandlung durchgeführt.
segment_characters
,
text_line_slant
do_ocr_single_class_mlp
,
do_ocr_multi_class_mlp
Foundation