create_class_mlpcreate_class_mlpCreateClassMlpcreate_class_mlpCreateClassMlpCreateClassMlp (Operator)

Name

create_class_mlpcreate_class_mlpCreateClassMlpcreate_class_mlpCreateClassMlpCreateClassMlp — Erzeugen eines mehrschichtigen Perzeptrons zur Klassifikation oder Regression.

Signatur

create_class_mlp( : : NumInput, NumHidden, NumOutput, OutputFunction, Preprocessing, NumComponents, RandSeed : MLPHandle)

create_class_mlpcreate_class_mlpCreateClassMlpcreate_class_mlpCreateClassMlpCreateClassMlp erzeugt ein neuronales Netz in Form eines mehrschichtigen Perzeptrons (engl.: multilayer perceptron, MLP), welches zur Klassifikation oder Regression (Funktionsapproximation) verwendet werden kann, je nachdem, wie OutputFunctionOutputFunctionOutputFunctionOutputFunctionOutputFunctionoutputFunction gesetzt wird. Das MLP besitzt drei Schichten: eine Eingabeschicht mit NumInputNumInputNumInputNumInputNumInputnumInput Eingabevariablen (Einheiten, Neuronen), eine versteckte Schicht mit NumHiddenNumHiddenNumHiddenNumHiddenNumHiddennumHidden Einheiten und eine Ausgabeschicht mit NumOutputNumOutputNumOutputNumOutputNumOutputnumOutput Ausgabevariablen. Das MLP führt mit den Eingabedaten x_i, dem so genannten Merkmalsvektor, folgende Berechnungsschritte aus, um die Aktivierungen z_j der versteckten Schicht zu berechnen:

        n_i
        ----
 (1)    \     (1)       (1)
a    =  /    w    x  + b   ,       j = 1,...,n_h
 j      ----  ji   i    j
        i=1

          /  (1) \
z  = tanh | a    | ,       j = 1,...,n_h
 j        \  j   /

Die Matrix w_ji^(1) und der Vektor b_j^(1) sind dabei die Gewichte der Eingabeschicht (ersten Schicht) des MLP. Die Aktivierungen z_j der ersten Schicht werden in der versteckten Schicht (zweiten Schicht) zunächst genauso durch Linearkombinationen transformiert, wie in der ersten Schicht:

        n_h
        ----
 (2)    \     (2)       (2)
a    =  /    w    z  + b   ,       k = 1,...,n_o
 k      ----  kj   j    k
        j=1

Dabei sind die Matrix w_kj^(2) und der Vektor b_k^(2) die Gewichte der zweiten Schicht des MLP.

Durch Setzen von OutputFunctionOutputFunctionOutputFunctionOutputFunctionOutputFunctionoutputFunction kann die Aktivierungsfunktion der Ausgabeschicht festgelegt werden. Für OutputFunctionOutputFunctionOutputFunctionOutputFunctionOutputFunctionoutputFunction = 'linear'"linear""linear""linear""linear""linear" werden die Daten einfach kopiert:

       (2)
y  =  a   ,       k = 1,...,n_o
 k     k

Diese Art der Aktivierungsfunktion sollte bei Regressionsaufgaben (Funktionsapproximation) verwendet werden. Diese Aktivierungsfunktion eignet sich nicht für Klassifikationsaufgaben.

Für OutputFunctionOutputFunctionOutputFunctionOutputFunctionOutputFunctionoutputFunction = 'logistic'"logistic""logistic""logistic""logistic""logistic" werden die Aktivierungen wie folgt berechnet:

              1
y  =  ------------------ ,       k = 1,...,n_o
 k            /    (2) \
      1 + exp | - a    |
              \    k   /

Diese Art der Aktivierungsfunktion sollte bei Klassifikationsaufgaben verwendet werden, bei denen mehrere (NumOutputNumOutputNumOutputNumOutputNumOutputnumOutput) unabhängige logische Attribute als Ausgabe auftreten können. Dies kommt nur bei sehr wenigen Klassifikationsaufgaben vor.

Für OutputFunctionOutputFunctionOutputFunctionOutputFunctionOutputFunctionoutputFunction = 'softmax'"softmax""softmax""softmax""softmax""softmax" werden die Aktivierungen wie folgt berechnet:


            /  (2) \
        exp | a    |
            \  k   /
y  =  ---------------- ,       k = 1,...,n_o
 k    n_o
      ----     /  (2) \
      \    exp | a    |
      /        \  l   /
      ----
      l=1

Diese Art der Aktivierungsfunktion sollte bei üblichen Klassifikationsaufgaben verwendet werden, bei denen mehrere (NumOutputNumOutputNumOutputNumOutputNumOutputnumOutput), sich gegenseitig ausschließende Klassen auftreten. Insbesondere muss OutputFunctionOutputFunctionOutputFunctionOutputFunctionOutputFunctionoutputFunction = 'softmax'"softmax""softmax""softmax""softmax""softmax" bei der Klassifikation von Pixeldaten mit classify_image_class_mlpclassify_image_class_mlpClassifyImageClassMlpclassify_image_class_mlpClassifyImageClassMlpClassifyImageClassMlp verwendet werden.

Mit den Parametern PreprocessingPreprocessingPreprocessingPreprocessingPreprocessingpreprocessing und NumComponentsNumComponentsNumComponentsNumComponentsNumComponentsnumComponents kann eine Vorverarbeitung der Merkmalsvektoren festgelegt werden. Für PreprocessingPreprocessingPreprocessingPreprocessingPreprocessingpreprocessing = 'none'"none""none""none""none""none" werden die Merkmalsvektoren ohne Änderung an das MLP übergeben. NumComponentsNumComponentsNumComponentsNumComponentsNumComponentsnumComponents wird hier ignoriert.

Für alle anderen Werte von PreprocessingPreprocessingPreprocessingPreprocessingPreprocessingpreprocessing wird aus dem Trainingsdatensatz eine Transformation der Merkmale berechnet, die sowohl beim Training als auch bei der späteren Klassifikation oder Auswertung dazu verwendet wird, die Merkmalsvektoren zu transformieren.

Für PreprocessingPreprocessingPreprocessingPreprocessingPreprocessingpreprocessing = 'normalization'"normalization""normalization""normalization""normalization""normalization" werden die Merkmalsvektoren normalisiert, indem der Mittelwert der Trainingsvektoren von den Merkmalsvektoren abgezogen wird und die dadurch entstehenden Merkmalsvektoren durch die Standardabweichung der jeweiligen Komponente der Trainingsvektoren geteilt wird. Die transformierten Merkmalsvektoren haben also einen Mittelwert von 0 und eine Standardabweichung von 1 in jeder Komponente. Die Normalisierung ändert die Länge des Merkmalsvektors nicht. NumComponentsNumComponentsNumComponentsNumComponentsNumComponentsnumComponents wird hier ignoriert. Diese Transformation empfiehlt sich bei allen Daten, in denen die Mittelwerte und Standardabweichungen der Merkmalsvektoren sich stark von 0 bzw. 1 unterscheiden oder bei denen die Komponenten der Daten nicht in denselben Einheiten gemessen werden (z.B., falls einige der Daten Grauwertmerkmale und andere Regionenmerkmale sind, oder falls z.B. Regionenmerkmale wie 'circularity' (Einheit: Skalar) und 'area' (Einheit: Quadratpixel) gemischt werden). In diesem Fall benötigt das Trainieren des MLP typischerweise weniger Iterationen als ohne Normalisierung.

Für PreprocessingPreprocessingPreprocessingPreprocessingPreprocessingpreprocessing = 'principal_components'"principal_components""principal_components""principal_components""principal_components""principal_components" werden die Merkmalsvektoren einer Hauptachsentransformation (principal component analysis) unterzogen. Die Hauptachsentransformation normalisiert zunächst die Merkmalsvektoren (s.o.). Danach wird eine orthogonale Transformation (eine Rotation im Merkmalsraum) berechnet, die die Trainingsvektoren dekorreliert. Nach der Transformation ist der Mittelwert der Trainingsvektoren 0 und die Kovarianzmatrix der Trainingsvektoren ist eine Diagonalmatrix. Die Transformation wird so bestimmt, dass die transformierten Merkmale, die die größte Variationsbreite aufweisen, als erstes in dem transformierten Merkmalsvektor stehen. Dadurch kann erreicht werden, dass die letzten Komponenten des Merkmalsvektors, die typischerweise stark vom Rauschen beeinflusst werden, ohne großen Informationsverlust weggelassen werden können. Mit NumComponentsNumComponentsNumComponentsNumComponentsNumComponentsnumComponents wird festgelegt, wie viele der transformierten Komponenten verwendet werden sollen. Es können bis zu NumInputNumInputNumInputNumInputNumInputnumInput Komponenten selektiert werden. Mit Hilfe von get_prep_info_class_mlpget_prep_info_class_mlpGetPrepInfoClassMlpget_prep_info_class_mlpGetPrepInfoClassMlpGetPrepInfoClassMlp kann der Informationsgehalt der einzelnen transformierten Komponenten bestimmt werden, und somit NumComponentsNumComponentsNumComponentsNumComponentsNumComponentsnumComponents einfacher bestimmt werden. Wie die Normalisierung empfiehlt sich diese Transformation, wenn die Merkmalsvektoren Mittelwerte und Standardabweichungen haben, die sich stark von 0 bzw. 1 unterscheiden oder bei denen die Komponenten der Merkmalsvektoren nicht in denselben Einheiten gemessen werden, und wenn zusätzlich zu erwarten ist, dass die Merkmale stark korreliert sind.

Im Gegensatz zu den obigen drei Transformationen, welche für beliebige Typen des MLP verwendet werden können, kann die durch PreprocessingPreprocessingPreprocessingPreprocessingPreprocessingpreprocessing = 'canonical_variates'"canonical_variates""canonical_variates""canonical_variates""canonical_variates""canonical_variates" (kanonische Merkmale) spezifizierte Transformation nur verwendet werden, falls das MLP als Klassifikator mit OutputFunctionOutputFunctionOutputFunctionOutputFunctionOutputFunctionoutputFunction = 'softmax'"softmax""softmax""softmax""softmax""softmax" verwendet wird. In diesem Fall wird eine Transformation bestimmt, die die Trainingsvektoren zuerst normalisiert und dann im Mittel über alle Klassen dekorreliert. Gleichzeitig werden in den transformierten Trainingsvektoren die Mittelwerte der einzelnen Klassen möglichst weit separiert. Wie bei PreprocessingPreprocessingPreprocessingPreprocessingPreprocessingpreprocessing = 'principal_components'"principal_components""principal_components""principal_components""principal_components""principal_components" werden die transformierten Komponenten nach Informationsgehalt sortiert, so dass transformierte Merkmale mit wenig Informationsgehalt weggelassen werden können. Bei kanonischen Merkmalen können höchstens min(NumOutputNumOutputNumOutputNumOutputNumOutputnumOutput - 1, NumInputNumInputNumInputNumInputNumInputnumInput) Merkmale selektiert werden. Auch hier kann mit get_prep_info_class_mlpget_prep_info_class_mlpGetPrepInfoClassMlpget_prep_info_class_mlpGetPrepInfoClassMlpGetPrepInfoClassMlp der Informationsgehalt der einzelnen transformierten Komponenten bestimmt werden. Wie die Hauptachsentransformation können die kanonischen Merkmale dazu verwendet werden, die Datenmenge ohne großen Informationsverlust zu verringern, wobei zusätzlich noch die Trennbarkeit der Daten nach der Datenreduktion optimiert wird.

Für die letzten zwei Transformationsarten ('principal_components'"principal_components""principal_components""principal_components""principal_components""principal_components" und 'canonical_variates'"canonical_variates""canonical_variates""canonical_variates""canonical_variates""canonical_variates") bestimmt NumComponentsNumComponentsNumComponentsNumComponentsNumComponentsnumComponents die Anzahl der Einheiten in der Eingabeschicht, während NumInputNumInputNumInputNumInputNumInputnumInput die Dimensionalität der Eingabedaten (Länge des untransformierten Merkmalsvektors) bestimmt. Dadurch wird die Anzahl der Eingabevariablen des MLP geringer, und daher kann typischerweise auch die Anzahl der versteckten Einheiten des MLP geringer gewählt werden, wodurch sich normalerweise die Trainingszeit und die Evaluierungs- und Klassifikationszeit verringert.

Normalerweise sollte NumHiddenNumHiddenNumHiddenNumHiddenNumHiddennumHidden in der Größenordnung von NumInputNumInputNumInputNumInputNumInputnumInput und NumOutputNumOutputNumOutputNumOutputNumOutputnumOutput gewählt werden. In vielen Fällen führen auch viel kleinere Werte von NumHiddenNumHiddenNumHiddenNumHiddenNumHiddennumHidden schon zu sehr guten Klassifikationsergebnissen. Wenn NumHiddenNumHiddenNumHiddenNumHiddenNumHiddennumHidden zu groß gewählt wird, besteht die Gefahr, dass das MLP sich an die Trainingsdaten überanpasst, was zu schlechten Generalisierungseigenschaften führt, d.h. das MLP lernt die Trainingsdaten sehr gut, liefert aber auf unbekannten Daten keine besonders guten Ergebnisse.

create_class_mlpcreate_class_mlpCreateClassMlpcreate_class_mlpCreateClassMlpCreateClassMlp initialisiert die oben beschriebenen Gewichte mit Zufallszahlen. Damit die Ergebnisse des Trainierens des MLP mit train_class_mlptrain_class_mlpTrainClassMlptrain_class_mlpTrainClassMlpTrainClassMlp reproduzierbar werden, wird in RandSeedRandSeedRandSeedRandSeedRandSeedrandSeed der Initialisierungswert des Zufallszahlengenerators angegeben. Falls das Training einen relativ hohen Fehler zurückliefert, kann eventuell durch eine andere Wahl von RandSeedRandSeedRandSeedRandSeedRandSeedrandSeed und durch erneutes Trainieren ein kleinerer Trainingsfehler erreicht werden.

Nachdem das MLP erzeugt wurde, werden typischerweise mit add_sample_class_mlpadd_sample_class_mlpAddSampleClassMlpadd_sample_class_mlpAddSampleClassMlpAddSampleClassMlp oder read_samples_class_mlpread_samples_class_mlpReadSamplesClassMlpread_samples_class_mlpReadSamplesClassMlpReadSamplesClassMlp Trainingsdaten zum Netz hinzugefügt und das MLP mit train_class_mlptrain_class_mlpTrainClassMlptrain_class_mlpTrainClassMlpTrainClassMlp trainiert. Daraufhin kann das MLP mit write_class_mlpwrite_class_mlpWriteClassMlpwrite_class_mlpWriteClassMlpWriteClassMlp abgespeichert werden. Alternativ können auch sofort nach dem Training Daten mit evaluate_class_mlpevaluate_class_mlpEvaluateClassMlpevaluate_class_mlpEvaluateClassMlpEvaluateClassMlp bewertet werden oder (für OutputFunctionOutputFunctionOutputFunctionOutputFunctionOutputFunctionoutputFunction = 'softmax'"softmax""softmax""softmax""softmax""softmax") mit classify_class_mlpclassify_class_mlpClassifyClassMlpclassify_class_mlpClassifyClassMlpClassifyClassMlp klassifiziert werden.

Ein Vergleich zwischen MLP und Support-Vektor-Maschinen (SVM) (siehe create_class_svmcreate_class_svmCreateClassSvmcreate_class_svmCreateClassSvmCreateClassSvm) zeigt typischerweise, dass SVMs generell schneller traniert werden, insbesondere bei großen Trainingsdatensätzen, und eine leicht verbesserte Erkennungsrate haben. Das MLP weist schnellere Klassifikationszeiten auf und sollte daher in zeitkritischen Anwendungen verwendet werden. Es ist zu beachten, dass der Vergleich von optimal abgestimmten Parametern ausgeht.

Parallelisierung

Multithreading-Typ: exclusive (läuft parallel nur zu unabhängigen Operatoren).
Multithreading-Bereich: global (kann von jedem Thread aufgerufen werden).
Wird ohne Parallelisierung verarbeitet.

Parameter

NumInputNumInputNumInputNumInputNumInputnumInput (input_control) integer → (integer)

Anzahl der Eingabevariablen (Merkmale) des MLP.

Defaultwert: 20

Wertevorschläge: 1, 2, 3, 4, 5, 8, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90, 100

Restriktion: NumInput >= 1

NumHiddenNumHiddenNumHiddenNumHiddenNumHiddennumHidden (input_control) integer → (integer)

Anzahl der versteckten Einheiten des MLP.

Defaultwert: 10

Wertevorschläge: 1, 2, 3, 4, 5, 8, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90, 100, 120, 150

Restriktion: NumHidden >= 1

NumOutputNumOutputNumOutputNumOutputNumOutputnumOutput (input_control) integer → (integer)

Anzahl der Ausgabevariablen (Klassen) des MLP.

Defaultwert: 5

Wertevorschläge: 1, 2, 3, 4, 5, 8, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90, 100, 120, 150

Restriktion: NumOutput >= 1

OutputFunctionOutputFunctionOutputFunctionOutputFunctionOutputFunctionoutputFunction (input_control) string → (string)

Art der Aktivierungsfunktion in der Ausgabeschicht des MLP.

Defaultwert: 'softmax' "softmax" "softmax" "softmax" "softmax" "softmax"

Werteliste: 'linear'"linear""linear""linear""linear""linear", 'logistic'"logistic""logistic""logistic""logistic""logistic", 'softmax'"softmax""softmax""softmax""softmax""softmax"

PreprocessingPreprocessingPreprocessingPreprocessingPreprocessingpreprocessing (input_control) string → (string)

Art der Vorverarbeitung (Transformation) der Merkmalsvektoren.

Defaultwert: 'normalization' "normalization" "normalization" "normalization" "normalization" "normalization"

Werteliste: 'canonical_variates'"canonical_variates""canonical_variates""canonical_variates""canonical_variates""canonical_variates", 'none'"none""none""none""none""none", 'normalization'"normalization""normalization""normalization""normalization""normalization", 'principal_components'"principal_components""principal_components""principal_components""principal_components""principal_components"

NumComponentsNumComponentsNumComponentsNumComponentsNumComponentsnumComponents (input_control) integer → (integer)

Parameter der Vorverarbeitung: Anzahl der transformierten Merkmale (ignoriert bei PreprocessingPreprocessingPreprocessingPreprocessingPreprocessingpreprocessing = 'none'"none""none""none""none""none" und PreprocessingPreprocessingPreprocessingPreprocessingPreprocessingpreprocessing = 'normalization'"normalization""normalization""normalization""normalization""normalization").

Defaultwert: 10

Wertevorschläge: 1, 2, 3, 4, 5, 8, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90, 100

Restriktion: NumComponents >= 1

RandSeedRandSeedRandSeedRandSeedRandSeedrandSeed (input_control) integer → (integer)

Initialisierungswert des Zufallszahlengenerators, der zur Initialisierung des MLP mit zufälligen Werten verwendet wird.

Defaultwert: 42

MLPHandleMLPHandleMLPHandleMLPHandleMLPHandleMLPHandle (output_control) class_mlp → (integer)

Handle des MLP.

Beispiel (HDevelop)

* Use the MLP for regression (function approximation)
create_class_mlp (1, NHidden, 1, 'linear', 'none', 1, 42, MLPHandle)
* Generate the training data
* D = [...]
* T = [...]
* Add the training data
for J := 0 to NData-1 by 1
    add_sample_class_mlp (MLPHandle, D[J], T[J])
endfor
* Train the MLP
train_class_mlp (MLPHandle, 200, 0.001, 0.001, Error, ErrorLog)
* Generate test data
* X = [...]
* Compute the output of the MLP on the test data
for J := 0 to N-1 by 1
    evaluate_class_mlp (MLPHandle, X[J], Y)
endfor
clear_class_mlp (MLPHandle)

* Use the MLP for classification
create_class_mlp (NIn, NHidden, NOut, 'softmax', 'normalization', NIn,\
                  42, MLPHandle)
* Generate and add the training data
for J := 0 to NData-1 by 1
    * Generate training features and classes
    * Data = [...]
    * Class = [...]
    add_sample_class_mlp (MLPHandle, Data, Class)
endfor
* Train the MLP
train_class_mlp (MLPHandle, 100, 1, 0.01, Error, ErrorLog)
* Use the MLP to classify unknown data
for J := 0 to N-1 by 1
    * Extract features
    * Features = [...]
    classify_class_mlp (MLPHandle, Features, 1, Class, Confidence)
endfor
clear_class_mlp (MLPHandle)

create_class_svmcreate_class_svmCreateClassSvmcreate_class_svmCreateClassSvmCreateClassSvm, create_class_gmmcreate_class_gmmCreateClassGmmcreate_class_gmmCreateClassGmmCreateClassGmm, create_class_boxcreate_class_boxCreateClassBoxcreate_class_boxCreateClassBoxCreateClassBox

Siehe auch

clear_class_mlpclear_class_mlpClearClassMlpclear_class_mlpClearClassMlpClearClassMlp, train_class_mlptrain_class_mlpTrainClassMlptrain_class_mlpTrainClassMlpTrainClassMlp, classify_class_mlpclassify_class_mlpClassifyClassMlpclassify_class_mlpClassifyClassMlpClassifyClassMlp, evaluate_class_mlpevaluate_class_mlpEvaluateClassMlpevaluate_class_mlpEvaluateClassMlpEvaluateClassMlp

Literatur

Christopher M. Bishop: „Neural Networks for Pattern Recognition“; Oxford University Press, Oxford; 1995.
Andrew Webb: „Statistical Pattern Recognition“; Arnold, London; 1999.

Modul

Foundation

Operatoren

create_class_mlpcreate_class_mlpCreateClassMlpcreate_class_mlpCreateClassMlpCreateClassMlp (Operator)

Name

Signatur

Beschreibung

Parallelisierung

Parameter

Beispiel (HDevelop)

Ergebnis

Nachfolger

Alternativen

Siehe auch

Literatur

Modul