select_feature_set_svmT_select_feature_set_svmSelectFeatureSetSvmSelectFeatureSetSvm (Operator)

Name

select_feature_set_svmT_select_feature_set_svmSelectFeatureSetSvmSelectFeatureSetSvm — Wählt aus einer Liste an Merkmalen eine optimale Untermenge für ein bestimmtes Klassifikationsproblem aus.

Signatur

select_feature_set_svm( : : ClassTrainDataHandle, SelectionMethod, GenParamName, GenParamValue : SVMHandle, SelectedFeatureIndices, Score)

Beschreibung

select_feature_set_svmselect_feature_set_svmSelectFeatureSetSvmSelectFeatureSetSvmSelectFeatureSetSvm wählt die optimalen Merkmale für ein bestimmtes Klassifikationsproblem aus. Die Daten für das Klassifikationsproblem werden mit ClassTrainDataHandleClassTrainDataHandleClassTrainDataHandleClassTrainDataHandleclassTrainDataHandle angegeben. Als Klassifikator wird eine Support Vector Machine (SVM) verwendet.

In SVMHandleSVMHandleSVMHandleSVMHandleSVMHandle wird ein Klassifikator zurückgegeben, der mit der resultierenden Merkmalsauswahl parametrisiert und trainiert wurde. Die Merkmalsauswahl wird in SelectedFeatureIndicesSelectedFeatureIndicesSelectedFeatureIndicesSelectedFeatureIndicesselectedFeatureIndices zurückgegeben.

Der Operator kann für folgende Probleme nützlich sein: Es gibt eine Liste von Merkmalen von denen einige wenige für die Lösung eines Problems ausreichen. So kann mit Hilfe dieses Operators eine fundierte Entscheidung getroffen werden welche dieser Merkmale relevant für das gegebene Problem sind. Außerdem können für bestimmte Verfahren der Merkmalsextraktion verschiedene Parametersätze verglichen werden.

Um das Klassifikationsproblem zu definieren, werden dem Handle ClassTrainDataHandleClassTrainDataHandleClassTrainDataHandleClassTrainDataHandleclassTrainDataHandle Merkmalsvektoren hinzugefügt, die aus einzelnen Untergruppen bestehen. Diese Untergruppen müssen mit Hilfe des Operators set_feature_lengths_class_train_dataset_feature_lengths_class_train_dataSetFeatureLengthsClassTrainDataSetFeatureLengthsClassTrainDataSetFeatureLengthsClassTrainData festgelegt werden. Diese Untergruppen werden dann von dem in select_feature_set_svmselect_feature_set_svmSelectFeatureSetSvmSelectFeatureSetSvmSelectFeatureSetSvm ausgeführten Selektionsprozess entweder ausgewählt oder abgelehnt, je nachdem ob sie zur Lösung des Klassifikationsproblems beitragen.

Die so definierten Merkmale werden dann in SelectedFeatureIndicesSelectedFeatureIndicesSelectedFeatureIndicesSelectedFeatureIndicesselectedFeatureIndices mit ihrem Index referenziert, außer es wurden zusätzlich Namen beim Aufruf von set_feature_lengths_class_train_dataset_feature_lengths_class_train_dataSetFeatureLengthsClassTrainDataSetFeatureLengthsClassTrainDataSetFeatureLengthsClassTrainData gesetzt. Ist das der Fall, werden statt der Indizes die Namen der ausgewählten Merkmale zurückgegeben. Wurde set_feature_lengths_class_train_dataset_feature_lengths_class_train_dataSetFeatureLengthsClassTrainDataSetFeatureLengthsClassTrainDataSetFeatureLengthsClassTrainData zuvor nicht aufgerufen, werden die einzelnen Spalten als Merkmale interpretiert.

Für den Selektionsprozess können in SelectionMethodSelectionMethodSelectionMethodSelectionMethodselectionMethod zwei verschiedene Methoden ausgewählt werden: entweder die Greedy-Variante 'greedy'"greedy""greedy""greedy""greedy" (das momentan erfolgversprechendste Merkmal wird zur Auswahl hinzugefügt) oder die dynamisch oszilierende Suche 'greedy_oscillating'"greedy_oscillating""greedy_oscillating""greedy_oscillating""greedy_oscillating" (Das momentan erfolgversprechendste Merkmal wird zur Auswahl hinzugefügt. Danach wird getestet ob eines der hinzugefügten Merkmale entbehrlich ist.). Während 'greedy'"greedy""greedy""greedy""greedy" schneller terminiert, kann 'greedy_oscillating'"greedy_oscillating""greedy_oscillating""greedy_oscillating""greedy_oscillating" bessere Ergebnisse erzielen wenn die Dimensionen der Merkmale sehr klein ist oder redundante Daten vorliegen.

Als Optimierungskriterium dient die Klassifikationsrate, die mit einem zweifachen Kreuzvalidierungsverfahren ermittelt wird. Die beste erreichte Klassifikationsrate wird in ScoreScoreScoreScorescore zurückgegeben.

Die Parameter 'nu'"nu""nu""nu""nu" und 'gamma'"gamma""gamma""gamma""gamma", die für das SVM benötigt werden, können über die generischen Parameter GenParamNameGenParamNameGenParamNameGenParamNamegenParamName und GenParamValueGenParamValueGenParamValueGenParamValuegenParamValue entweder direkt auf einen Wert oder auf 'auto'"auto""auto""auto""auto" gesetzt werden. Wenn 'auto'"auto""auto""auto""auto" ausgewählt ist, wird für den entsprechenden Wert auch eine Optimierung durchgeführt. Diese automatische Schätzung kann die Ausführung der Merkmalsauswahl signifikant verlangsamen, was bei größeren Datensätzen zu Rechenzeiten im Bereich von Tagen führen kann. Zusätzlich kann in den generischen Parametern auch der SVM-Modus mit 'mode'"mode""mode""mode""mode" gewählt werden: Es stehen dabei die Varianten 'one-versus-all'"one-versus-all""one-versus-all""one-versus-all""one-versus-all" und 'one-versus-one'"one-versus-one""one-versus-one""one-versus-one""one-versus-one" zur Verfügung. Eine Erklärung für die beiden Varianten wie auch für 'nu'"nu""nu""nu""nu" und 'gamma'"gamma""gamma""gamma""gamma" als Kernelparameter des RBF-Kernels (RBF = radial basis function) findet sich in der Beschreibung von create_class_svmcreate_class_svmCreateClassSvmCreateClassSvmCreateClassSvm.

Achtung

Die Laufzeit dieses Operators kann mit größeren Datensätzen und einer längeren Merkmalsliste unter Umständen sehr lange sein.

Es ist zu beachten, dass dieser Operator nicht aufgerufen werden sollte, wenn für das Training nur ein kleiner Datensatz verfügbar ist. Auf Grund des Risikos der Überanpassung kann der Operator select_feature_set_svmselect_feature_set_svmSelectFeatureSetSvmSelectFeatureSetSvmSelectFeatureSetSvm zwar einerseits einen Klassifikator mit sehr hohem Score liefern. Andererseits weist der Klassifikator jedoch eine schlechte Erkennugsrate auf, wenn dieser getestet wird.

Ausführungsinformationen

Multithreading-Typ: reentrant (läuft parallel zu nicht-exklusiven Operatoren).
Multithreading-Bereich: global (kann von jedem Thread aufgerufen werden).
Automatisch parallelisiert auf interner Datenebene.

Dieser Operator liefert ein Handle zurück. Es ist zu beachten, dass der Zustand einer Instanz dieses Handletyps durch bestimmte Operatoren geändert werden kann, obwohl das Handle als Eingabeparameter in diesen Operatoren verwendet wird.

Parameter

ClassTrainDataHandleClassTrainDataHandleClassTrainDataHandleClassTrainDataHandleclassTrainDataHandle (input_control) class_train_data → (handle)

Handle der Trainingsdaten. Sollte zuvor in Untermerkmale aufgeteilt worden sein.

SelectionMethodSelectionMethodSelectionMethodSelectionMethodselectionMethod (input_control) string → (string)

Methode zur Auswahl der besten Merkmale.

Defaultwert: 'greedy' "greedy" "greedy" "greedy" "greedy"

Werteliste: 'greedy'"greedy""greedy""greedy""greedy", 'greedy_oscillating'"greedy_oscillating""greedy_oscillating""greedy_oscillating""greedy_oscillating"

GenParamNameGenParamNameGenParamNameGenParamNamegenParamName (input_control) string(-array) → (string)

Namen der generischen Parameter zum Steuern des Klassifikators und der Merkmalsauswahl.

Defaultwert: []

Werteliste: 'gamma'"gamma""gamma""gamma""gamma", 'mode'"mode""mode""mode""mode", 'nu'"nu""nu""nu""nu"

GenParamValueGenParamValueGenParamValueGenParamValuegenParamValue (input_control) number(-array) → (real / integer / string)

Werte der generischen Parameter zum Steuern des Klassifikators und der Merkmalsauswahl.

Defaultwert: []

Wertevorschläge: 0.02, 0.05, 'auto'"auto""auto""auto""auto", 'one-versus-one'"one-versus-one""one-versus-one""one-versus-one""one-versus-one", 'one-versus-all'"one-versus-all""one-versus-all""one-versus-all""one-versus-all"

SVMHandleSVMHandleSVMHandleSVMHandleSVMHandle (output_control) class_svm → (handle)

Trainierter Klassifikator.

SelectedFeatureIndicesSelectedFeatureIndicesSelectedFeatureIndicesSelectedFeatureIndicesselectedFeatureIndices (output_control) string-array → (string)

Die Indizes der ausgewählten Merkmale.

ScoreScoreScoreScorescore (output_control) real-array → (real)

Die Klassifikationsrate die mit dem ausgewählten Merkmalssatz erreicht wurde.

Beispiel (HDevelop)

* Find out which of the two features distinguishes two Classes
NameFeature1 := 'Good Feature'
NameFeature2 := 'Bad Feature'
LengthFeature1 := 3
LengthFeature2 := 2
* Create training data
create_class_train_data (LengthFeature1+LengthFeature2,\
  ClassTrainDataHandle)
* Define the features which are in the training data
set_feature_lengths_class_train_data (ClassTrainDataHandle, [LengthFeature1,\
  LengthFeature2], [NameFeature1, NameFeature2])
* Add training data
*                                                         |Feat1| |Feat2|
add_sample_class_train_data (ClassTrainDataHandle, 'row', [1,1,1,  2,1  ], 0)
add_sample_class_train_data (ClassTrainDataHandle, 'row', [2,2,2,  2,1  ], 1)
add_sample_class_train_data (ClassTrainDataHandle, 'row', [1,1,1,  3,4  ], 0)
add_sample_class_train_data (ClassTrainDataHandle, 'row', [2,2,2,  3,4  ], 1)
* Add more data 
* ...
* Select the better feature with a SVM
select_feature_set_svm (ClassTrainDataHandle, 'greedy', [], [], SVMHandle,\
  SelectedFeatureSVM, Score)
* Use the classifier
* ...

Ergebnis

Sind die Parameterwerte korrekt, dann liefert select_feature_set_svmselect_feature_set_svmSelectFeatureSetSvmSelectFeatureSetSvmSelectFeatureSetSvm den Wert 2 (H_MSG_TRUE). Gegebenenfalls wird eine Fehlerbehandlung durchgeführt.

Vorgänger

create_class_train_datacreate_class_train_dataCreateClassTrainDataCreateClassTrainDataCreateClassTrainData, add_sample_class_train_dataadd_sample_class_train_dataAddSampleClassTrainDataAddSampleClassTrainDataAddSampleClassTrainData, set_feature_lengths_class_train_dataset_feature_lengths_class_train_dataSetFeatureLengthsClassTrainDataSetFeatureLengthsClassTrainDataSetFeatureLengthsClassTrainData

Nachfolger

classify_class_svmclassify_class_svmClassifyClassSvmClassifyClassSvmClassifyClassSvm

Alternativen

select_feature_set_mlpselect_feature_set_mlpSelectFeatureSetMlpSelectFeatureSetMlpSelectFeatureSetMlp, select_feature_set_knnselect_feature_set_knnSelectFeatureSetKnnSelectFeatureSetKnnSelectFeatureSetKnn, select_feature_set_gmmselect_feature_set_gmmSelectFeatureSetGmmSelectFeatureSetGmmSelectFeatureSetGmm

Siehe auch

select_feature_set_trainf_svmselect_feature_set_trainf_svmSelectFeatureSetTrainfSvmSelectFeatureSetTrainfSvmSelectFeatureSetTrainfSvm, gray_featuresgray_featuresGrayFeaturesGrayFeaturesGrayFeatures, region_featuresregion_featuresRegionFeaturesRegionFeaturesRegionFeatures

Modul

Foundation

Operatoren