en/latest/CrossValidation_8cpp_source.html

 /*

  * This program is free software; you can redistribute it and/or modify

  * it under the terms of the GNU General Public License as published by

  * the Free Software Foundation; either version 3 of the License, or

  * (at your option) any later version.

  *

  * Written (W) 2011-2012 Heiko Strathmann

  * Copyright (C) 2011 Berlin Institute of Technology and Max-Planck-Society

  */


 #include <shogun/evaluation/CrossValidation.h>

 #include <shogun/machine/Machine.h>

 #include <shogun/evaluation/Evaluation.h>

 #include <shogun/evaluation/SplittingStrategy.h>

 #include <shogun/base/Parameter.h>

 #include <shogun/mathematics/Statistics.h>

 #include <shogun/evaluation/CrossValidationOutput.h>

 #include <shogun/lib/List.h>


 using namespace shogun;


 CCrossValidation::CCrossValidation() : CMachineEvaluation()

 {

     init();

 }


 CCrossValidation::CCrossValidation(CMachine* machine, CFeatures* features,

         CLabels* labels, CSplittingStrategy* splitting_strategy,

         CEvaluation* evaluation_criterion, bool autolock) :

         CMachineEvaluation(machine, features, labels, splitting_strategy,

         evaluation_criterion, autolock)

 {

     init();

 }


 CCrossValidation::CCrossValidation(CMachine* machine, CLabels* labels,

         CSplittingStrategy* splitting_strategy,

         CEvaluation* evaluation_criterion, bool autolock) :

         CMachineEvaluation(machine, labels, splitting_strategy, evaluation_criterion,

         autolock)

 {

     init();

 }


 CCrossValidation::~CCrossValidation()

 {

     SG_UNREF(m_xval_outputs);

 }


 void CCrossValidation::init()

 {

     m_num_runs=1;


     /* do reference counting for output objects */

     m_xval_outputs=new CList(true);


     SG_ADD(&m_num_runs, "num_runs", "Number of repetitions",

             MS_NOT_AVAILABLE);

     SG_ADD((CSGObject**)&m_xval_outputs, "m_xval_outputs", "List of output "

             "classes for intermediade cross-validation results",

             MS_NOT_AVAILABLE);

 }


 CEvaluationResult* CCrossValidation::evaluate()

 {

     SG_DEBUG("entering %s::evaluate()\n", get_name())


     REQUIRE(m_machine, "%s::evaluate() is only possible if a machine is "

             "attached\n", get_name());


     REQUIRE(m_features, "%s::evaluate() is only possible if features are "

             "attached\n", get_name());


     REQUIRE(m_labels, "%s::evaluate() is only possible if labels are "

             "attached\n", get_name());


     /* if for some reason the do_unlock_frag is set, unlock */

     if (m_do_unlock)

     {

         m_machine->data_unlock();

         m_do_unlock=false;

     }


     /* set labels in any case (no locking needs this) */

     m_machine->set_labels(m_labels);


     if (m_autolock)

     {

         /* if machine supports locking try to do so */

         if (m_machine->supports_locking())

         {

             /* only lock if machine is not yet locked */

             if (!m_machine->is_data_locked())

             {

                 m_machine->data_lock(m_labels, m_features);

                 m_do_unlock=true;

             }

         }

         else

         {

             SG_WARNING("%s does not support locking. Autolocking is skipped. "

                     "Set autolock flag to false to get rid of warning.\n",

                     m_machine->get_name());

         }

     }


     SGVector<float64_t> results(m_num_runs);


     /* evtl. update xvalidation output class */

     CCrossValidationOutput* current=(CCrossValidationOutput*)

             m_xval_outputs->get_first_element();

     while (current)

     {

         current->init_num_runs(m_num_runs);

         current->init_num_folds(m_splitting_strategy->get_num_subsets());

         current->init_expose_labels(m_labels);

         current->post_init();

         SG_UNREF(current);

         current=(CCrossValidationOutput*)

                 m_xval_outputs->get_next_element();

     }


     /* perform all the x-val runs */

     SG_DEBUG("starting %d runs of cross-validation\n", m_num_runs)

     for (index_t i=0; i <m_num_runs; ++i)

     {


         /* evtl. update xvalidation output class */

         current=(CCrossValidationOutput*)m_xval_outputs->get_first_element();

         while (current)

         {

             current->update_run_index(i);

             SG_UNREF(current);

             current=(CCrossValidationOutput*)

                     m_xval_outputs->get_next_element();

         }


         SG_DEBUG("entering cross-validation run %d \n", i)

         results[i]=evaluate_one_run();

         SG_DEBUG("result of cross-validation run %d is %f\n", i, results[i])

     }


     /* construct evaluation result */

     CCrossValidationResult* result = new CCrossValidationResult();

     result->mean=CStatistics::mean(results);

     if (m_num_runs>1)

         result->std_dev=CStatistics::std_deviation(results);

     else

         result->std_dev=0;


     /* unlock machine if it was locked in this method */

     if (m_machine->is_data_locked() && m_do_unlock)

     {

         m_machine->data_unlock();

         m_do_unlock=false;

     }


     SG_DEBUG("leaving %s::evaluate()\n", get_name())


     SG_REF(result);

     return result;

 }


 void CCrossValidation::set_num_runs(int32_t num_runs)

 {

     if (num_runs <1)

         SG_ERROR("%d is an illegal number of repetitions\n", num_runs)


     m_num_runs=num_runs;

 }


 float64_t CCrossValidation::evaluate_one_run()

 {

     SG_DEBUG("entering %s::evaluate_one_run()\n", get_name())

     index_t num_subsets=m_splitting_strategy->get_num_subsets();


     SG_DEBUG("building index sets for %d-fold cross-validation\n", num_subsets)


     /* build index sets */

     m_splitting_strategy->build_subsets();


     /* results array */

     SGVector<float64_t> results(num_subsets);


     /* different behavior whether data is locked or not */

     if (m_machine->is_data_locked())

     {

         SG_DEBUG("starting locked evaluation\n", get_name())

         /* do actual cross-validation */

         for (index_t i=0; i <num_subsets; ++i)

         {

             /* evtl. update xvalidation output class */

             CCrossValidationOutput* current=(CCrossValidationOutput*)

                     m_xval_outputs->get_first_element();

             while (current)

             {

                 current->update_fold_index(i);

                 SG_UNREF(current);

                 current=(CCrossValidationOutput*)

                         m_xval_outputs->get_next_element();

             }


             /* index subset for training, will be freed below */

             SGVector<index_t> inverse_subset_indices =

                     m_splitting_strategy->generate_subset_inverse(i);


             /* train machine on training features */

             m_machine->train_locked(inverse_subset_indices);


             /* feature subset for testing */

             SGVector<index_t> subset_indices =

                     m_splitting_strategy->generate_subset_indices(i);


             /* evtl. update xvalidation output class */

             current=(CCrossValidationOutput*)m_xval_outputs->get_first_element();

             while (current)

             {

                 current->update_train_indices(inverse_subset_indices, "\t");

                 current->update_trained_machine(m_machine, "\t");

                 SG_UNREF(current);

                 current=(CCrossValidationOutput*)

                         m_xval_outputs->get_next_element();

             }


             /* produce output for desired indices */

             CLabels* result_labels=m_machine->apply_locked(subset_indices);

             SG_REF(result_labels);


             /* set subset for testing labels */

             m_labels->add_subset(subset_indices);


             /* evaluate against own labels */

             m_evaluation_criterion->set_indices(subset_indices);

             results[i]=m_evaluation_criterion->evaluate(result_labels, m_labels);


             /* evtl. update xvalidation output class */

             current=(CCrossValidationOutput*)m_xval_outputs->get_first_element();

             while (current)

             {

                 current->update_test_indices(subset_indices, "\t");

                 current->update_test_result(result_labels, "\t");

                 current->update_test_true_result(m_labels, "\t");

                 current->post_update_results();

                 current->update_evaluation_result(results[i], "\t");

                 SG_UNREF(current);

                 current=(CCrossValidationOutput*)

                         m_xval_outputs->get_next_element();

             }


             /* remove subset to prevent side effects */

             m_labels->remove_subset();


             /* clean up */

             SG_UNREF(result_labels);


             SG_DEBUG("done locked evaluation\n", get_name())

         }

     }

     else

     {

         SG_DEBUG("starting unlocked evaluation\n", get_name())

         /* tell machine to store model internally

          * (otherwise changing subset of features will kaboom the classifier) */

         m_machine->set_store_model_features(true);


         /* do actual cross-validation */

         #pragma omp parallel for

         for (index_t i=0; i <num_subsets; ++i)

         {

             CMachine* machine;

             CFeatures* features;

             CLabels* labels;


             if (get_global_parallel()->get_num_threads()==1)

                 machine=m_machine;

             else

                 machine=(CMachine*)m_machine->clone();


             /* evtl. update xvalidation output class */

             CCrossValidationOutput* current=(CCrossValidationOutput*)

                     m_xval_outputs->get_first_element();

             #pragma omp critical

             {

             while (current)

             {

                 current->update_fold_index(i);

                 SG_UNREF(current);

                 current=(CCrossValidationOutput*)

                         m_xval_outputs->get_next_element();

             }

             }


             /* set feature subset for training */

             SGVector<index_t> inverse_subset_indices=

                     m_splitting_strategy->generate_subset_inverse(i);


             if (get_global_parallel()->get_num_threads()==1)

                 features=m_features;

             else

                 features=(CFeatures*)m_features->clone();


             features->add_subset(inverse_subset_indices);


             /* set label subset for training */

             if (get_global_parallel()->get_num_threads()==1)

                 labels=m_labels;

             else

                 labels=machine->get_labels();

             labels->add_subset(inverse_subset_indices);


             SG_DEBUG("training set %d:\n", i)

             if (io->get_loglevel()==MSG_DEBUG)

             {

                 SGVector<index_t>::display_vector(inverse_subset_indices.vector,

                         inverse_subset_indices.vlen, "training indices");

             }


             /* train machine on training features and remove subset */

             SG_DEBUG("starting training\n")

             machine->train(features);

             SG_DEBUG("finished training\n")


             /* evtl. update xvalidation output class */

             #pragma omp critical

             {

             current=(CCrossValidationOutput*)m_xval_outputs->get_first_element();

             while (current)

             {

                 current->update_train_indices(inverse_subset_indices, "\t");

                 current->update_trained_machine(machine, "\t");

                 SG_UNREF(current);

                 current=(CCrossValidationOutput*)

                         m_xval_outputs->get_next_element();

             }

             }


             features->remove_subset();

             labels->remove_subset();


             /* set feature subset for testing (subset method that stores pointer) */

             SGVector<index_t> subset_indices =

                     m_splitting_strategy->generate_subset_indices(i);

             features->add_subset(subset_indices);


             /* set label subset for testing */

             labels->add_subset(subset_indices);


             SG_DEBUG("test set %d:\n", i)

             if (io->get_loglevel()==MSG_DEBUG)

             {

                 SGVector<index_t>::display_vector(subset_indices.vector,

                         subset_indices.vlen, "test indices");

             }


             /* apply machine to test features and remove subset */

             SG_DEBUG("starting evaluation\n")

             SG_DEBUG("%p\n", features)

             CLabels* result_labels=machine->apply(features);

             SG_DEBUG("finished evaluation\n")

             features->remove_subset();

             SG_REF(result_labels);


             /* evaluate */

             #pragma omp critical

             {

             results[i]=m_evaluation_criterion->evaluate(result_labels, labels);

             SG_DEBUG("result on fold %d is %f\n", i, results[i])

             }


             /* evtl. update xvalidation output class */

             #pragma omp critical

             {

             current=(CCrossValidationOutput*)m_xval_outputs->get_first_element();

             while (current)

             {

                 current->update_test_indices(subset_indices, "\t");

                 current->update_test_result(result_labels, "\t");

                 current->update_test_true_result(labels, "\t");

                 current->post_update_results();

                 current->update_evaluation_result(results[i], "\t");

                 SG_UNREF(current);

                 current=(CCrossValidationOutput*)

                         m_xval_outputs->get_next_element();

             }

             }


             /* clean up, remove subsets */

             labels->remove_subset();

             if (get_global_parallel()->get_num_threads()!=1)

             {

                 SG_UNREF(machine);

                 SG_UNREF(features);

                 SG_UNREF(labels);

             }

             SG_UNREF(result_labels);

         }


         SG_DEBUG("done unlocked evaluation\n", get_name())

     }


     /* build arithmetic mean of results */

     float64_t mean=CStatistics::mean(results);


     SG_DEBUG("leaving %s::evaluate_one_run()\n", get_name())

     return mean;

 }


 void CCrossValidation::add_cross_validation_output(

             CCrossValidationOutput* cross_validation_output)

 {

     m_xval_outputs->append_element(cross_validation_output);

 }

shogun::CCrossValidationOutput::update_fold_index
virtual void update_fold_index(index_t fold_index, const char *prefix="")
Definition: CrossValidationOutput.h:105

shogun::CSplittingStrategy::build_subsets
virtual void build_subsets()=0

shogun::CSGObject::io
SGIO * io
Definition: SGObject.h:537

shogun::CSplittingStrategy::get_num_subsets
index_t get_num_subsets() const
Definition: SplittingStrategy.cpp:128

shogun::CCrossValidationOutput::update_train_indices
virtual void update_train_indices(SGVector< index_t > indices, const char *prefix="")
Definition: CrossValidationOutput.h:116

shogun::CSGObject::get_global_parallel
Parallel * get_global_parallel()
Definition: SGObject.cpp:310

shogun::CList::get_next_element
CSGObject * get_next_element()
Definition: List.h:185

shogun::MSG_DEBUG
Definition: SGIO.h:47

CrossValidation.h

shogun::CMachine::apply_locked
virtual CLabels * apply_locked(SGVector< index_t > indices)
Definition: Machine.cpp:187

index_t
int32_t index_t
Definition: common.h:62

SplittingStrategy.h

shogun::CLabels
The class Labels models labels, i.e. class assignments of objects.
Definition: Labels.h:43

shogun::CSGObject::clone
virtual CSGObject * clone()
Definition: SGObject.cpp:747

shogun::CStatistics::std_deviation
static float64_t std_deviation(SGVector< float64_t > values)
Definition: Statistics.cpp:120

shogun::CCrossValidationResult::std_dev
float64_t std_dev
Definition: CrossValidation.h:85

Parameter.h

shogun::CCrossValidation::evaluate
virtual CEvaluationResult * evaluate()
Definition: CrossValidation.cpp:64

shogun::CCrossValidation::m_num_runs
int32_t m_num_runs
Definition: CrossValidation.h:184

shogun::CEvaluation::evaluate
virtual float64_t evaluate(CLabels *predicted, CLabels *ground_truth)=0

shogun::CCrossValidationOutput::update_test_true_result
virtual void update_test_true_result(CLabels *results, const char *prefix="")
Definition: CrossValidationOutput.h:148

shogun::CSplittingStrategy
Abstract base class for all splitting types. Takes a CLabels instance and generates a desired number ...
Definition: SplittingStrategy.h:42

shogun::CCrossValidationOutput::init_num_runs
virtual void init_num_runs(index_t num_runs, const char *prefix="")
Definition: CrossValidationOutput.h:67

Statistics.h

shogun::CMachineEvaluation::m_evaluation_criterion
CEvaluation * m_evaluation_criterion
Definition: MachineEvaluation.h:108

SG_ERROR
#define SG_ERROR(...)
Definition: SGIO.h:129

REQUIRE
#define REQUIRE(x,...)
Definition: SGIO.h:206

shogun::CCrossValidationOutput::update_test_indices
virtual void update_test_indices(SGVector< index_t > indices, const char *prefix="")
Definition: CrossValidationOutput.h:124

CrossValidationOutput.h

shogun::CCrossValidationResult
type to encapsulate the results of an evaluation run.
Definition: CrossValidation.h:28

shogun::CMachine::get_name
virtual const char * get_name() const
Definition: Machine.h:305

shogun::CMachine::train_locked
virtual bool train_locked(SGVector< index_t > indices)
Definition: Machine.h:239

SG_REF
#define SG_REF(x)
Definition: SGObject.h:54

shogun::CCrossValidation::set_num_runs
void set_num_runs(int32_t num_runs)
Definition: CrossValidation.cpp:164

shogun::CMachineEvaluation::m_machine
CMachine * m_machine
Definition: MachineEvaluation.h:96

shogun::CMachine
A generic learning machine interface.
Definition: Machine.h:143

shogun::MS_NOT_AVAILABLE
Definition: SGObject.h:92

shogun::CEvaluation::set_indices
virtual void set_indices(SGVector< index_t > indices)
Definition: Evaluation.h:63

shogun::SGVector::display_vector
void display_vector(const char *name="vector", const char *prefix="") const
Definition: SGVector.cpp:354

shogun::CMachineEvaluation::m_features
CFeatures * m_features
Definition: MachineEvaluation.h:99

shogun::CCrossValidationOutput::update_trained_machine
virtual void update_trained_machine(CMachine *machine, const char *prefix="")
Definition: CrossValidationOutput.h:132

shogun::SGVector::vlen
index_t vlen
Definition: SGVector.h:494

shogun::CList::get_first_element
CSGObject * get_first_element()
Definition: List.h:151

shogun::SGVector::vector
T * vector
Definition: SGVector.h:492

shogun::CMachine::set_store_model_features
virtual void set_store_model_features(bool store_model)
Definition: Machine.cpp:107

shogun::CCrossValidationOutput
Class for managing individual folds in cross-validation.
Definition: CrossValidationOutput.h:43

shogun::CSGObject
Class SGObject is the base class of all shogun objects.
Definition: SGObject.h:115

shogun::SGVector< float64_t >

shogun::CCrossValidationResult::mean
float64_t mean
Definition: CrossValidation.h:83

shogun::CCrossValidation::m_xval_outputs
CList * m_xval_outputs
Definition: CrossValidation.h:187

float64_t
double float64_t
Definition: common.h:50

shogun::CMachine::data_unlock
virtual void data_unlock()
Definition: Machine.cpp:143

shogun::CCrossValidation::get_name
virtual const char * get_name() const
Definition: CrossValidation.h:164

shogun::CMachine::data_lock
virtual void data_lock(CLabels *labs, CFeatures *features)
Definition: Machine.cpp:112

shogun::CLabels::remove_subset
virtual void remove_subset()
Definition: Labels.cpp:49

shogun::CEvaluationResult
Abstract class that contains the result generated by the MachineEvaluation class. ...
Definition: EvaluationResult.h:32

shogun::CMachineEvaluation
Machine Evaluation is an abstract class that evaluates a machine according to some criterion...
Definition: MachineEvaluation.h:36

shogun::CMachine::get_labels
virtual CLabels * get_labels()
Definition: Machine.cpp:76

shogun::CLabels::add_subset
virtual void add_subset(SGVector< index_t > subset)
Definition: Labels.cpp:39

shogun::CSplittingStrategy::generate_subset_inverse
SGVector< index_t > generate_subset_inverse(index_t subset_idx)
Definition: SplittingStrategy.cpp:100

List.h

shogun::CStatistics::mean
static floatmax_t mean(SGVector< T > vec)
Definition: Statistics.h:42

shogun::CMachineEvaluation::m_do_unlock
bool m_do_unlock
Definition: MachineEvaluation.h:114

shogun::SGIO::get_loglevel
EMessageType get_loglevel() const
Definition: SGIO.cpp:285

shogun::CCrossValidationOutput::update_test_result
virtual void update_test_result(CLabels *results, const char *prefix="")
Definition: CrossValidationOutput.h:140

shogun::CMachine::supports_locking
virtual bool supports_locking() const
Definition: Machine.h:293

shogun::CCrossValidationOutput::post_update_results
virtual void post_update_results()
Definition: CrossValidationOutput.h:153

Machine.h

shogun::CCrossValidation::evaluate_one_run
virtual float64_t evaluate_one_run()
Definition: CrossValidation.cpp:172

SG_UNREF
#define SG_UNREF(x)
Definition: SGObject.h:55

SG_DEBUG
#define SG_DEBUG(...)
Definition: SGIO.h:107

shogun
all of classes and functions are contained in the shogun namespace
Definition: class_list.h:18

shogun::CCrossValidation::~CCrossValidation
virtual ~CCrossValidation()
Definition: CrossValidation.cpp:45

shogun::CSplittingStrategy::generate_subset_indices
SGVector< index_t > generate_subset_indices(index_t subset_idx)
Definition: SplittingStrategy.cpp:76

shogun::CFeatures::remove_subset
virtual void remove_subset()
Definition: Features.cpp:322

shogun::CCrossValidationOutput::update_evaluation_result
virtual void update_evaluation_result(float64_t result, const char *prefix="")
Definition: CrossValidationOutput.h:160

shogun::CFeatures
The class Features is the base class of all feature objects.
Definition: Features.h:68

shogun::CCrossValidation::CCrossValidation
CCrossValidation()
Definition: CrossValidation.cpp:22

shogun::CList::append_element
bool append_element(CSGObject *data)
Definition: List.h:331

Evaluation.h

shogun::CMachine::train
virtual bool train(CFeatures *data=NULL)
Definition: Machine.cpp:39

shogun::CMachineEvaluation::m_autolock
bool m_autolock
Definition: MachineEvaluation.h:111

shogun::CCrossValidation::add_cross_validation_output
void add_cross_validation_output(CCrossValidationOutput *cross_validation_output)
Definition: CrossValidation.cpp:408

SG_WARNING
#define SG_WARNING(...)
Definition: SGIO.h:128

SG_ADD
#define SG_ADD(...)
Definition: SGObject.h:84

shogun::CCrossValidationOutput::init_expose_labels
virtual void init_expose_labels(CLabels *labels)
Definition: CrossValidationOutput.h:84

shogun::CMachine::set_labels
virtual void set_labels(CLabels *lab)
Definition: Machine.cpp:65

shogun::CMachine::is_data_locked
bool is_data_locked() const
Definition: Machine.h:296

shogun::CCrossValidationOutput::init_num_folds
virtual void init_num_folds(index_t num_folds, const char *prefix="")
Definition: CrossValidationOutput.h:76

shogun::CMachineEvaluation::m_labels
CLabels * m_labels
Definition: MachineEvaluation.h:102

shogun::CCrossValidationOutput::update_run_index
virtual void update_run_index(index_t run_index, const char *prefix="")
Definition: CrossValidationOutput.h:94

shogun::CCrossValidationOutput::post_init
virtual void post_init()
Definition: CrossValidationOutput.h:87

shogun::CEvaluation
Class Evaluation, a base class for other classes used to evaluate labels, e.g. accuracy of classifica...
Definition: Evaluation.h:40

shogun::CMachineEvaluation::m_splitting_strategy
CSplittingStrategy * m_splitting_strategy
Definition: MachineEvaluation.h:105

shogun::CFeatures::add_subset
virtual void add_subset(SGVector< index_t > subset)
Definition: Features.cpp:310

shogun::CList
Class List implements a doubly connected list for low-level-objects.
Definition: List.h:84

shogun::CMachine::apply
virtual CLabels * apply(CFeatures *data=NULL)
Definition: Machine.cpp:152