en/latest/PCA_8cpp_source.html

 /*

  * This program is free software; you can redistribute it and/or modify

  * it under the terms of the GNU General Public License as published by

  * the Free Software Foundation; either version 3 of the License, or

  * (at your option) any later version.

  *

  * Written (W) 1999-2008 Gunnar Raetsch

  * Written (W) 1999-2008,2011 Soeren Sonnenburg

  * Written (W) 2014 Parijat Mazumdar

  * Copyright (C) 1999-2009 Fraunhofer Institute FIRST and Max-Planck-Society

  * Copyright (C) 2011 Berlin Institute of Technology

  */

 #include <shogun/lib/config.h>


 #include <shogun/preprocessor/PCA.h>

 #include <shogun/mathematics/Math.h>

 #include <shogun/preprocessor/DensePreprocessor.h>

 #include <shogun/features/Features.h>

 #include <shogun/io/SGIO.h>

 #include <shogun/mathematics/eigen3.h>


 using namespace shogun;

 using namespace Eigen;


 CPCA::CPCA(bool do_whitening, EPCAMode mode, float64_t thresh, EPCAMethod method, EPCAMemoryMode mem_mode)

 : CDimensionReductionPreprocessor()

 {

     init();

     m_whitening = do_whitening;

     m_mode = mode;

     m_thresh = thresh;

     m_mem_mode = mem_mode;

     m_method = method;

 }


 CPCA::CPCA(EPCAMethod method, bool do_whitening, EPCAMemoryMode mem_mode)

 : CDimensionReductionPreprocessor()

 {

     init();

     m_whitening = do_whitening;

     m_mem_mode = mem_mode;

     m_method = method;

 }


 void CPCA::init()

 {

     m_transformation_matrix = SGMatrix<float64_t>();

     m_mean_vector = SGVector<float64_t>();

     m_eigenvalues_vector = SGVector<float64_t>();

     num_dim = 0;

     m_initialized = false;

     m_whitening = false;

     m_mode = FIXED_NUMBER;

     m_thresh = 1e-6;

     m_mem_mode = MEM_REALLOCATE;

     m_method = AUTO;

     m_eigenvalue_zero_tolerance=1e-15;


     SG_ADD(&m_transformation_matrix, "transformation_matrix",

         "Transformation matrix (Eigenvectors of covariance matrix).",

         MS_NOT_AVAILABLE);

     SG_ADD(&m_mean_vector, "mean_vector", "Mean Vector.", MS_NOT_AVAILABLE);

     SG_ADD(&m_eigenvalues_vector, "eigenvalues_vector",

         "Vector with Eigenvalues.", MS_NOT_AVAILABLE);

     SG_ADD(&m_initialized, "initalized", "True when initialized.",

         MS_NOT_AVAILABLE);

     SG_ADD(&m_whitening, "whitening", "Whether data shall be whitened.",

         MS_AVAILABLE);

     SG_ADD((machine_int_t*) &m_mode, "mode", "PCA Mode.", MS_AVAILABLE);

     SG_ADD(&m_thresh, "m_thresh", "Cutoff threshold.", MS_AVAILABLE);

     SG_ADD((machine_int_t*) &m_mem_mode, "m_mem_mode",

         "Memory mode (in-place or reallocation).", MS_NOT_AVAILABLE);

     SG_ADD((machine_int_t*) &m_method, "m_method",

         "Method used for PCA calculation", MS_NOT_AVAILABLE);

     SG_ADD(&m_eigenvalue_zero_tolerance, "eigenvalue_zero_tolerance", "zero tolerance"

     " for determining zero eigenvalues during whitening to avoid numerical issues", MS_NOT_AVAILABLE);

 }


 CPCA::~CPCA()

 {

 }


 bool CPCA::init(CFeatures* features)

 {

     if (!m_initialized)

     {

         REQUIRE(features->get_feature_class()==C_DENSE, "PCA only works with dense features")

         REQUIRE(features->get_feature_type()==F_DREAL, "PCA only works with real features")


         SGMatrix<float64_t> feature_matrix = ((CDenseFeatures<float64_t>*)features)

                                     ->get_feature_matrix();

         int32_t num_vectors = feature_matrix.num_cols;

         int32_t num_features = feature_matrix.num_rows;

         SG_INFO("num_examples: %ld num_features: %ld \n", num_vectors, num_features)


         // max target dim allowed

         int32_t max_dim_allowed = CMath::min(num_vectors, num_features);

         num_dim=0;


         REQUIRE(m_target_dim<=max_dim_allowed,

              "target dimension should be less or equal to than minimum of N and D")


         // center data

         Map<MatrixXd> fmatrix(feature_matrix.matrix, num_features, num_vectors);

         m_mean_vector = SGVector<float64_t>(num_features);

         Map<VectorXd> data_mean(m_mean_vector.vector, num_features);

         data_mean = fmatrix.rowwise().sum()/(float64_t) num_vectors;

         fmatrix = fmatrix.colwise()-data_mean;


         m_eigenvalues_vector = SGVector<float64_t>(max_dim_allowed);

         Map<VectorXd> eigenValues(m_eigenvalues_vector.vector, max_dim_allowed);


         if (m_method == AUTO)

             m_method = (num_vectors>num_features) ? EVD : SVD;


         if (m_method == EVD)

         {

             // covariance matrix

             MatrixXd cov_mat(num_features, num_features);

             cov_mat = fmatrix*fmatrix.transpose();

             cov_mat /= (num_vectors-1);


             SG_INFO("Computing Eigenvalues ... ")

             // eigen value computed

             SelfAdjointEigenSolver<MatrixXd> eigenSolve =

                     SelfAdjointEigenSolver<MatrixXd>(cov_mat);

             eigenValues = eigenSolve.eigenvalues().tail(max_dim_allowed);


             // target dimension

             switch (m_mode)

             {

                 case FIXED_NUMBER :

                     num_dim = m_target_dim;

                     break;


                 case VARIANCE_EXPLAINED :

                     {

                         float64_t eig_sum = eigenValues.sum();

                         float64_t com_sum = 0;

                         for (int32_t i=num_features-1; i<-1; i++)

                         {

                             num_dim++;

                             com_sum += m_eigenvalues_vector.vector[i];

                             if (com_sum/eig_sum>=m_thresh)

                                 break;

                         }

                     }

                     break;


                 case THRESHOLD :

                     for (int32_t i=num_features-1; i<-1; i++)

                     {

                         if (m_eigenvalues_vector.vector[i]>m_thresh)

                             num_dim++;

                         else

                             break;

                     }

                     break;

             };

             SG_INFO("Done\nReducing from %i to %i features..", num_features, num_dim)


             m_transformation_matrix = SGMatrix<float64_t>(num_features,num_dim);

             Map<MatrixXd> transformMatrix(m_transformation_matrix.matrix,

                                  num_features, num_dim);

             num_old_dim = num_features;


             // eigenvector matrix

             transformMatrix = eigenSolve.eigenvectors().block(0,

                         num_features-num_dim, num_features,num_dim);

             if (m_whitening)

             {

                 for (int32_t i=0; i<num_dim; i++)

                 {

                     if (CMath::fequals_abs<float64_t>(0.0, eigenValues[i+max_dim_allowed-num_dim],

                                             m_eigenvalue_zero_tolerance))

                     {

                         SG_WARNING("Covariance matrix has almost zero Eigenvalue (ie "

                             "Eigenvalue within a tolerance of %E around 0) at "

                             "dimension %d. Consider reducing its dimension.",

                             m_eigenvalue_zero_tolerance, i+max_dim_allowed-num_dim+1)


                         transformMatrix.col(i) = MatrixXd::Zero(num_features,1);

                         continue;

                     }


                     transformMatrix.col(i) /=

                     CMath::sqrt(eigenValues[i+max_dim_allowed-num_dim]*(num_vectors-1));

                 }

             }

         }


         else

         {

             // compute SVD of data matrix

             JacobiSVD<MatrixXd> svd(fmatrix.transpose(), ComputeThinU | ComputeThinV);


             // compute non-negative eigen values from singular values

             eigenValues = svd.singularValues();

             eigenValues = eigenValues.cwiseProduct(eigenValues)/(num_vectors-1);


             // target dimension

             switch (m_mode)

             {

                 case FIXED_NUMBER :

                     num_dim = m_target_dim;

                     break;


                 case VARIANCE_EXPLAINED :

                     {

                         float64_t eig_sum = eigenValues.sum();

                         float64_t com_sum = 0;

                         for (int32_t i=0; i<num_features; i++)

                         {

                             num_dim++;

                             com_sum += m_eigenvalues_vector.vector[i];

                             if (com_sum/eig_sum>=m_thresh)

                                 break;

                         }

                     }

                     break;


                 case THRESHOLD :

                     for (int32_t i=0; i<num_features; i++)

                     {

                         if (m_eigenvalues_vector.vector[i]>m_thresh)

                             num_dim++;

                         else

                             break;

                     }

                     break;

             };

             SG_INFO("Done\nReducing from %i to %i features..", num_features, num_dim)


             // right singular vectors form eigenvectors

             m_transformation_matrix = SGMatrix<float64_t>(num_features,num_dim);

             Map<MatrixXd> transformMatrix(m_transformation_matrix.matrix, num_features, num_dim);

             num_old_dim = num_features;

             transformMatrix = svd.matrixV().block(0, 0, num_features, num_dim);

             if (m_whitening)

             {

                 for (int32_t i=0; i<num_dim; i++)

                 {

                     if (CMath::fequals_abs<float64_t>(0.0, eigenValues[i],

                                 m_eigenvalue_zero_tolerance))

                     {

                         SG_WARNING("Covariance matrix has almost zero Eigenvalue (ie "

                             "Eigenvalue within a tolerance of %E around 0) at "

                             "dimension %d. Consider reducing its dimension.",

                             m_eigenvalue_zero_tolerance, i+1)


                         transformMatrix.col(i) = MatrixXd::Zero(num_features,1);

                         continue;

                     }


                     transformMatrix.col(i) /= CMath::sqrt(eigenValues[i]*(num_vectors-1));

                 }

             }

         }


         // restore feature matrix

         fmatrix = fmatrix.colwise()+data_mean;

         m_initialized = true;

         return true;

     }


     return false;

 }


 void CPCA::cleanup()

 {

     m_transformation_matrix=SGMatrix<float64_t>();

         m_mean_vector = SGVector<float64_t>();

         m_eigenvalues_vector = SGVector<float64_t>();

     m_initialized = false;

 }


 SGMatrix<float64_t> CPCA::apply_to_feature_matrix(CFeatures* features)

 {

     ASSERT(m_initialized)

     ASSERT(features != NULL)

     SGMatrix<float64_t> m = ((CDenseFeatures<float64_t>*) features)->get_feature_matrix();

     int32_t num_vectors = m.num_cols;

     int32_t num_features = m.num_rows;


     SG_INFO("Transforming feature matrix\n")

     Map<MatrixXd> transform_matrix(m_transformation_matrix.matrix,

             m_transformation_matrix.num_rows, m_transformation_matrix.num_cols);


     if (m_mem_mode == MEM_IN_PLACE)

     {

         if (m.matrix)

         {

             SG_INFO("Preprocessing feature matrix\n")

             Map<MatrixXd> feature_matrix(m.matrix, num_features, num_vectors);

             VectorXd data_mean = feature_matrix.rowwise().sum()/(float64_t) num_vectors;

             feature_matrix = feature_matrix.colwise()-data_mean;


             feature_matrix.block(0,0,num_dim,num_vectors) =

                     transform_matrix.transpose()*feature_matrix;


             SG_INFO("Form matrix of target dimension")

             for (int32_t col=0; col<num_vectors; col++)

             {

                 for (int32_t row=0; row<num_dim; row++)

                     m.matrix[col*num_dim+row] = feature_matrix(row,col);

             }

             m.num_rows = num_dim;

             m.num_cols = num_vectors;

         }


         ((CDenseFeatures<float64_t>*) features)->set_feature_matrix(m);

         return m;

     }

     else

     {

         SGMatrix<float64_t> ret(num_dim, num_vectors);

         Map<MatrixXd> ret_matrix(ret.matrix, num_dim, num_vectors);

         if (m.matrix)

         {

             SG_INFO("Preprocessing feature matrix\n")

             Map<MatrixXd> feature_matrix(m.matrix, num_features, num_vectors);

             VectorXd data_mean = feature_matrix.rowwise().sum()/(float64_t) num_vectors;

             feature_matrix = feature_matrix.colwise()-data_mean;


             ret_matrix = transform_matrix.transpose()*feature_matrix;

         }

         ((CDenseFeatures<float64_t>*) features)->set_feature_matrix(ret);

         return ret;

     }

 }


 SGVector<float64_t> CPCA::apply_to_feature_vector(SGVector<float64_t> vector)

 {

     SGVector<float64_t> result = SGVector<float64_t>(num_dim);

     Map<VectorXd> resultVec(result.vector, num_dim);

     Map<VectorXd> inputVec(vector.vector, vector.vlen);


     Map<VectorXd> mean(m_mean_vector.vector, m_mean_vector.vlen);

     Map<MatrixXd> transformMat(m_transformation_matrix.matrix,

          m_transformation_matrix.num_rows, m_transformation_matrix.num_cols);


     inputVec = inputVec-mean;

     resultVec = transformMat.transpose()*inputVec;

     inputVec = inputVec+mean;


     return result;

 }


 SGMatrix<float64_t> CPCA::get_transformation_matrix()

 {

     return m_transformation_matrix;

 }


 SGVector<float64_t> CPCA::get_eigenvalues()

 {

     return m_eigenvalues_vector;

 }


 SGVector<float64_t> CPCA::get_mean()

 {

     return m_mean_vector;

 }


 EPCAMemoryMode CPCA::get_memory_mode() const

 {

     return m_mem_mode;

 }


 void CPCA::set_memory_mode(EPCAMemoryMode e)

 {

     m_mem_mode = e;

 }


 void CPCA::set_eigenvalue_zero_tolerance(float64_t eigenvalue_zero_tolerance)

 {

     m_eigenvalue_zero_tolerance = eigenvalue_zero_tolerance;

 }


 float64_t CPCA::get_eigenvalue_zero_tolerance() const

 {

     return m_eigenvalue_zero_tolerance;

 }


shogun::CPCA::set_memory_mode
void set_memory_mode(EPCAMemoryMode e)
Definition: PCA.cpp:369

shogun::SVD
Definition: PCA.h:33

shogun::CDimensionReductionPreprocessor
the class DimensionReductionPreprocessor, a base class for preprocessors used to lower the dimensiona...
Definition: DimensionReductionPreprocessor.h:32

shogun::CPCA::m_mem_mode
EPCAMemoryMode m_mem_mode
Definition: PCA.h:220

SG_INFO
#define SG_INFO(...)
Definition: SGIO.h:118

shogun::CPCA::m_mean_vector
SGVector< float64_t > m_mean_vector
Definition: PCA.h:208

shogun::CPCA::num_old_dim
int32_t num_old_dim
Definition: PCA.h:206

shogun::AUTO
Definition: PCA.h:31

shogun::CDenseFeatures< float64_t >

shogun::FIXED_NUMBER
Definition: PCA.h:48

Math.h

shogun::CPCA::m_mode
EPCAMode m_mode
Definition: PCA.h:216

shogun::SGMatrix::matrix
T * matrix
Definition: SGMatrix.h:372

SGIO.h

eigen3.h

shogun::CPCA::set_eigenvalue_zero_tolerance
void set_eigenvalue_zero_tolerance(float64_t eigenvalue_zero_tolerance=1e-15)
Definition: PCA.cpp:374

Eigen::Map
Definition: SGMatrix.h:24

shogun::EPCAMemoryMode
EPCAMemoryMode
Definition: PCA.h:52

shogun::CPCA::cleanup
virtual void cleanup()
Definition: PCA.cpp:269

Eigen
Definition: SGMatrix.h:20

config.h

REQUIRE
#define REQUIRE(x,...)
Definition: SGIO.h:206

shogun::CPCA::m_eigenvalues_vector
SGVector< float64_t > m_eigenvalues_vector
Definition: PCA.h:210

shogun::SGMatrix::num_cols
index_t num_cols
Definition: SGMatrix.h:376

shogun::CPCA::m_thresh
float64_t m_thresh
Definition: PCA.h:218

shogun::CPCA::get_eigenvalue_zero_tolerance
float64_t get_eigenvalue_zero_tolerance() const
Definition: PCA.cpp:379

shogun::SGMatrix::num_rows
index_t num_rows
Definition: SGMatrix.h:374

shogun::SGMatrix< float64_t >

shogun::MS_NOT_AVAILABLE
Definition: SGObject.h:92

shogun::CPCA::apply_to_feature_vector
virtual SGVector< float64_t > apply_to_feature_vector(SGVector< float64_t > vector)
Definition: PCA.cpp:332

shogun::CPCA::CPCA
CPCA(bool do_whitening=false, EPCAMode mode=FIXED_NUMBER, float64_t thresh=1e-6, EPCAMethod method=AUTO, EPCAMemoryMode mem_mode=MEM_REALLOCATE)
Definition: PCA.cpp:25

shogun::CPCA::init
void init()
Definition: PCA.cpp:45

shogun::CPCA::m_transformation_matrix
SGMatrix< float64_t > m_transformation_matrix
Definition: PCA.h:202

shogun::SGVector::vlen
index_t vlen
Definition: SGVector.h:494

shogun::SGVector::vector
T * vector
Definition: SGVector.h:492

shogun::F_DREAL
Definition: FeatureTypes.h:32

ASSERT
#define ASSERT(x)
Definition: SGIO.h:201

shogun::CPCA::get_mean
SGVector< float64_t > get_mean()
Definition: PCA.cpp:359

shogun::CPCA::num_dim
int32_t num_dim
Definition: PCA.h:204

shogun::CPCA::m_initialized
bool m_initialized
Definition: PCA.h:212

shogun::SGVector< float64_t >

shogun::VARIANCE_EXPLAINED
Definition: PCA.h:46

float64_t
double float64_t
Definition: common.h:50

shogun::CPCA::m_whitening
bool m_whitening
Definition: PCA.h:214

shogun::EPCAMethod
EPCAMethod
Definition: PCA.h:26

shogun::CPCA::m_method
EPCAMethod m_method
Definition: PCA.h:222

shogun::CPCA::get_eigenvalues
SGVector< float64_t > get_eigenvalues()
Definition: PCA.cpp:354

shogun::CFeatures::get_feature_class
virtual EFeatureClass get_feature_class() const =0

shogun::MEM_IN_PLACE
Definition: PCA.h:63

shogun::C_DENSE
Definition: FeatureTypes.h:41

shogun::CPCA::~CPCA
virtual ~CPCA()
Definition: PCA.cpp:79

shogun::MS_AVAILABLE
Definition: SGObject.h:93

shogun
all of classes and functions are contained in the shogun namespace
Definition: class_list.h:18

machine_int_t
int machine_int_t
Definition: common.h:59

shogun::EVD
Definition: PCA.h:37

shogun::CFeatures
The class Features is the base class of all feature objects.
Definition: Features.h:68

shogun::CMath::min
static T min(T a, T b)
Definition: Math.h:157

Eigen::Matrix
Definition: SGMatrix.h:22

shogun::THRESHOLD
Definition: PCA.h:44

Features.h

shogun::CPCA::get_memory_mode
EPCAMemoryMode get_memory_mode() const
Definition: PCA.cpp:364

DensePreprocessor.h

shogun::CDimensionReductionPreprocessor::m_target_dim
int32_t m_target_dim
Definition: DimensionReductionPreprocessor.h:118

shogun::EPCAMode
EPCAMode
Definition: PCA.h:41

SG_WARNING
#define SG_WARNING(...)
Definition: SGIO.h:128

SG_ADD
#define SG_ADD(...)
Definition: SGObject.h:84

shogun::CMath::sqrt
static float32_t sqrt(float32_t x)
Definition: Math.h:459

PCA.h

shogun::CPCA::apply_to_feature_matrix
virtual SGMatrix< float64_t > apply_to_feature_matrix(CFeatures *features)
Definition: PCA.cpp:277

shogun::CPCA::m_eigenvalue_zero_tolerance
float64_t m_eigenvalue_zero_tolerance
Definition: PCA.h:227

shogun::CFeatures::get_feature_type
virtual EFeatureType get_feature_type() const =0

shogun::CPCA::get_transformation_matrix
SGMatrix< float64_t > get_transformation_matrix()
Definition: PCA.cpp:349

shogun::MEM_REALLOCATE
Definition: PCA.h:58