en/current/NeuralLinearLayer_8cpp_source.html

 /*

  * Copyright (c) 2014, Shogun Toolbox Foundation

  * All rights reserved.

  *

  * Redistribution and use in source and binary forms, with or without

  * modification, are permitted provided that the following conditions are met:


  * 1. Redistributions of source code must retain the above copyright notice,

  * this list of conditions and the following disclaimer.

  *

  * 2. Redistributions in binary form must reproduce the above copyright notice,

  * this list of conditions and the following disclaimer in the documentation

  * and/or other materials provided with the distribution.

  *

  * 3. Neither the name of the copyright holder nor the names of its

  * contributors may be used to endorse or promote products derived from this

  * software without specific prior written permission.


  * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"

  * AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE

  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE

  * ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE

  * LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR

  * CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF

  * SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS

  * INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN

  * CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE)

  * ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE

  * POSSIBILITY OF SUCH DAMAGE.

  *

  * Written (W) 2014 Khaled Nasr

  */


 #include <shogun/neuralnets/NeuralLinearLayer.h>

 #include <shogun/mathematics/Math.h>

 #include <shogun/lib/SGVector.h>


 #ifdef HAVE_EIGEN3

 #include <shogun/mathematics/eigen3.h>

 #endif


 using namespace shogun;


 CNeuralLinearLayer::CNeuralLinearLayer() : CNeuralLayer()

 {

 }


 CNeuralLinearLayer::CNeuralLinearLayer(int32_t num_neurons):

 CNeuralLayer(num_neurons)

 {

 }


 void CNeuralLinearLayer::initialize_neural_layer(CDynamicObjectArray* layers,

         SGVector< int32_t > input_indices)

 {

     CNeuralLayer::initialize_neural_layer(layers, input_indices);


     m_num_parameters = m_num_neurons;

     for (int32_t i=0; i<input_indices.vlen; i++)

         m_num_parameters += m_num_neurons*m_input_sizes[i];

 }


 void CNeuralLinearLayer::initialize_parameters(SGVector<float64_t> parameters,

         SGVector<bool> parameter_regularizable,

         float64_t sigma)

 {

     for (int32_t i=0; i<m_num_parameters; i++)

     {

         // random the parameters

         parameters[i] = CMath::normal_random(0.0, sigma);


         // turn regularization off for the biases, on for the weights

         parameter_regularizable[i] = (i>=m_num_neurons);

     }

 }


 void CNeuralLinearLayer::compute_activations(SGVector<float64_t> parameters,

         CDynamicObjectArray* layers)

 {

     float64_t* biases = parameters.vector;


 #ifdef HAVE_EIGEN3

     typedef Eigen::Map<Eigen::MatrixXd> EMappedMatrix;

     typedef Eigen::Map<Eigen::VectorXd> EMappedVector;


     EMappedMatrix  A(m_activations.matrix, m_num_neurons, m_batch_size);

     EMappedVector  B(biases, m_num_neurons);


     A.colwise() = B;

 #else

     for (int32_t i=0; i<m_num_neurons; i++)

     {

         for (int32_t j=0; j<m_batch_size; j++)

         {

             m_activations[i+j*m_num_neurons] = biases[i];

         }

     }

 #endif


     int32_t weights_index_offset = m_num_neurons;

     for (int32_t l=0; l<m_input_indices.vlen; l++)

     {

         CNeuralLayer* layer =

             (CNeuralLayer*)layers->element(m_input_indices[l]);


         float64_t* weights = parameters.vector + weights_index_offset;

         weights_index_offset += m_num_neurons*layer->get_num_neurons();


 #ifdef HAVE_EIGEN3

         EMappedMatrix W(weights, m_num_neurons, layer->get_num_neurons());

         EMappedMatrix X(layer->get_activations().matrix,

                 layer->get_num_neurons(), m_batch_size);


         A += W*X;

 #else

         // activations = weights*previous_layer_activations

         for (int32_t i=0; i<m_num_neurons; i++)

         {

             for (int32_t j=0; j<m_batch_size; j++)

             {

                 float64_t sum = 0;

                 for (int32_t k=0; k<layer->get_num_neurons(); k++)

                 {

                     sum += weights[i+k*m_num_neurons]*

                         layer->get_activations()(k,j);

                 }

                 m_activations[i+j*m_num_neurons] += sum;

             }

         }

 #endif

         SG_UNREF(layer);

     }

 }


 void CNeuralLinearLayer::compute_gradients(

         SGVector<float64_t> parameters,

         SGMatrix<float64_t> targets,

         CDynamicObjectArray* layers,

         SGVector<float64_t> parameter_gradients)

 {

     compute_local_gradients(targets);


     // compute bias gradients

     float64_t* bias_gradients = parameter_gradients.vector;

 #ifdef HAVE_EIGEN3

     typedef Eigen::Map<Eigen::MatrixXd> EMappedMatrix;

     typedef Eigen::Map<Eigen::VectorXd> EMappedVector;


     EMappedVector BG(bias_gradients, m_num_neurons);

     EMappedMatrix LG(m_local_gradients.matrix, m_num_neurons, m_batch_size);


     BG = LG.rowwise().sum();

 #else

     for (int32_t i=0; i<m_num_neurons; i++)

     {

         float64_t sum = 0;

         for (int32_t j=0; j<m_batch_size; j++)

         {

             sum += m_local_gradients[i+j*m_num_neurons];

         }

         bias_gradients[i] = sum;

     }

 #endif


     // apply dropout to the local gradients

     if (dropout_prop>0.0)

     {

         int32_t len = m_num_neurons*m_batch_size;

         for (int32_t i=0; i<len; i++)

             m_local_gradients[i] *= m_dropout_mask[i];

     }


     int32_t weights_index_offset = m_num_neurons;

     for (int32_t l=0; l<m_input_indices.vlen; l++)

     {

         CNeuralLayer* layer =

             (CNeuralLayer*)layers->element(m_input_indices[l]);


         float64_t* weights = parameters.vector + weights_index_offset;

         float64_t* weight_gradients = parameter_gradients.vector +

             weights_index_offset;


         weights_index_offset += m_num_neurons*layer->get_num_neurons();


 #ifdef HAVE_EIGEN3

         EMappedMatrix X(layer->get_activations().matrix,

                 layer->get_num_neurons(), m_batch_size);

         EMappedMatrix  W(weights, m_num_neurons, layer->get_num_neurons());

         EMappedMatrix WG(weight_gradients,

                 m_num_neurons, layer->get_num_neurons());

         EMappedMatrix  IG(layer->get_activation_gradients().matrix,

                 layer->get_num_neurons(), m_batch_size);


         // compute weight gradients

         WG = LG*X.transpose();


         // compute input gradients

         if (!layer->is_input())

             IG += W.transpose()*LG;

 #else

         // weight_gradients=local_gradients*previous_layer_activations.T

         for (int32_t i=0; i<m_num_neurons; i++)

         {

             for (int32_t j=0; j<layer->get_num_neurons(); j++)

             {

                 float64_t sum = 0;

                 for (int32_t k=0; k<m_batch_size; k++)

                 {

                     sum += m_local_gradients(i,k)*layer->get_activations()(j,k);

                 }

                 weight_gradients[i+j*m_num_neurons] = sum;

             }

         }


         if (!layer->is_input())

         {

             // input_gradients = weights.T*local_gradients

             for (int32_t i=0; i<layer->get_num_neurons(); i++)

             {

                 for (int32_t j=0; j<m_batch_size; j++)

                 {

                     float64_t sum = 0;

                     for (int32_t k=0; k<m_num_neurons; k++)

                     {

                         sum += weights[k+i*m_num_neurons]*

                             m_local_gradients[k+j*m_num_neurons];

                     }

                     layer->get_activation_gradients()(i,j) += sum;

                 }

             }

         }

 #endif

         SG_UNREF(layer);

     }


     if (contraction_coefficient != 0)

     {

         compute_contraction_term_gradients(parameters, parameter_gradients);

     }

 }


 void CNeuralLinearLayer::compute_local_gradients(SGMatrix<float64_t> targets)

 {

     if (targets.num_rows != 0)

     {

         // sqaured error measure

         // local_gradients = activations-targets

         int32_t length = m_num_neurons*m_batch_size;

         for (int32_t i=0; i<length; i++)

             m_local_gradients[i] = (m_activations[i]-targets[i])/m_batch_size;

     }

     else

     {

         int32_t length = m_num_neurons*m_batch_size;

         for (int32_t i=0; i<length; i++)

             m_local_gradients[i] = m_activation_gradients[i];

     }

 }


 float64_t CNeuralLinearLayer::compute_error(SGMatrix<float64_t> targets)

 {

     // error = 0.5*(sum(targets-activations)^2)/batch_size

     float64_t sum = 0;

     int32_t length = m_num_neurons*m_batch_size;

     for (int32_t i=0; i<length; i++)

         sum += (targets[i]-m_activations[i])*(targets[i]-m_activations[i]);

     sum *= (0.5/m_batch_size);

     return sum;

 }


 void CNeuralLinearLayer::enforce_max_norm(SGVector<float64_t> parameters,

         float64_t max_norm)

 {

     int32_t weights_index_offset = m_num_neurons;

     for (int32_t l=0; l<m_input_indices.vlen; l++)

     {

         float64_t* weights = parameters.vector + weights_index_offset;


         int32_t length = m_num_neurons*m_input_sizes[l];

         for (int32_t i=0; i<length; i+=m_input_sizes[l])

         {

             float64_t norm =

                 SGVector<float64_t>::twonorm(parameters.vector+i, m_num_neurons);


             if (norm > max_norm)

             {

                 float64_t multiplier = max_norm/norm;

                 for (int32_t j=0; j<m_input_sizes[l]; j++)

                     weights[i+j] *= multiplier;

             }

         }

     }

 }


 float64_t CNeuralLinearLayer::compute_contraction_term(SGVector<float64_t> parameters)

 {

     float64_t contraction_term = 0;

     for (int32_t i=m_num_neurons; i<parameters.vlen; i++)

         contraction_term += parameters[i]*parameters[i];


     return contraction_coefficient*contraction_term;

 }


 void CNeuralLinearLayer::compute_contraction_term_gradients(

     SGVector< float64_t > parameters, SGVector< float64_t > gradients)

 {

     for (int32_t i=m_num_neurons; i<parameters.vlen; i++)

             gradients[i] += 2*contraction_coefficient*parameters[i];

 }


shogun::SGVector::twonorm
static T twonorm(const T *x, int32_t len)
|| x ||_2

norm
double norm(double *v, double p, int n)
Definition: epph.cpp:452

shogun::CNeuralLayer::m_input_sizes
SGVector< int32_t > m_input_sizes
Definition: NeuralLayer.h:368

Math.h

shogun::SGMatrix::matrix
T * matrix
Definition: SGMatrix.h:374

eigen3.h

Eigen::Map
Definition: SGMatrix.h:24

shogun::CMath::normal_random
static float32_t normal_random(float32_t mean, float32_t std_dev)
Definition: Math.h:1095

NeuralLinearLayer.h

shogun::CNeuralLayer::get_activation_gradients
virtual SGMatrix< float64_t > get_activation_gradients()
Definition: NeuralLayer.h:294

shogun::CNeuralLayer::m_activations
SGMatrix< float64_t > m_activations
Definition: NeuralLayer.h:376

shogun::CNeuralLayer::initialize_neural_layer
virtual void initialize_neural_layer(CDynamicObjectArray *layers, SGVector< int32_t > input_indices)
Definition: NeuralLayer.cpp:61

shogun::CNeuralLinearLayer::CNeuralLinearLayer
CNeuralLinearLayer()
Definition: NeuralLinearLayer.cpp:44

shogun::CNeuralLayer::m_num_parameters
int32_t m_num_parameters
Definition: NeuralLayer.h:360

shogun::CNeuralLayer::get_num_neurons
virtual int32_t get_num_neurons()
Definition: NeuralLayer.h:251

shogun::CNeuralLayer::m_input_indices
SGVector< int32_t > m_input_indices
Definition: NeuralLayer.h:363

shogun::CNeuralLayer
Base class for neural network layers.
Definition: NeuralLayer.h:87

shogun::CNeuralLayer::m_activation_gradients
SGMatrix< float64_t > m_activation_gradients
Definition: NeuralLayer.h:381

shogun::CNeuralLayer::get_activations
virtual SGMatrix< float64_t > get_activations()
Definition: NeuralLayer.h:287

shogun::SGMatrix::num_rows
index_t num_rows
Definition: SGMatrix.h:376

shogun::SGMatrix< float64_t >

shogun::CNeuralLayer::m_local_gradients
SGMatrix< float64_t > m_local_gradients
Definition: NeuralLayer.h:387

shogun::CNeuralLinearLayer::initialize_parameters
virtual void initialize_parameters(SGVector< float64_t > parameters, SGVector< bool > parameter_regularizable, float64_t sigma)
Definition: NeuralLinearLayer.cpp:63

shogun::CNeuralLinearLayer::initialize_neural_layer
virtual void initialize_neural_layer(CDynamicObjectArray *layers, SGVector< int32_t > input_indices)
Definition: NeuralLinearLayer.cpp:53

shogun::CNeuralLinearLayer::compute_local_gradients
virtual void compute_local_gradients(SGMatrix< float64_t > targets)
Definition: NeuralLinearLayer.cpp:242

shogun::SGVector::vlen
index_t vlen
Definition: SGVector.h:494

shogun::SGVector::vector
T * vector
Definition: SGVector.h:492

shogun::SGVector< int32_t >

shogun::CDynamicObjectArray::element
CSGObject * element(int32_t idx1, int32_t idx2=0, int32_t idx3=0)
Definition: DynamicObjectArray.h:208

shogun::CNeuralLinearLayer::compute_contraction_term
virtual float64_t compute_contraction_term(SGVector< float64_t > parameters)
Definition: NeuralLinearLayer.cpp:295

float64_t
double float64_t
Definition: common.h:50

shogun::CDynamicObjectArray
Dynamic array class for CSGObject pointers that creates an array that can be used like a list or an a...
Definition: DynamicObjectArray.h:31

shogun::CNeuralLinearLayer::enforce_max_norm
virtual void enforce_max_norm(SGVector< float64_t > parameters, float64_t max_norm)
Definition: NeuralLinearLayer.cpp:271

SG_UNREF
#define SG_UNREF(x)
Definition: SGObject.h:52

shogun::CNeuralLinearLayer::compute_activations
virtual void compute_activations(SGVector< float64_t > parameters, CDynamicObjectArray *layers)
Definition: NeuralLinearLayer.cpp:77

shogun
all of classes and functions are contained in the shogun namespace
Definition: class_list.h:18

shogun::CNeuralLayer::dropout_prop
float64_t dropout_prop
Definition: NeuralLayer.h:327

shogun::CNeuralLinearLayer::compute_error
virtual float64_t compute_error(SGMatrix< float64_t > targets)
Definition: NeuralLinearLayer.cpp:260

shogun::CNeuralLinearLayer::compute_gradients
virtual void compute_gradients(SGVector< float64_t > parameters, SGMatrix< float64_t > targets, CDynamicObjectArray *layers, SGVector< float64_t > parameter_gradients)
Definition: NeuralLinearLayer.cpp:135

shogun::CNeuralLayer::m_batch_size
int32_t m_batch_size
Definition: NeuralLayer.h:371

shogun::CNeuralLayer::m_num_neurons
int32_t m_num_neurons
Definition: NeuralLayer.h:347

SGVector.h

shogun::CNeuralLayer::is_input
virtual bool is_input()
Definition: NeuralLayer.h:127

shogun::CNeuralLinearLayer::compute_contraction_term_gradients
virtual void compute_contraction_term_gradients(SGVector< float64_t > parameters, SGVector< float64_t > gradients)
Definition: NeuralLinearLayer.cpp:304

shogun::CNeuralLayer::m_dropout_mask
SGMatrix< bool > m_dropout_mask
Definition: NeuralLayer.h:393

shogun::CNeuralLayer::contraction_coefficient
float64_t contraction_coefficient
Definition: NeuralLayer.h:338