en/latest/KLDualInferenceMethod_8cpp_source.html

  /*

  * Copyright (c) The Shogun Machine Learning Toolbox

  * Written (w) 2014 Wu Lin

  * All rights reserved.

  *

  * Redistribution and use in source and binary forms, with or without

  * modification, are permitted provided that the following conditions are met:

  *

  * 1. Redistributions of source code must retain the above copyright notice, this

  *    list of conditions and the following disclaimer.

  * 2. Redistributions in binary form must reproduce the above copyright notice,

  *    this list of conditions and the following disclaimer in the documentation

  *    and/or other materials provided with the distribution.

  *

  * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND

  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED

  * WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE

  * DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER OR CONTRIBUTORS BE LIABLE FOR

  * ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES

  * (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;

  * LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND

  * ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT

  * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS

  * SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.

  *

  * The views and conclusions contained in the software and documentation are those

  * of the authors and should not be interpreted as representing official policies,

  * either expressed or implied, of the Shogun Development Team.

  *

  * Code adapted from

  * http://hannes.nickisch.org/code/approxXX.tar.gz

  * and Gaussian Process Machine Learning Toolbox

  * http://www.gaussianprocess.org/gpml/code/matlab/doc/

  * and the reference paper is

  * Mohammad Emtiyaz Khan, Aleksandr Y. Aravkin, Michael P. Friedlander, Matthias Seeger

  * Fast Dual Variational Inference for Non-Conjugate Latent Gaussian Models. ICML2013*

  *

  * This code specifically adapted from function in approxKL.m and infKL.m

  */


 #include <shogun/machine/gp/KLDualInferenceMethod.h>


 #include <shogun/mathematics/eigen3.h>

 #include <shogun/mathematics/Math.h>

 #include <shogun/machine/gp/MatrixOperations.h>

 #include <shogun/machine/gp/DualVariationalGaussianLikelihood.h>

 #include <shogun/labels/BinaryLabels.h>


 using namespace Eigen;


 namespace shogun

 {

 #ifndef DOXYGEN_SHOULD_SKIP_THIS

 class KLDualInferenceMethodCostFunction: public FirstOrderCostFunction

 {

 friend class CKLDualInferenceMethodMinimizer;

 public:

     KLDualInferenceMethodCostFunction():FirstOrderCostFunction() {  init(); }

     virtual ~KLDualInferenceMethodCostFunction() { SG_UNREF(m_obj); }

     void set_target(CKLDualInferenceMethod *obj)

     {

         REQUIRE(obj, "Obj must set\n");

         if(m_obj != obj)

         {

             SG_REF(obj);

             SG_UNREF(m_obj);

             m_obj=obj;

         }

     }

     void unset_target(bool is_unref)

     {

         if(is_unref)

         {

             SG_UNREF(m_obj);

         }

         m_obj=NULL;

     }

     virtual float64_t get_cost()

     {

         REQUIRE(m_obj,"Object not set\n");

         bool status=m_obj->precompute();

         if (status)

         {

             float64_t nlml=m_obj->get_dual_objective_wrt_parameters();

             return nlml;

         }

         return CMath::NOT_A_NUMBER;

     }

     virtual SGVector<float64_t> obtain_variable_reference()

     {

         REQUIRE(m_obj,"Object not set\n");

         m_derivatives = SGVector<float64_t>((m_obj->m_W).vlen);

         return m_obj->m_W;

     }

     virtual SGVector<float64_t> get_gradient()

     {

         REQUIRE(m_obj,"Object not set\n");

         m_obj->get_gradient_of_dual_objective_wrt_parameters(m_derivatives);

         return m_derivatives;

     }

     virtual const char* get_name() const { return "KLDualInferenceMethodCostFunction"; }

 private:

     SGVector<float64_t> m_derivatives;

     void init()

     {

         m_obj=NULL;

         m_derivatives = SGVector<float64_t>();

         SG_ADD(&m_derivatives, "KLDualInferenceMethodCostFunction__m_derivatives",

             "derivatives in KLDualInferenceMethodCostFunction", MS_NOT_AVAILABLE);

         SG_ADD((CSGObject **)&m_obj, "KLDualInferenceMethodCostFunction__m_obj",

             "obj in KLDualInferenceMethodCostFunction", MS_NOT_AVAILABLE);

     }

     CKLDualInferenceMethod *m_obj;

     CDualVariationalGaussianLikelihood* get_dual_variational_likelihood() const

     {

         REQUIRE(m_obj,"Object not set\n");

         return m_obj->get_dual_variational_likelihood();

     }

 };

 #endif //DOXYGEN_SHOULD_SKIP_THIS


 void CKLDualInferenceMethodMinimizer::init_minimization()

 {

     ELBFGSLineSearch linesearch=LBFGSLineSearchHelper::get_lbfgs_linear_search(m_linesearch_id);

     REQUIRE((linesearch == BACKTRACKING_ARMIJO) ||

         (linesearch == BACKTRACKING_WOLFE) ||

         (linesearch == BACKTRACKING_STRONG_WOLFE),

         "The provided line search method is not supported. Please use backtracking line search methods\n");

     CLBFGSMinimizer::init_minimization();

 }


 float64_t CKLDualInferenceMethodMinimizer::minimize()

 {

     lbfgs_parameter_t lbfgs_param;

     lbfgs_param.m = m_m;

     lbfgs_param.max_linesearch = m_max_linesearch;

     lbfgs_param.linesearch = LBFGSLineSearchHelper::get_lbfgs_linear_search(m_linesearch_id);

     lbfgs_param.max_iterations = m_max_iterations;

     lbfgs_param.delta = m_delta;

     lbfgs_param.past = m_past;

     lbfgs_param.epsilon = m_epsilon;

     lbfgs_param.min_step = m_min_step;

     lbfgs_param.max_step = m_max_step;

     lbfgs_param.ftol = m_ftol;

     lbfgs_param.wolfe = m_wolfe;

     lbfgs_param.gtol = m_gtol;

     lbfgs_param.xtol = m_xtol;

     lbfgs_param.orthantwise_c = m_orthantwise_c;

     lbfgs_param.orthantwise_start = m_orthantwise_start;

     lbfgs_param.orthantwise_end = m_orthantwise_end;


     init_minimization();


     float64_t cost=0.0;

     int error_code=lbfgs(m_target_variable.vlen, m_target_variable.vector,

         &cost, CKLDualInferenceMethodMinimizer::evaluate,

         NULL, this, &lbfgs_param, CKLDualInferenceMethodMinimizer::adjust_step);


     if(error_code!=0 && error_code!=LBFGS_ALREADY_MINIMIZED)

     {

       SG_SWARNING("Error(s) happened during L-BFGS optimization (error code:%d)\n",

           error_code);

     }

     return cost;

 }


 float64_t CKLDualInferenceMethodMinimizer::evaluate(void *obj, const float64_t *variable,

     float64_t *gradient, const int dim, const float64_t step)

 {

     /* Note that parameters = parameters_pre_iter - step * gradient_pre_iter */

     CKLDualInferenceMethodMinimizer * obj_prt

         = static_cast<CKLDualInferenceMethodMinimizer *>(obj);


     REQUIRE(obj_prt, "The instance object passed to L-BFGS optimizer should not be NULL\n");


     float64_t cost=obj_prt->m_fun->get_cost();

     if (CMath::is_nan(cost) || CMath::is_infinity(cost))

             return cost;

     //get the gradient wrt variable_new

     SGVector<float64_t> grad=obj_prt->m_fun->get_gradient();

     REQUIRE(grad.vlen==dim,

         "The length of gradient (%d) and the length of variable (%d) do not match\n",

         grad.vlen,dim);


     std::copy(grad.vector,grad.vector+dim,gradient);

     return cost;

 }


 float64_t CKLDualInferenceMethodMinimizer::adjust_step(void *obj, const float64_t *parameters,

     const float64_t *direction, const int dim, const float64_t step)

 {

     /* Note that parameters = parameters_pre_iter - step * gradient_pre_iter */

     CKLDualInferenceMethodMinimizer * obj_prt

         = static_cast<CKLDualInferenceMethodMinimizer *>(obj);


     REQUIRE(obj_prt, "The instance object passed to L-BFGS optimizer should not be NULL\n");


     float64_t *non_const_direction=const_cast<float64_t *>(direction);

     SGVector<float64_t> sg_direction(non_const_direction, dim, false);


     KLDualInferenceMethodCostFunction* fun=dynamic_cast<KLDualInferenceMethodCostFunction*>(obj_prt->m_fun);

     REQUIRE(fun, "The cost function must be KLDualInferenceMethodCostFunction\n");


     CDualVariationalGaussianLikelihood* lik=fun->get_dual_variational_likelihood();


     float64_t adjust_stp=lik->adjust_step_wrt_dual_parameter(sg_direction, step);

     return adjust_stp;

 }


 CKLDualInferenceMethod::CKLDualInferenceMethod() : CKLInference()

 {

     init();

 }


 CKLDualInferenceMethod::CKLDualInferenceMethod(CKernel* kern,

         CFeatures* feat, CMeanFunction* m, CLabels* lab, CLikelihoodModel* mod)

         : CKLInference(kern, feat, m, lab, mod)

 {

     init();

 }


 CKLDualInferenceMethod* CKLDualInferenceMethod::obtain_from_generic(

         CInference* inference)

 {

     if (inference==NULL)

         return NULL;


     if (inference->get_inference_type()!=INF_KL_DUAL)

     {

         SG_SERROR("Provided inference is not of type CKLDualInferenceMethod!\n");

     }


     SG_REF(inference);

     return (CKLDualInferenceMethod*)inference;

 }


 SGVector<float64_t> CKLDualInferenceMethod::get_alpha()

 {

     if (parameter_hash_changed())

         update();


     SGVector<float64_t> result(m_alpha);

     return result;

 }


 CKLDualInferenceMethod::~CKLDualInferenceMethod()

 {

 }


 void CKLDualInferenceMethod::check_dual_inference(CLikelihoodModel* mod) const

 {

     CDualVariationalGaussianLikelihood * lik=dynamic_cast<CDualVariationalGaussianLikelihood *>(mod);

     REQUIRE(lik,

         "The provided likelihood model is not a variational dual Likelihood model.\n");

 }


 void CKLDualInferenceMethod::set_model(CLikelihoodModel* mod)

 {

     check_dual_inference(mod);

     CKLInference::set_model(mod);

 }


 CDualVariationalGaussianLikelihood* CKLDualInferenceMethod::get_dual_variational_likelihood() const

 {

     check_dual_inference(m_model);

     CDualVariationalGaussianLikelihood * lik=dynamic_cast<CDualVariationalGaussianLikelihood *>(m_model);

     return lik;

 }


 void CKLDualInferenceMethod::register_minimizer(Minimizer* minimizer)

 {

     CKLDualInferenceMethodMinimizer* opt=dynamic_cast<CKLDualInferenceMethodMinimizer*>(minimizer);

     REQUIRE(opt,"The minimizer must be an instance of CKLDualInferenceMethodMinimizer\n");

     CInference::register_minimizer(minimizer);

 }


 void CKLDualInferenceMethod::init()

 {

     SG_ADD(&m_W, "W",

         "noise matrix W",

         MS_NOT_AVAILABLE);

     SG_ADD(&m_sW, "sW",

         "Square root of noise matrix W",

         MS_NOT_AVAILABLE);

     SG_ADD(&m_dv, "dv",

         "the gradient of the variational expection wrt sigma2",

         MS_NOT_AVAILABLE);

     SG_ADD(&m_df, "df",

         "the gradient of the variational expection wrt mu",

         MS_NOT_AVAILABLE);

     SG_ADD(&m_is_dual_valid, "is_dual_valid",

         "whether the lambda (m_W) is valid or not",

         MS_NOT_AVAILABLE);


     m_is_dual_valid=false;

     register_minimizer(new CKLDualInferenceMethodMinimizer());

 }


 bool CKLDualInferenceMethod::precompute()

 {

     Map<MatrixXd> eigen_K(m_ktrtr.matrix, m_ktrtr.num_rows, m_ktrtr.num_cols);

     CDualVariationalGaussianLikelihood *lik= get_dual_variational_likelihood();

     Map<VectorXd> eigen_W(m_W.vector, m_W.vlen);


     lik->set_dual_parameters(m_W, m_labels);

     m_is_dual_valid=lik->dual_parameters_valid();


     if (!m_is_dual_valid)

         return false;


     //construct alpha

     m_alpha=lik->get_mu_dual_parameter();

     Map<VectorXd> eigen_alpha(m_alpha.vector, m_alpha.vlen);

     eigen_alpha=-eigen_alpha;


     Map<VectorXd> eigen_sW(m_sW.vector, m_sW.vlen);

     eigen_sW=eigen_W.array().sqrt().matrix();


     m_L=CMatrixOperations::get_choleksy(m_W, m_sW, m_ktrtr, CMath::exp(m_log_scale));

     Map<MatrixXd> eigen_L(m_L.matrix, m_L.num_rows, m_L.num_cols);


     //solve L'*V=diag(sW)*K

     Map<MatrixXd> eigen_V(m_V.matrix, m_V.num_rows, m_V.num_cols);

     eigen_V=eigen_L.triangularView<Upper>().adjoint().solve(eigen_sW.asDiagonal()*eigen_K*CMath::exp(m_log_scale*2.0));

     Map<VectorXd> eigen_s2(m_s2.vector, m_s2.vlen);

     //Sigma=inv(inv(K)+diag(W))=K-K*diag(sW)*inv(L)'*inv(L)*diag(sW)*K

     //v=abs(diag(Sigma))

     eigen_s2=(eigen_K.diagonal().array()*CMath::exp(m_log_scale*2.0)-(eigen_V.array().pow(2).colwise().sum().transpose())).abs().matrix();


     //construct mu

     SGVector<float64_t> mean=m_mean->get_mean_vector(m_features);

     Map<VectorXd> eigen_mean(mean.vector, mean.vlen);

     Map<VectorXd> eigen_mu(m_mu.vector, m_mu.vlen);

     //mu=K*alpha+m

     eigen_mu=eigen_K*CMath::exp(m_log_scale*2.0)*eigen_alpha+eigen_mean;

     return true;

 }


 float64_t CKLDualInferenceMethod::get_dual_objective_wrt_parameters()

 {

     if (!m_is_dual_valid)

         return CMath::INFTY;


     SGVector<float64_t> mean=m_mean->get_mean_vector(m_features);

     Map<VectorXd> eigen_mean(mean.vector, mean.vlen);

     Map<VectorXd> eigen_mu(m_mu.vector, m_mu.vlen);

     Map<VectorXd> eigen_alpha(m_alpha.vector, m_alpha.vlen);

     Map<MatrixXd> eigen_L(m_L.matrix, m_L.num_rows, m_L.num_cols);


     CDualVariationalGaussianLikelihood *lik= get_dual_variational_likelihood();


     float64_t a=SGVector<float64_t>::sum(lik->get_dual_objective_value());

     float64_t result=0.5*eigen_alpha.dot(eigen_mu-eigen_mean)+a;

     result+=eigen_mean.dot(eigen_alpha);

     result-=eigen_L.diagonal().array().log().sum();


     return result;

 }


 void CKLDualInferenceMethod::get_gradient_of_dual_objective_wrt_parameters(SGVector<float64_t> gradient)

 {

     REQUIRE(gradient.vlen==m_alpha.vlen,

         "The length of gradients (%d) should the same as the length of parameters (%d)\n",

         gradient.vlen, m_alpha.vlen);


     if (!m_is_dual_valid)

         return;


     Map<VectorXd> eigen_gradient(gradient.vector, gradient.vlen);


     CDualVariationalGaussianLikelihood *lik= get_dual_variational_likelihood();


     TParameter* lambda_param=lik->m_parameters->get_parameter("lambda");

     SGVector<float64_t>d_lambda=lik->get_dual_first_derivative(lambda_param);

     Map<VectorXd> eigen_d_lambda(d_lambda.vector, d_lambda.vlen);


     Map<VectorXd> eigen_mu(m_mu.vector, m_mu.vlen);

     Map<VectorXd> eigen_s2(m_s2.vector, m_s2.vlen);

 eigen_gradient=-eigen_mu-0.5*eigen_s2+eigen_d_lambda;

 }


 float64_t CKLDualInferenceMethod::get_nlml_wrapper(SGVector<float64_t> alpha, SGVector<float64_t> mu, SGMatrix<float64_t> L)

 {

     Map<MatrixXd> eigen_L(L.matrix, L.num_rows, L.num_cols);

     Map<VectorXd> eigen_alpha(alpha.vector, alpha.vlen);

     Map<MatrixXd> eigen_K(m_ktrtr.matrix, m_ktrtr.num_rows, m_ktrtr.num_cols);

     //get mean vector and create eigen representation of it

     SGVector<float64_t> mean=m_mean->get_mean_vector(m_features);

     Map<VectorXd> eigen_mu(mu.vector, mu.vlen);

     Map<VectorXd> eigen_mean(mean.vector, mean.vlen);


     CDualVariationalGaussianLikelihood *lik=get_dual_variational_likelihood();


     SGVector<float64_t>lab=((CBinaryLabels*)m_labels)->get_labels();

     Map<VectorXd> eigen_lab(lab.vector, lab.vlen);


     float64_t a=SGVector<float64_t>::sum(lik->get_variational_expection());


     float64_t trace=0;

     //L_inv=L\eye(n);

     //trace(L_inv'*L_inv)   %V*inv(K)

     MatrixXd eigen_t=eigen_L.triangularView<Upper>().adjoint().solve(MatrixXd::Identity(eigen_L.rows(),eigen_L.cols()));


     for(index_t idx=0; idx<eigen_t.rows(); idx++)

         trace +=(eigen_t.col(idx).array().pow(2)).sum();


     //nlZ = -a -logdet(V*inv(K))/2 -n/2 +(alpha'*K*alpha)/2 +trace(V*inv(K))/2;

     float64_t result=-a+eigen_L.diagonal().array().log().sum();


     result+=0.5*(-eigen_K.rows()+eigen_alpha.dot(eigen_mu-eigen_mean)+trace);

     return result;

 }


 float64_t CKLDualInferenceMethod::get_negative_log_marginal_likelihood_helper()

 {

     CDualVariationalGaussianLikelihood *lik=get_dual_variational_likelihood();

     bool status = lik->set_variational_distribution(m_mu, m_s2, m_labels);

     if (status)

         return get_nlml_wrapper(m_alpha, m_mu, m_L);

     return CMath::NOT_A_NUMBER;

 }


 float64_t CKLDualInferenceMethod::get_derivative_related_cov(SGMatrix<float64_t> dK)

 {

     Map<MatrixXd> eigen_dK(dK.matrix, dK.num_rows, dK.num_cols);

     Map<MatrixXd> eigen_K(m_ktrtr.matrix, m_ktrtr.num_rows, m_ktrtr.num_cols);

     Map<VectorXd> eigen_W(m_W.vector, m_W.vlen);

     Map<MatrixXd> eigen_L(m_L.matrix, m_L.num_rows, m_L.num_cols);

     Map<VectorXd> eigen_sW(m_sW.vector, m_sW.vlen);

     Map<MatrixXd> eigen_Sigma(m_Sigma.matrix, m_Sigma.num_rows, m_Sigma.num_cols);

     Map<VectorXd> eigen_alpha(m_alpha.vector, m_alpha.vlen);


     Map<VectorXd> eigen_dv(m_dv.vector, m_dv.vlen);

     Map<VectorXd> eigen_df(m_df.vector, m_df.vlen);


     index_t len=m_W.vlen;

     //U=inv(L')*diag(sW)

     MatrixXd eigen_U=eigen_L.triangularView<Upper>().adjoint().solve(MatrixXd(eigen_sW.asDiagonal()));

     //A=I-K*diag(sW)*inv(L)*inv(L')*diag(sW)

     Map<MatrixXd> eigen_V(m_V.matrix, m_V.num_rows, m_V.num_cols);

     MatrixXd eigen_A=MatrixXd::Identity(len, len)-eigen_V.transpose()*eigen_U;


     //AdK = A*dK;

     MatrixXd AdK=eigen_A*eigen_dK;


     //z = diag(AdK) + sum(A.*AdK,2) - sum(A'.*AdK,1)';

     VectorXd z=AdK.diagonal()+(eigen_A.array()*AdK.array()).rowwise().sum().matrix()

         -(eigen_A.transpose().array()*AdK.array()).colwise().sum().transpose().matrix();


     float64_t result=eigen_alpha.dot(eigen_dK*(eigen_alpha/2.0-eigen_df))-z.dot(eigen_dv);


     return result;

 }


 void CKLDualInferenceMethod::update_alpha()

 {

     float64_t nlml_new=0;

     float64_t nlml_def=0;


     Map<MatrixXd> eigen_K(m_ktrtr.matrix, m_ktrtr.num_rows, m_ktrtr.num_cols);

     CDualVariationalGaussianLikelihood *lik= get_dual_variational_likelihood();


     if (m_alpha.vlen == m_labels->get_num_labels())

     {

         nlml_new=get_negative_log_marginal_likelihood_helper();

         index_t len=m_labels->get_num_labels();

         SGVector<float64_t> W_tmp(len);

         Map<VectorXd> eigen_W(W_tmp.vector, W_tmp.vlen);

         eigen_W.fill(0.5);

         SGVector<float64_t> sW_tmp(len);

         Map<VectorXd> eigen_sW(sW_tmp.vector, sW_tmp.vlen);

         eigen_sW=eigen_W.array().sqrt().matrix();

         SGMatrix<float64_t> L_tmp=CMatrixOperations::get_choleksy(W_tmp, sW_tmp, m_ktrtr, CMath::exp(m_log_scale*2.0));

         Map<MatrixXd> eigen_L(L_tmp.matrix, L_tmp.num_rows, L_tmp.num_cols);


         lik->set_dual_parameters(W_tmp, m_labels);


         //construct alpha

         SGVector<float64_t> alpha_tmp=lik->get_mu_dual_parameter();

         Map<VectorXd> eigen_alpha(alpha_tmp.vector, alpha_tmp.vlen);

         eigen_alpha=-eigen_alpha;

         //construct mu

         SGVector<float64_t> mean=m_mean->get_mean_vector(m_features);

         Map<VectorXd> eigen_mean(mean.vector, mean.vlen);

         SGVector<float64_t> mu_tmp(len);

         Map<VectorXd> eigen_mu(mu_tmp.vector, mu_tmp.vlen);

         //mu=K*alpha+m

         eigen_mu=eigen_K*CMath::exp(m_log_scale*2.0)*eigen_alpha+eigen_mean;

         //construct s2

         MatrixXd eigen_V=eigen_L.triangularView<Upper>().adjoint().solve(eigen_sW.asDiagonal()*eigen_K*CMath::exp(m_log_scale*2.0));

         SGVector<float64_t> s2_tmp(len);

         Map<VectorXd> eigen_s2(s2_tmp.vector, s2_tmp.vlen);

         eigen_s2=(eigen_K.diagonal().array()*CMath::exp(m_log_scale*2.0)-(eigen_V.array().pow(2).colwise().sum().transpose())).abs().matrix();


         lik->set_variational_distribution(mu_tmp, s2_tmp, m_labels);


         nlml_def=get_nlml_wrapper(alpha_tmp, mu_tmp, L_tmp);


         if (nlml_new<=nlml_def)

         {

             lik->set_dual_parameters(m_W, m_labels);

             lik->set_variational_distribution(m_mu, m_s2, m_labels);

         }

     }


     if (m_alpha.vlen != m_labels->get_num_labels() || nlml_def<nlml_new)

     {

         if(m_alpha.vlen != m_labels->get_num_labels())

             m_alpha = SGVector<float64_t>(m_labels->get_num_labels());


         index_t len=m_alpha.vlen;


         m_W=SGVector<float64_t>(len);

         for (index_t i=0; i<m_W.vlen; i++)

             m_W[i]=0.5;


         lik->set_dual_parameters(m_W, m_labels);

         m_sW=SGVector<float64_t>(len);

         m_mu=SGVector<float64_t>(len);

         m_s2=SGVector<float64_t>(len);

         m_Sigma=SGMatrix<float64_t>(len, len);

         m_Sigma.zero();

         m_V=SGMatrix<float64_t>(len, len);

     }


     nlml_new=optimization();

     lik->set_variational_distribution(m_mu, m_s2, m_labels);

     TParameter* s2_param=lik->m_parameters->get_parameter("sigma2");

     m_dv=lik->get_variational_first_derivative(s2_param);

     TParameter* mu_param=lik->m_parameters->get_parameter("mu");

     m_df=lik->get_variational_first_derivative(mu_param);

 }


 float64_t CKLDualInferenceMethod::optimization()

 {

     CKLDualInferenceMethodMinimizer *minimizer=dynamic_cast<CKLDualInferenceMethodMinimizer*>(m_minimizer);

     REQUIRE(minimizer,"The minimizer must be an instance of KLDualInferenceMethodMinimizer\n");

         KLDualInferenceMethodCostFunction* cost_fun=new  KLDualInferenceMethodCostFunction();

     cost_fun->set_target(this);

     bool cleanup=false;


     if(this->ref_count()>1)

         cleanup=true;


     minimizer->set_cost_function(cost_fun);

     float64_t nlml_opt = minimizer->minimize();

     minimizer->unset_cost_function(false);

     cost_fun->unset_target(cleanup);

     SG_UNREF(cost_fun);

     return nlml_opt;

 }


 SGVector<float64_t> CKLDualInferenceMethod::get_diagonal_vector()

 {

     if (parameter_hash_changed())

         update();


     return SGVector<float64_t>(m_sW);

 }


 void CKLDualInferenceMethod::update_deriv()

 {

     /* get_derivative_related_cov(MatrixXd eigen_dK) does the similar job

      * Therefore, this function body is empty

      */

 }


 void CKLDualInferenceMethod::update_chol()

 {

     /* L is automatically updated when update_alpha is called

      * Therefore, this function body is empty

      */

 }


 void CKLDualInferenceMethod::update_approx_cov()

 {

     m_Sigma=CMatrixOperations::get_inverse(m_L, m_ktrtr, m_sW, m_V, CMath::exp(m_log_scale));

 }


 } /* namespace shogun */


shogun::FirstOrderCostFunction::get_gradient
virtual SGVector< float64_t > get_gradient()=0

shogun::CInference::m_log_scale
float64_t m_log_scale
Definition: Inference.h:490

shogun::CKLDualInferenceMethod::precompute
virtual bool precompute()
Definition: KLDualInferenceMethod.cpp:300

shogun::CKLDualInferenceMethod::KLDualInferenceMethodCostFunction
friend class KLDualInferenceMethodCostFunction
Definition: KLDualInferenceMethod.h:110

shogun::lbfgs_parameter_t::linesearch
int linesearch
Definition: lbfgs.h:234

shogun::CKLDualInferenceMethod::get_dual_variational_likelihood
virtual CDualVariationalGaussianLikelihood * get_dual_variational_likelihood() const
Definition: KLDualInferenceMethod.cpp:263

shogun::lbfgs_parameter_t::m
int m
Definition: lbfgs.h:186

shogun::lbfgs_parameter_t::max_linesearch
int max_linesearch
Definition: lbfgs.h:241

shogun::lbfgs
int32_t lbfgs(int32_t n, float64_t *x, float64_t *ptr_fx, lbfgs_evaluate_t proc_evaluate, lbfgs_progress_t proc_progress, void *instance, lbfgs_parameter_t *_param, lbfgs_adjust_step_t proc_adjust_step)
Definition: lbfgs.cpp:208

shogun::CKLInference::update
virtual void update()
Definition: KLInference.cpp:186

Math.h

shogun::CDualVariationalGaussianLikelihood::set_dual_parameters
virtual void set_dual_parameters(SGVector< float64_t > the_lambda, const CLabels *lab)
Definition: DualVariationalGaussianLikelihood.cpp:156

shogun::BACKTRACKING_ARMIJO
Definition: lbfgscommon.h:16

shogun::CMatrixOperations::get_choleksy
static SGMatrix< float64_t > get_choleksy(SGVector< float64_t > W, SGVector< float64_t > sW, SGMatrix< float64_t > kernel, float64_t scale)
Definition: MatrixOperations.cpp:46

shogun::CDualVariationalGaussianLikelihood::get_mu_dual_parameter
virtual SGVector< float64_t > get_mu_dual_parameter() const =0

shogun::lbfgs_parameter_t::orthantwise_end
int orthantwise_end
Definition: lbfgs.h:336

shogun::SGMatrix::matrix
T * matrix
Definition: SGMatrix.h:372

index_t
int32_t index_t
Definition: common.h:62

shogun::CLabels
The class Labels models labels, i.e. class assignments of objects.
Definition: Labels.h:43

shogun::CMath::INFTY
static const float64_t INFTY
infinity
Definition: Math.h:2048

shogun::CInference::get_inference_type
virtual EInferenceType get_inference_type() const
Definition: Inference.h:104

shogun::CLabels::get_num_labels
virtual int32_t get_num_labels() const =0

eigen3.h

Eigen::Map
Definition: SGMatrix.h:24

shogun::CMatrixOperations::get_inverse
static SGMatrix< float64_t > get_inverse(SGMatrix< float64_t > L, SGMatrix< float64_t > kernel, SGVector< float64_t > sW, SGMatrix< float64_t > V, float64_t scale)
Definition: MatrixOperations.cpp:107

SG_SWARNING
#define SG_SWARNING(...)
Definition: SGIO.h:178

shogun::CDualVariationalGaussianLikelihood::dual_parameters_valid
virtual bool dual_parameters_valid() const
Definition: DualVariationalGaussianLikelihood.cpp:181

shogun::Parameter::get_parameter
TParameter * get_parameter(int32_t idx)
Definition: base/Parameter.h:249

shogun::CKLInference::set_model
virtual void set_model(CLikelihoodModel *mod)
Definition: KLInference.cpp:133

shogun::lbfgs_parameter_t::orthantwise_c
float64_t orthantwise_c
Definition: lbfgs.h:313

Eigen
Definition: SGMatrix.h:20

shogun::FirstOrderMinimizer::m_fun
FirstOrderCostFunction * m_fun
Definition: FirstOrderMinimizer.h:146

shogun::TParameter
parameter struct
Definition: base/Parameter.h:32

shogun::CDualVariationalGaussianLikelihood::get_dual_objective_value
virtual SGVector< float64_t > get_dual_objective_value()=0

REQUIRE
#define REQUIRE(x,...)
Definition: SGIO.h:206

shogun::BACKTRACKING_STRONG_WOLFE
Definition: lbfgscommon.h:18

shogun::CSGObject::m_parameters
Parameter * m_parameters
Definition: SGObject.h:546

shogun::SGMatrix::num_cols
index_t num_cols
Definition: SGMatrix.h:376

shogun::CMeanFunction::get_mean_vector
virtual SGVector< float64_t > get_mean_vector(const CFeatures *features) const =0

shogun::lbfgs_parameter_t::max_iterations
int max_iterations
Definition: lbfgs.h:227

shogun::CKLDualInferenceMethodMinimizer
Build-in minimizer for KLDualInference.
Definition: KLDualInferenceMethod.h:48

shogun::lbfgs_parameter_t::max_step
float64_t max_step
Definition: lbfgs.h:259

shogun::CMeanFunction
An abstract class of the mean function.
Definition: MeanFunction.h:49

SG_REF
#define SG_REF(x)
Definition: SGObject.h:54

shogun::SGMatrix::num_rows
index_t num_rows
Definition: SGMatrix.h:374

shogun::SGMatrix< float64_t >

BinaryLabels.h

shogun::CInference::m_features
CFeatures * m_features
Definition: Inference.h:478

shogun::MS_NOT_AVAILABLE
Definition: SGObject.h:92

shogun::CInference::m_ktrtr
SGMatrix< float64_t > m_ktrtr
Definition: Inference.h:493

shogun::CInference::m_mean
CMeanFunction * m_mean
Definition: Inference.h:472

shogun::CKLDualInferenceMethod::check_dual_inference
virtual void check_dual_inference(CLikelihoodModel *mod) const
Definition: KLDualInferenceMethod.cpp:250

shogun::CKLDualInferenceMethod
The dual KL approximation inference method class.
Definition: KLDualInferenceMethod.h:108

shogun::CKLDualInferenceMethod::register_minimizer
virtual void register_minimizer(Minimizer *minimizer)
Definition: KLDualInferenceMethod.cpp:270

shogun::SGVector::vlen
index_t vlen
Definition: SGVector.h:494

shogun::SGVector::zero
void zero()
Definition: SGVector.cpp:136

shogun::SGVector::vector
T * vector
Definition: SGVector.h:492

shogun::CKLDualInferenceMethod::update_chol
virtual void update_chol()
Definition: KLDualInferenceMethod.cpp:569

shogun::CKLDualInferenceMethod::set_model
void set_model(CLikelihoodModel *mod)
Definition: KLDualInferenceMethod.cpp:257

shogun::CKLInference
The KL approximation inference method class.
Definition: KLInference.h:75

MatrixOperations.h

shogun::CKLDualInferenceMethod::get_gradient_of_dual_objective_wrt_parameters
virtual void get_gradient_of_dual_objective_wrt_parameters(SGVector< float64_t > gradient)
Definition: KLDualInferenceMethod.cpp:361

shogun::CKLDualInferenceMethod::update_approx_cov
virtual void update_approx_cov()
Definition: KLDualInferenceMethod.cpp:576

shogun::SGVector< float64_t >

shogun::CKLDualInferenceMethod::get_alpha
virtual SGVector< float64_t > get_alpha()
Definition: KLDualInferenceMethod.cpp:237

shogun::lbfgs_parameter_t::orthantwise_start
int orthantwise_start
Definition: lbfgs.h:327

shogun::CInference::m_labels
CLabels * m_labels
Definition: Inference.h:481

shogun::FirstOrderMinimizer::unset_cost_function
virtual void unset_cost_function(bool is_unref=true)
Definition: FirstOrderMinimizer.h:94

shogun::CKLDualInferenceMethod::obtain_from_generic
static CKLDualInferenceMethod * obtain_from_generic(CInference *inference)
Definition: KLDualInferenceMethod.cpp:222

float64_t
double float64_t
Definition: common.h:50

shogun::CDualVariationalGaussianLikelihood::set_variational_distribution
virtual bool set_variational_distribution(SGVector< float64_t > mu, SGVector< float64_t > s2, const CLabels *lab)
Definition: DualVariationalGaussianLikelihood.cpp:95

shogun::CDualVariationalGaussianLikelihood::get_dual_first_derivative
virtual SGVector< float64_t > get_dual_first_derivative(const TParameter *param) const =0

shogun::CKLInference::m_mu
SGVector< float64_t > m_mu
Definition: KLInference.h:367

shogun::SGVector::sum
static T sum(T *vec, int32_t len)
Return sum(vec)
Definition: SGVector.h:354

shogun::CInference::m_L
SGMatrix< float64_t > m_L
Definition: Inference.h:487

shogun::CKLDualInferenceMethod::update_deriv
virtual void update_deriv()
Definition: KLDualInferenceMethod.cpp:562

Eigen::MatrixXd
Matrix< float64_t,-1,-1, 0,-1,-1 > MatrixXd
Definition: KLInference.h:52

shogun::lbfgs_parameter_t::gtol
float64_t gtol
Definition: lbfgs.h:289

shogun::FirstOrderCostFunction::get_cost
virtual float64_t get_cost()=0

shogun::BACKTRACKING_WOLFE
Definition: lbfgscommon.h:17

shogun::CKLInference::m_Sigma
SGMatrix< float64_t > m_Sigma
Definition: KLInference.h:370

shogun::CKLDualInferenceMethod::get_derivative_related_cov
virtual float64_t get_derivative_related_cov(SGMatrix< float64_t > dK)
Definition: KLDualInferenceMethod.cpp:424

shogun::CDualVariationalGaussianLikelihood::get_variational_expection
virtual SGVector< float64_t > get_variational_expection()
Definition: DualVariationalGaussianLikelihood.cpp:65

shogun::CInference::register_minimizer
virtual void register_minimizer(Minimizer *minimizer)
Definition: Inference.cpp:128

shogun::CKLInference::m_s2
SGVector< float64_t > m_s2
Definition: KLInference.h:375

SG_UNREF
#define SG_UNREF(x)
Definition: SGObject.h:55

shogun::lbfgs_parameter_t::past
int past
Definition: lbfgs.h:205

shogun
all of classes and functions are contained in the shogun namespace
Definition: class_list.h:18

shogun::CKLDualInferenceMethod::CKLDualInferenceMethod
CKLDualInferenceMethod()
Definition: KLDualInferenceMethod.cpp:210

shogun::CInference
The Inference Method base class.
Definition: Inference.h:81

shogun::CKLDualInferenceMethod::optimization
virtual float64_t optimization()
Definition: KLDualInferenceMethod.cpp:535

shogun::CInference::m_minimizer
Minimizer * m_minimizer
Definition: Inference.h:466

shogun::CFeatures
The class Features is the base class of all feature objects.
Definition: Features.h:68

shogun::ELBFGSLineSearch
ELBFGSLineSearch
Definition: lbfgscommon.h:13

SG_SERROR
#define SG_SERROR(...)
Definition: SGIO.h:179

shogun::CMath::exp
static float64_t exp(float64_t x)
Definition: Math.h:621

Eigen::Matrix
Definition: SGMatrix.h:22

shogun::lbfgs_parameter_t::epsilon
float64_t epsilon
Definition: lbfgs.h:196

shogun::lbfgs_parameter_t
Definition: lbfgs.h:177

shogun::lbfgs_parameter_t::delta
float64_t delta
Definition: lbfgs.h:217

shogun::INF_KL_DUAL
Definition: Inference.h:68

shogun::lbfgs_parameter_t::ftol
float64_t ftol
Definition: lbfgs.h:266

shogun::CKernel
The Kernel base class.
Definition: Kernel.h:159

shogun::CBinaryLabels
Binary Labels for binary classification.
Definition: BinaryLabels.h:37

KLDualInferenceMethod.h

shogun::CKLDualInferenceMethodMinimizer::minimize
virtual float64_t minimize()
Definition: KLDualInferenceMethod.cpp:132

shogun::LBFGS_ALREADY_MINIMIZED
Definition: lbfgs.h:55

shogun::Minimizer
The minimizer base class.
Definition: Minimizer.h:43

shogun::lbfgs_parameter_t::min_step
float64_t min_step
Definition: lbfgs.h:250

shogun::lbfgs_parameter_t::wolfe
float64_t wolfe
Definition: lbfgs.h:277

SG_ADD
#define SG_ADD(...)
Definition: SGObject.h:84

shogun::lbfgs_parameter_t::xtol
float64_t xtol
Definition: lbfgs.h:298

shogun::CKLDualInferenceMethod::get_dual_objective_wrt_parameters
virtual float64_t get_dual_objective_wrt_parameters()
Definition: KLDualInferenceMethod.cpp:340

shogun::CKLDualInferenceMethod::update_alpha
virtual void update_alpha()
Definition: KLDualInferenceMethod.cpp:456

shogun::CKLDualInferenceMethod::get_negative_log_marginal_likelihood_helper
virtual float64_t get_negative_log_marginal_likelihood_helper()
Definition: KLDualInferenceMethod.cpp:415

shogun::CKLDualInferenceMethod::get_diagonal_vector
virtual SGVector< float64_t > get_diagonal_vector()
Definition: KLDualInferenceMethod.cpp:554

DualVariationalGaussianLikelihood.h

shogun::CInference::m_model
CLikelihoodModel * m_model
Definition: Inference.h:475

shogun::CDualVariationalGaussianLikelihood::get_variational_first_derivative
virtual SGVector< float64_t > get_variational_first_derivative(const TParameter *param) const
Definition: DualVariationalGaussianLikelihood.cpp:77

shogun::CSGObject::parameter_hash_changed
virtual bool parameter_hash_changed()
Definition: SGObject.cpp:295

shogun::CDualVariationalGaussianLikelihood
Class that models dual variational likelihood.
Definition: DualVariationalGaussianLikelihood.h:62

shogun::CLikelihoodModel
The Likelihood model base class.
Definition: LikelihoodModel.h:62

shogun::CMath::NOT_A_NUMBER
static const float64_t NOT_A_NUMBER
not a number
Definition: Math.h:2046

shogun::FirstOrderMinimizer::set_cost_function
virtual void set_cost_function(FirstOrderCostFunction *fun)
Definition: FirstOrderMinimizer.cpp:42

shogun::CKLDualInferenceMethod::~CKLDualInferenceMethod
virtual ~CKLDualInferenceMethod()
Definition: KLDualInferenceMethod.cpp:246

shogun::CInference::m_alpha
SGVector< float64_t > m_alpha
Definition: Inference.h:484