elastic
diff --git a/‎docs/CHANGELOG.asciidoc
Lines changed: 2 additions & 0 deletions b/‎docs/CHANGELOG.asciidoc
Lines changed: 2 additions & 0 deletions
diff --git a/‎include/api/CDataFrameTrainBoostedTreeRegressionRunner.h
Lines changed: 10 additions & 0 deletions b/‎include/api/CDataFrameTrainBoostedTreeRegressionRunner.h
Lines changed: 10 additions & 0 deletions
diff --git a/‎include/maths/CBoostedTreeLoss.h
Lines changed: 105 additions & 0 deletions b/‎include/maths/CBoostedTreeLoss.h
Lines changed: 105 additions & 0 deletions
diff --git a/‎include/test/CDataFrameAnalysisSpecificationFactory.h
Lines changed: 8 additions & 0 deletions b/‎include/test/CDataFrameAnalysisSpecificationFactory.h
Lines changed: 8 additions & 0 deletions
diff --git a/‎include/test/CDataFrameAnalyzerTrainingFactory.h
Lines changed: 31 additions & 18 deletions b/‎include/test/CDataFrameAnalyzerTrainingFactory.h
Lines changed: 31 additions & 18 deletions
diff --git a/‎lib/api/CDataFrameTrainBoostedTreeRegressionRunner.cc
Lines changed: 20 additions & 1 deletion b/‎lib/api/CDataFrameTrainBoostedTreeRegressionRunner.cc
Lines changed: 20 additions & 1 deletion
@@ -42,6 +42,7 @@
 * Improve robustness of anomaly detection to bad input data. (See {ml-pull}1114[#1114].)
 * Adds new `num_matches` and `preferred_to_categories` fields to category output.
   (See {ml-pull}1062[#1062])
+* Adds mean squared logarithmic error (MSLE) for regression. (See {ml-pull}1101[#1101].)
 * Improve robustness of anomaly detection to bad input data. (See {ml-pull}1114[#1114].)
 * Switched data frame analytics model memory estimates from kilobytes to megabytes.
   (See {ml-pull}1126[#1126], issue: {issue}54506[#54506].)
@@ -55,6 +56,7 @@
 * Fixed background persistence of categorizer state (See {ml-pull}1137[#1137],
   issue: {ml-issue}1136[#1136].)
 
+
 == {es} version 7.7.0
 
 === New Features
 
@@ -18,12 +18,22 @@ namespace api {
 //! \brief Runs boosted tree regression on a core::CDataFrame.
 class API_EXPORT CDataFrameTrainBoostedTreeRegressionRunner final
     : public CDataFrameTrainBoostedTreeRunner {
+
+public:
+    using TLossFunctionUPtr = std::unique_ptr<maths::boosted_tree::CLoss>;
+    enum ELossFunctionType { E_Mse, E_Msle };
+
 public:
     static const std::string STRATIFIED_CROSS_VALIDATION;
+    static const std::string LOSS_FUNCTION;
+    static const std::string MSE;
+    static const std::string MSLE;
 
 public:
     static const CDataFrameAnalysisConfigReader& parameterReader();
 
+    static TLossFunctionUPtr lossFunction(const CDataFrameAnalysisParameters& parameters);
+
     //! This is not intended to be called directly: use CDataFrameTrainBoostedTreeRegressionRunnerFactory.
     CDataFrameTrainBoostedTreeRegressionRunner(const CDataFrameAnalysisSpecification& spec,
                                                const CDataFrameAnalysisParameters& parameters);
 
@@ -19,6 +19,7 @@
 #include <functional>
 #include <memory>
 #include <string>
+#include <utility>
 #include <vector>
 
 namespace ml {
@@ -66,6 +67,66 @@ class MATHS_EXPORT CArgMinMseImpl final : public CArgMinLossImpl {
     TMeanAccumulator m_MeanError;
 };
 
+//! \brief Finds the value to add to a set of predictions which approximately
+//! minimises the regularised mean squared logarithmic error (MSLE).
+class MATHS_EXPORT CArgMinMsleImpl final : public CArgMinLossImpl {
+public:
+    using TObjective = std::function<double(double)>;
+
+public:
+    CArgMinMsleImpl(double lambda);
+    std::unique_ptr<CArgMinLossImpl> clone() const override;
+    bool nextPass() override;
+    void add(const TMemoryMappedFloatVector& prediction, double actual, double weight = 1.0) override;
+    void merge(const CArgMinLossImpl& other) override;
+    TDoubleVector value() const override;
+
+    // Exposed for unit testing.
+    TObjective objective() const;
+
+private:
+    using TMinMaxAccumulator = CBasicStatistics::CMinMax<double>;
+    using TMeanAccumulator = CBasicStatistics::SSampleMean<double>::TAccumulator;
+    using TMeanVarAccumulator = CBasicStatistics::SSampleMeanVar<double>::TAccumulator;
+    using TVector = CVectorNx1<double, 3>;
+    using TVectorMeanAccumulator = CBasicStatistics::SSampleMean<TVector>::TAccumulator;
+    using TVectorMeanAccumulatorVec = std::vector<TVectorMeanAccumulator>;
+    using TVectorMeanAccumulatorVecVec = std::vector<TVectorMeanAccumulatorVec>;
+    using TDoubleDoublePr = std::pair<double, double>;
+    using TSizeSizePr = std::pair<std::size_t, std::size_t>;
+
+private:
+    TSizeSizePr bucket(double prediction, double actual) const {
+        auto bucketWidth{this->bucketWidth()};
+        double bucketPrediction{(prediction - m_ExpPredictionMinMax.min()) /
+                                bucketWidth.first};
+        std::size_t predictionBucketIndex{std::min(
+            static_cast<std::size_t>(bucketPrediction), m_Buckets.size() - 1)};
+
+        double bucketActual{(actual - m_LogActualMinMax.min()) / bucketWidth.second};
+        std::size_t actualBucketIndex{std::min(
+            static_cast<std::size_t>(bucketActual), m_Buckets[0].size() - 1)};
+
+        return std::make_pair(predictionBucketIndex, actualBucketIndex);
+    }
+
+    TDoubleDoublePr bucketWidth() const {
+        double predictionBucketWidth{m_ExpPredictionMinMax.range() /
+                                     static_cast<double>(m_Buckets.size())};
+        double actualBucketWidth{m_LogActualMinMax.range() /
+                                 static_cast<double>(m_Buckets[0].size())};
+        return std::make_pair(predictionBucketWidth, actualBucketWidth);
+    }
+
+private:
+    std::size_t m_CurrentPass = 0;
+    TMinMaxAccumulator m_ExpPredictionMinMax;
+    TMinMaxAccumulator m_LogActualMinMax;
+    TVectorMeanAccumulatorVecVec m_Buckets;
+    TMeanVarAccumulator m_MeanLogActual;
+    TMeanAccumulator m_MeanError;
+};
+
 //! \brief Finds the value to add to a set of predicted log-odds which minimises
 //! regularised cross entropy loss w.r.t. the actual categories.
 //!
@@ -278,6 +339,9 @@ class MATHS_EXPORT CLoss {
     //! Get the name of the loss function
     virtual const std::string& name() const = 0;
 
+    //! Returns true if the loss function is used for regression.
+    virtual bool isRegression() const = 0;
+
 protected:
     CArgMinLoss makeMinimizer(const boosted_tree_detail::CArgMinLossImpl& impl) const;
 };
@@ -307,6 +371,7 @@ class MATHS_EXPORT CMse final : public CLoss {
     TDoubleVector transform(const TMemoryMappedFloatVector& prediction) const override;
     CArgMinLoss minimizer(double lambda, const CPRNG::CXorOShiro128Plus& rng) const override;
     const std::string& name() const override;
+    bool isRegression() const override;
 };
 
 //! \brief Implements loss for binomial logistic regression.
@@ -342,6 +407,7 @@ class MATHS_EXPORT CBinomialLogisticLoss final : public CLoss {
     TDoubleVector transform(const TMemoryMappedFloatVector& prediction) const override;
     CArgMinLoss minimizer(double lambda, const CPRNG::CXorOShiro128Plus& rng) const override;
     const std::string& name() const override;
+    bool isRegression() const override;
 };
 
 //!  \brief Implements loss for multinomial logistic regression.
@@ -380,10 +446,49 @@ class MATHS_EXPORT CMultinomialLogisticLoss final : public CLoss {
     TDoubleVector transform(const TMemoryMappedFloatVector& prediction) const override;
     CArgMinLoss minimizer(double lambda, const CPRNG::CXorOShiro128Plus& rng) const override;
     const std::string& name() const override;
+    bool isRegression() const override;
 
 private:
     std::size_t m_NumberClasses;
 };
+//! \brief The MSLE loss function.
+//!
+//! DESCRIPTION:\n
+//! Formally, the MSLE error definition we use is \f$(\log(1+p) - \log(1+a))^2\f$.
+//! However, we approximate this by a quadratic form which has its minimum p = a and
+//! matches the value and derivative of MSLE loss function. For example, if the
+//! current prediction for the i'th training point is \f$p_i\f$, the loss is defined
+//! as
+//! <pre class="fragment">
+//!   \f$\displaystyle l_i(p) = c_i + w_i(p - a_i)^2\f$
+//! </pre>
+//! where \f$w_i = \frac{\log(1+p_i) - \log(1+a_i)}{(1+p_i)(p_i-a_i)}\f$ and \f$c_i\f$
+//! is chosen so \f$l_i(p_i) = (\log(1+p_i) - \log(1+a_i))^2\f$.
+class MATHS_EXPORT CMsle final : public CLoss {
+public:
+    static const std::string NAME;
+
+public:
+    EType type() const override;
+    std::unique_ptr<CLoss> clone() const override;
+    std::size_t numberParameters() const override;
+    double value(const TMemoryMappedFloatVector& prediction,
+                 double actual,
+                 double weight = 1.0) const override;
+    void gradient(const TMemoryMappedFloatVector& prediction,
+                  double actual,
+                  TWriter writer,
+                  double weight = 1.0) const override;
+    void curvature(const TMemoryMappedFloatVector& prediction,
+                   double actual,
+                   TWriter writer,
+                   double weight = 1.0) const override;
+    bool isCurvatureConstant() const override;
+    TDoubleVector transform(const TMemoryMappedFloatVector& prediction) const override;
+    CArgMinLoss minimizer(double lambda, const CPRNG::CXorOShiro128Plus& rng) const override;
+    const std::string& name() const override;
+    bool isRegression() const override;
+};
 }
 }
 }
 
@@ -11,6 +11,7 @@
 #include <core/CDataSearcher.h>
 
 #include <api/CDataFrameAnalysisSpecification.h>
+#include <api/CDataFrameTrainBoostedTreeRegressionRunner.h>
 
 #include <test/ImportExport.h>
 
@@ -32,6 +33,7 @@ class TEST_EXPORT CDataFrameAnalysisSpecificationFactory {
     using TDataSearcherUPtr = std::unique_ptr<core::CDataSearcher>;
     using TRestoreSearcherSupplier = std::function<TDataSearcherUPtr()>;
     using TSpecificationUPtr = std::unique_ptr<api::CDataFrameAnalysisSpecification>;
+    using TRegressionLossFunction = api::CDataFrameTrainBoostedTreeRegressionRunner::ELossFunctionType;
 
 public:
     CDataFrameAnalysisSpecificationFactory();
@@ -73,6 +75,10 @@ class TEST_EXPORT CDataFrameAnalysisSpecificationFactory {
     CDataFrameAnalysisSpecificationFactory&
     predictionRestoreSearcherSupplier(TRestoreSearcherSupplier* restoreSearcherSupplier);
 
+    // Regression
+    CDataFrameAnalysisSpecificationFactory&
+    regressionLossFunction(TRegressionLossFunction lossFunction);
+
     // Classification
     CDataFrameAnalysisSpecificationFactory& numberClasses(std::size_t number);
     CDataFrameAnalysisSpecificationFactory& numberTopClasses(std::size_t number);
@@ -116,6 +122,8 @@ class TEST_EXPORT CDataFrameAnalysisSpecificationFactory {
     std::size_t m_NumberTopShapValues = 0;
     TPersisterSupplier* m_PersisterSupplier = nullptr;
     TRestoreSearcherSupplier* m_RestoreSearcherSupplier = nullptr;
+    // Regression
+    TRegressionLossFunction m_RegressionLossFunction = TRegressionLossFunction::E_Mse;
     // Classification
     std::size_t m_NumberClasses = 2;
     std::size_t m_NumberTopClasses = 0;
 
@@ -29,13 +29,16 @@ namespace test {
 class TEST_EXPORT CDataFrameAnalyzerTrainingFactory {
 public:
     enum EPredictionType {
+        E_MsleRegression,
         E_Regression,
         E_BinaryClassification,
         E_MulticlassClassification
     };
     using TStrVec = std::vector<std::string>;
     using TDoubleVec = std::vector<double>;
     using TDataFrameUPtr = std::unique_ptr<core::CDataFrame>;
+    using TLossUPtr = std::unique_ptr<maths::boosted_tree::CLoss>;
+    using TTargetTransformer = std::function<double(double)>;
 
 public:
     template<typename T>
@@ -67,6 +70,10 @@ class TEST_EXPORT CDataFrameAnalyzerTrainingFactory {
             case E_Regression:
                 return setupLinearRegressionData(fieldNames, fieldValues, analyzer,
                                                  weights, regressors, targets);
+            case E_MsleRegression:
+                return setupLinearRegressionData(fieldNames, fieldValues, analyzer,
+                                                 weights, regressors, targets,
+                                                 [](double x) { return x * x; });
             case E_BinaryClassification:
                 return setupBinaryClassificationData(fieldNames, fieldValues, analyzer,
                                                      weights, regressors, targets);
@@ -76,11 +83,21 @@ class TEST_EXPORT CDataFrameAnalyzerTrainingFactory {
             }
         }();
 
-        std::unique_ptr<maths::boosted_tree::CLoss> loss;
-        if (type == E_Regression) {
+        TLossUPtr loss;
+        switch (type) {
+        case E_Regression:
             loss = std::make_unique<maths::boosted_tree::CMse>();
-        } else {
+            break;
+        case E_MsleRegression:
+            loss = std::make_unique<maths::boosted_tree::CMsle>();
+            break;
+        case E_BinaryClassification:
             loss = std::make_unique<maths::boosted_tree::CBinomialLogisticLoss>();
+            break;
+        case E_MulticlassClassification:
+            // TODO
+            loss = TLossUPtr{};
+            break;
         }
 
         maths::CBoostedTreeFactory treeFactory{
@@ -121,15 +138,7 @@ class TEST_EXPORT CDataFrameAnalyzerTrainingFactory {
         frame->readRows(1, [&](TRowItr beginRows, TRowItr endRows) {
             for (auto row = beginRows; row != endRows; ++row) {
                 auto prediction = tree->readAndAdjustPrediction(*row);
-                switch (type) {
-                case E_Regression:
-                    appendPrediction(*frame, weights.size(), prediction, expectedPredictions);
-                    break;
-                case E_BinaryClassification:
-                case E_MulticlassClassification:
-                    appendPrediction(*frame, weights.size(), prediction, expectedPredictions);
-                    break;
-                }
+                appendPrediction(*frame, weights.size(), prediction, expectedPredictions);
             }
         });
     }
@@ -140,12 +149,16 @@ class TEST_EXPORT CDataFrameAnalyzerTrainingFactory {
                                                         const TDoubleVec& weights,
                                                         const TDoubleVec& regressors,
                                                         TStrVec& targets);
-    static TDataFrameUPtr setupLinearRegressionData(const TStrVec& fieldNames,
-                                                    TStrVec& fieldValues,
-                                                    api::CDataFrameAnalyzer& analyzer,
-                                                    const TDoubleVec& weights,
-                                                    const TDoubleVec& regressors,
-                                                    TStrVec& targets);
+    static TDataFrameUPtr
+    setupLinearRegressionData(const TStrVec& fieldNames,
+                              TStrVec& fieldValues,
+                              api::CDataFrameAnalyzer& analyzer,
+                              const TDoubleVec& weights,
+                              const TDoubleVec& regressors,
+                              TStrVec& targets,
+                              TTargetTransformer targetTransformer = [](double x) {
+                                  return x;
+                              });
 
 private:
     using TDouble2Vec = core::CSmallVector<double, 2>;
 
@@ -21,7 +21,9 @@
 #include <api/ElasticsearchStateIndex.h>
 
 #include <cmath>
+#include <memory>
 #include <set>
+#include <string>
 
 namespace ml {
 namespace api {
@@ -38,16 +40,30 @@ CDataFrameTrainBoostedTreeRegressionRunner::parameterReader() {
         auto theReader = CDataFrameTrainBoostedTreeRunner::parameterReader();
         theReader.addParameter(STRATIFIED_CROSS_VALIDATION,
                                CDataFrameAnalysisConfigReader::E_OptionalParameter);
+        theReader.addParameter(LOSS_FUNCTION, CDataFrameAnalysisConfigReader::E_OptionalParameter,
+                               {{MSE, int{E_Mse}}, {MSLE, int{E_Msle}}});
         return theReader;
     }()};
     return PARAMETER_READER;
 }
 
+CDataFrameTrainBoostedTreeRegressionRunner::TLossFunctionUPtr
+CDataFrameTrainBoostedTreeRegressionRunner::lossFunction(const CDataFrameAnalysisParameters& parameters) {
+    ELossFunctionType lossFunctionType{parameters[LOSS_FUNCTION].fallback(E_Mse)};
+    switch (lossFunctionType) {
+    case E_Msle:
+        return std::make_unique<maths::boosted_tree::CMsle>();
+    case E_Mse:
+        return std::make_unique<maths::boosted_tree::CMse>();
+    }
+}
+
 CDataFrameTrainBoostedTreeRegressionRunner::CDataFrameTrainBoostedTreeRegressionRunner(
     const CDataFrameAnalysisSpecification& spec,
     const CDataFrameAnalysisParameters& parameters)
     : CDataFrameTrainBoostedTreeRunner{
-          spec, parameters, std::make_unique<maths::boosted_tree::CMse>()} {
+          spec, parameters,
+          CDataFrameTrainBoostedTreeRegressionRunner::lossFunction(parameters)} {
 
     this->boostedTreeFactory().stratifyRegressionCrossValidation(
         parameters[STRATIFIED_CROSS_VALIDATION].fallback(true));
@@ -117,6 +133,9 @@ CDataFrameTrainBoostedTreeRegressionRunner::inferenceModelDefinition(
 
 // clang-format off
 const std::string CDataFrameTrainBoostedTreeRegressionRunner::STRATIFIED_CROSS_VALIDATION{"stratified_cross_validation"};
+const std::string CDataFrameTrainBoostedTreeRegressionRunner::LOSS_FUNCTION{"loss_function"};
+const std::string CDataFrameTrainBoostedTreeRegressionRunner::MSE{"mse"};
+const std::string CDataFrameTrainBoostedTreeRegressionRunner::MSLE{"msle"};
 // clang-format on
 
 const std::string& CDataFrameTrainBoostedTreeRegressionRunnerFactory::name() const {