scikit-learn
diff --git a/‎sklearn/ensemble/_gradient_boosting.c
Lines changed: 591 additions & 388 deletions b/‎sklearn/ensemble/_gradient_boosting.c
Lines changed: 591 additions & 388 deletions
diff --git a/‎sklearn/ensemble/forest.py
Lines changed: 21 additions & 11 deletions b/‎sklearn/ensemble/forest.py
Lines changed: 21 additions & 11 deletions
diff --git a/‎sklearn/ensemble/gradient_boosting.py
Lines changed: 13 additions & 21 deletions b/‎sklearn/ensemble/gradient_boosting.py
Lines changed: 13 additions & 21 deletions
@@ -40,6 +40,7 @@ class calls the ``fit`` method of each sub-estimator on random samples
 # License: BSD 3 clause
 
 from __future__ import division
+import sys
 
 import warnings
 from warnings import warn
@@ -89,7 +90,7 @@ def _generate_unsampled_indices(random_state, n_samples):
     return unsampled_indices
 
 def _parallel_build_trees(tree, forest, X, y, sample_weight, tree_idx, n_trees,
-                          verbose=0, class_weight=None):
+                          presort, X_idx_sorted, verbose=0, class_weight=None):
     """Private function used to fit a single tree in parallel."""
     if verbose > 1:
         print("building tree %d of %d" % (tree_idx + 1, n_trees))
@@ -111,10 +112,11 @@ def _parallel_build_trees(tree, forest, X, y, sample_weight, tree_idx, n_trees,
                 curr_sample_weight *= compute_sample_weight('auto', y, indices)
         elif class_weight == 'balanced_subsample':
             curr_sample_weight *= compute_sample_weight('balanced', y, indices)
-
-        tree.fit(X, y, sample_weight=curr_sample_weight, check_input=False)
+        tree.fit(X, y, sample_weight=curr_sample_weight, check_input=False, 
+            presort=presort, X_idx_sorted=X_idx_sorted)
     else:
-        tree.fit(X, y, sample_weight=sample_weight, check_input=False)
+        tree.fit(X, y, sample_weight=sample_weight, check_input=False,
+            presort=presort, X_idx_sorted=X_idx_sorted)
 
     return tree
 
@@ -181,7 +183,7 @@ def apply(self, X):
 
         return np.array(results).T
 
-    def fit(self, X, y, sample_weight=None):
+    def fit(self, X, y, sample_weight=None, presort=False):
         """Build a forest of trees from the training set (X, y).
 
         Parameters
@@ -202,6 +204,11 @@ def fit(self, X, y, sample_weight=None):
             classification, splits are also ignored if they would result in any
             single class carrying a negative weight in either child node.
 
+        presort : boolean (default=False)
+            Presort the dataset. Presorting works well with small trees and
+            small datasets, but can take significantly longer with bigger
+            datasets or deep trees.
+
         Returns
         -------
         self : object
@@ -257,6 +264,12 @@ def fit(self, X, y, sample_weight=None):
 
         n_more_estimators = self.n_estimators - len(self.estimators_)
 
+        if presort:
+            X_idx_sorted = np.asfortranarray(np.argsort(X, axis=0), 
+                dtype=np.int32)
+        else:
+            X_idx_sorted = None
+
         if n_more_estimators < 0:
             raise ValueError('n_estimators=%d must be larger or equal to '
                              'len(estimators_)=%d when warm_start==True'
@@ -284,8 +297,8 @@ def fit(self, X, y, sample_weight=None):
             trees = Parallel(n_jobs=self.n_jobs, verbose=self.verbose,
                              backend="threading")(
                 delayed(_parallel_build_trees)(
-                    t, self, X, y, sample_weight, i, len(trees),
-                    verbose=self.verbose, class_weight=self.class_weight)
+                    t, self, X, y, sample_weight, i, len(trees), presort,
+                    X_idx_sorted, self.verbose, self.class_weight)
                 for i, t in enumerate(trees))
 
             # Collect newly grown trees
@@ -491,20 +504,17 @@ def predict(self, X):
         y : array of shape = [n_samples] or [n_samples, n_outputs]
             The predicted classes.
         """
-        proba = self.predict_proba(X)
 
+        proba = self.predict_proba(X)
         if self.n_outputs_ == 1:
             return self.classes_.take(np.argmax(proba, axis=1), axis=0)
-
         else:
             n_samples = proba[0].shape[0]
             predictions = np.zeros((n_samples, self.n_outputs_))
-
             for k in range(self.n_outputs_):
                 predictions[:, k] = self.classes_[k].take(np.argmax(proba[k],
                                                                     axis=1),
                                                           axis=0)
-
             return predictions
 
     def predict_proba(self, X):
 
@@ -45,8 +45,6 @@
 
 from ..tree.tree import DecisionTreeRegressor
 from ..tree._tree import DTYPE, TREE_LEAF
-from ..tree._tree import PresortBestSplitter
-from ..tree._tree import FriedmanMSE
 
 from ._gradient_boosting import predict_stages
 from ._gradient_boosting import predict_stage
@@ -731,8 +729,8 @@ def __init__(self, loss, learning_rate, n_estimators, min_samples_split,
 
         self.estimators_ = np.empty((0, 0), dtype=np.object)
 
-    def _fit_stage(self, i, X, y, y_pred, sample_weight, sample_mask,
-                   criterion, splitter, random_state):
+    def _fit_stage(self, i, X, X_idx_sorted, y, y_pred, sample_weight, sample_mask,
+                   random_state):
         """Fit another stage of ``n_classes_`` trees to the boosting model. """
 
         assert sample_mask.dtype == np.bool
@@ -748,8 +746,8 @@ def _fit_stage(self, i, X, y, y_pred, sample_weight, sample_mask,
 
             # induce regression tree on residuals
             tree = DecisionTreeRegressor(
-                criterion=criterion,
-                splitter=splitter,
+                criterion='mse',
+                splitter='best',
                 max_depth=self.max_depth,
                 min_samples_split=self.min_samples_split,
                 min_samples_leaf=self.min_samples_leaf,
@@ -763,7 +761,7 @@ def _fit_stage(self, i, X, y, y_pred, sample_weight, sample_mask,
                 sample_weight = sample_weight * sample_mask.astype(np.float64)
 
             tree.fit(X, residual, sample_weight=sample_weight,
-                     check_input=False)
+                     check_input=False, presort=True, X_idx_sorted=X_idx_sorted)
 
             # update tree leaves
             loss.update_terminal_regions(tree.tree_, X, y, residual, y_pred,
@@ -975,9 +973,12 @@ def fit(self, X, y, sample_weight=None, monitor=None):
             y_pred = self._decision_function(X)
             self._resize_state()
 
+        X_idx_sorted = np.asfortranarray(np.argsort(X, axis=0),
+                                             dtype=np.int32)
+
         # fit the boosting stages
-        n_stages = self._fit_stages(X, y, y_pred, sample_weight, random_state,
-                                    begin_at_stage, monitor)
+        n_stages = self._fit_stages(X, X_idx_sorted, y, y_pred, sample_weight, 
+                                    random_state, begin_at_stage, monitor)
         # change shape of arrays after fit (early-stopping or additional ests)
         if n_stages != self.estimators_.shape[0]:
             self.estimators_ = self.estimators_[:n_stages]
@@ -987,7 +988,7 @@ def fit(self, X, y, sample_weight=None, monitor=None):
 
         return self
 
-    def _fit_stages(self, X, y, y_pred, sample_weight, random_state,
+    def _fit_stages(self, X, X_idx_sorted, y, y_pred, sample_weight, random_state,
                     begin_at_stage=0, monitor=None):
         """Iteratively fits the stages.
 
@@ -1009,14 +1010,6 @@ def _fit_stages(self, X, y, y_pred, sample_weight, random_state,
         else:
             min_weight_leaf = 0.
 
-        # init criterion and splitter
-        criterion = FriedmanMSE(1)
-        splitter = PresortBestSplitter(criterion,
-                                       self.max_features_,
-                                       self.min_samples_leaf,
-                                       min_weight_leaf,
-                                       random_state)
-
         if self.verbose:
             verbose_reporter = VerboseReporter(self.verbose)
             verbose_reporter.init(self, begin_at_stage)
@@ -1035,9 +1028,8 @@ def _fit_stages(self, X, y, y_pred, sample_weight, random_state,
                                       sample_weight[~sample_mask])
 
             # fit next stage of trees
-            y_pred = self._fit_stage(i, X, y, y_pred, sample_weight,
-                                     sample_mask, criterion, splitter,
-                                     random_state)
+            y_pred = self._fit_stage(i, X, X_idx_sorted, y, y_pred, sample_weight,
+                                     sample_mask, random_state)
 
             # track deviance (= loss)
             if do_oob: