Moved timing code out of closure into _pre_transform

samzhang111 · samzhang111 · commit 63fc8a8f8459 · 2015-09-26T16:11:04.000-07:00
Removed closure on fit and transform, so timing code is inserted into
`_pre_transform`, and separately for the estimator's `fit` and `fit_transform`.

This aggregates timing information to the step level.
diff --git a/doc/modules/pipeline.rst b/doc/modules/pipeline.rst
@@ -44,7 +44,8 @@ is an estimator object::
         whiten=False)), ('svm', SVC(C=1.0, cache_size=200, class_weight=None,
         coef0=0.0, decision_function_shape=None, degree=3, gamma='auto',
         kernel='rbf', max_iter=-1, probability=False, random_state=None,
-        shrinking=True, tol=0.001, verbose=False))])
+        shrinking=True, tol=0.001, verbose=False))],
+        verbose=False)
 
 The utility function :func:`make_pipeline` is a shorthand
 for constructing pipelines;
@@ -58,7 +59,8 @@ filling in the names automatically::
     Pipeline(steps=[('binarizer', Binarizer(copy=True, threshold=0.0)),
                     ('multinomialnb', MultinomialNB(alpha=1.0,
                                                     class_prior=None,
-                                                    fit_prior=True))])
+                                                    fit_prior=True))],
+        verbose=False)
 
 The estimators of a pipeline are stored as a list in the ``steps`` attribute::
 
@@ -78,7 +80,8 @@ Parameters of the estimators in the pipeline can be accessed using the
         whiten=False)), ('svm', SVC(C=10, cache_size=200, class_weight=None,
         coef0=0.0, decision_function_shape=None, degree=3, gamma='auto',
         kernel='rbf', max_iter=-1, probability=False, random_state=None,
-        shrinking=True, tol=0.001, verbose=False))])
+        shrinking=True, tol=0.001, verbose=False))],
+        verbose=False)
 
 This is particularly important for doing grid searches::
 
diff --git a/sklearn/pipeline.py b/sklearn/pipeline.py
@@ -99,40 +99,18 @@ def __init__(self, steps, verbose=False):
         transforms = estimators[:-1]
         estimator = estimators[-1]
 
-        for i, t in enumerate(transforms):
-            if hasattr(t, "fit"):
-                transforms[i].fit = self._wrap_timer(t.fit, names[i], "fit")
-
-            if hasattr(t, "transform"):
-                transforms[i].transform = self._wrap_timer(t.transform,
-                                                           names[i], "transform")
-
+        for t in transforms:
             if (not (hasattr(t, "fit") or hasattr(t, "fit_transform")) or not
                     hasattr(t, "transform")):
                 raise TypeError("All intermediate steps of the chain should "
                                 "be transforms and implement fit and transform"
                                 " '%s' (type %s) doesn't)" % (t, type(t)))
 
-        if hasattr(estimator, "fit"):
-            estimator.fit = self._wrap_timer(estimator.fit, names[-1], "fit")
-        else:
+        if not hasattr(estimator, "fit"):
             raise TypeError("Last step of chain should implement fit "
                             "'%s' (type %s) doesn't)"
                             % (estimator, type(estimator)))
 
-    def _wrap_timer(self, f, name, action):
-        def timed_f(*args, **kwargs):
-            start_time = time.time()
-            ret = f(*args, **kwargs)
-            elapsed_time = time.time() - start_time
-            time_str = logger.short_format_time(elapsed_time)
-            if self.verbose:
-                print('[Pipeline] %s, %s, %s' % (name, action, time_str))
-
-            return ret
-
-        return timed_f
-
     @property
     def _estimator_type(self):
         return self.steps[-1][1]._estimator_type
@@ -166,11 +144,16 @@ def _pre_transform(self, X, y=None, **fit_params):
             fit_params_steps[step][param] = pval
         Xt = X
         for name, transform in self.steps[:-1]:
+            start_time = time.time()
             if hasattr(transform, "fit_transform"):
                 Xt = transform.fit_transform(Xt, y, **fit_params_steps[name])
             else:
                 Xt = transform.fit(Xt, y, **fit_params_steps[name]) \
                               .transform(Xt)
+            if self.verbose:
+                elapsed = time.time() - start_time
+                print('[Pipeline] %s ... %s' % (name, elapsed))
+
         return Xt, fit_params_steps[self.steps[-1][0]]
 
     def fit(self, X, y=None, **fit_params):
@@ -187,7 +170,12 @@ def fit(self, X, y=None, **fit_params):
             the pipeline.
         """
         Xt, fit_params = self._pre_transform(X, y, **fit_params)
+        start_time = time.time()
         self.steps[-1][-1].fit(Xt, y, **fit_params)
+        if self.verbose:
+            elapsed = time.time() - start_time
+            print('[Pipeline] %s ... %s' % (self.steps[-1][0], elapsed))
+
         return self
 
     def fit_transform(self, X, y=None, **fit_params):
@@ -206,10 +194,16 @@ def fit_transform(self, X, y=None, **fit_params):
             the pipeline.
         """
         Xt, fit_params = self._pre_transform(X, y, **fit_params)
+        start_time = time.time()
         if hasattr(self.steps[-1][-1], 'fit_transform'):
-            return self.steps[-1][-1].fit_transform(Xt, y, **fit_params)
+            ret = self.steps[-1][-1].fit_transform(Xt, y, **fit_params)
         else:
-            return self.steps[-1][-1].fit(Xt, y, **fit_params).transform(Xt)
+            ret = self.steps[-1][-1].fit(Xt, y, **fit_params).transform(Xt)
+
+        if self.verbose:
+            elapsed = time.time() - start_time
+            print('[Pipeline] %s ... %s' % (self.steps[-1][0], elapsed))
+        return ret
 
     @if_delegate_has_method(delegate='_final_estimator')
     def predict(self, X):
diff --git a/sklearn/tests/test_pipeline.py b/sklearn/tests/test_pipeline.py
@@ -492,8 +492,7 @@ def test_verbosity():
             ('kbest', SelectKBest(k=1)), ('lr', LinearRegression())
         ], verbose=True)
         verbose_reg.fit(X, y)
-        assert_true("[Pipeline] kbest, fit" in out.getvalue())
-        assert_true("[Pipeline] kbest, transform" in out.getvalue())
-        assert_true("[Pipeline] lr, fit" in out.getvalue())
+        assert_true("[Pipeline] kbest ..." in out.getvalue())
+        assert_true("[Pipeline] lr ..." in out.getvalue())
     finally:
         sys.stdout = old_stdout