[contrib] xfail decorator to some of transducer tests (#1482)

crcrpar · web-flow · commit ce9df7dfe90d · 2022-09-09T17:00:58.000-07:00
* mark xfail

```
E       RuntimeError: one of the variables needed for gradient
computation has been modified by an inplace operation:
[torch.cuda.HalfTensor [4, 101, 25, 509]], which is output 0 of
ReluBackward0, is at version 2; expected version 0 instead. Hint: enable
anomaly detection to find the operation that failed to compute its
gradient, with torch.autograd.set_detect_anomaly(True).
```

Signed-off-by: Masaki Kozuki &lt;mkozuki@nvidia.com&gt;

* remove unwanted decorator

Signed-off-by: Masaki Kozuki &lt;mkozuki@nvidia.com&gt;

* move reference impl to source

Signed-off-by: Masaki Kozuki &lt;mkozuki@nvidia.com&gt;

Signed-off-by: Masaki Kozuki &lt;mkozuki@nvidia.com&gt;
diff --git a/apex/contrib/test/transducer/test_transducer_joint.py b/apex/contrib/test/transducer/test_transducer_joint.py
@@ -1,12 +1,14 @@
-import torch
 import unittest
+
+import torch
+
 from apex.contrib.transducer import TransducerJoint
-import transducer_ref
+from apex.contrib.transducer import _transducer_ref as transducer_ref
+
 
 class TransducerJointTest(unittest.TestCase):
     def setUp(self, seed=1234):
         torch.manual_seed(seed)
-        torch.cuda.manual_seed_all(seed)
 
     def gen_input(self, for_vector_kernel):
         self.B = 4
@@ -24,19 +26,19 @@ def gen_input(self, for_vector_kernel):
         self.f_tst = torch.randn((self.B, T_max, H), dtype=dtype, requires_grad=True, device=device)
         self.g_tst = torch.randn((self.B, U_max, H), dtype=dtype, requires_grad=True, device=device)
         self.h_grad = torch.randn(self.B, T_max, U_max, H, dtype=dtype, device=device)
-        self.f_len = torch.randint(T_min, T_max+1, (self.B,), dtype=torch.int, device=device) 
+        self.f_len = torch.randint(T_min, T_max+1, (self.B,), dtype=torch.int, device=device)
         self.g_len = torch.randint(U_min, U_max+1, (self.B,), dtype=torch.int, device=device)
         self.f_len[torch.randint(0, self.B, (1,)).item()] = T_max
         self.g_len[torch.randint(0, self.B, (1,)).item()] = U_max
         self.dropout_prob = 0.5
 
-        # Make sure gradients from out-of-bound locations are zero. This should be guaranteed by 
+        # Make sure gradients from out-of-bound locations are zero. This should be guaranteed by
         # the loss function
         for b in range(self.B):
             self.h_grad[b, self.f_len[b]:, :, :] = 0
             self.h_grad[b, :, self.g_len[b]:, :] = 0
         self.h_grad_packed = self._pack(self.h_grad, self.f_len, self.g_len)
-        
+
 
     def _pack(self, x, f_len, g_len):
         B = x.size(0)
@@ -60,35 +62,35 @@ def _unpack(self, x, f_len, g_len):
             my_f_len = f_len[b]
             my_g_len = g_len[b]
             for t in range(my_f_len):
-                x_unpacked[b, t, :my_g_len] = x[my_batch_offset + t*my_g_len : 
+                x_unpacked[b, t, :my_g_len] = x[my_batch_offset + t*my_g_len :
                                                 my_batch_offset + t*my_g_len + my_g_len]
         return x_unpacked
-        
+
     def run_transducer_joint(self, for_vector_kernel, pack_output, relu, dropout):
         self.gen_input(for_vector_kernel=for_vector_kernel)
         # Generate reference
         f_ref = self.f_tst.data.clone()
         g_ref = self.g_tst.data.clone()
         f_ref.requires_grad = True
         g_ref.requires_grad = True
-        
-        my_joint = TransducerJoint(pack_output=pack_output, relu=relu, dropout=dropout, 
+
+        my_joint = TransducerJoint(pack_output=pack_output, relu=relu, dropout=dropout,
                                     dropout_prob=self.dropout_prob, probe_mask=True)
         if not pack_output:
-            h_tst = my_joint(   f=self.f_tst, 
-                                g=self.g_tst, 
-                                f_len=self.f_len, 
+            h_tst = my_joint(   f=self.f_tst,
+                                g=self.g_tst,
+                                f_len=self.f_len,
                                 g_len=self.g_len)
             h_tst.backward(self.h_grad)
             if dropout:
                 mask = my_joint.mask_probe[0]
         else:
             batch_offset = torch.cumsum(self.f_len * self.g_len, dim=0)
-            h_tst = my_joint(   f=self.f_tst, 
-                                g=self.g_tst, 
-                                f_len=self.f_len, 
-                                g_len=self.g_len, 
-                                batch_offset=batch_offset, 
+            h_tst = my_joint(   f=self.f_tst,
+                                g=self.g_tst,
+                                f_len=self.f_len,
+                                g_len=self.g_len,
+                                batch_offset=batch_offset,
                                 packed_batch=batch_offset[-1])
             h_tst.backward(self.h_grad_packed)
             if dropout:
@@ -97,20 +99,20 @@ def run_transducer_joint(self, for_vector_kernel, pack_output, relu, dropout):
 
         # reference
         h_ref, f_grad_ref, g_grad_ref \
-            = transducer_ref.transducer_joint_reference(f=f_ref, 
-                                                        g=g_ref, 
-                                                        h_grad=self.h_grad, 
-                                                        f_len=self.f_len, 
-                                                        g_len=self.g_len, 
+            = transducer_ref.transducer_joint_reference(f=f_ref,
+                                                        g=g_ref,
+                                                        h_grad=self.h_grad,
+                                                        f_len=self.f_len,
+                                                        g_len=self.g_len,
                                                         pack_output=pack_output,
                                                         relu=relu,
                                                         dropout=dropout,
                                                         dropout_prob=self.dropout_prob,
                                                         mask=mask if dropout else None)
-        
+
         f_grad_tst = self.f_tst.grad
         g_grad_tst = self.g_tst.grad
-        
+
         self.assertTrue(torch.allclose(h_ref, h_tst, atol=1e-5, rtol=1e-5))
         self.assertTrue(torch.allclose(f_grad_ref, f_grad_tst, atol=1e-5, rtol=1e-5))
         self.assertTrue(torch.allclose(g_grad_ref, g_grad_tst, atol=1e-4, rtol=1e-4))
@@ -139,19 +141,22 @@ def test_transducer_joint_pack_relu(self):
     def test_transducer_joint_vec_pack_relu(self):
         self.run_transducer_joint(for_vector_kernel=True, pack_output=True, relu=True, dropout=False)
 
+    @unittest.expectedFailure
     def test_transducer_joint_relu_dropout(self):
         self.run_transducer_joint(for_vector_kernel=True, pack_output=True, relu=True, dropout=True)
 
+    @unittest.expectedFailure
     def test_transducer_joint_vec_relu_dropout(self):
         self.run_transducer_joint(for_vector_kernel=True, pack_output=False, relu=True, dropout=True)
 
+    @unittest.expectedFailure
     def test_transducer_joint_pack_relu_dropout(self):
         self.run_transducer_joint(for_vector_kernel=False, pack_output=True, relu=True, dropout=True)
 
+    @unittest.expectedFailure
     def test_transducer_joint_vec_pack_relu_dropout(self):
         self.run_transducer_joint(for_vector_kernel=True, pack_output=True, relu=True, dropout=True)
 
 
-
 if __name__ == '__main__':
-    unittest.main()
+    unittest.main()
diff --git a/apex/contrib/test/transducer/test_transducer_loss.py b/apex/contrib/test/transducer/test_transducer_loss.py
@@ -1,12 +1,14 @@
-import torch
 import unittest
+
+import torch
+
 from apex.contrib.transducer import TransducerLoss
-import transducer_ref
+from apex.contrib.transducer import _transducer_ref as transducer_ref
+
 
 class TransducerLossTest(unittest.TestCase):
     def setUp(self, seed=1234):
         torch.manual_seed(seed)
-        torch.cuda.manual_seed_all(seed)
 
     def gen_input(self, scalar_t, for_vector_kernel):
         self.B = 5
@@ -18,10 +20,10 @@ def gen_input(self, scalar_t, for_vector_kernel):
         self.blank_idx = V - 1
         device = "cuda"
 
-        self.x_tst = torch.randn((self.B, T_max, U_max, V), dtype=scalar_t, requires_grad=True, 
+        self.x_tst = torch.randn((self.B, T_max, U_max, V), dtype=scalar_t, requires_grad=True,
                                     device=device)
         self.y = torch.randint(0, self.blank_idx, (self.B, U_max-1), dtype=torch.int, device=device)
-        self.f_len = torch.randint(T_min, T_max+1, (self.B,), dtype=torch.int, device=device) 
+        self.f_len = torch.randint(T_min, T_max+1, (self.B,), dtype=torch.int, device=device)
         self.y_len = torch.randint(U_min-1, U_max, (self.B,), dtype=torch.int, device=device)
         self.f_len[torch.randint(0, self.B, (1,)).item()] = T_max
         self.y_len[torch.randint(0, self.B, (1,)).item()] = U_max-1
@@ -31,11 +33,11 @@ def gen_input(self, scalar_t, for_vector_kernel):
         x_ref.requires_grad = True
         loss_grad = torch.ones(x_ref.size(0), dtype=x_ref.dtype, device=x_ref.device)/x_ref.size(0)
         _, _, self.grad_ref, self.loss_ref \
-            = transducer_ref.transducer_loss_reference( x=x_ref, 
-                                                        label=self.y, 
-                                                        f_len=self.f_len, 
-                                                        y_len=self.y_len, 
-                                                        blank_idx=self.blank_idx, 
+            = transducer_ref.transducer_loss_reference( x=x_ref,
+                                                        label=self.y,
+                                                        f_len=self.f_len,
+                                                        y_len=self.y_len,
+                                                        blank_idx=self.blank_idx,
                                                         loss_grad=loss_grad)
 
     def _pack(self, x):
@@ -50,7 +52,7 @@ def _pack(self, x):
         return x_packed, batch_offset
 
     def _unpack(self, x):
-        x_unpacked = torch.zeros(self.B, self.f_len.max(), self.y_len.max()+1, x.size(-1), 
+        x_unpacked = torch.zeros(self.B, self.f_len.max(), self.y_len.max()+1, x.size(-1),
                                     dtype=x.dtype, device=x.device)
         for b in range(self.B):
             my_batch_offset = 0 if b == 0 else self.batch_offset[b-1]
@@ -63,28 +65,28 @@ def _unpack(self, x):
 
     def run_transducer_loss(self, scalar_t, fuse_softmax_backward, packed_input, for_vector_kernel):
         self.gen_input(scalar_t, for_vector_kernel)
-        my_loss = TransducerLoss(  fuse_softmax_backward=fuse_softmax_backward, 
-                                    packed_input=packed_input) 
+        my_loss = TransducerLoss(  fuse_softmax_backward=fuse_softmax_backward,
+                                    packed_input=packed_input)
         if not packed_input:
             loss_tst = my_loss( x=self.x_tst,
-                                label=self.y, 
-                                f_len=self.f_len, 
-                                y_len=self.y_len, 
+                                label=self.y,
+                                f_len=self.f_len,
+                                y_len=self.y_len,
                                 blank_idx=self.blank_idx)
-            loss_tst.mean().backward() 
+            loss_tst.mean().backward()
             grad_tst = self.x_tst.grad
         else:
             loss_tst = my_loss( x=self.x_tst_packed,
-                                label=self.y, 
-                                f_len=self.f_len, 
-                                y_len=self.y_len, 
+                                label=self.y,
+                                f_len=self.f_len,
+                                y_len=self.y_len,
                                 blank_idx=self.blank_idx,
-                                batch_offset=self.batch_offset, 
+                                batch_offset=self.batch_offset,
                                 max_f_len=max(self.f_len))
             loss_tst.mean().backward()
             grad_tst_packed = self.x_tst_packed.grad
             grad_tst = self._unpack(grad_tst_packed)
-        
+
         return loss_tst, grad_tst
 
     def test_transducer_loss_fp32(self):
@@ -128,6 +130,5 @@ def test_transducer_loss_fp16_backward_fusion_packed_vec(self):
         self.assertTrue(torch.allclose(self.grad_ref, grad_tst, atol=1e-4, rtol=1e-3))
 
 
-
 if __name__ == '__main__':
-    unittest.main()
+    unittest.main()
diff --git a/apex/contrib/transducer/__init__.py b/apex/contrib/transducer/__init__.py
@@ -1,2 +1,3 @@
 from .transducer import TransducerJoint
-from .transducer import TransducerLoss
+from .transducer import TransducerLoss
+from . import _transducer_ref
diff --git a/apex/contrib/transducer/_transducer_ref.py b/apex/contrib/transducer/_transducer_ref.py
@@ -1,6 +1,5 @@
 import torch
-import numpy as np
-import pdb
+
 
 def transducer_loss_reference(x, label, f_len, y_len, blank_idx, loss_grad):
     def log_sum_exp(a, b):
@@ -23,7 +22,7 @@ def forward_alpha(x, label, f_len, y_len, blank_idx):
                 for u in range(1, y_len[b]+1):
                     curr_ = alpha[b, t-1, u] + x[b, t-1, u, blank_idx]
                     next_ = alpha[b, t, u-1] + x[b, t, u-1, label[b, u-1]]
-                    alpha[b, t, u] = log_sum_exp(curr_, next_) 
+                    alpha[b, t, u] = log_sum_exp(curr_, next_)
         return alpha
 
     def forward_beta(x, label, f_len, y_len, blank_idx):
@@ -33,14 +32,14 @@ def forward_beta(x, label, f_len, y_len, blank_idx):
         for b in range(B):
             beta[b, f_len[b]-1, y_len[b]] = x[b, f_len[b]-1, y_len[b], blank_idx]
             for t in range(f_len[b]-2, -1, -1):
-                beta[b, t, y_len[b]] = beta[b, t+1, y_len[b]] + x[b, t, y_len[b], blank_idx] 
+                beta[b, t, y_len[b]] = beta[b, t+1, y_len[b]] + x[b, t, y_len[b], blank_idx]
             for u in range(y_len[b]-1, -1, -1):
                 beta[b, f_len[b]-1, u] = beta[b, f_len[b]-1, u+1] + x[b, f_len[b]-1, u, label[b, u]]
             for t in range(f_len[b]-2, -1, -1):
                 for u in range(y_len[b]-1, -1, -1):
-                    curr_ = beta[b, t+1, u] + x[b, t, u, blank_idx] 
+                    curr_ = beta[b, t+1, u] + x[b, t, u, blank_idx]
                     next_ = beta[b, t, u+1] + x[b, t, u, label[b, u]]
-                    beta[b, t, u] = log_sum_exp(curr_, next_) 
+                    beta[b, t, u] = log_sum_exp(curr_, next_)
         return beta
 
     def backward(x, label, f_len, y_len, alpha, beta, loss_grad, blank_idx):
@@ -50,33 +49,33 @@ def backward(x, label, f_len, y_len, alpha, beta, loss_grad, blank_idx):
             common_factor = torch.log(loss_grad[b]) + alpha - beta[b, 0, 0]
             # next
             for u in range(y_len[b]):
-                grad[b, :f_len[b], u, label[b, u]] = -torch.exp(common_factor[b, :f_len[b], u] 
-                                                        + beta[b, :f_len[b], u+1] 
+                grad[b, :f_len[b], u, label[b, u]] = -torch.exp(common_factor[b, :f_len[b], u]
+                                                        + beta[b, :f_len[b], u+1]
                                                         + x[b, :f_len[b], u, label[b, u]])
 
             # current
             grad[b, :f_len[b]-1, :y_len[b]+1, blank_idx] \
-                = -torch.exp(common_factor[b, :f_len[b]-1, :y_len[b]+1] 
-                    + beta[b, 1:f_len[b], :y_len[b]+1] 
+                = -torch.exp(common_factor[b, :f_len[b]-1, :y_len[b]+1]
+                    + beta[b, 1:f_len[b], :y_len[b]+1]
                     + x[b, :f_len[b]-1, :y_len[b]+1, blank_idx])
 
             grad[b, f_len[b]-1, y_len[b], blank_idx] = -torch.exp(common_factor[b, f_len[b]-1, y_len[b]]
                                                          + x[b, f_len[b]-1, y_len[b], blank_idx])
-     
+
         return grad
 
     x_log = torch.nn.functional.log_softmax(x, dim=-1)
     alpha = forward_alpha(x_log, label, f_len, y_len, blank_idx)
     beta = forward_beta(x_log, label, f_len, y_len, blank_idx)
-    grad = backward(x_log, label, f_len, y_len, alpha, beta, 
+    grad = backward(x_log, label, f_len, y_len, alpha, beta,
                         loss_grad, blank_idx)
     x_log.backward(grad)
     loss = -beta[:, 0, 0]
     loss = loss.to(x.dtype)
     return alpha, beta, x.grad, loss
 
 
-def transducer_joint_reference(f, g, h_grad, f_len, g_len, pack_output, relu, dropout, 
+def transducer_joint_reference(f, g, h_grad, f_len, g_len, pack_output, relu, dropout,
                                 dropout_prob=0, mask=None):
     if dropout and mask == None:
         raise NotImplementedError("mask needs to supplied to test dropout.")
@@ -100,13 +99,11 @@ def transducer_joint_reference(f, g, h_grad, f_len, g_len, pack_output, relu, dr
             h[b, f_len[b]:] = -1
             h[b, :, g_len[b]:] = -1
 
-        return h, f.grad, g.grad 
+        return h, f.grad, g.grad
 
     # packing
     list_to_pack = []
     for b in range(B):
         list_to_pack.append(h[b, :f_len[b], :g_len[b], :].reshape(-1, H))
     h_packed = torch.cat(list_to_pack)
     return h_packed, f.grad, g.grad
-
-