Fix lerp overload ambiguity with std::lerp under C++20 (#1985)

xwang233 · claude · web-flow · commit f199212da723 · 2026-03-10T11:00:52.000+09:00
PyTorch commit ad56ff73b751 ("[2/12] Upgrade cpp_extension and cpp_builder to C++20", pytorch/pytorch#176659) changed the default C++ standard from C++17 to C++20 for extensions built via torch.utils.cpp_extension. Under C++20, std::lerp from <cmath> is visible alongside the custom lerp(float,float,float) defined in this file. When the third argument is c10::BFloat16 (implicitly convertible to float), the compiler finds two equally-valid overload candidates and fails with "more than one instance of overloaded function matches". Rename the custom lerp to _lerp to eliminate the ambiguity. Signed-off-by: Xiao Wang <24860335+xwang233@users.noreply.github.com> Co-authored-by: Claude Opus 4.6 <noreply@anthropic.com>
diff --git a/apex/contrib/csrc/optimizers/multi_tensor_distopt_adam_kernel.cu b/apex/contrib/csrc/optimizers/multi_tensor_distopt_adam_kernel.cu
@@ -27,7 +27,8 @@ __device__ __forceinline__ void load_store(T* dst, const T* src, int dst_offset
 }
 
 // (1-t)*x + t*y
-__device__ __forceinline__ float lerp(float t, float x, float y) {
+// Note: Named _lerp to avoid ambiguity with std::lerp under C++20.
+__device__ __forceinline__ float _lerp(float t, float x, float y) {
   // See https://developer.nvidia.com/blog/lerp-faster-cuda/
   return fma(t, y, fma(-t, x, x));
 }
@@ -53,8 +54,8 @@ struct DistAdamFunctor {
 #pragma unroll
       for (int ii = 0; ii < ILP; ii++) {
         float scaled_grad = (g[ii] * grad_scale) + (weight_decay * p[ii]);
-        float next_m = lerp(beta1, scaled_grad, m[ii]);
-        float next_v = lerp(beta2, scaled_grad * scaled_grad, v[ii]);
+        float next_m = _lerp(beta1, scaled_grad, m[ii]);
+        float next_v = _lerp(beta2, scaled_grad * scaled_grad, v[ii]);
         float next_m_unbiased = next_m / beta1_correction;
         float next_v_unbiased = next_v / beta2_correction;
         float denom = sqrtf(next_v_unbiased) + eps;
@@ -67,8 +68,8 @@ struct DistAdamFunctor {
 #pragma unroll
       for (int ii = 0; ii < ILP; ii++) {
         float scaled_grad = g[ii] * grad_scale;
-        float next_m = lerp(beta1, scaled_grad, m[ii]);
-        float next_v = lerp(beta2, scaled_grad * scaled_grad, v[ii]);
+        float next_m = _lerp(beta1, scaled_grad, m[ii]);
+        float next_v = _lerp(beta2, scaled_grad * scaled_grad, v[ii]);
         float next_m_unbiased = next_m / beta1_correction;
         float next_v_unbiased = next_v / beta2_correction;
         float denom = sqrtf(next_v_unbiased) + eps;
@@ -183,8 +184,8 @@ struct DistAdamCapturableFunctor {
 #pragma unroll
       for (int ii = 0; ii < ILP; ii++) {
         float scaled_grad = (g[ii] * grad_scale) + (weight_decay * p[ii]);
-        float next_m = lerp(beta1, scaled_grad, m[ii]);
-        float next_v = lerp(beta2, scaled_grad * scaled_grad, v[ii]);
+        float next_m = _lerp(beta1, scaled_grad, m[ii]);
+        float next_v = _lerp(beta2, scaled_grad * scaled_grad, v[ii]);
         float next_m_unbiased = next_m / beta1_correction;
         float next_v_unbiased = next_v / beta2_correction;
         float denom = sqrtf(next_v_unbiased) + eps;
@@ -197,8 +198,8 @@ struct DistAdamCapturableFunctor {
 #pragma unroll
       for (int ii = 0; ii < ILP; ii++) {
         float scaled_grad = g[ii] * grad_scale;
-        float next_m = lerp(beta1, scaled_grad, m[ii]);
-        float next_v = lerp(beta2, scaled_grad * scaled_grad, v[ii]);
+        float next_m = _lerp(beta1, scaled_grad, m[ii]);
+        float next_v = _lerp(beta2, scaled_grad * scaled_grad, v[ii]);
         float next_m_unbiased = next_m / beta1_correction;
         float next_v_unbiased = next_v / beta2_correction;
         float denom = sqrtf(next_v_unbiased) + eps;