NVIDIA
diff --git a/‎cpp/tensorrt_llm/common/attentionOp.cpp‎
Lines changed: 7 additions & 1 deletion b/‎cpp/tensorrt_llm/common/attentionOp.cpp‎
Lines changed: 7 additions & 1 deletion
diff --git a/‎cpp/tensorrt_llm/common/attentionOp.h‎
Lines changed: 4 additions & 0 deletions b/‎cpp/tensorrt_llm/common/attentionOp.h‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎cpp/tensorrt_llm/kernels/decoderMaskedMultiheadAttention/xqaParams.h‎
Lines changed: 16 additions & 8 deletions b/‎cpp/tensorrt_llm/kernels/decoderMaskedMultiheadAttention/xqaParams.h‎
Lines changed: 16 additions & 8 deletions
diff --git a/‎cpp/tensorrt_llm/kernels/trtllmGenKernels/fmha/fmhaKernels.h‎
Lines changed: 30 additions & 3 deletions b/‎cpp/tensorrt_llm/kernels/trtllmGenKernels/fmha/fmhaKernels.h‎
Lines changed: 30 additions & 3 deletions
diff --git a/‎cpp/tensorrt_llm/kernels/trtllmGenKernels/fmha/fmhaRunnerParams.h‎
Lines changed: 11 additions & 3 deletions b/‎cpp/tensorrt_llm/kernels/trtllmGenKernels/fmha/fmhaRunnerParams.h‎
Lines changed: 11 additions & 3 deletions
@@ -201,6 +201,7 @@ bool AttentionOp::convertMMHAParamsToXQAParams(tensorrt_llm::kernels::XQAParams&
     // Medusa mode will have multiple query tokens.
     xqaParams.multi_query_tokens = mIsSpecDecodingEnabled && mUseSpecDecoding;
     xqaParams.is_spec_dec_tree = mIsSpecDecTree;
+    xqaParams.layer_idx = generationsParams.layer_idx;
 
     if (mKVCacheQuantMode.hasInt8KvCache())
     {
@@ -278,6 +279,9 @@ bool AttentionOp::convertMMHAParamsToXQAParams(tensorrt_llm::kernels::XQAParams&
     xqaParams.spec_decoding_is_generation_length_variable
         = generationsParams.spec_decoding_is_generation_length_variable;
     xqaParams.spec_decoding_max_generation_length = generationsParams.spec_decoding_max_generation_length;
+    xqaParams.spec_decoding_bl_tree_mask_offset = generationsParams.spec_decoding_bl_tree_mask_offset;
+    xqaParams.spec_decoding_bl_tree_mask = generationsParams.spec_decoding_bl_tree_mask;
+    xqaParams.spec_bl_tree_first_sparse_mask_offset_kv = generationsParams.spec_bl_tree_first_sparse_mask_offset_kv;
     xqaParams.mrope_position_deltas = generationsParams.mrope_position_deltas;
 
     xqaParams.logn_scaling_ptr = generationsParams.logn_scaling_ptr;
@@ -2284,6 +2288,7 @@ int AttentionOp::enqueueGeneration(EnqueueGenerationParams<T> const& params, cud
         // self attn
         XQAParams xqaParams{};
         this->template convertMMHAParamsToXQAParams<T, KVCacheBuffer>(xqaParams, params, /*forConfigurePlugin=*/false);
+
         if (mEnableXQA && mXqaDispatcher->shouldUse(xqaParams))
         {
             TLLM_LOG_DEBUG("XQA kernels are selected in the generation phase.");
@@ -2908,11 +2913,12 @@ int AttentionOp::initialize() noexcept
         {
             fixedParams.outputDataType = DATA_TYPE_E4M3;
         }
-        if (mIsSpecDecodingEnabled)
+        if (mIsSpecDecodingEnabled && !mUseTllmGen)
         {
             fixedParams.outputDataType = DATA_TYPE_E4M3;
             TLLM_CHECK_WITH_INFO(mNumHeads % mNumKVHeads == 0, "mNumHeads should be multiples of mNumKVHeads.");
         }
+
         fixedParams.numQHeads = mNumAttnHeads;
         fixedParams.numKvHeads = mNumAttnKVHeads;
         fixedParams.numTokensPerBlock = mTokensPerBlock;
 
@@ -224,8 +224,12 @@ class AttentionOp
         int32_t const* spec_decoding_generation_lengths = nullptr;
         bool spec_decoding_is_generation_length_variable = false;
         int32_t spec_decoding_max_generation_length = 1;
+        int64_t* spec_decoding_bl_tree_mask_offset = nullptr;
+        uint32_t* spec_decoding_bl_tree_mask = nullptr;
+        int32_t* spec_bl_tree_first_sparse_mask_offset_kv = nullptr;
         // optional when fuse_fp4_quant is enabled
         int32_t start_token_idx_sf = 0;
+        int32_t layer_idx = 0;
     };
 
     template <typename T, typename KVCacheBuffer>
 
@@ -50,15 +50,18 @@ struct XQAParams
     int32_t sink_token_length = 0;
     int max_past_kv_length = 0;
     void const* qkv_bias;
-    int32_t const* sequence_lengths;                  //
-    int32_t const* context_lengths;                   // maybe not used now
-    void const* alibi_slopes;                         // maybe not used now
-    float const* rotary_embedding_inv_freq_cache;     // precomputed rotary inv freq
+    int32_t const* sequence_lengths;                   //
+    int32_t const* context_lengths;                    // maybe not used now
+    void const* alibi_slopes;                          // maybe not used now
+    float const* rotary_embedding_inv_freq_cache;      // precomputed rotary inv freq
     int32_t const* spec_decoding_packed_mask;
-    int const* spec_decoding_position_offsets;        // for position embedding.
-    int const* spec_decoding_generation_lengths;      // variable input lengths.
-    bool spec_decoding_is_generation_length_variable; // whether the generation lengths actually vary
-    int32_t spec_decoding_max_generation_length;      // max possible input length
+    int const* spec_decoding_position_offsets;         // for position embedding.
+    int const* spec_decoding_generation_lengths;       // variable input lengths.
+    bool spec_decoding_is_generation_length_variable;  // whether the generation lengths actually vary
+    int32_t spec_decoding_max_generation_length;       // max possible input length
+    int64_t* spec_decoding_bl_tree_mask_offset;        // for blackwell spec-dec tree mask offset
+    uint32_t* spec_decoding_bl_tree_mask;              // for blackwell spec-dec tree mask
+    int32_t* spec_bl_tree_first_sparse_mask_offset_kv; // for blackwell spec-dec tree first sparse mask offset kv
     int32_t const* mrope_position_deltas = nullptr;
 
     // almost copy from GPTAttentionPluginCommon.
@@ -115,6 +118,8 @@ struct XQAParams
     bool use_sparse_attention = false;
 
     cudaStream_t stream = 0;
+    // layer index
+    int32_t layer_idx = 0;
 
     std::string toString() const
     {
@@ -149,6 +154,9 @@ struct XQAParams
            << "spec_decoding_is_generation_length_variable: "
            << (spec_decoding_is_generation_length_variable ? "true" : "false") << std::endl
            << "spec_decoding_max_generation_length: " << spec_decoding_max_generation_length << std::endl
+           << "spec_decoding_bl_tree_mask_offset: " << spec_decoding_bl_tree_mask_offset << std::endl
+           << "spec_decoding_bl_tree_mask: " << spec_decoding_bl_tree_mask << std::endl
+           << "spec_bl_tree_first_sparse_mask_offset_kv: " << spec_bl_tree_first_sparse_mask_offset_kv << std::endl
            << "mrope_position_deltas: " << mrope_position_deltas << std::endl
            << "generation_input_length: " << generation_input_length << std::endl
            << "num_q_heads: " << num_q_heads << std::endl
 
@@ -29,7 +29,10 @@
 #include "fmhaReduction.h"
 #include "fmhaRunnerParams.h"
 #include "kernelParams.h"
+#include "prepareCustomMask.h"
+#include "tensorrt_llm/kernels/kvCacheUtils.h"
 #include "tensorrt_llm/kernels/multiHeadAttentionCommon.h"
+#include "tensorrt_llm/kernels/unfusedAttentionKernels.h"
 
 namespace tc = tensorrt_llm::common;
 
@@ -204,6 +207,11 @@ class TllmGenFmhaKernel
                 selectKernelIter++;
                 continue;
             }
+            // Prepare custom mask for spec-decoding generation kernels.
+            if (params.layer_idx == 0 && params.is_spec_dec_tree)
+            {
+                runPrepareCustomMask(kernelMeta, params, params.stream);
+            }
 
             // Prepare the kernel parameters.
             auto kernelParams = KernelParams::setKernelParams(params, kernelMeta, maxNumCtasQ, maxNumCtasKv);
@@ -518,9 +526,24 @@ class TllmGenFmhaKernel
         }
         else if (isGenerationKernel(params.mKernelType))
         {
-            kernelType = (params.mNumHeadsQPerKv <= 16 && params.mHeadDimQk != 32)
-                ? FmhaKernelType::SwapsMmaAbForGeneration
-                : FmhaKernelType::KeepsMmaAbForGeneration;
+            if (params.is_spec_dec_tree)
+            {
+
+                if (params.mNumHeadsQPerKv <= 16 && (params.mHeadDimQk == 64 || params.mHeadDimQk == 128))
+                {
+                    kernelType = FmhaKernelType::KeepsMmaAbForGeneration;
+                }
+                else
+                {
+                    kernelType = FmhaKernelType::SwapsMmaAbForGeneration;
+                }
+            }
+            else
+            {
+                kernelType = (params.mNumHeadsQPerKv <= 16 && params.mHeadDimQk != 32)
+                    ? FmhaKernelType::SwapsMmaAbForGeneration
+                    : FmhaKernelType::KeepsMmaAbForGeneration;
+            }
         }
 
         // The maximum number of headsQPerKv that the kernel can support in one Cta.
@@ -538,6 +561,10 @@ class TllmGenFmhaKernel
         {
             // Use the maxNumHeadsQPerKvInCta (tileSizeQ) = 64 for MLA high-throughput generation kernels.
             maxNumHeadsQPerKvInCta = isMlaGenKernel(params) ? 64 : 32;
+            if (params.is_spec_dec_tree)
+            {
+                maxNumHeadsQPerKvInCta = 128;
+            }
             TLLM_CHECK_WITH_INFO((params.mNumHeadsQPerKv < maxNumHeadsQPerKvInCta
                                      || params.mNumHeadsQPerKv % maxNumHeadsQPerKvInCta == 0),
                 "Not supported");
 
@@ -207,12 +207,14 @@ struct TllmGenFmhaRunnerParams
     void const* qkvPtr;
     // The attention sinks pointer (additional value per head in the denominator of the softmax).
     float const* attentionSinksPtr;
+    // The general packed custom mask ptr which does not meet specific format for trtllm gen kernels.
+    int32_t const* generalPackedCustoMaskPtr;
     // The custom mask ptr.
-    uint32_t const* customMaskPtr;
+    uint32_t* customMaskPtr;
     // The packed custom mask's offsets of each sequence.
-    int64_t const* customMaskOffsetsPtr;
+    int64_t* customMaskOffsetsPtr;
     // The first sparseMask offsets in the Kv sequence dimension.
-    int32_t const* firstSparseMaskOffsetsKvPtr;
+    int32_t* firstSparseMaskOffsetsKvPtr;
     // The counter for the multiCtasKv mode.
     int32_t* multiCtasKvCounterPtr;
     // The sequence length buffer for K/V.
@@ -240,6 +242,8 @@ struct TllmGenFmhaRunnerParams
     void* oPtr;
     // The output scaling factor buffer.
     void* oSfPtr;
+    // The spec-decoding generation lengths.
+    int const* spec_decoding_generation_lengths;
 
     // Head dimension for Q and K.
     int mHeadDimQk;
@@ -284,6 +288,10 @@ struct TllmGenFmhaRunnerParams
     int mSparseMlaTopK;
     // The cuda stream.
     cudaStream_t stream;
+    // The layer index.
+    int32_t layer_idx = 0;
+    // Whether the spec-dec tree is used.
+    bool is_spec_dec_tree = false;
 
     // set the attention mask type
     TllmGenFmhaRunnerParams& setAttentionMaskType(std::int8_t maskType)