[Feature Request] Multi-Head Attention Decode

* [ ] Refactor
  * Function: multi_head_attention_decode_with_kvcache
    * ref: https://github.com/Dao-AILab/flash-attention?tab=readme-ov-file#how-to-use-flashattention
    * ref: https://docs.pytorch.org/docs/stable/generated/torch.nn.functional.scaled_dot_product_attention.html
    * ref: https://docs.flashinfer.ai/generated/flashinfer.decode.single_decode_with_kv_cache.html
  * Op: MultiHeadAttentionDecodeWithKVCacheOp
  * Kernel
* [ ] Test
* [ ] Benchmark
  * Baselines: flash-attention, triton

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[Feature Request] Multi-Head Attention Decode #62

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

[Feature Request] Multi-Head Attention Decode #62

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions