-
Notifications
You must be signed in to change notification settings - Fork 0
[pull] main from abetlen:main #5
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Conversation
Seems you are using me but didn't get OPENAI_API_KEY seted in Variables/Secrets for this repo. you could follow readme for more information |
Reviewer's Guide by SourceryThis pull request introduces several new features and improvements, including new vocabulary pre-processing types, the exposure of the Sequence diagram for KV cache clear operationsequenceDiagram
participant User
participant llama_context
participant llama_cpp
User->>llama_cpp: llama_kv_cache_clear(ctx)
activate llama_cpp
llama_cpp->>llama_cpp: llama_kv_self_clear(ctx) [Deprecated]
activate llama_cpp
llama_cpp->>llama_context: Clear KV cache data
deactivate llama_cpp
deactivate llama_cpp
Sequence diagram for KV cache sequence copy operationsequenceDiagram
participant User
participant llama_context
participant llama_cpp
User->>llama_cpp: llama_kv_cache_seq_cp(ctx, seq_id_src, seq_id_dst, p0, p1)
activate llama_cpp
llama_cpp->>llama_cpp: llama_kv_self_seq_cp(ctx, seq_id_src, seq_id_dst, p0, p1) [Deprecated]
activate llama_cpp
llama_cpp->>llama_context: Copy tokens from seq_id_src to seq_id_dst
deactivate llama_cpp
deactivate llama_cpp
Sequence diagram for KV cache sequence keep operationsequenceDiagram
participant User
participant llama_context
participant llama_cpp
User->>llama_cpp: llama_kv_cache_seq_keep(ctx, seq_id)
activate llama_cpp
llama_cpp->>llama_cpp: llama_kv_self_seq_keep(ctx, seq_id) [Deprecated]
activate llama_cpp
llama_cpp->>llama_context: Remove tokens not in seq_id
deactivate llama_cpp
deactivate llama_cpp
Sequence diagram for KV cache sequence add operationsequenceDiagram
participant User
participant llama_context
participant llama_cpp
User->>llama_cpp: llama_kv_cache_seq_add(ctx, seq_id, p0, p1, delta)
activate llama_cpp
llama_cpp->>llama_cpp: llama_kv_self_seq_add(ctx, seq_id, p0, p1, delta) [Deprecated]
activate llama_cpp
llama_cpp->>llama_context: Add delta to tokens in seq_id within [p0, p1)
deactivate llama_cpp
deactivate llama_cpp
Sequence diagram for KV cache sequence division operationsequenceDiagram
participant User
participant llama_context
participant llama_cpp
User->>llama_cpp: llama_kv_cache_seq_div(ctx, seq_id, p0, p1, d)
activate llama_cpp
llama_cpp->>llama_cpp: llama_kv_self_seq_div(ctx, seq_id, p0, p1, d) [Deprecated]
activate llama_cpp
llama_cpp->>llama_context: Divide positions of tokens in seq_id within [p0, p1) by d
deactivate llama_cpp
deactivate llama_cpp
Sequence diagram for KV cache defragmentation operationsequenceDiagram
participant User
participant llama_context
participant llama_cpp
User->>llama_cpp: llama_kv_cache_defrag(ctx)
activate llama_cpp
llama_cpp->>llama_cpp: llama_kv_self_defrag(ctx) [Deprecated]
activate llama_cpp
llama_cpp->>llama_context: Defragment KV cache
deactivate llama_cpp
deactivate llama_cpp
Sequence diagram for KV cache update operationsequenceDiagram
participant User
participant llama_context
participant llama_cpp
User->>llama_cpp: llama_kv_cache_update(ctx)
activate llama_cpp
llama_cpp->>llama_cpp: llama_kv_self_update(ctx) [Deprecated]
activate llama_cpp
llama_cpp->>llama_context: Apply KV cache updates
deactivate llama_cpp
deactivate llama_cpp
Sequence diagram for KV cache can shift operationsequenceDiagram
participant User
participant llama_context
participant llama_cpp
User->>llama_cpp: llama_kv_cache_can_shift(ctx)
activate llama_cpp
llama_cpp->>llama_cpp: llama_kv_self_can_shift(ctx) [Deprecated]
activate llama_cpp
llama_cpp->>llama_context: Check if KV cache can shift
llama_context-->>llama_cpp: Return bool
deactivate llama_cpp
llama_cpp-->>User: Return bool
deactivate llama_cpp
Updated class diagram for llama_model_paramsclassDiagram
class llama_model_params {
+void* devices
+void* tensor_buft_overrides
+int32 n_gpu_layers
+int split_mode
+int32 main_gpu
+bool lock_output_tensors
+bool vocab_only
+bool use_mmap
+bool use_mlock
+bool embedding
+CtypesArray[llama_model_kv_override] kv_overrides
+bool numa
+bool mul_mat_q
+bool f16_kv
+bool logits_all
+bool check_tensors
}
note for llama_model_params "devices and tensor_buft_overrides are marked as unused"
File-Level Changes
Tips and commandsInteracting with Sourcery
Customizing Your ExperienceAccess your dashboard to:
Getting Help
|
See Commits and Changes for more details.
Created by
pull[bot] (v2.0.0-alpha.1)
Can you help keep this open source service alive? 💖 Please sponsor : )
Summary by Sourcery
Update llama-cpp-python bindings with new KV cache and model-related functions from llama.cpp
New Features:
Enhancements:
Chores: