From 02c54c0c012cb267074cd9317fb7853d3d36fd1b Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Thu, 4 Jan 2024 21:22:16 +0100 Subject: [PATCH 001/285] Add android dockcross images --- .github/dockcross/dockcross-android-arm | 278 +++++++++++++++++++++ .github/dockcross/dockcross-android-arm64 | 278 +++++++++++++++++++++ .github/dockcross/dockcross-android-x86 | 278 +++++++++++++++++++++ .github/dockcross/dockcross-android-x86_64 | 278 +++++++++++++++++++++ .github/dockcross/update.sh | 4 + 5 files changed, 1116 insertions(+) create mode 100755 .github/dockcross/dockcross-android-arm create mode 100755 .github/dockcross/dockcross-android-arm64 create mode 100755 .github/dockcross/dockcross-android-x86 create mode 100755 .github/dockcross/dockcross-android-x86_64 diff --git a/.github/dockcross/dockcross-android-arm b/.github/dockcross/dockcross-android-arm new file mode 100755 index 00000000..79a2180e --- /dev/null +++ b/.github/dockcross/dockcross-android-arm @@ -0,0 +1,278 @@ +#!/usr/bin/env bash + +DEFAULT_DOCKCROSS_IMAGE=dockcross/android-arm:20240104-6eda627 + +#------------------------------------------------------------------------------ +# Helpers +# +err() { + echo -e >&2 "ERROR: $*\n" +} + +die() { + err "$*" + exit 1 +} + +has() { + # eg. has command update + local kind=$1 + local name=$2 + + type -t $kind:$name | grep -q function +} + +# If OCI_EXE is not already set, search for a container executor (OCI stands for "Open Container Initiative") +if [ -z "$OCI_EXE" ]; then + if which podman >/dev/null 2>/dev/null; then + OCI_EXE=podman + elif which docker >/dev/null 2>/dev/null; then + OCI_EXE=docker + else + die "Cannot find a container executor. Search for docker and podman." + fi +fi + +#------------------------------------------------------------------------------ +# Command handlers +# +command:update-image() { + $OCI_EXE pull $FINAL_IMAGE +} + +help:update-image() { + echo "Pull the latest $FINAL_IMAGE ." +} + +command:update-script() { + if cmp -s <( $OCI_EXE run --rm $FINAL_IMAGE ) $0; then + echo "$0 is up to date" + else + echo -n "Updating $0 ... " + $OCI_EXE run --rm $FINAL_IMAGE > $0 && echo ok + fi +} + +help:update-script() { + echo "Update $0 from $FINAL_IMAGE ." +} + +command:update() { + command:update-image + command:update-script +} + +help:update() { + echo "Pull the latest $FINAL_IMAGE, and then update $0 from that." +} + +command:help() { + if [[ $# != 0 ]]; then + if ! has command $1; then + err \"$1\" is not an dockcross command + command:help + elif ! has help $1; then + err No help found for \"$1\" + else + help:$1 + fi + else + cat >&2 < +ENDHELP + exit 1 + fi +} + +#------------------------------------------------------------------------------ +# Option processing +# +special_update_command='' +while [[ $# != 0 ]]; do + case $1 in + + --) + shift + break + ;; + + --args|-a) + ARG_ARGS="$2" + shift 2 + ;; + + --config|-c) + ARG_CONFIG="$2" + shift 2 + ;; + + --image|-i) + ARG_IMAGE="$2" + shift 2 + ;; + update|update-image|update-script) + special_update_command=$1 + break + ;; + -*) + err Unknown option \"$1\" + command:help + exit + ;; + + *) + break + ;; + + esac +done + +# The precedence for options is: +# 1. command-line arguments +# 2. environment variables +# 3. defaults + +# Source the config file if it exists +DEFAULT_DOCKCROSS_CONFIG=~/.dockcross +FINAL_CONFIG=${ARG_CONFIG-${DOCKCROSS_CONFIG-$DEFAULT_DOCKCROSS_CONFIG}} + +[[ -f "$FINAL_CONFIG" ]] && source "$FINAL_CONFIG" + +# Set the docker image +FINAL_IMAGE=${ARG_IMAGE-${DOCKCROSS_IMAGE-$DEFAULT_DOCKCROSS_IMAGE}} + +# Handle special update command +if [ "$special_update_command" != "" ]; then + case $special_update_command in + + update) + command:update + exit $? + ;; + + update-image) + command:update-image + exit $? + ;; + + update-script) + command:update-script + exit $? + ;; + + esac +fi + +# Set the docker run extra args (if any) +FINAL_ARGS=${ARG_ARGS-${DOCKCROSS_ARGS}} + +# Bash on Ubuntu on Windows +UBUNTU_ON_WINDOWS=$([ -e /proc/version ] && grep -l Microsoft /proc/version || echo "") +# MSYS, Git Bash, etc. +MSYS=$([ -e /proc/version ] && grep -l MINGW /proc/version || echo "") +# CYGWIN +CYGWIN=$([ -e /proc/version ] && grep -l CYGWIN /proc/version || echo "") + +if [ -z "$UBUNTU_ON_WINDOWS" -a -z "$MSYS" -a "$OCI_EXE" != "podman" ]; then + USER_IDS=(-e BUILDER_UID="$( id -u )" -e BUILDER_GID="$( id -g )" -e BUILDER_USER="$( id -un )" -e BUILDER_GROUP="$( id -gn )") +fi + +# Change the PWD when working in Docker on Windows +if [ -n "$UBUNTU_ON_WINDOWS" ]; then + WSL_ROOT="/mnt/" + CFG_FILE=/etc/wsl.conf + if [ -f "$CFG_FILE" ]; then + CFG_CONTENT=$(cat $CFG_FILE | sed -r '/[^=]+=[^=]+/!d' | sed -r 's/\s+=\s/=/g') + eval "$CFG_CONTENT" + if [ -n "$root" ]; then + WSL_ROOT=$root + fi + fi + HOST_PWD=`pwd -P` + HOST_PWD=${HOST_PWD/$WSL_ROOT//} +elif [ -n "$MSYS" ]; then + HOST_PWD=$PWD + HOST_PWD=${HOST_PWD/\//} + HOST_PWD=${HOST_PWD/\//:\/} +elif [ -n "$CYGWIN" ]; then + for f in pwd readlink cygpath ; do + test -n "$(type "${f}" )" || { echo >&2 "Missing functionality (${f}) (in cygwin)." ; exit 1 ; } ; + done ; + HOST_PWD="$( cygpath -w "$( readlink -f "$( pwd ;)" ; )" ; )" ; +else + HOST_PWD=$PWD + [ -L $HOST_PWD ] && HOST_PWD=$(readlink $HOST_PWD) +fi + +# Mount Additional Volumes +if [ -z "$SSH_DIR" ]; then + SSH_DIR="$HOME/.ssh" +fi + +HOST_VOLUMES= +if [ -e "$SSH_DIR" -a -z "$MSYS" ]; then + if test -n "${CYGWIN}" ; then + HOST_VOLUMES+="-v $(cygpath -w ${SSH_DIR} ; ):/home/$(id -un)/.ssh" ; + else + HOST_VOLUMES+="-v $SSH_DIR:/home/$(id -un)/.ssh" ; + fi ; +fi + +#------------------------------------------------------------------------------ +# Now, finally, run the command in a container +# +TTY_ARGS= +tty -s && [ -z "$MSYS" ] && TTY_ARGS=-ti +CONTAINER_NAME=dockcross_$RANDOM +$OCI_EXE run $TTY_ARGS --name $CONTAINER_NAME \ + -v "$HOST_PWD":/work \ + $HOST_VOLUMES \ + "${USER_IDS[@]}" \ + $FINAL_ARGS \ + $FINAL_IMAGE "$@" +run_exit_code=$? + +# Attempt to delete container +rm_output=$($OCI_EXE rm -f $CONTAINER_NAME 2>&1) +rm_exit_code=$? +if [[ $rm_exit_code != 0 ]]; then + if [[ "$CIRCLECI" == "true" ]] && [[ $rm_output == *"Driver btrfs failed to remove"* ]]; then + : # Ignore error because of https://circleci.com/docs/docker-btrfs-error/ + else + echo "$rm_output" + exit $rm_exit_code + fi +fi + +exit $run_exit_code + +################################################################################ +# +# This image is not intended to be run manually. +# +# To create a dockcross helper script for the +# dockcross/android-arm:20240104-6eda627 image, run: +# +# docker run --rm dockcross/android-arm:20240104-6eda627 > dockcross-android-arm-20240104-6eda627 +# chmod +x dockcross-android-arm-20240104-6eda627 +# +# You may then wish to move the dockcross script to your PATH. +# +################################################################################ diff --git a/.github/dockcross/dockcross-android-arm64 b/.github/dockcross/dockcross-android-arm64 new file mode 100755 index 00000000..630b8113 --- /dev/null +++ b/.github/dockcross/dockcross-android-arm64 @@ -0,0 +1,278 @@ +#!/usr/bin/env bash + +DEFAULT_DOCKCROSS_IMAGE=dockcross/android-arm64:20240104-6eda627 + +#------------------------------------------------------------------------------ +# Helpers +# +err() { + echo -e >&2 "ERROR: $*\n" +} + +die() { + err "$*" + exit 1 +} + +has() { + # eg. has command update + local kind=$1 + local name=$2 + + type -t $kind:$name | grep -q function +} + +# If OCI_EXE is not already set, search for a container executor (OCI stands for "Open Container Initiative") +if [ -z "$OCI_EXE" ]; then + if which podman >/dev/null 2>/dev/null; then + OCI_EXE=podman + elif which docker >/dev/null 2>/dev/null; then + OCI_EXE=docker + else + die "Cannot find a container executor. Search for docker and podman." + fi +fi + +#------------------------------------------------------------------------------ +# Command handlers +# +command:update-image() { + $OCI_EXE pull $FINAL_IMAGE +} + +help:update-image() { + echo "Pull the latest $FINAL_IMAGE ." +} + +command:update-script() { + if cmp -s <( $OCI_EXE run --rm $FINAL_IMAGE ) $0; then + echo "$0 is up to date" + else + echo -n "Updating $0 ... " + $OCI_EXE run --rm $FINAL_IMAGE > $0 && echo ok + fi +} + +help:update-script() { + echo "Update $0 from $FINAL_IMAGE ." +} + +command:update() { + command:update-image + command:update-script +} + +help:update() { + echo "Pull the latest $FINAL_IMAGE, and then update $0 from that." +} + +command:help() { + if [[ $# != 0 ]]; then + if ! has command $1; then + err \"$1\" is not an dockcross command + command:help + elif ! has help $1; then + err No help found for \"$1\" + else + help:$1 + fi + else + cat >&2 < +ENDHELP + exit 1 + fi +} + +#------------------------------------------------------------------------------ +# Option processing +# +special_update_command='' +while [[ $# != 0 ]]; do + case $1 in + + --) + shift + break + ;; + + --args|-a) + ARG_ARGS="$2" + shift 2 + ;; + + --config|-c) + ARG_CONFIG="$2" + shift 2 + ;; + + --image|-i) + ARG_IMAGE="$2" + shift 2 + ;; + update|update-image|update-script) + special_update_command=$1 + break + ;; + -*) + err Unknown option \"$1\" + command:help + exit + ;; + + *) + break + ;; + + esac +done + +# The precedence for options is: +# 1. command-line arguments +# 2. environment variables +# 3. defaults + +# Source the config file if it exists +DEFAULT_DOCKCROSS_CONFIG=~/.dockcross +FINAL_CONFIG=${ARG_CONFIG-${DOCKCROSS_CONFIG-$DEFAULT_DOCKCROSS_CONFIG}} + +[[ -f "$FINAL_CONFIG" ]] && source "$FINAL_CONFIG" + +# Set the docker image +FINAL_IMAGE=${ARG_IMAGE-${DOCKCROSS_IMAGE-$DEFAULT_DOCKCROSS_IMAGE}} + +# Handle special update command +if [ "$special_update_command" != "" ]; then + case $special_update_command in + + update) + command:update + exit $? + ;; + + update-image) + command:update-image + exit $? + ;; + + update-script) + command:update-script + exit $? + ;; + + esac +fi + +# Set the docker run extra args (if any) +FINAL_ARGS=${ARG_ARGS-${DOCKCROSS_ARGS}} + +# Bash on Ubuntu on Windows +UBUNTU_ON_WINDOWS=$([ -e /proc/version ] && grep -l Microsoft /proc/version || echo "") +# MSYS, Git Bash, etc. +MSYS=$([ -e /proc/version ] && grep -l MINGW /proc/version || echo "") +# CYGWIN +CYGWIN=$([ -e /proc/version ] && grep -l CYGWIN /proc/version || echo "") + +if [ -z "$UBUNTU_ON_WINDOWS" -a -z "$MSYS" -a "$OCI_EXE" != "podman" ]; then + USER_IDS=(-e BUILDER_UID="$( id -u )" -e BUILDER_GID="$( id -g )" -e BUILDER_USER="$( id -un )" -e BUILDER_GROUP="$( id -gn )") +fi + +# Change the PWD when working in Docker on Windows +if [ -n "$UBUNTU_ON_WINDOWS" ]; then + WSL_ROOT="/mnt/" + CFG_FILE=/etc/wsl.conf + if [ -f "$CFG_FILE" ]; then + CFG_CONTENT=$(cat $CFG_FILE | sed -r '/[^=]+=[^=]+/!d' | sed -r 's/\s+=\s/=/g') + eval "$CFG_CONTENT" + if [ -n "$root" ]; then + WSL_ROOT=$root + fi + fi + HOST_PWD=`pwd -P` + HOST_PWD=${HOST_PWD/$WSL_ROOT//} +elif [ -n "$MSYS" ]; then + HOST_PWD=$PWD + HOST_PWD=${HOST_PWD/\//} + HOST_PWD=${HOST_PWD/\//:\/} +elif [ -n "$CYGWIN" ]; then + for f in pwd readlink cygpath ; do + test -n "$(type "${f}" )" || { echo >&2 "Missing functionality (${f}) (in cygwin)." ; exit 1 ; } ; + done ; + HOST_PWD="$( cygpath -w "$( readlink -f "$( pwd ;)" ; )" ; )" ; +else + HOST_PWD=$PWD + [ -L $HOST_PWD ] && HOST_PWD=$(readlink $HOST_PWD) +fi + +# Mount Additional Volumes +if [ -z "$SSH_DIR" ]; then + SSH_DIR="$HOME/.ssh" +fi + +HOST_VOLUMES= +if [ -e "$SSH_DIR" -a -z "$MSYS" ]; then + if test -n "${CYGWIN}" ; then + HOST_VOLUMES+="-v $(cygpath -w ${SSH_DIR} ; ):/home/$(id -un)/.ssh" ; + else + HOST_VOLUMES+="-v $SSH_DIR:/home/$(id -un)/.ssh" ; + fi ; +fi + +#------------------------------------------------------------------------------ +# Now, finally, run the command in a container +# +TTY_ARGS= +tty -s && [ -z "$MSYS" ] && TTY_ARGS=-ti +CONTAINER_NAME=dockcross_$RANDOM +$OCI_EXE run $TTY_ARGS --name $CONTAINER_NAME \ + -v "$HOST_PWD":/work \ + $HOST_VOLUMES \ + "${USER_IDS[@]}" \ + $FINAL_ARGS \ + $FINAL_IMAGE "$@" +run_exit_code=$? + +# Attempt to delete container +rm_output=$($OCI_EXE rm -f $CONTAINER_NAME 2>&1) +rm_exit_code=$? +if [[ $rm_exit_code != 0 ]]; then + if [[ "$CIRCLECI" == "true" ]] && [[ $rm_output == *"Driver btrfs failed to remove"* ]]; then + : # Ignore error because of https://circleci.com/docs/docker-btrfs-error/ + else + echo "$rm_output" + exit $rm_exit_code + fi +fi + +exit $run_exit_code + +################################################################################ +# +# This image is not intended to be run manually. +# +# To create a dockcross helper script for the +# dockcross/android-arm64:20240104-6eda627 image, run: +# +# docker run --rm dockcross/android-arm64:20240104-6eda627 > dockcross-android-arm64-20240104-6eda627 +# chmod +x dockcross-android-arm64-20240104-6eda627 +# +# You may then wish to move the dockcross script to your PATH. +# +################################################################################ diff --git a/.github/dockcross/dockcross-android-x86 b/.github/dockcross/dockcross-android-x86 new file mode 100755 index 00000000..46a7d928 --- /dev/null +++ b/.github/dockcross/dockcross-android-x86 @@ -0,0 +1,278 @@ +#!/usr/bin/env bash + +DEFAULT_DOCKCROSS_IMAGE=dockcross/android-x86:20240104-6eda627 + +#------------------------------------------------------------------------------ +# Helpers +# +err() { + echo -e >&2 "ERROR: $*\n" +} + +die() { + err "$*" + exit 1 +} + +has() { + # eg. has command update + local kind=$1 + local name=$2 + + type -t $kind:$name | grep -q function +} + +# If OCI_EXE is not already set, search for a container executor (OCI stands for "Open Container Initiative") +if [ -z "$OCI_EXE" ]; then + if which podman >/dev/null 2>/dev/null; then + OCI_EXE=podman + elif which docker >/dev/null 2>/dev/null; then + OCI_EXE=docker + else + die "Cannot find a container executor. Search for docker and podman." + fi +fi + +#------------------------------------------------------------------------------ +# Command handlers +# +command:update-image() { + $OCI_EXE pull $FINAL_IMAGE +} + +help:update-image() { + echo "Pull the latest $FINAL_IMAGE ." +} + +command:update-script() { + if cmp -s <( $OCI_EXE run --rm $FINAL_IMAGE ) $0; then + echo "$0 is up to date" + else + echo -n "Updating $0 ... " + $OCI_EXE run --rm $FINAL_IMAGE > $0 && echo ok + fi +} + +help:update-script() { + echo "Update $0 from $FINAL_IMAGE ." +} + +command:update() { + command:update-image + command:update-script +} + +help:update() { + echo "Pull the latest $FINAL_IMAGE, and then update $0 from that." +} + +command:help() { + if [[ $# != 0 ]]; then + if ! has command $1; then + err \"$1\" is not an dockcross command + command:help + elif ! has help $1; then + err No help found for \"$1\" + else + help:$1 + fi + else + cat >&2 < +ENDHELP + exit 1 + fi +} + +#------------------------------------------------------------------------------ +# Option processing +# +special_update_command='' +while [[ $# != 0 ]]; do + case $1 in + + --) + shift + break + ;; + + --args|-a) + ARG_ARGS="$2" + shift 2 + ;; + + --config|-c) + ARG_CONFIG="$2" + shift 2 + ;; + + --image|-i) + ARG_IMAGE="$2" + shift 2 + ;; + update|update-image|update-script) + special_update_command=$1 + break + ;; + -*) + err Unknown option \"$1\" + command:help + exit + ;; + + *) + break + ;; + + esac +done + +# The precedence for options is: +# 1. command-line arguments +# 2. environment variables +# 3. defaults + +# Source the config file if it exists +DEFAULT_DOCKCROSS_CONFIG=~/.dockcross +FINAL_CONFIG=${ARG_CONFIG-${DOCKCROSS_CONFIG-$DEFAULT_DOCKCROSS_CONFIG}} + +[[ -f "$FINAL_CONFIG" ]] && source "$FINAL_CONFIG" + +# Set the docker image +FINAL_IMAGE=${ARG_IMAGE-${DOCKCROSS_IMAGE-$DEFAULT_DOCKCROSS_IMAGE}} + +# Handle special update command +if [ "$special_update_command" != "" ]; then + case $special_update_command in + + update) + command:update + exit $? + ;; + + update-image) + command:update-image + exit $? + ;; + + update-script) + command:update-script + exit $? + ;; + + esac +fi + +# Set the docker run extra args (if any) +FINAL_ARGS=${ARG_ARGS-${DOCKCROSS_ARGS}} + +# Bash on Ubuntu on Windows +UBUNTU_ON_WINDOWS=$([ -e /proc/version ] && grep -l Microsoft /proc/version || echo "") +# MSYS, Git Bash, etc. +MSYS=$([ -e /proc/version ] && grep -l MINGW /proc/version || echo "") +# CYGWIN +CYGWIN=$([ -e /proc/version ] && grep -l CYGWIN /proc/version || echo "") + +if [ -z "$UBUNTU_ON_WINDOWS" -a -z "$MSYS" -a "$OCI_EXE" != "podman" ]; then + USER_IDS=(-e BUILDER_UID="$( id -u )" -e BUILDER_GID="$( id -g )" -e BUILDER_USER="$( id -un )" -e BUILDER_GROUP="$( id -gn )") +fi + +# Change the PWD when working in Docker on Windows +if [ -n "$UBUNTU_ON_WINDOWS" ]; then + WSL_ROOT="/mnt/" + CFG_FILE=/etc/wsl.conf + if [ -f "$CFG_FILE" ]; then + CFG_CONTENT=$(cat $CFG_FILE | sed -r '/[^=]+=[^=]+/!d' | sed -r 's/\s+=\s/=/g') + eval "$CFG_CONTENT" + if [ -n "$root" ]; then + WSL_ROOT=$root + fi + fi + HOST_PWD=`pwd -P` + HOST_PWD=${HOST_PWD/$WSL_ROOT//} +elif [ -n "$MSYS" ]; then + HOST_PWD=$PWD + HOST_PWD=${HOST_PWD/\//} + HOST_PWD=${HOST_PWD/\//:\/} +elif [ -n "$CYGWIN" ]; then + for f in pwd readlink cygpath ; do + test -n "$(type "${f}" )" || { echo >&2 "Missing functionality (${f}) (in cygwin)." ; exit 1 ; } ; + done ; + HOST_PWD="$( cygpath -w "$( readlink -f "$( pwd ;)" ; )" ; )" ; +else + HOST_PWD=$PWD + [ -L $HOST_PWD ] && HOST_PWD=$(readlink $HOST_PWD) +fi + +# Mount Additional Volumes +if [ -z "$SSH_DIR" ]; then + SSH_DIR="$HOME/.ssh" +fi + +HOST_VOLUMES= +if [ -e "$SSH_DIR" -a -z "$MSYS" ]; then + if test -n "${CYGWIN}" ; then + HOST_VOLUMES+="-v $(cygpath -w ${SSH_DIR} ; ):/home/$(id -un)/.ssh" ; + else + HOST_VOLUMES+="-v $SSH_DIR:/home/$(id -un)/.ssh" ; + fi ; +fi + +#------------------------------------------------------------------------------ +# Now, finally, run the command in a container +# +TTY_ARGS= +tty -s && [ -z "$MSYS" ] && TTY_ARGS=-ti +CONTAINER_NAME=dockcross_$RANDOM +$OCI_EXE run $TTY_ARGS --name $CONTAINER_NAME \ + -v "$HOST_PWD":/work \ + $HOST_VOLUMES \ + "${USER_IDS[@]}" \ + $FINAL_ARGS \ + $FINAL_IMAGE "$@" +run_exit_code=$? + +# Attempt to delete container +rm_output=$($OCI_EXE rm -f $CONTAINER_NAME 2>&1) +rm_exit_code=$? +if [[ $rm_exit_code != 0 ]]; then + if [[ "$CIRCLECI" == "true" ]] && [[ $rm_output == *"Driver btrfs failed to remove"* ]]; then + : # Ignore error because of https://circleci.com/docs/docker-btrfs-error/ + else + echo "$rm_output" + exit $rm_exit_code + fi +fi + +exit $run_exit_code + +################################################################################ +# +# This image is not intended to be run manually. +# +# To create a dockcross helper script for the +# dockcross/android-x86:20240104-6eda627 image, run: +# +# docker run --rm dockcross/android-x86:20240104-6eda627 > dockcross-android-x86-20240104-6eda627 +# chmod +x dockcross-android-x86-20240104-6eda627 +# +# You may then wish to move the dockcross script to your PATH. +# +################################################################################ diff --git a/.github/dockcross/dockcross-android-x86_64 b/.github/dockcross/dockcross-android-x86_64 new file mode 100755 index 00000000..aa27b04b --- /dev/null +++ b/.github/dockcross/dockcross-android-x86_64 @@ -0,0 +1,278 @@ +#!/usr/bin/env bash + +DEFAULT_DOCKCROSS_IMAGE=dockcross/android-x86_64:20240104-6eda627 + +#------------------------------------------------------------------------------ +# Helpers +# +err() { + echo -e >&2 "ERROR: $*\n" +} + +die() { + err "$*" + exit 1 +} + +has() { + # eg. has command update + local kind=$1 + local name=$2 + + type -t $kind:$name | grep -q function +} + +# If OCI_EXE is not already set, search for a container executor (OCI stands for "Open Container Initiative") +if [ -z "$OCI_EXE" ]; then + if which podman >/dev/null 2>/dev/null; then + OCI_EXE=podman + elif which docker >/dev/null 2>/dev/null; then + OCI_EXE=docker + else + die "Cannot find a container executor. Search for docker and podman." + fi +fi + +#------------------------------------------------------------------------------ +# Command handlers +# +command:update-image() { + $OCI_EXE pull $FINAL_IMAGE +} + +help:update-image() { + echo "Pull the latest $FINAL_IMAGE ." +} + +command:update-script() { + if cmp -s <( $OCI_EXE run --rm $FINAL_IMAGE ) $0; then + echo "$0 is up to date" + else + echo -n "Updating $0 ... " + $OCI_EXE run --rm $FINAL_IMAGE > $0 && echo ok + fi +} + +help:update-script() { + echo "Update $0 from $FINAL_IMAGE ." +} + +command:update() { + command:update-image + command:update-script +} + +help:update() { + echo "Pull the latest $FINAL_IMAGE, and then update $0 from that." +} + +command:help() { + if [[ $# != 0 ]]; then + if ! has command $1; then + err \"$1\" is not an dockcross command + command:help + elif ! has help $1; then + err No help found for \"$1\" + else + help:$1 + fi + else + cat >&2 < +ENDHELP + exit 1 + fi +} + +#------------------------------------------------------------------------------ +# Option processing +# +special_update_command='' +while [[ $# != 0 ]]; do + case $1 in + + --) + shift + break + ;; + + --args|-a) + ARG_ARGS="$2" + shift 2 + ;; + + --config|-c) + ARG_CONFIG="$2" + shift 2 + ;; + + --image|-i) + ARG_IMAGE="$2" + shift 2 + ;; + update|update-image|update-script) + special_update_command=$1 + break + ;; + -*) + err Unknown option \"$1\" + command:help + exit + ;; + + *) + break + ;; + + esac +done + +# The precedence for options is: +# 1. command-line arguments +# 2. environment variables +# 3. defaults + +# Source the config file if it exists +DEFAULT_DOCKCROSS_CONFIG=~/.dockcross +FINAL_CONFIG=${ARG_CONFIG-${DOCKCROSS_CONFIG-$DEFAULT_DOCKCROSS_CONFIG}} + +[[ -f "$FINAL_CONFIG" ]] && source "$FINAL_CONFIG" + +# Set the docker image +FINAL_IMAGE=${ARG_IMAGE-${DOCKCROSS_IMAGE-$DEFAULT_DOCKCROSS_IMAGE}} + +# Handle special update command +if [ "$special_update_command" != "" ]; then + case $special_update_command in + + update) + command:update + exit $? + ;; + + update-image) + command:update-image + exit $? + ;; + + update-script) + command:update-script + exit $? + ;; + + esac +fi + +# Set the docker run extra args (if any) +FINAL_ARGS=${ARG_ARGS-${DOCKCROSS_ARGS}} + +# Bash on Ubuntu on Windows +UBUNTU_ON_WINDOWS=$([ -e /proc/version ] && grep -l Microsoft /proc/version || echo "") +# MSYS, Git Bash, etc. +MSYS=$([ -e /proc/version ] && grep -l MINGW /proc/version || echo "") +# CYGWIN +CYGWIN=$([ -e /proc/version ] && grep -l CYGWIN /proc/version || echo "") + +if [ -z "$UBUNTU_ON_WINDOWS" -a -z "$MSYS" -a "$OCI_EXE" != "podman" ]; then + USER_IDS=(-e BUILDER_UID="$( id -u )" -e BUILDER_GID="$( id -g )" -e BUILDER_USER="$( id -un )" -e BUILDER_GROUP="$( id -gn )") +fi + +# Change the PWD when working in Docker on Windows +if [ -n "$UBUNTU_ON_WINDOWS" ]; then + WSL_ROOT="/mnt/" + CFG_FILE=/etc/wsl.conf + if [ -f "$CFG_FILE" ]; then + CFG_CONTENT=$(cat $CFG_FILE | sed -r '/[^=]+=[^=]+/!d' | sed -r 's/\s+=\s/=/g') + eval "$CFG_CONTENT" + if [ -n "$root" ]; then + WSL_ROOT=$root + fi + fi + HOST_PWD=`pwd -P` + HOST_PWD=${HOST_PWD/$WSL_ROOT//} +elif [ -n "$MSYS" ]; then + HOST_PWD=$PWD + HOST_PWD=${HOST_PWD/\//} + HOST_PWD=${HOST_PWD/\//:\/} +elif [ -n "$CYGWIN" ]; then + for f in pwd readlink cygpath ; do + test -n "$(type "${f}" )" || { echo >&2 "Missing functionality (${f}) (in cygwin)." ; exit 1 ; } ; + done ; + HOST_PWD="$( cygpath -w "$( readlink -f "$( pwd ;)" ; )" ; )" ; +else + HOST_PWD=$PWD + [ -L $HOST_PWD ] && HOST_PWD=$(readlink $HOST_PWD) +fi + +# Mount Additional Volumes +if [ -z "$SSH_DIR" ]; then + SSH_DIR="$HOME/.ssh" +fi + +HOST_VOLUMES= +if [ -e "$SSH_DIR" -a -z "$MSYS" ]; then + if test -n "${CYGWIN}" ; then + HOST_VOLUMES+="-v $(cygpath -w ${SSH_DIR} ; ):/home/$(id -un)/.ssh" ; + else + HOST_VOLUMES+="-v $SSH_DIR:/home/$(id -un)/.ssh" ; + fi ; +fi + +#------------------------------------------------------------------------------ +# Now, finally, run the command in a container +# +TTY_ARGS= +tty -s && [ -z "$MSYS" ] && TTY_ARGS=-ti +CONTAINER_NAME=dockcross_$RANDOM +$OCI_EXE run $TTY_ARGS --name $CONTAINER_NAME \ + -v "$HOST_PWD":/work \ + $HOST_VOLUMES \ + "${USER_IDS[@]}" \ + $FINAL_ARGS \ + $FINAL_IMAGE "$@" +run_exit_code=$? + +# Attempt to delete container +rm_output=$($OCI_EXE rm -f $CONTAINER_NAME 2>&1) +rm_exit_code=$? +if [[ $rm_exit_code != 0 ]]; then + if [[ "$CIRCLECI" == "true" ]] && [[ $rm_output == *"Driver btrfs failed to remove"* ]]; then + : # Ignore error because of https://circleci.com/docs/docker-btrfs-error/ + else + echo "$rm_output" + exit $rm_exit_code + fi +fi + +exit $run_exit_code + +################################################################################ +# +# This image is not intended to be run manually. +# +# To create a dockcross helper script for the +# dockcross/android-x86_64:20240104-6eda627 image, run: +# +# docker run --rm dockcross/android-x86_64:20240104-6eda627 > dockcross-android-x86_64-20240104-6eda627 +# chmod +x dockcross-android-x86_64-20240104-6eda627 +# +# You may then wish to move the dockcross script to your PATH. +# +################################################################################ diff --git a/.github/dockcross/update.sh b/.github/dockcross/update.sh index 0ea28c6c..7b9b7e42 100755 --- a/.github/dockcross/update.sh +++ b/.github/dockcross/update.sh @@ -4,4 +4,8 @@ docker run --rm dockcross/manylinux2014-x64 > ./dockcross-manylinux2014-x64 docker run --rm dockcross/manylinux2014-x86 > ./dockcross-manylinux2014-x86 docker run --rm dockcross/linux-arm64-lts > ./dockcross-linux-arm64-lts +docker run --rm dockcross/android-arm > ./dockcross-android-arm +docker run --rm dockcross/android-arm64 > ./dockcross-android-arm64 +docker run --rm dockcross/android-x86 > ./dockcross-android-x86 +docker run --rm dockcross/android-x86_64 > ./dockcross-android-x86_64 chmod +x ./dockcross-* From d4bd73200e3f00670b68d7b3c50582d6b99be6ec Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Thu, 4 Jan 2024 21:26:47 +0100 Subject: [PATCH 002/285] Remove android x86 dockcross images --- .github/dockcross/dockcross-android-x86 | 278 --------------------- .github/dockcross/dockcross-android-x86_64 | 278 --------------------- 2 files changed, 556 deletions(-) delete mode 100755 .github/dockcross/dockcross-android-x86 delete mode 100755 .github/dockcross/dockcross-android-x86_64 diff --git a/.github/dockcross/dockcross-android-x86 b/.github/dockcross/dockcross-android-x86 deleted file mode 100755 index 46a7d928..00000000 --- a/.github/dockcross/dockcross-android-x86 +++ /dev/null @@ -1,278 +0,0 @@ -#!/usr/bin/env bash - -DEFAULT_DOCKCROSS_IMAGE=dockcross/android-x86:20240104-6eda627 - -#------------------------------------------------------------------------------ -# Helpers -# -err() { - echo -e >&2 "ERROR: $*\n" -} - -die() { - err "$*" - exit 1 -} - -has() { - # eg. has command update - local kind=$1 - local name=$2 - - type -t $kind:$name | grep -q function -} - -# If OCI_EXE is not already set, search for a container executor (OCI stands for "Open Container Initiative") -if [ -z "$OCI_EXE" ]; then - if which podman >/dev/null 2>/dev/null; then - OCI_EXE=podman - elif which docker >/dev/null 2>/dev/null; then - OCI_EXE=docker - else - die "Cannot find a container executor. Search for docker and podman." - fi -fi - -#------------------------------------------------------------------------------ -# Command handlers -# -command:update-image() { - $OCI_EXE pull $FINAL_IMAGE -} - -help:update-image() { - echo "Pull the latest $FINAL_IMAGE ." -} - -command:update-script() { - if cmp -s <( $OCI_EXE run --rm $FINAL_IMAGE ) $0; then - echo "$0 is up to date" - else - echo -n "Updating $0 ... " - $OCI_EXE run --rm $FINAL_IMAGE > $0 && echo ok - fi -} - -help:update-script() { - echo "Update $0 from $FINAL_IMAGE ." -} - -command:update() { - command:update-image - command:update-script -} - -help:update() { - echo "Pull the latest $FINAL_IMAGE, and then update $0 from that." -} - -command:help() { - if [[ $# != 0 ]]; then - if ! has command $1; then - err \"$1\" is not an dockcross command - command:help - elif ! has help $1; then - err No help found for \"$1\" - else - help:$1 - fi - else - cat >&2 < -ENDHELP - exit 1 - fi -} - -#------------------------------------------------------------------------------ -# Option processing -# -special_update_command='' -while [[ $# != 0 ]]; do - case $1 in - - --) - shift - break - ;; - - --args|-a) - ARG_ARGS="$2" - shift 2 - ;; - - --config|-c) - ARG_CONFIG="$2" - shift 2 - ;; - - --image|-i) - ARG_IMAGE="$2" - shift 2 - ;; - update|update-image|update-script) - special_update_command=$1 - break - ;; - -*) - err Unknown option \"$1\" - command:help - exit - ;; - - *) - break - ;; - - esac -done - -# The precedence for options is: -# 1. command-line arguments -# 2. environment variables -# 3. defaults - -# Source the config file if it exists -DEFAULT_DOCKCROSS_CONFIG=~/.dockcross -FINAL_CONFIG=${ARG_CONFIG-${DOCKCROSS_CONFIG-$DEFAULT_DOCKCROSS_CONFIG}} - -[[ -f "$FINAL_CONFIG" ]] && source "$FINAL_CONFIG" - -# Set the docker image -FINAL_IMAGE=${ARG_IMAGE-${DOCKCROSS_IMAGE-$DEFAULT_DOCKCROSS_IMAGE}} - -# Handle special update command -if [ "$special_update_command" != "" ]; then - case $special_update_command in - - update) - command:update - exit $? - ;; - - update-image) - command:update-image - exit $? - ;; - - update-script) - command:update-script - exit $? - ;; - - esac -fi - -# Set the docker run extra args (if any) -FINAL_ARGS=${ARG_ARGS-${DOCKCROSS_ARGS}} - -# Bash on Ubuntu on Windows -UBUNTU_ON_WINDOWS=$([ -e /proc/version ] && grep -l Microsoft /proc/version || echo "") -# MSYS, Git Bash, etc. -MSYS=$([ -e /proc/version ] && grep -l MINGW /proc/version || echo "") -# CYGWIN -CYGWIN=$([ -e /proc/version ] && grep -l CYGWIN /proc/version || echo "") - -if [ -z "$UBUNTU_ON_WINDOWS" -a -z "$MSYS" -a "$OCI_EXE" != "podman" ]; then - USER_IDS=(-e BUILDER_UID="$( id -u )" -e BUILDER_GID="$( id -g )" -e BUILDER_USER="$( id -un )" -e BUILDER_GROUP="$( id -gn )") -fi - -# Change the PWD when working in Docker on Windows -if [ -n "$UBUNTU_ON_WINDOWS" ]; then - WSL_ROOT="/mnt/" - CFG_FILE=/etc/wsl.conf - if [ -f "$CFG_FILE" ]; then - CFG_CONTENT=$(cat $CFG_FILE | sed -r '/[^=]+=[^=]+/!d' | sed -r 's/\s+=\s/=/g') - eval "$CFG_CONTENT" - if [ -n "$root" ]; then - WSL_ROOT=$root - fi - fi - HOST_PWD=`pwd -P` - HOST_PWD=${HOST_PWD/$WSL_ROOT//} -elif [ -n "$MSYS" ]; then - HOST_PWD=$PWD - HOST_PWD=${HOST_PWD/\//} - HOST_PWD=${HOST_PWD/\//:\/} -elif [ -n "$CYGWIN" ]; then - for f in pwd readlink cygpath ; do - test -n "$(type "${f}" )" || { echo >&2 "Missing functionality (${f}) (in cygwin)." ; exit 1 ; } ; - done ; - HOST_PWD="$( cygpath -w "$( readlink -f "$( pwd ;)" ; )" ; )" ; -else - HOST_PWD=$PWD - [ -L $HOST_PWD ] && HOST_PWD=$(readlink $HOST_PWD) -fi - -# Mount Additional Volumes -if [ -z "$SSH_DIR" ]; then - SSH_DIR="$HOME/.ssh" -fi - -HOST_VOLUMES= -if [ -e "$SSH_DIR" -a -z "$MSYS" ]; then - if test -n "${CYGWIN}" ; then - HOST_VOLUMES+="-v $(cygpath -w ${SSH_DIR} ; ):/home/$(id -un)/.ssh" ; - else - HOST_VOLUMES+="-v $SSH_DIR:/home/$(id -un)/.ssh" ; - fi ; -fi - -#------------------------------------------------------------------------------ -# Now, finally, run the command in a container -# -TTY_ARGS= -tty -s && [ -z "$MSYS" ] && TTY_ARGS=-ti -CONTAINER_NAME=dockcross_$RANDOM -$OCI_EXE run $TTY_ARGS --name $CONTAINER_NAME \ - -v "$HOST_PWD":/work \ - $HOST_VOLUMES \ - "${USER_IDS[@]}" \ - $FINAL_ARGS \ - $FINAL_IMAGE "$@" -run_exit_code=$? - -# Attempt to delete container -rm_output=$($OCI_EXE rm -f $CONTAINER_NAME 2>&1) -rm_exit_code=$? -if [[ $rm_exit_code != 0 ]]; then - if [[ "$CIRCLECI" == "true" ]] && [[ $rm_output == *"Driver btrfs failed to remove"* ]]; then - : # Ignore error because of https://circleci.com/docs/docker-btrfs-error/ - else - echo "$rm_output" - exit $rm_exit_code - fi -fi - -exit $run_exit_code - -################################################################################ -# -# This image is not intended to be run manually. -# -# To create a dockcross helper script for the -# dockcross/android-x86:20240104-6eda627 image, run: -# -# docker run --rm dockcross/android-x86:20240104-6eda627 > dockcross-android-x86-20240104-6eda627 -# chmod +x dockcross-android-x86-20240104-6eda627 -# -# You may then wish to move the dockcross script to your PATH. -# -################################################################################ diff --git a/.github/dockcross/dockcross-android-x86_64 b/.github/dockcross/dockcross-android-x86_64 deleted file mode 100755 index aa27b04b..00000000 --- a/.github/dockcross/dockcross-android-x86_64 +++ /dev/null @@ -1,278 +0,0 @@ -#!/usr/bin/env bash - -DEFAULT_DOCKCROSS_IMAGE=dockcross/android-x86_64:20240104-6eda627 - -#------------------------------------------------------------------------------ -# Helpers -# -err() { - echo -e >&2 "ERROR: $*\n" -} - -die() { - err "$*" - exit 1 -} - -has() { - # eg. has command update - local kind=$1 - local name=$2 - - type -t $kind:$name | grep -q function -} - -# If OCI_EXE is not already set, search for a container executor (OCI stands for "Open Container Initiative") -if [ -z "$OCI_EXE" ]; then - if which podman >/dev/null 2>/dev/null; then - OCI_EXE=podman - elif which docker >/dev/null 2>/dev/null; then - OCI_EXE=docker - else - die "Cannot find a container executor. Search for docker and podman." - fi -fi - -#------------------------------------------------------------------------------ -# Command handlers -# -command:update-image() { - $OCI_EXE pull $FINAL_IMAGE -} - -help:update-image() { - echo "Pull the latest $FINAL_IMAGE ." -} - -command:update-script() { - if cmp -s <( $OCI_EXE run --rm $FINAL_IMAGE ) $0; then - echo "$0 is up to date" - else - echo -n "Updating $0 ... " - $OCI_EXE run --rm $FINAL_IMAGE > $0 && echo ok - fi -} - -help:update-script() { - echo "Update $0 from $FINAL_IMAGE ." -} - -command:update() { - command:update-image - command:update-script -} - -help:update() { - echo "Pull the latest $FINAL_IMAGE, and then update $0 from that." -} - -command:help() { - if [[ $# != 0 ]]; then - if ! has command $1; then - err \"$1\" is not an dockcross command - command:help - elif ! has help $1; then - err No help found for \"$1\" - else - help:$1 - fi - else - cat >&2 < -ENDHELP - exit 1 - fi -} - -#------------------------------------------------------------------------------ -# Option processing -# -special_update_command='' -while [[ $# != 0 ]]; do - case $1 in - - --) - shift - break - ;; - - --args|-a) - ARG_ARGS="$2" - shift 2 - ;; - - --config|-c) - ARG_CONFIG="$2" - shift 2 - ;; - - --image|-i) - ARG_IMAGE="$2" - shift 2 - ;; - update|update-image|update-script) - special_update_command=$1 - break - ;; - -*) - err Unknown option \"$1\" - command:help - exit - ;; - - *) - break - ;; - - esac -done - -# The precedence for options is: -# 1. command-line arguments -# 2. environment variables -# 3. defaults - -# Source the config file if it exists -DEFAULT_DOCKCROSS_CONFIG=~/.dockcross -FINAL_CONFIG=${ARG_CONFIG-${DOCKCROSS_CONFIG-$DEFAULT_DOCKCROSS_CONFIG}} - -[[ -f "$FINAL_CONFIG" ]] && source "$FINAL_CONFIG" - -# Set the docker image -FINAL_IMAGE=${ARG_IMAGE-${DOCKCROSS_IMAGE-$DEFAULT_DOCKCROSS_IMAGE}} - -# Handle special update command -if [ "$special_update_command" != "" ]; then - case $special_update_command in - - update) - command:update - exit $? - ;; - - update-image) - command:update-image - exit $? - ;; - - update-script) - command:update-script - exit $? - ;; - - esac -fi - -# Set the docker run extra args (if any) -FINAL_ARGS=${ARG_ARGS-${DOCKCROSS_ARGS}} - -# Bash on Ubuntu on Windows -UBUNTU_ON_WINDOWS=$([ -e /proc/version ] && grep -l Microsoft /proc/version || echo "") -# MSYS, Git Bash, etc. -MSYS=$([ -e /proc/version ] && grep -l MINGW /proc/version || echo "") -# CYGWIN -CYGWIN=$([ -e /proc/version ] && grep -l CYGWIN /proc/version || echo "") - -if [ -z "$UBUNTU_ON_WINDOWS" -a -z "$MSYS" -a "$OCI_EXE" != "podman" ]; then - USER_IDS=(-e BUILDER_UID="$( id -u )" -e BUILDER_GID="$( id -g )" -e BUILDER_USER="$( id -un )" -e BUILDER_GROUP="$( id -gn )") -fi - -# Change the PWD when working in Docker on Windows -if [ -n "$UBUNTU_ON_WINDOWS" ]; then - WSL_ROOT="/mnt/" - CFG_FILE=/etc/wsl.conf - if [ -f "$CFG_FILE" ]; then - CFG_CONTENT=$(cat $CFG_FILE | sed -r '/[^=]+=[^=]+/!d' | sed -r 's/\s+=\s/=/g') - eval "$CFG_CONTENT" - if [ -n "$root" ]; then - WSL_ROOT=$root - fi - fi - HOST_PWD=`pwd -P` - HOST_PWD=${HOST_PWD/$WSL_ROOT//} -elif [ -n "$MSYS" ]; then - HOST_PWD=$PWD - HOST_PWD=${HOST_PWD/\//} - HOST_PWD=${HOST_PWD/\//:\/} -elif [ -n "$CYGWIN" ]; then - for f in pwd readlink cygpath ; do - test -n "$(type "${f}" )" || { echo >&2 "Missing functionality (${f}) (in cygwin)." ; exit 1 ; } ; - done ; - HOST_PWD="$( cygpath -w "$( readlink -f "$( pwd ;)" ; )" ; )" ; -else - HOST_PWD=$PWD - [ -L $HOST_PWD ] && HOST_PWD=$(readlink $HOST_PWD) -fi - -# Mount Additional Volumes -if [ -z "$SSH_DIR" ]; then - SSH_DIR="$HOME/.ssh" -fi - -HOST_VOLUMES= -if [ -e "$SSH_DIR" -a -z "$MSYS" ]; then - if test -n "${CYGWIN}" ; then - HOST_VOLUMES+="-v $(cygpath -w ${SSH_DIR} ; ):/home/$(id -un)/.ssh" ; - else - HOST_VOLUMES+="-v $SSH_DIR:/home/$(id -un)/.ssh" ; - fi ; -fi - -#------------------------------------------------------------------------------ -# Now, finally, run the command in a container -# -TTY_ARGS= -tty -s && [ -z "$MSYS" ] && TTY_ARGS=-ti -CONTAINER_NAME=dockcross_$RANDOM -$OCI_EXE run $TTY_ARGS --name $CONTAINER_NAME \ - -v "$HOST_PWD":/work \ - $HOST_VOLUMES \ - "${USER_IDS[@]}" \ - $FINAL_ARGS \ - $FINAL_IMAGE "$@" -run_exit_code=$? - -# Attempt to delete container -rm_output=$($OCI_EXE rm -f $CONTAINER_NAME 2>&1) -rm_exit_code=$? -if [[ $rm_exit_code != 0 ]]; then - if [[ "$CIRCLECI" == "true" ]] && [[ $rm_output == *"Driver btrfs failed to remove"* ]]; then - : # Ignore error because of https://circleci.com/docs/docker-btrfs-error/ - else - echo "$rm_output" - exit $rm_exit_code - fi -fi - -exit $run_exit_code - -################################################################################ -# -# This image is not intended to be run manually. -# -# To create a dockcross helper script for the -# dockcross/android-x86_64:20240104-6eda627 image, run: -# -# docker run --rm dockcross/android-x86_64:20240104-6eda627 > dockcross-android-x86_64-20240104-6eda627 -# chmod +x dockcross-android-x86_64-20240104-6eda627 -# -# You may then wish to move the dockcross script to your PATH. -# -################################################################################ From 5c4cc6dd4594771a9207b6181d8c7fb17356d8a7 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Thu, 4 Jan 2024 21:35:05 +0100 Subject: [PATCH 003/285] Remove unused model parameter --- src/main/cpp/jllama.cpp | 1 - 1 file changed, 1 deletion(-) diff --git a/src/main/cpp/jllama.cpp b/src/main/cpp/jllama.cpp index 00e95114..e6768414 100644 --- a/src/main/cpp/jllama.cpp +++ b/src/main/cpp/jllama.cpp @@ -950,7 +950,6 @@ static gpt_params parse_model_params(JNIEnv *env, jobject jparams, jstring java_ params.rope_freq_scale = env->GetFloatField(jparams, f_rope_freq_scale); params.mul_mat_q = env->GetBooleanField(jparams, f_mul_mat_q); params.embedding = env->GetBooleanField(jparams, f_embedding); - params.escape = env->GetIntField(jparams, f_n_predict); params.use_mmap = env->GetBooleanField(jparams, f_use_mmap); params.use_mlock = env->GetBooleanField(jparams, f_use_mlock); params.numa = env->GetBooleanField(jparams, f_numa); From 844767c92c304ed448621dd6c8d9bf8d5084d050 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Thu, 4 Jan 2024 21:35:35 +0100 Subject: [PATCH 004/285] Add android to release workflow --- .github/workflows/release.yaml | 16 ++++++++++++++++ CMakeLists.txt | 2 +- 2 files changed, 17 insertions(+), 1 deletion(-) diff --git a/.github/workflows/release.yaml b/.github/workflows/release.yaml index 50fa468e..3e19817f 100644 --- a/.github/workflows/release.yaml +++ b/.github/workflows/release.yaml @@ -1,6 +1,11 @@ name: Release to Maven Central on: workflow_dispatch: + inputs: + build_only: + description: 'Whether to only build the project and skip releasing it (yes/NO)' + required: false + default: 'no' release: types: [created] jobs: @@ -23,6 +28,16 @@ jobs: arch: aarch64, image: dockcross-linux-arm64-lts, } + - { + os: Linux-Android, + arch: aarch64, + image: dockcross-android-arm64, + } + - { + os: Linux-Android, + arch: arm, + image: dockcross-android-arm, + } steps: - uses: actions/checkout@v4 - name: Build libraries @@ -166,6 +181,7 @@ jobs: publish: + if: ${{ github.event_name != 'workflow_dispatch' || github.event.inputs.build_only == 'no' }} needs: [test-linux,build-macos-native,test-windows] runs-on: ubuntu-latest steps: diff --git a/CMakeLists.txt b/CMakeLists.txt index ab7d0482..16ed1dd6 100644 --- a/CMakeLists.txt +++ b/CMakeLists.txt @@ -52,7 +52,7 @@ add_library(jllama SHARED src/main/cpp/jllama.cpp) # include jni.h and jni_md.h if(NOT DEFINED JNI_INCLUDE_DIRS) - if(OS_NAME STREQUAL "Linux" OR OS_NAME STREQUAL "Mac") + if(OS_NAME MATCHES "^Linux" OR OS_NAME STREQUAL "Mac") set(JNI_INCLUDE_DIRS .github/include/unix) elseif(OS_NAME STREQUAL "Windows") set(JNI_INCLUDE_DIRS .github/include/windows) From aa281f92f3bf862887f32dd88e8db3c31e1e1083 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Thu, 4 Jan 2024 21:45:33 +0100 Subject: [PATCH 005/285] arm release workflow fix --- .github/workflows/release.yaml | 6 +++++- 1 file changed, 5 insertions(+), 1 deletion(-) diff --git a/.github/workflows/release.yaml b/.github/workflows/release.yaml index 3e19817f..3174ec95 100644 --- a/.github/workflows/release.yaml +++ b/.github/workflows/release.yaml @@ -22,28 +22,32 @@ jobs: os: Linux, arch: x86_64, image: dockcross-manylinux2014-x64, + cmake: "", } - { os: Linux, arch: aarch64, image: dockcross-linux-arm64-lts, + cmake: "", } - { os: Linux-Android, arch: aarch64, image: dockcross-android-arm64, + cmake: "", } - { os: Linux-Android, arch: arm, image: dockcross-android-arm, + cmake: "-DCMAKE_SYSTEM_PROCESSOR=arm", } steps: - uses: actions/checkout@v4 - name: Build libraries shell: bash run: | - .github/dockcross/${{ matrix.target.image }} .github/build.sh "-DOS_NAME=${{ matrix.target.os }} -DOS_ARCH=${{ matrix.target.arch }}" + .github/dockcross/${{ matrix.target.image }} .github/build.sh "${{ matrix.target.cmake }} -DOS_NAME=${{ matrix.target.os }} -DOS_ARCH=${{ matrix.target.arch }}" - name: Upload artifacts uses: actions/upload-artifact@v3 with: From 3bf6fd27a80c5fbb2e5f7e58ca3d2c91858bf36f Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Thu, 4 Jan 2024 22:00:28 +0100 Subject: [PATCH 006/285] Remove arm release --- .github/workflows/release.yaml | 11 +---------- 1 file changed, 1 insertion(+), 10 deletions(-) diff --git a/.github/workflows/release.yaml b/.github/workflows/release.yaml index 3174ec95..96e528f5 100644 --- a/.github/workflows/release.yaml +++ b/.github/workflows/release.yaml @@ -22,32 +22,23 @@ jobs: os: Linux, arch: x86_64, image: dockcross-manylinux2014-x64, - cmake: "", } - { os: Linux, arch: aarch64, image: dockcross-linux-arm64-lts, - cmake: "", } - { os: Linux-Android, arch: aarch64, image: dockcross-android-arm64, - cmake: "", - } - - { - os: Linux-Android, - arch: arm, - image: dockcross-android-arm, - cmake: "-DCMAKE_SYSTEM_PROCESSOR=arm", } steps: - uses: actions/checkout@v4 - name: Build libraries shell: bash run: | - .github/dockcross/${{ matrix.target.image }} .github/build.sh "${{ matrix.target.cmake }} -DOS_NAME=${{ matrix.target.os }} -DOS_ARCH=${{ matrix.target.arch }}" + .github/dockcross/${{ matrix.target.image }} .github/build.sh "-DOS_NAME=${{ matrix.target.os }} -DOS_ARCH=${{ matrix.target.arch }}" - name: Upload artifacts uses: actions/upload-artifact@v3 with: From b52ee6b51e7054f43d0008917bffc9eecbf93518 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Thu, 4 Jan 2024 22:02:46 +0100 Subject: [PATCH 007/285] Bump version --- pom.xml | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/pom.xml b/pom.xml index 68c0b031..27ea5faf 100644 --- a/pom.xml +++ b/pom.xml @@ -4,7 +4,7 @@ de.kherud llama - 2.3.1 + 2.3.2 jar ${project.groupId}:${project.artifactId} From 24e56b365f694587cbd85a838162908ca94f2b83 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Thu, 4 Jan 2024 22:12:07 +0100 Subject: [PATCH 008/285] Update readme --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 04350361..73ac9072 100644 --- a/README.md +++ b/README.md @@ -16,7 +16,7 @@ Access this library via Maven: de.kherud llama - 2.3.1 + 2.3.2 ``` From 4a29f8e7f188e0f65e4ec21ed2dbb99e37bd8a74 Mon Sep 17 00:00:00 2001 From: Samo Hribar <34912839+samolego@users.noreply.github.com> Date: Sun, 7 Jan 2024 20:44:53 +0100 Subject: [PATCH 009/285] Fixes #38 and another oversight Fixes deleting local reference where it isn't created. Fixes setting a boolean field with `SetLongField` instead of `SetBooleanField` --- src/main/cpp/jllama.cpp | 3 +-- 1 file changed, 1 insertion(+), 2 deletions(-) diff --git a/src/main/cpp/jllama.cpp b/src/main/cpp/jllama.cpp index e6768414..37210ebd 100644 --- a/src/main/cpp/jllama.cpp +++ b/src/main/cpp/jllama.cpp @@ -361,7 +361,6 @@ static void jllama_log_callback(enum ggml_log_level level, const char *text, voi env->CallVoidMethod(g_log_callback, m_biconsumer_accept, java_log_level, java_text); - env->DeleteLocalRef(java_log_level); env->DeleteLocalRef(java_text); } @@ -1251,7 +1250,7 @@ JNIEXPORT jobject JNICALL Java_de_kherud_llama_LlamaModel_getNext(JNIEnv *env, j if (!llama->has_next_token) { - env->SetLongField(iter, f_iter_has_next, false); + env->SetBooleanField(iter, f_iter_has_next, false); // llama.mutex.unlock(); // lock.release(); } From 2112bc15bcdae9cda4d35e969bd47a44843c443b Mon Sep 17 00:00:00 2001 From: Samo Hribar <34912839+samolego@users.noreply.github.com> Date: Tue, 16 Jan 2024 10:09:46 +0100 Subject: [PATCH 010/285] Fix invalid references in log levels --- src/main/cpp/jllama.cpp | 14 ++++++++++---- 1 file changed, 10 insertions(+), 4 deletions(-) diff --git a/src/main/cpp/jllama.cpp b/src/main/cpp/jllama.cpp index 37210ebd..9b610db8 100644 --- a/src/main/cpp/jllama.cpp +++ b/src/main/cpp/jllama.cpp @@ -280,10 +280,11 @@ JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) // o_utf_8 = env->GetStaticObjectField(c_standard_charsets, f_utf_8); o_utf_8 = env->NewStringUTF("UTF-8"); o_utf_8 = (jclass)env->NewGlobalRef(o_utf_8); - o_log_level_debug = env->GetStaticObjectField(c_log_level, f_log_level_debug); - o_log_level_info = env->GetStaticObjectField(c_log_level, f_log_level_info); - o_log_level_warn = env->GetStaticObjectField(c_log_level, f_log_level_warn); - o_log_level_error = env->GetStaticObjectField(c_log_level, f_log_level_error); + + o_log_level_debug = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_log_level, f_log_level_debug)); + o_log_level_info = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_log_level, f_log_level_info)); + o_log_level_warn = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_log_level, f_log_level_warn)); + o_log_level_error = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_log_level, f_log_level_error)); if (!(o_utf_8 && o_log_level_debug && o_log_level_info && o_log_level_warn && o_log_level_error)) { @@ -331,6 +332,11 @@ JNIEXPORT void JNICALL JNI_OnUnload(JavaVM *vm, void *reserved) env->DeleteGlobalRef(c_error_oom); env->DeleteGlobalRef(o_utf_8); + + env->DeleteGlobalRef(o_log_level_debug); + env->DeleteGlobalRef(o_log_level_info); + env->DeleteGlobalRef(o_log_level_warn); + env->DeleteGlobalRef(o_log_level_error); } static void jllama_log_callback(enum ggml_log_level level, const char *text, void *user_data) From 7e32698c3657d0ffb85c621c2d8b3b8db2397a69 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Tue, 16 Jan 2024 10:15:20 +0100 Subject: [PATCH 011/285] Bump version --- pom.xml | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/pom.xml b/pom.xml index 27ea5faf..24305f65 100644 --- a/pom.xml +++ b/pom.xml @@ -4,7 +4,7 @@ de.kherud llama - 2.3.2 + 2.3.3 jar ${project.groupId}:${project.artifactId} From ae55a818f816072f403faa8fd5e55c7618b030f3 Mon Sep 17 00:00:00 2001 From: Samo Hribar <34912839+samolego@users.noreply.github.com> Date: Tue, 16 Jan 2024 10:54:40 +0100 Subject: [PATCH 012/285] Bump JNI version --- src/main/cpp/jllama.cpp | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/src/main/cpp/jllama.cpp b/src/main/cpp/jllama.cpp index 9b610db8..cd47527b 100644 --- a/src/main/cpp/jllama.cpp +++ b/src/main/cpp/jllama.cpp @@ -303,7 +303,7 @@ JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) return JNI_ERR; success: - return JNI_VERSION_1_1; + return JNI_VERSION_1_2; } JNIEXPORT void JNICALL JNI_OnUnload(JavaVM *vm, void *reserved) From 6e9c2b12624b3cfd52a49c14529040f7877dc6de Mon Sep 17 00:00:00 2001 From: Samo Hribar <34912839+samolego@users.noreply.github.com> Date: Tue, 16 Jan 2024 10:55:00 +0100 Subject: [PATCH 013/285] Add support for loading native library from apk directly --- src/main/java/de/kherud/llama/LlamaLoader.java | 12 ++++++++++++ 1 file changed, 12 insertions(+) diff --git a/src/main/java/de/kherud/llama/LlamaLoader.java b/src/main/java/de/kherud/llama/LlamaLoader.java index d1331d6f..5c09646e 100644 --- a/src/main/java/de/kherud/llama/LlamaLoader.java +++ b/src/main/java/de/kherud/llama/LlamaLoader.java @@ -110,6 +110,18 @@ private static void loadNativeLibrary(String name) { } } + if (OSInfo.isAndroid()) { + try { + // loadLibrary can load directly from packed apk file automatically + // if java-llama.cpp is added as code source + System.loadLibrary(name); + return; + } catch (UnsatisfiedLinkError e) { + triedPaths.add("Directly from .apk/lib"); + } + } + + // Load the os-dependent library from the jar file nativeLibPath = getNativeResourcePath(); if (hasNativeLib(nativeLibPath, nativeLibName)) { From 3d7564eede0eebcfce1e1fd5e82c3250894db236 Mon Sep 17 00:00:00 2001 From: Samo Hribar <34912839+samolego@users.noreply.github.com> Date: Tue, 16 Jan 2024 11:09:03 +0100 Subject: [PATCH 014/285] Add android include instructions --- README.md | 54 ++++++++++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 54 insertions(+) diff --git a/README.md b/README.md index 73ac9072..2888def2 100644 --- a/README.md +++ b/README.md @@ -90,6 +90,60 @@ This includes: If you then compile your own JAR from this directory, you are ready to go. Otherwise, if you still want to use the library as a Maven dependency, see below how to set the necessary paths in order for Java to find your compiled libraries. +### Importing in Android + +You can use this library in Android project. +1. Add java-llama.cpp as a submodule in your android `app` project directory +```shell +git submodule add https://github.com/kherud/java-llama.cpp +``` +2. Declare the library as a source in your build.gradle +```gradle +android { + val jllamaLib = file("java-llama.cpp") + + // Execute "mvn compile" if folder target/ doesn't exist at ./java-llama.cpp/ + if (!file("$jllamaLib/target").exists()) { + exec { + commandLine = listOf("mvn", "compile") + workingDir = file("libs/java-llama.cpp/") + } + } + + ... + defaultConfig { + ... + externalNativeBuild { + cmake { + // Add an flags if needed + cppFlags += "" + arguments += "" + } + } + } + + // Declare c++ sources + externalNativeBuild { + cmake { + path = file("$jllamaLib/CMakeLists.txt") + version = "3.22.1" + } + } + + // Declare java sources + sourceSets { + named("main") { + // Add source directory for java-llama.cpp + java.srcDir("$jllamaLib/src/main/java") + } + } +} +``` +3. Exclude `de.kherud.llama` in proguard-rules.pro +```proguard +keep class de.kherud.llama.** { *; } +``` + ### Custom llama.cpp Setup (GPU acceleration) This repository provides default support for CPU based inference. You can compile `llama.cpp` any way you want, however. From 9db0c81a67af7da9881143c24f1c680dcaf1243b Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Tue, 16 Jan 2024 11:53:35 +0100 Subject: [PATCH 015/285] Bump version --- pom.xml | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/pom.xml b/pom.xml index 24305f65..c69f0a52 100644 --- a/pom.xml +++ b/pom.xml @@ -4,7 +4,7 @@ de.kherud llama - 2.3.3 + 2.3.4 jar ${project.groupId}:${project.artifactId} From 7ccc24a9f5087ffa7123175da4c6e814be23e133 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Tue, 16 Jan 2024 12:02:09 +0100 Subject: [PATCH 016/285] Update readme --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 2888def2..d12600fd 100644 --- a/README.md +++ b/README.md @@ -16,7 +16,7 @@ Access this library via Maven: de.kherud llama - 2.3.2 + 2.3.4 ``` From 7a150441a0fe5a1ecc317c7a3187fcd74031354c Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Tue, 16 Jan 2024 12:54:16 +0100 Subject: [PATCH 017/285] Minor readme fix --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index d12600fd..0484cfaf 100644 --- a/README.md +++ b/README.md @@ -106,7 +106,7 @@ android { if (!file("$jllamaLib/target").exists()) { exec { commandLine = listOf("mvn", "compile") - workingDir = file("libs/java-llama.cpp/") + workingDir = file("java-llama.cpp/") } } From acac21883be4148dffa7e69d599427660beb144d Mon Sep 17 00:00:00 2001 From: Hugo Visser Date: Wed, 31 Jan 2024 16:14:19 +0100 Subject: [PATCH 018/285] Set handling of special tokens in tokenizer to true --- src/main/cpp/jllama.cpp | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/src/main/cpp/jllama.cpp b/src/main/cpp/jllama.cpp index cd47527b..be6baf5e 100644 --- a/src/main/cpp/jllama.cpp +++ b/src/main/cpp/jllama.cpp @@ -594,7 +594,7 @@ struct jllama_context std::vector tokenize(std::string prompt, bool add_bos) const { - return ::llama_tokenize(ctx, prompt, add_bos); + return ::llama_tokenize(ctx, prompt, add_bos, true); } bool loadGrammar() @@ -1239,7 +1239,7 @@ JNIEXPORT jobject JNICALL Java_de_kherud_llama_LlamaModel_getNext(JNIEnv *env, j std::vector probs_output = {}; if (llama->params.sparams.n_probs > 0) { - const std::vector to_send_toks = llama_tokenize(llama->ctx, to_send, false); + const std::vector to_send_toks = llama_tokenize(llama->ctx, to_send, false, true); size_t probs_pos = std::min(sent_token_probs_index, llama->generated_token_probs.size()); size_t probs_stop_pos = std::min(sent_token_probs_index + to_send_toks.size(), llama->generated_token_probs.size()); if (probs_pos < probs_stop_pos) { From 7839edb6d1c3df065341900227f3e1ae56493ce2 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Thu, 1 Feb 2024 23:12:07 +0100 Subject: [PATCH 019/285] Add option to set tokenize_special --- src/main/cpp/jllama.cpp | 12 +++++++++--- .../java/de/kherud/llama/InferenceParameters.java | 15 +++++++++++++++ 2 files changed, 24 insertions(+), 3 deletions(-) diff --git a/src/main/cpp/jllama.cpp b/src/main/cpp/jllama.cpp index be6baf5e..3876c108 100644 --- a/src/main/cpp/jllama.cpp +++ b/src/main/cpp/jllama.cpp @@ -78,6 +78,7 @@ static jfieldID f_n_beams = 0; static jfieldID f_grammar = 0; static jfieldID f_antiprompt = 0; static jfieldID f_infer_seed = 0; +static jfieldID f_tokenize_special = 0; // model parameters static jfieldID f_n_threads = 0; static jfieldID f_model_seed = 0; @@ -229,6 +230,7 @@ JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) f_grammar = env->GetFieldID(c_infer_params, "grammar", "Ljava/lang/String;"); f_antiprompt = env->GetFieldID(c_infer_params, "antiPrompt", "[Ljava/lang/String;"); f_infer_seed = env->GetFieldID(c_infer_params, "seed", "I"); + f_tokenize_special = env->GetFieldID(c_infer_params, "tokenizeSpecial", "Z"); f_n_threads = env->GetFieldID(c_model_params, "nThreads", "I"); f_model_seed = env->GetFieldID(c_model_params, "seed", "I"); @@ -257,7 +259,7 @@ JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) { goto error; } - if (!(f_n_predict && f_n_keep && f_n_probs && f_logit_bias && f_top_k && f_top_p && f_tfs_z && f_typical_p && f_temperature && f_repeat_penalty && f_repeat_last_n && f_frequency_penalty && f_presence_penalty && f_penalize_nl && f_ignore_eos && f_mirostat && f_mirostat_tau && f_mirostat_eta && f_beam_search && f_n_beams && f_grammar && f_antiprompt && f_infer_seed)) + if (!(f_n_predict && f_n_keep && f_n_probs && f_logit_bias && f_top_k && f_top_p && f_tfs_z && f_typical_p && f_temperature && f_repeat_penalty && f_repeat_last_n && f_frequency_penalty && f_presence_penalty && f_penalize_nl && f_ignore_eos && f_mirostat && f_mirostat_tau && f_mirostat_eta && f_beam_search && f_n_beams && f_grammar && f_antiprompt && f_infer_seed && f_tokenize_special)) { goto error; } @@ -520,6 +522,9 @@ struct jllama_context grammar_parser::parse_state parsed_grammar; llama_grammar *grammar = nullptr; + // Whether to tokenize special and/or control tokens which otherwise are not exposed and treated as plaintext. + bool tokenize_special = false; + bool truncated = false; bool stopped_eos = false; bool stopped_word = false; @@ -594,7 +599,7 @@ struct jllama_context std::vector tokenize(std::string prompt, bool add_bos) const { - return ::llama_tokenize(ctx, prompt, add_bos, true); + return ::llama_tokenize(ctx, prompt, add_bos, tokenize_special); } bool loadGrammar() @@ -1115,6 +1120,7 @@ static void setup_infer_params(JNIEnv *env, jllama_context *llama, jobject jpara } llama->ctx_sampling = *llama_sampling_init(params.sparams); + llama->tokenize_special = env->GetBooleanField(jparams, f_tokenize_special); } static void setup_answering(JNIEnv *env, jllama_context *llama, jstring prompt, jobject params) @@ -1239,7 +1245,7 @@ JNIEXPORT jobject JNICALL Java_de_kherud_llama_LlamaModel_getNext(JNIEnv *env, j std::vector probs_output = {}; if (llama->params.sparams.n_probs > 0) { - const std::vector to_send_toks = llama_tokenize(llama->ctx, to_send, false, true); + const std::vector to_send_toks = llama_tokenize(llama->ctx, to_send, false, llama->tokenize_special); size_t probs_pos = std::min(sent_token_probs_index, llama->generated_token_probs.size()); size_t probs_stop_pos = std::min(sent_token_probs_index + to_send_toks.size(), llama->generated_token_probs.size()); if (probs_pos < probs_stop_pos) { diff --git a/src/main/java/de/kherud/llama/InferenceParameters.java b/src/main/java/de/kherud/llama/InferenceParameters.java index 1ccb2b40..a92c4fc0 100644 --- a/src/main/java/de/kherud/llama/InferenceParameters.java +++ b/src/main/java/de/kherud/llama/InferenceParameters.java @@ -62,6 +62,8 @@ public final class InferenceParameters { @Nullable @Native private String[] antiPrompt = null; @Native private int seed = 42; + // Whether to tokenize special and/or control tokens which otherwise are not exposed and treated as plaintext. + @Native private boolean tokenizeSpecial = false; public InferenceParameters setNPredict(int nPredict) { this.nPredict = nPredict; @@ -191,6 +193,15 @@ public InferenceParameters setSeed(int seed) { return this; } + /** + * Changes whether special and/or control tokens are tokenized which otherwise are not exposed and treated as + * plaintext. + */ + public InferenceParameters setTokenizeSpecial(boolean tokenizeSpecial) { + this.tokenizeSpecial = tokenizeSpecial; + return this; + } + public int getNPredict() { return nPredict; } @@ -283,6 +294,10 @@ public int getSeed() { return seed; } + public boolean getTokenizeSpecial() { + return tokenizeSpecial; + } + public enum MiroStat { Disabled(0), From 2c0eb9e2cf6e300138478b1efd68db411d0f8fde Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Thu, 1 Feb 2024 23:21:13 +0100 Subject: [PATCH 020/285] Bump version to 2.3.5 --- pom.xml | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/pom.xml b/pom.xml index c69f0a52..00b304a9 100644 --- a/pom.xml +++ b/pom.xml @@ -4,7 +4,7 @@ de.kherud llama - 2.3.4 + 2.3.5 jar ${project.groupId}:${project.artifactId} From 198299f09e54e65749ec2803ff7aab7c7fc8bd97 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Thu, 1 Feb 2024 23:31:09 +0100 Subject: [PATCH 021/285] Update readme version --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 0484cfaf..2c2a0f5b 100644 --- a/README.md +++ b/README.md @@ -16,7 +16,7 @@ Access this library via Maven: de.kherud llama - 2.3.4 + 2.3.5 ``` From 8e0689efe72e58379822cf21b5a66a32710b171c Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Thu, 4 Apr 2024 13:48:41 +0200 Subject: [PATCH 022/285] Add CI workflow --- .github/workflows/ci.yml | 47 ++++++++++++++++++++++++++++++++++++++++ 1 file changed, 47 insertions(+) create mode 100644 .github/workflows/ci.yml diff --git a/.github/workflows/ci.yml b/.github/workflows/ci.yml new file mode 100644 index 00000000..d6cc1430 --- /dev/null +++ b/.github/workflows/ci.yml @@ -0,0 +1,47 @@ +# This work flow runs all Java tests for continuous integration. +# Since it has to build llama.cpp first, for speed, it only runs / tests on the natively supported GitHub runners. + +name: Continuous Integration +on: [ "push", "pull_request", "workflow_dispatch" ] +jobs: + + # don't split build and test jobs to keep the workflow simple + build-and-test-unix: + name: ${{ matrix.runner }} + runs-on: ${{ matrix.runner }} + strategy: + fail-fast: false + matrix: + runner: + - ubuntu-latest + - macos-latest + steps: + - uses: actions/checkout@v4 + - name: Build libraries + shell: bash + # cmake should figure out OS and ARCH automatically when running build.sh + run: .github/build.sh + - uses: actions/setup-java@ + with: + distribution: 'zulu' + java-version: '11' + - name: Run tests + shell: bash + run: mvn verify -Dmodel.home=target + + build-and-test-windows: + name: windows-latest + runs-on: windows-latest + steps: + - uses: actions/checkout@v4 + - name: Build libraries + shell: cmd + run: | + .github\build.bat + - uses: actions/setup-java@v4 + with: + distribution: 'zulu' + java-version: '11' + - name: Run tests + shell: cmd + run: mvn verify -Dmodel.home=target From eeed82ead6fe1ac556662c92cd25862064b4c501 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Thu, 4 Apr 2024 13:56:25 +0200 Subject: [PATCH 023/285] Fix CI workflow setup java action --- .github/workflows/ci.yml | 5 ++--- 1 file changed, 2 insertions(+), 3 deletions(-) diff --git a/.github/workflows/ci.yml b/.github/workflows/ci.yml index d6cc1430..aa13951c 100644 --- a/.github/workflows/ci.yml +++ b/.github/workflows/ci.yml @@ -21,7 +21,7 @@ jobs: shell: bash # cmake should figure out OS and ARCH automatically when running build.sh run: .github/build.sh - - uses: actions/setup-java@ + - uses: actions/setup-java@4 with: distribution: 'zulu' java-version: '11' @@ -36,8 +36,7 @@ jobs: - uses: actions/checkout@v4 - name: Build libraries shell: cmd - run: | - .github\build.bat + run: .github\build.bat - uses: actions/setup-java@v4 with: distribution: 'zulu' From 2d0f69f1c108623d5a820527ba9d445bc648037c Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Thu, 4 Apr 2024 14:05:52 +0200 Subject: [PATCH 024/285] Bump llama.cpp to latest version --- .github/build.sh | 2 +- CMakeLists.txt | 4 ++-- 2 files changed, 3 insertions(+), 3 deletions(-) diff --git a/.github/build.sh b/.github/build.sh index 6919d86f..5a78de0e 100755 --- a/.github/build.sh +++ b/.github/build.sh @@ -1,5 +1,5 @@ #!/bin/bash -mkdir build +mkdir -p build cmake -Bbuild $@ || exit 1 cmake --build build --config Release || exit 1 diff --git a/CMakeLists.txt b/CMakeLists.txt index 16ed1dd6..c9b992ff 100644 --- a/CMakeLists.txt +++ b/CMakeLists.txt @@ -10,7 +10,7 @@ include(FetchContent) FetchContent_Declare( llama.cpp GIT_REPOSITORY https://github.com/ggerganov/llama.cpp.git - GIT_TAG b1645 + GIT_TAG b2589 ) FetchContent_MakeAvailable(llama.cpp) @@ -90,6 +90,6 @@ else() endif() if (LLAMA_METAL) - # copy ggml-metal.metal to bin directory + # copy ggml-metal.metal to shared library directory configure_file(${llama.cpp_SOURCE_DIR}/ggml-metal.metal ${JLLAMA_DIR}/ggml-metal.metal COPYONLY) endif() From a2efebfa6ab2dd588b8e89a1e78c70fe9cbf5afc Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Thu, 4 Apr 2024 14:06:08 +0200 Subject: [PATCH 025/285] Update cmake build args --- build-args.cmake | 656 ++++++++++++++++++++++++++++++++++++++++------- 1 file changed, 557 insertions(+), 99 deletions(-) diff --git a/build-args.cmake b/build-args.cmake index dee0db65..98dc43d3 100644 --- a/build-args.cmake +++ b/build-args.cmake @@ -5,7 +5,24 @@ else() endif() # general -option(LLAMA_NATIVE "llama: enable -march=native flag" ON) +option(BUILD_SHARED_LIBS "build shared libraries" OFF) +option(LLAMA_STATIC "llama: static link libraries" OFF) +option(LLAMA_NATIVE "llama: enable -march=native flag" ON) +option(LLAMA_LTO "llama: enable link time optimization" OFF) +option(LLAMA_CCACHE "llama: use ccache if available" ON) + +# debug +option(LLAMA_ALL_WARNINGS "llama: enable all compiler warnings" ON) +option(LLAMA_ALL_WARNINGS_3RD_PARTY "llama: enable all compiler warnings in 3rd party libs" OFF) +option(LLAMA_GPROF "llama: enable gprof" OFF) + +# build +option(LLAMA_FATAL_WARNINGS "llama: enable -Werror flag" OFF) + +# sanitizers +option(LLAMA_SANITIZE_THREAD "llama: enable thread sanitizer" OFF) +option(LLAMA_SANITIZE_ADDRESS "llama: enable address sanitizer" OFF) +option(LLAMA_SANITIZE_UNDEFINED "llama: enable undefined sanitizer" OFF) # instruction set specific if (LLAMA_NATIVE) @@ -25,12 +42,16 @@ if (NOT MSVC) option(LLAMA_F16C "llama: enable F16C" ${INS_ENB}) endif() +if (WIN32) + set(LLAMA_WIN_VER "0x602" CACHE STRING "llama: Windows Version") +endif() + # 3rd party libs option(LLAMA_ACCELERATE "llama: enable Accelerate framework" ON) option(LLAMA_BLAS "llama: use BLAS" OFF) set(LLAMA_BLAS_VENDOR "Generic" CACHE STRING "llama: BLAS library vendor") -option(LLAMA_CUBLAS "llama: use CUDA" OFF) -#option(LLAMA_CUDA_CUBLAS "llama: use cuBLAS for prompt processing" OFF) +option(LLAMA_CUDA "llama: use CUDA" OFF) +option(LLAMA_CUBLAS "llama: use CUDA (deprecated, use LLAMA_CUDA)" OFF) option(LLAMA_CUDA_FORCE_DMMV "llama: use dmmv instead of mmvq CUDA kernels" OFF) option(LLAMA_CUDA_FORCE_MMQ "llama: use mmq kernels instead of cuBLAS" OFF) set(LLAMA_CUDA_DMMV_X "32" CACHE STRING "llama: x stride for dmmv CUDA kernels") @@ -39,26 +60,62 @@ option(LLAMA_CUDA_F16 "llama: use 16 bit floats for some set(LLAMA_CUDA_KQUANTS_ITER "2" CACHE STRING "llama: iters./thread per block for Q2_K/Q6_K") set(LLAMA_CUDA_PEER_MAX_BATCH_SIZE "128" CACHE STRING "llama: max. batch size for using peer access") +option(LLAMA_CUDA_NO_PEER_COPY "llama: do not use peer to peer copies" OFF) +option(LLAMA_CURL "llama: use libcurl to download model from an URL" OFF) option(LLAMA_HIPBLAS "llama: use hipBLAS" OFF) +option(LLAMA_HIP_UMA "llama: use HIP unified memory architecture" OFF) option(LLAMA_CLBLAST "llama: use CLBlast" OFF) +option(LLAMA_VULKAN "llama: use Vulkan" OFF) +option(LLAMA_VULKAN_CHECK_RESULTS "llama: run Vulkan op checks" OFF) +option(LLAMA_VULKAN_DEBUG "llama: enable Vulkan debug output" OFF) +option(LLAMA_VULKAN_VALIDATE "llama: enable Vulkan validation" OFF) +option(LLAMA_VULKAN_RUN_TESTS "llama: run Vulkan tests" OFF) option(LLAMA_METAL "llama: use Metal" ${LLAMA_METAL_DEFAULT}) option(LLAMA_METAL_NDEBUG "llama: disable Metal debugging" OFF) +option(LLAMA_METAL_SHADER_DEBUG "llama: compile Metal with -fno-fast-math" OFF) +option(LLAMA_METAL_EMBED_LIBRARY "llama: embed Metal library" OFF) +set(LLAMA_METAL_MACOSX_VERSION_MIN "" CACHE STRING + "llama: metal minimum macOS version") +set(LLAMA_METAL_STD "" CACHE STRING "llama: metal standard version (-std flag)") +option(LLAMA_KOMPUTE "llama: use Kompute" OFF) option(LLAMA_MPI "llama: use MPI" OFF) option(LLAMA_QKK_64 "llama: use super-block size of 64 for k-quants" OFF) +option(LLAMA_SYCL "llama: use SYCL" OFF) +option(LLAMA_SYCL_F16 "llama: use 16 bit floats for sycl calculations" OFF) +set(LLAMA_SYCL_TARGET "INTEL" CACHE STRING "llama: sycl target device") +option(LLAMA_CPU_HBM "llama: use memkind for CPU HBM" OFF) +set(LLAMA_SCHED_MAX_COPIES "4" CACHE STRING "llama: max input copies for pipeline parallelism") + +option(LLAMA_BUILD_TESTS "llama: build tests" ${LLAMA_STANDALONE}) +option(LLAMA_BUILD_EXAMPLES "llama: build examples" ${LLAMA_STANDALONE}) +option(LLAMA_BUILD_SERVER "llama: build server example" ON) + +# add perf arguments +option(LLAMA_PERF "llama: enable perf" OFF) +# Required for relocatable CMake package +include(${CMAKE_CURRENT_SOURCE_DIR}/scripts/build-info.cmake) # # Compile flags # -set(CMAKE_CXX_STANDARD 11) +if (LLAMA_SYCL) + set(CMAKE_CXX_STANDARD 17) +else() + set(CMAKE_CXX_STANDARD 11) +endif() + set(CMAKE_CXX_STANDARD_REQUIRED true) set(CMAKE_C_STANDARD 11) set(CMAKE_C_STANDARD_REQUIRED true) set(THREADS_PREFER_PTHREAD_FLAG ON) + find_package(Threads REQUIRED) include(CheckCXXCompilerFlag) +add_compile_definitions(GGML_SCHED_MAX_COPIES=${LLAMA_SCHED_MAX_COPIES}) + # enable libstdc++ assertions for debug builds if (CMAKE_SYSTEM_NAME MATCHES "Linux") add_compile_definitions($<$:_GLIBCXX_ASSERTIONS>) @@ -67,17 +124,17 @@ endif() if (NOT MSVC) if (LLAMA_SANITIZE_THREAD) add_compile_options(-fsanitize=thread) - link_libraries(-fsanitize=thread) + link_libraries (-fsanitize=thread) endif() if (LLAMA_SANITIZE_ADDRESS) add_compile_options(-fsanitize=address -fno-omit-frame-pointer) - link_libraries(-fsanitize=address) + link_libraries (-fsanitize=address) endif() if (LLAMA_SANITIZE_UNDEFINED) add_compile_options(-fsanitize=undefined) - link_libraries(-fsanitize=undefined) + link_libraries (-fsanitize=undefined) endif() endif() @@ -96,9 +153,9 @@ if (APPLE AND LLAMA_ACCELERATE) endif() if (LLAMA_METAL) - find_library(FOUNDATION_LIBRARY Foundation REQUIRED) - find_library(METAL_FRAMEWORK Metal REQUIRED) - find_library(METALKIT_FRAMEWORK MetalKit REQUIRED) + find_library(FOUNDATION_LIBRARY Foundation REQUIRED) + find_library(METAL_FRAMEWORK Metal REQUIRED) + find_library(METALKIT_FRAMEWORK MetalKit REQUIRED) message(STATUS "Metal framework found") set(GGML_HEADERS_METAL ggml-metal.h) @@ -109,8 +166,79 @@ if (LLAMA_METAL) add_compile_definitions(GGML_METAL_NDEBUG) endif() - # get full path to the file - #add_compile_definitions(GGML_METAL_DIR_KERNELS="${CMAKE_CURRENT_SOURCE_DIR}/") + # copy ggml-common.h and ggml-metal.metal to bin directory + configure_file(ggml-common.h ${CMAKE_RUNTIME_OUTPUT_DIRECTORY}/ggml-common.h COPYONLY) + + if (LLAMA_METAL_EMBED_LIBRARY) + enable_language(ASM) + add_compile_definitions(GGML_METAL_EMBED_LIBRARY) + + set(METALLIB_COMMON "${CMAKE_CURRENT_SOURCE_DIR}/ggml-common.h") + set(METALLIB_SOURCE "${CMAKE_CURRENT_SOURCE_DIR}/ggml-metal.metal") + + file(MAKE_DIRECTORY "${CMAKE_BINARY_DIR}/autogenerated") + + # merge ggml-common.h and ggml-metal.metal into a single file + set(METALLIB_EMBED_ASM "${CMAKE_BINARY_DIR}/autogenerated/ggml-metal-embed.s") + set(METALLIB_SOURCE_EMBED "${CMAKE_BINARY_DIR}/autogenerated/ggml-metal-embed.metal") + + add_custom_command( + OUTPUT ${METALLIB_EMBED_ASM} + COMMAND echo "Embedding Metal library" + COMMAND sed -e '/\#include \"ggml-common.h\"/r ${METALLIB_COMMON}' -e '/\#include \"ggml-common.h\"/d' < ${METALLIB_SOURCE} > ${METALLIB_SOURCE_EMBED} + COMMAND echo ".section __DATA,__ggml_metallib" > ${METALLIB_EMBED_ASM} + COMMAND echo ".globl _ggml_metallib_start" >> ${METALLIB_EMBED_ASM} + COMMAND echo "_ggml_metallib_start:" >> ${METALLIB_EMBED_ASM} + COMMAND echo ".incbin \\\"${METALLIB_SOURCE_EMBED}\\\"" >> ${METALLIB_EMBED_ASM} + COMMAND echo ".globl _ggml_metallib_end" >> ${METALLIB_EMBED_ASM} + COMMAND echo "_ggml_metallib_end:" >> ${METALLIB_EMBED_ASM} + DEPENDS ggml-metal.metal ggml-common.h + COMMENT "Generate assembly for embedded Metal library" + ) + + set(GGML_SOURCES_METAL ${GGML_SOURCES_METAL} ${METALLIB_EMBED_ASM}) + else() + if (LLAMA_METAL_SHADER_DEBUG) + # custom command to do the following: + # xcrun -sdk macosx metal -fno-fast-math -c ggml-metal.metal -o ggml-metal.air + # xcrun -sdk macosx metallib ggml-metal.air -o default.metallib + # + # note: this is the only way I found to disable fast-math in Metal. it's ugly, but at least it works + # disabling fast math is needed in order to pass tests/test-backend-ops + # note: adding -fno-inline fixes the tests when using MTL_SHADER_VALIDATION=1 + # note: unfortunately, we have to call it default.metallib instead of ggml.metallib + # ref: https://github.com/ggerganov/whisper.cpp/issues/1720 + set(XC_FLAGS -fno-fast-math -fno-inline -g) + else() + set(XC_FLAGS -O3) + endif() + + # Append macOS metal versioning flags + if (LLAMA_METAL_MACOSX_VERSION_MIN) + message(STATUS "Adding -mmacosx-version-min=${LLAMA_METAL_MACOSX_VERSION_MIN} flag to metal compilation") + list(APPEND XC_FLAGS -mmacosx-version-min=${LLAMA_METAL_MACOSX_VERSION_MIN}) + endif() + if (LLAMA_METAL_STD) + message(STATUS "Adding -std=${LLAMA_METAL_STD} flag to metal compilation") + list(APPEND XC_FLAGS -std=${LLAMA_METAL_STD}) + endif() + + add_custom_command( + OUTPUT ${CMAKE_RUNTIME_OUTPUT_DIRECTORY}/default.metallib + COMMAND xcrun -sdk macosx metal ${XC_FLAGS} -c ${CMAKE_RUNTIME_OUTPUT_DIRECTORY}/ggml-metal.metal -o ${CMAKE_RUNTIME_OUTPUT_DIRECTORY}/ggml-metal.air + COMMAND xcrun -sdk macosx metallib ${CMAKE_RUNTIME_OUTPUT_DIRECTORY}/ggml-metal.air -o ${CMAKE_RUNTIME_OUTPUT_DIRECTORY}/default.metallib + COMMAND rm -f ${CMAKE_RUNTIME_OUTPUT_DIRECTORY}/ggml-metal.air + COMMAND rm -f ${CMAKE_RUNTIME_OUTPUT_DIRECTORY}/ggml-common.h + COMMAND rm -f ${CMAKE_RUNTIME_OUTPUT_DIRECTORY}/ggml-metal.metal + DEPENDS ggml-metal.metal ggml-common.h + COMMENT "Compiling Metal kernels" + ) + + add_custom_target( + ggml-metal ALL + DEPENDS ${CMAKE_RUNTIME_OUTPUT_DIRECTORY}/default.metallib + ) + endif() # LLAMA_METAL_EMBED_LIBRARY set(LLAMA_EXTRA_LIBS ${LLAMA_EXTRA_LIBS} ${FOUNDATION_LIBRARY} @@ -139,7 +267,11 @@ if (LLAMA_BLAS) if (${LLAMA_BLAS_VENDOR} MATCHES "Generic") pkg_check_modules(DepBLAS REQUIRED blas) elseif (${LLAMA_BLAS_VENDOR} MATCHES "OpenBLAS") - pkg_check_modules(DepBLAS REQUIRED openblas) + # As of openblas v0.3.22, the 64-bit is named openblas64.pc + pkg_check_modules(DepBLAS openblas64) + if (NOT DepBLAS_FOUND) + pkg_check_modules(DepBLAS REQUIRED openblas) + endif() elseif (${LLAMA_BLAS_VENDOR} MATCHES "FLAME") pkg_check_modules(DepBLAS REQUIRED blis) elseif (${LLAMA_BLAS_VENDOR} MATCHES "ATLAS") @@ -178,14 +310,17 @@ if (LLAMA_BLAS) endif() message(STATUS "BLAS found, Includes: ${BLAS_INCLUDE_DIRS}") + add_compile_options(${BLAS_LINKER_FLAGS}) + add_compile_definitions(GGML_USE_OPENBLAS) + if (${BLAS_INCLUDE_DIRS} MATCHES "mkl" AND (${LLAMA_BLAS_VENDOR} MATCHES "Generic" OR ${LLAMA_BLAS_VENDOR} MATCHES "Intel")) add_compile_definitions(GGML_BLAS_USE_MKL) endif() - set(LLAMA_EXTRA_LIBS ${LLAMA_EXTRA_LIBS} ${BLAS_LIBRARIES}) - set(LLAMA_EXTRA_INCLUDES ${LLAMA_EXTRA_INCLUDES} ${BLAS_INCLUDE_DIRS}) + set(LLAMA_EXTRA_LIBS ${LLAMA_EXTRA_LIBS} ${BLAS_LIBRARIES}) + set(LLAMA_EXTRA_INCLUDES ${LLAMA_EXTRA_INCLUDES} ${BLAS_INCLUDE_DIRS}) else() message(WARNING "BLAS not found, please refer to " "https://cmake.org/cmake/help/latest/module/FindBLAS.html#blas-lapack-vendors" @@ -198,21 +333,25 @@ if (LLAMA_QKK_64) endif() if (LLAMA_CUBLAS) + message(WARNING "LLAMA_CUBLAS is deprecated and will be removed in the future.\nUse LLAMA_CUDA instead") + set(LLAMA_CUDA ON) +endif() + +if (LLAMA_CUDA) cmake_minimum_required(VERSION 3.17) find_package(CUDAToolkit) if (CUDAToolkit_FOUND) - message(STATUS "cuBLAS found") + message(STATUS "CUDA found") enable_language(CUDA) set(GGML_HEADERS_CUDA ggml-cuda.h) - set(GGML_SOURCES_CUDA ggml-cuda.cu) - add_compile_definitions(GGML_USE_CUBLAS) -# if (LLAMA_CUDA_CUBLAS) -# add_compile_definitions(GGML_CUDA_CUBLAS) -# endif() + file(GLOB GGML_SOURCES_CUDA "ggml-cuda/*.cu") + list(APPEND GGML_SOURCES_CUDA "ggml-cuda.cu") + + add_compile_definitions(GGML_USE_CUDA) if (LLAMA_CUDA_FORCE_DMMV) add_compile_definitions(GGML_CUDA_FORCE_DMMV) endif() @@ -229,6 +368,9 @@ if (LLAMA_CUBLAS) endif() add_compile_definitions(K_QUANTS_PER_ITERATION=${LLAMA_CUDA_KQUANTS_ITER}) add_compile_definitions(GGML_CUDA_PEER_MAX_BATCH_SIZE=${LLAMA_CUDA_PEER_MAX_BATCH_SIZE}) + if (LLAMA_CUDA_NO_PEER_COPY) + add_compile_definitions(GGML_CUDA_NO_PEER_COPY) + endif() if (LLAMA_STATIC) if (WIN32) @@ -241,6 +383,8 @@ if (LLAMA_CUBLAS) set(LLAMA_EXTRA_LIBS ${LLAMA_EXTRA_LIBS} CUDA::cudart CUDA::cublas CUDA::cublasLt) endif() + set(LLAMA_EXTRA_LIBS ${LLAMA_EXTRA_LIBS} CUDA::cuda_driver) + if (NOT DEFINED CMAKE_CUDA_ARCHITECTURES) # 52 == lowest CUDA 12 standard # 60 == f16 CUDA intrinsics @@ -256,7 +400,7 @@ if (LLAMA_CUBLAS) message(STATUS "Using CUDA architectures: ${CMAKE_CUDA_ARCHITECTURES}") else() - message(WARNING "cuBLAS not found") + message(WARNING "CUDA not found") endif() endif() @@ -265,15 +409,20 @@ if (LLAMA_MPI) find_package(MPI) if (MPI_C_FOUND) message(STATUS "MPI found") + set(GGML_HEADERS_MPI ggml-mpi.h) - set(GGML_SOURCES_MPI ggml-mpi.c ggml-mpi.h) + set(GGML_SOURCES_MPI ggml-mpi.c) + add_compile_definitions(GGML_USE_MPI) add_compile_definitions(${MPI_C_COMPILE_DEFINITIONS}) + if (NOT MSVC) add_compile_options(-Wno-cast-qual) endif() + set(LLAMA_EXTRA_LIBS ${LLAMA_EXTRA_LIBS} ${MPI_C_LIBRARIES}) set(LLAMA_EXTRA_INCLUDES ${LLAMA_EXTRA_INCLUDES} ${MPI_C_INCLUDE_DIRS}) + # Even if you're only using the C header, C++ programs may bring in MPI # C++ functions, so more linkage is needed if (MPI_CXX_FOUND) @@ -300,48 +449,303 @@ if (LLAMA_CLBLAST) endif() endif() +if (LLAMA_VULKAN) + find_package(Vulkan) + if (Vulkan_FOUND) + message(STATUS "Vulkan found") + + set(GGML_HEADERS_VULKAN ggml-vulkan.h) + set(GGML_SOURCES_VULKAN ggml-vulkan.cpp) + + add_compile_definitions(GGML_USE_VULKAN) + + if (LLAMA_VULKAN_CHECK_RESULTS) + add_compile_definitions(GGML_VULKAN_CHECK_RESULTS) + endif() + + if (LLAMA_VULKAN_DEBUG) + add_compile_definitions(GGML_VULKAN_DEBUG) + endif() + + if (LLAMA_VULKAN_VALIDATE) + add_compile_definitions(GGML_VULKAN_VALIDATE) + endif() + + if (LLAMA_VULKAN_RUN_TESTS) + add_compile_definitions(GGML_VULKAN_RUN_TESTS) + endif() + + set(LLAMA_EXTRA_LIBS ${LLAMA_EXTRA_LIBS} Vulkan::Vulkan) + else() + message(WARNING "Vulkan not found") + endif() +endif() + if (LLAMA_HIPBLAS) list(APPEND CMAKE_PREFIX_PATH /opt/rocm) if (NOT ${CMAKE_C_COMPILER_ID} MATCHES "Clang") message(WARNING "Only LLVM is supported for HIP, hint: CC=/opt/rocm/llvm/bin/clang") endif() + if (NOT ${CMAKE_CXX_COMPILER_ID} MATCHES "Clang") message(WARNING "Only LLVM is supported for HIP, hint: CXX=/opt/rocm/llvm/bin/clang++") endif() - find_package(hip) - find_package(hipblas) - find_package(rocblas) + find_package(hip REQUIRED) + find_package(hipblas REQUIRED) + find_package(rocblas REQUIRED) - if (${hipblas_FOUND} AND ${hip_FOUND}) - message(STATUS "HIP and hipBLAS found") - add_compile_definitions(GGML_USE_HIPBLAS GGML_USE_CUBLAS) - add_library(ggml-rocm OBJECT ggml-cuda.cu ggml-cuda.h) - if (BUILD_SHARED_LIBS) - set_target_properties(ggml-rocm PROPERTIES POSITION_INDEPENDENT_CODE ON) - endif() - if (LLAMA_CUDA_FORCE_DMMV) - target_compile_definitions(ggml-rocm PRIVATE GGML_CUDA_FORCE_DMMV) - endif() - if (LLAMA_CUDA_FORCE_MMQ) - target_compile_definitions(ggml-rocm PRIVATE GGML_CUDA_FORCE_MMQ) - endif() - target_compile_definitions(ggml-rocm PRIVATE GGML_CUDA_DMMV_X=${LLAMA_CUDA_DMMV_X}) - target_compile_definitions(ggml-rocm PRIVATE GGML_CUDA_MMV_Y=${LLAMA_CUDA_MMV_Y}) - target_compile_definitions(ggml-rocm PRIVATE K_QUANTS_PER_ITERATION=${LLAMA_CUDA_KQUANTS_ITER}) - set_source_files_properties(ggml-cuda.cu PROPERTIES LANGUAGE CXX) - target_link_libraries(ggml-rocm PRIVATE hip::device PUBLIC hip::host roc::rocblas roc::hipblas) + message(STATUS "HIP and hipBLAS found") - if (LLAMA_STATIC) - message(FATAL_ERROR "Static linking not supported for HIP/ROCm") + set(GGML_HEADERS_ROCM ggml-cuda.h) + + file(GLOB GGML_SOURCES_ROCM "ggml-cuda/*.cu") + list(APPEND GGML_SOURCES_ROCM "ggml-cuda.cu") + + add_compile_definitions(GGML_USE_HIPBLAS GGML_USE_CUDA) + + if (LLAMA_HIP_UMA) + add_compile_definitions(GGML_HIP_UMA) + endif() + + if (LLAMA_CUDA_FORCE_DMMV) + add_compile_definitions(GGML_CUDA_FORCE_DMMV) + endif() + + if (LLAMA_CUDA_FORCE_MMQ) + add_compile_definitions(GGML_CUDA_FORCE_MMQ) + endif() + + if (LLAMA_CUDA_NO_PEER_COPY) + add_compile_definitions(GGML_CUDA_NO_PEER_COPY) + endif() + + add_compile_definitions(GGML_CUDA_DMMV_X=${LLAMA_CUDA_DMMV_X}) + add_compile_definitions(GGML_CUDA_MMV_Y=${LLAMA_CUDA_MMV_Y}) + add_compile_definitions(K_QUANTS_PER_ITERATION=${LLAMA_CUDA_KQUANTS_ITER}) + + set_source_files_properties(${GGML_SOURCES_ROCM} PROPERTIES LANGUAGE CXX) + + if (LLAMA_STATIC) + message(FATAL_ERROR "Static linking not supported for HIP/ROCm") + endif() + + set(LLAMA_EXTRA_LIBS ${LLAMA_EXTRA_LIBS} hip::device PUBLIC hip::host roc::rocblas roc::hipblas) +endif() + +if (LLAMA_SYCL) + if (NOT LLAMA_SYCL_TARGET MATCHES "^(INTEL|NVIDIA)$") + message(FATAL_ERROR "Invalid backend chosen, supported options are INTEL or NVIDIA") + endif() + + if ( NOT DEFINED ENV{ONEAPI_ROOT}) + message(FATAL_ERROR "Not detect ENV {ONEAPI_ROOT}, please install oneAPI & source it, like: source /opt/intel/oneapi/setvars.sh") + endif() + #todo: AOT + + find_package(IntelSYCL REQUIRED) + + message(STATUS "SYCL found") + + add_compile_definitions(GGML_USE_SYCL) + + if (LLAMA_SYCL_F16) + add_compile_definitions(GGML_SYCL_F16) + endif() + + add_compile_options(-I./) #include DPCT + add_compile_options(-I/${SYCL_INCLUDE_DIR}) + + set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -Wno-narrowing") + set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -O3") + set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -fsycl -L${MKLROOT}/lib") + if (LLAMA_SYCL_TARGET STREQUAL "NVIDIA") + set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -fsycl-targets=nvptx64-nvidia-cuda") + endif() + + set(GGML_HEADERS_SYCL ggml-sycl.h) + set(GGML_SOURCES_SYCL ggml-sycl.cpp) + + if (WIN32) + set(LLAMA_EXTRA_LIBS ${LLAMA_EXTRA_LIBS} -fsycl sycl7 OpenCL mkl_sycl_blas_dll.lib mkl_intel_ilp64_dll.lib mkl_sequential_dll.lib mkl_core_dll.lib) + else() + if (LLAMA_SYCL_TARGET STREQUAL "INTEL") + set(LLAMA_EXTRA_LIBS ${LLAMA_EXTRA_LIBS} -fsycl OpenCL mkl_core pthread m dl mkl_sycl_blas mkl_intel_ilp64 mkl_tbb_thread) + elseif (LLAMA_SYCL_TARGET STREQUAL "NVIDIA") + set(LLAMA_EXTRA_LIBS ${LLAMA_EXTRA_LIBS} -fsycl pthread m dl onemkl) endif() - set(LLAMA_EXTRA_LIBS ${LLAMA_EXTRA_LIBS} ggml-rocm) + endif() +endif() + +if (LLAMA_KOMPUTE) + add_compile_definitions(VULKAN_HPP_DISPATCH_LOADER_DYNAMIC=1) + find_package(Vulkan COMPONENTS glslc REQUIRED) + find_program(glslc_executable NAMES glslc HINTS Vulkan::glslc) + if (NOT glslc_executable) + message(FATAL_ERROR "glslc not found") + endif() + + function(compile_shader) + set(options) + set(oneValueArgs) + set(multiValueArgs SOURCES) + cmake_parse_arguments(compile_shader "${options}" "${oneValueArgs}" "${multiValueArgs}" ${ARGN}) + foreach(source ${compile_shader_SOURCES}) + get_filename_component(filename ${source} NAME) + set(spv_file ${filename}.spv) + add_custom_command( + OUTPUT ${spv_file} + DEPENDS ${CMAKE_CURRENT_SOURCE_DIR}/${source} + ${CMAKE_CURRENT_SOURCE_DIR}/kompute-shaders/common.comp + ${CMAKE_CURRENT_SOURCE_DIR}/kompute-shaders/op_getrows.comp + ${CMAKE_CURRENT_SOURCE_DIR}/kompute-shaders/op_mul_mv_q_n_pre.comp + ${CMAKE_CURRENT_SOURCE_DIR}/kompute-shaders/op_mul_mv_q_n.comp + COMMAND ${glslc_executable} --target-env=vulkan1.2 -o ${spv_file} ${CMAKE_CURRENT_SOURCE_DIR}/${source} + COMMENT "Compiling ${source} to ${spv_file}" + ) + + get_filename_component(RAW_FILE_NAME ${spv_file} NAME) + set(FILE_NAME "shader${RAW_FILE_NAME}") + string(REPLACE ".comp.spv" ".h" HEADER_FILE ${FILE_NAME}) + string(TOUPPER ${HEADER_FILE} HEADER_FILE_DEFINE) + string(REPLACE "." "_" HEADER_FILE_DEFINE "${HEADER_FILE_DEFINE}") + set(OUTPUT_HEADER_FILE "${HEADER_FILE}") + message(STATUS "${HEADER_FILE} generating ${HEADER_FILE_DEFINE}") + if(CMAKE_GENERATOR MATCHES "Visual Studio") + add_custom_command( + OUTPUT ${OUTPUT_HEADER_FILE} + COMMAND ${CMAKE_COMMAND} -E echo "/*THIS FILE HAS BEEN AUTOMATICALLY GENERATED - DO NOT EDIT*/" > ${OUTPUT_HEADER_FILE} + COMMAND ${CMAKE_COMMAND} -E echo \"\#ifndef ${HEADER_FILE_DEFINE}\" >> ${OUTPUT_HEADER_FILE} + COMMAND ${CMAKE_COMMAND} -E echo \"\#define ${HEADER_FILE_DEFINE}\" >> ${OUTPUT_HEADER_FILE} + COMMAND ${CMAKE_COMMAND} -E echo "namespace kp {" >> ${OUTPUT_HEADER_FILE} + COMMAND ${CMAKE_COMMAND} -E echo "namespace shader_data {" >> ${OUTPUT_HEADER_FILE} + COMMAND ${CMAKE_BINARY_DIR}/bin/$/xxd -i ${RAW_FILE_NAME} >> ${OUTPUT_HEADER_FILE} + COMMAND ${CMAKE_COMMAND} -E echo "}}" >> ${OUTPUT_HEADER_FILE} + COMMAND ${CMAKE_COMMAND} -E echo \"\#endif // define ${HEADER_FILE_DEFINE}\" >> ${OUTPUT_HEADER_FILE} + DEPENDS ${spv_file} xxd + COMMENT "Converting to hpp: ${FILE_NAME} ${CMAKE_BINARY_DIR}/bin/$/xxd" + ) + else() + add_custom_command( + OUTPUT ${OUTPUT_HEADER_FILE} + COMMAND ${CMAKE_COMMAND} -E echo "/*THIS FILE HAS BEEN AUTOMATICALLY GENERATED - DO NOT EDIT*/" > ${OUTPUT_HEADER_FILE} + COMMAND ${CMAKE_COMMAND} -E echo \"\#ifndef ${HEADER_FILE_DEFINE}\" >> ${OUTPUT_HEADER_FILE} + COMMAND ${CMAKE_COMMAND} -E echo \"\#define ${HEADER_FILE_DEFINE}\" >> ${OUTPUT_HEADER_FILE} + COMMAND ${CMAKE_COMMAND} -E echo "namespace kp {" >> ${OUTPUT_HEADER_FILE} + COMMAND ${CMAKE_COMMAND} -E echo "namespace shader_data {" >> ${OUTPUT_HEADER_FILE} + COMMAND ${CMAKE_BINARY_DIR}/bin/xxd -i ${RAW_FILE_NAME} >> ${OUTPUT_HEADER_FILE} + COMMAND ${CMAKE_COMMAND} -E echo "}}" >> ${OUTPUT_HEADER_FILE} + COMMAND ${CMAKE_COMMAND} -E echo \"\#endif // define ${HEADER_FILE_DEFINE}\" >> ${OUTPUT_HEADER_FILE} + DEPENDS ${spv_file} xxd + COMMENT "Converting to hpp: ${FILE_NAME} ${CMAKE_BINARY_DIR}/bin/xxd" + ) + endif() + endforeach() + endfunction() + + if (EXISTS "${CMAKE_CURRENT_SOURCE_DIR}/kompute/CMakeLists.txt") + message(STATUS "Kompute found") + set(KOMPUTE_OPT_LOG_LEVEL Error CACHE STRING "Kompute log level") + add_subdirectory(kompute) + + # Compile our shaders + compile_shader(SOURCES + kompute-shaders/op_scale.comp + kompute-shaders/op_scale_8.comp + kompute-shaders/op_add.comp + kompute-shaders/op_addrow.comp + kompute-shaders/op_mul.comp + kompute-shaders/op_silu.comp + kompute-shaders/op_relu.comp + kompute-shaders/op_gelu.comp + kompute-shaders/op_softmax.comp + kompute-shaders/op_norm.comp + kompute-shaders/op_rmsnorm.comp + kompute-shaders/op_diagmask.comp + kompute-shaders/op_mul_mat_mat_f32.comp + kompute-shaders/op_mul_mat_f16.comp + kompute-shaders/op_mul_mat_q8_0.comp + kompute-shaders/op_mul_mat_q4_0.comp + kompute-shaders/op_mul_mat_q4_1.comp + kompute-shaders/op_mul_mat_q6_k.comp + kompute-shaders/op_getrows_f16.comp + kompute-shaders/op_getrows_q4_0.comp + kompute-shaders/op_getrows_q4_1.comp + kompute-shaders/op_getrows_q6_k.comp + kompute-shaders/op_rope_f16.comp + kompute-shaders/op_rope_f32.comp + kompute-shaders/op_cpy_f16_f16.comp + kompute-shaders/op_cpy_f16_f32.comp + kompute-shaders/op_cpy_f32_f16.comp + kompute-shaders/op_cpy_f32_f32.comp + ) + + # Create a custom target for our generated shaders + add_custom_target(generated_shaders DEPENDS + shaderop_scale.h + shaderop_scale_8.h + shaderop_add.h + shaderop_addrow.h + shaderop_mul.h + shaderop_silu.h + shaderop_relu.h + shaderop_gelu.h + shaderop_softmax.h + shaderop_norm.h + shaderop_rmsnorm.h + shaderop_diagmask.h + shaderop_mul_mat_mat_f32.h + shaderop_mul_mat_f16.h + shaderop_mul_mat_q8_0.h + shaderop_mul_mat_q4_0.h + shaderop_mul_mat_q4_1.h + shaderop_mul_mat_q6_k.h + shaderop_getrows_f16.h + shaderop_getrows_q4_0.h + shaderop_getrows_q4_1.h + shaderop_getrows_q6_k.h + shaderop_rope_f16.h + shaderop_rope_f32.h + shaderop_cpy_f16_f16.h + shaderop_cpy_f16_f32.h + shaderop_cpy_f32_f16.h + shaderop_cpy_f32_f32.h + ) + + # Create a custom command that depends on the generated_shaders + add_custom_command( + OUTPUT ${CMAKE_CURRENT_BINARY_DIR}/ggml-kompute.stamp + COMMAND ${CMAKE_COMMAND} -E touch ${CMAKE_CURRENT_BINARY_DIR}/ggml-kompute.stamp + DEPENDS generated_shaders + COMMENT "Ensuring shaders are generated before compiling ggml-kompute.cpp" + ) + + # Add the stamp to the main sources to ensure dependency tracking + set(GGML_SOURCES_KOMPUTE ggml-kompute.cpp ${CMAKE_CURRENT_BINARY_DIR}/ggml-kompute.stamp) + set(GGML_HEADERS_KOMPUTE ggml-kompute.h ${CMAKE_CURRENT_BINARY_DIR}/ggml-kompute.stamp) + + add_compile_definitions(GGML_USE_KOMPUTE) + + set(LLAMA_EXTRA_LIBS ${LLAMA_EXTRA_LIBS} kompute) + set(LLAMA_EXTRA_INCLUDES ${LLAMA_EXTRA_INCLUDES} ${CMAKE_BINARY_DIR}) else() - message(WARNING "hipBLAS or HIP not found. Try setting CMAKE_PREFIX_PATH=/opt/rocm") + message(WARNING "Kompute not found") endif() endif() +if (LLAMA_CPU_HBM) + find_library(memkind memkind REQUIRED) + + add_compile_definitions(GGML_USE_CPU_HBM) + + target_link_libraries(ggml PUBLIC memkind) +endif() + +if (LLAMA_PERF) + add_compile_definitions(GGML_PERF) +endif() + function(get_flags CCID CCVER) set(C_FLAGS "") set(CXX_FLAGS "") @@ -354,17 +758,17 @@ function(get_flags CCID CCVER) (CCID STREQUAL "Clang" AND CCVER VERSION_GREATER_EQUAL 3.8.0) OR (CCID STREQUAL "AppleClang" AND CCVER VERSION_GREATER_EQUAL 7.3.0) ) - set(C_FLAGS ${C_FLAGS} -Wdouble-promotion) + list(APPEND C_FLAGS -Wdouble-promotion) endif() elseif (CCID STREQUAL "GNU") set(C_FLAGS -Wdouble-promotion) set(CXX_FLAGS -Wno-array-bounds) if (CCVER VERSION_GREATER_EQUAL 7.1.0) - set(CXX_FLAGS ${CXX_FLAGS} -Wno-format-truncation) + list(APPEND CXX_FLAGS -Wno-format-truncation) endif() if (CCVER VERSION_GREATER_EQUAL 8.1.0) - set(CXX_FLAGS ${CXX_FLAGS} -Wextra-semi) + list(APPEND CXX_FLAGS -Wextra-semi) endif() endif() @@ -372,15 +776,24 @@ function(get_flags CCID CCVER) set(GF_CXX_FLAGS ${CXX_FLAGS} PARENT_SCOPE) endfunction() +if (LLAMA_FATAL_WARNINGS) + if (CMAKE_CXX_COMPILER_ID MATCHES "GNU" OR CMAKE_CXX_COMPILER_ID MATCHES "Clang") + list(APPEND C_FLAGS -Werror) + list(APPEND CXX_FLAGS -Werror) + elseif (CMAKE_CXX_COMPILER_ID STREQUAL "MSVC") + add_compile_options(/WX) + endif() +endif() + if (LLAMA_ALL_WARNINGS) if (NOT MSVC) - set(WARNING_FLAGS -Wall -Wextra -Wpedantic -Wcast-qual -Wno-unused-function) - set(C_FLAGS -Wshadow -Wstrict-prototypes -Wpointer-arith -Wmissing-prototypes - -Werror=implicit-int -Werror=implicit-function-declaration) - set(CXX_FLAGS -Wmissing-declarations -Wmissing-noreturn) + list(APPEND WARNING_FLAGS -Wall -Wextra -Wpedantic -Wcast-qual -Wno-unused-function) + list(APPEND C_FLAGS -Wshadow -Wstrict-prototypes -Wpointer-arith -Wmissing-prototypes + -Werror=implicit-int -Werror=implicit-function-declaration) + list(APPEND CXX_FLAGS -Wmissing-declarations -Wmissing-noreturn) - set(C_FLAGS ${WARNING_FLAGS} ${C_FLAGS}) - set(CXX_FLAGS ${WARNING_FLAGS} ${CXX_FLAGS}) + list(APPEND C_FLAGS ${WARNING_FLAGS}) + list(APPEND CXX_FLAGS ${WARNING_FLAGS}) get_flags(${CMAKE_CXX_COMPILER_ID} ${CMAKE_CXX_COMPILER_VERSION}) @@ -393,16 +806,19 @@ if (LLAMA_ALL_WARNINGS) endif() endif() -if (LLAMA_CUBLAS) - set(CUDA_FLAGS ${CXX_FLAGS} -use_fast_math) - if (NOT MSVC) - set(CUDA_FLAGS ${CUDA_FLAGS} -Wno-pedantic) +set(CUDA_CXX_FLAGS "") + +if (LLAMA_CUDA) + set(CUDA_FLAGS -use_fast_math) + + if (LLAMA_FATAL_WARNINGS) + list(APPEND CUDA_FLAGS -Werror all-warnings) endif() if (LLAMA_ALL_WARNINGS AND NOT MSVC) set(NVCC_CMD ${CMAKE_CUDA_COMPILER} .c) if (NOT CMAKE_CUDA_HOST_COMPILER STREQUAL "") - set(NVCC_CMD ${NVCC_CMD} -ccbin ${CMAKE_CUDA_HOST_COMPILER}) + list(APPEND NVCC_CMD -ccbin ${CMAKE_CUDA_HOST_COMPILER}) endif() execute_process( @@ -430,13 +846,12 @@ if (LLAMA_CUBLAS) message("-- CUDA host compiler is ${CUDA_CCID} ${CUDA_CCVER}") get_flags(${CUDA_CCID} ${CUDA_CCVER}) - list(JOIN GF_CXX_FLAGS " " CUDA_CXX_FLAGS) # pass host compiler flags as a single argument - if (NOT CUDA_CXX_FLAGS STREQUAL "") - set(CUDA_FLAGS ${CUDA_FLAGS} -Xcompiler ${CUDA_CXX_FLAGS}) - endif() + list(APPEND CUDA_CXX_FLAGS ${CXX_FLAGS} ${GF_CXX_FLAGS}) # This is passed to -Xcompiler later endif() - add_compile_options("$<$:${CUDA_FLAGS}>") + if (NOT MSVC) + list(APPEND CUDA_CXX_FLAGS -Wno-pedantic) + endif() endif() if (WIN32) @@ -457,12 +872,24 @@ if (LLAMA_LTO) endif() endif() +if (LLAMA_CCACHE) + find_program(LLAMA_CCACHE_FOUND ccache) + if (LLAMA_CCACHE_FOUND) + set_property(GLOBAL PROPERTY RULE_LAUNCH_COMPILE ccache) + set(ENV{CCACHE_SLOPPINESS} time_macros) + message(STATUS "ccache found, compilation results will be cached. Disable with LLAMA_CCACHE=OFF.") + else() + message(STATUS "Warning: ccache not found - consider installing it for faster compilation or disable this warning with LLAMA_CCACHE=OFF") + endif () +endif() + # this version of Apple ld64 is buggy execute_process( COMMAND ${CMAKE_C_COMPILER} ${CMAKE_EXE_LINKER_FLAGS} -Wl,-v ERROR_VARIABLE output OUTPUT_QUIET ) + if (output MATCHES "dyld-1015\.7") add_compile_definitions(HAVE_BUGGY_APPLE_LINKER) endif() @@ -472,10 +899,10 @@ endif() # feel free to update the Makefile for your architecture and send a pull request or issue message(STATUS "CMAKE_SYSTEM_PROCESSOR: ${CMAKE_SYSTEM_PROCESSOR}") if (MSVC) - string(TOLOWER "${CMAKE_GENERATOR_PLATFORM}" CMAKE_GENERATOR_PLATFORM_LWR) - message(STATUS "CMAKE_GENERATOR_PLATFORM: ${CMAKE_GENERATOR_PLATFORM}") + string(TOLOWER "${CMAKE_GENERATOR_PLATFORM}" CMAKE_GENERATOR_PLATFORM_LWR) + message(STATUS "CMAKE_GENERATOR_PLATFORM: ${CMAKE_GENERATOR_PLATFORM}") else () - set(CMAKE_GENERATOR_PLATFORM_LWR "") + set(CMAKE_GENERATOR_PLATFORM_LWR "") endif () if (NOT MSVC) @@ -490,42 +917,63 @@ if (NOT MSVC) endif() endif() -if ((${CMAKE_SYSTEM_PROCESSOR} MATCHES "arm") OR (${CMAKE_SYSTEM_PROCESSOR} MATCHES "aarch64") OR ("${CMAKE_GENERATOR_PLATFORM_LWR}" MATCHES "arm64")) +set(ARCH_FLAGS "") + +if (CMAKE_OSX_ARCHITECTURES STREQUAL "arm64" OR CMAKE_GENERATOR_PLATFORM_LWR STREQUAL "arm64" OR + (NOT CMAKE_OSX_ARCHITECTURES AND NOT CMAKE_GENERATOR_PLATFORM_LWR AND + CMAKE_SYSTEM_PROCESSOR MATCHES "^(aarch64|arm.*|ARM64)$")) message(STATUS "ARM detected") if (MSVC) + add_compile_definitions(__aarch64__) # MSVC defines _M_ARM64 instead add_compile_definitions(__ARM_NEON) add_compile_definitions(__ARM_FEATURE_FMA) - add_compile_definitions(__ARM_FEATURE_DOTPROD) - # add_compile_definitions(__ARM_FEATURE_FP16_VECTOR_ARITHMETIC) # MSVC doesn't support vdupq_n_f16, vld1q_f16, vst1q_f16 - add_compile_definitions(__aarch64__) # MSVC defines _M_ARM64 instead + + set(CMAKE_REQUIRED_FLAGS_PREV ${CMAKE_REQUIRED_FLAGS}) + string(JOIN " " CMAKE_REQUIRED_FLAGS ${CMAKE_REQUIRED_FLAGS} "/arch:armv8.2") + check_cxx_source_compiles("#include \nint main() { int8x16_t _a, _b; int32x4_t _s = vdotq_s32(_s, _a, _b); return 0; }" GGML_COMPILER_SUPPORT_DOTPROD) + if (GGML_COMPILER_SUPPORT_DOTPROD) + add_compile_definitions(__ARM_FEATURE_DOTPROD) + endif () + check_cxx_source_compiles("#include \nint main() { float16_t _a; float16x8_t _s = vdupq_n_f16(_a); return 0; }" GGML_COMPILER_SUPPORT_FP16_VECTOR_ARITHMETIC) + if (GGML_COMPILER_SUPPORT_FP16_VECTOR_ARITHMETIC) + add_compile_definitions(__ARM_FEATURE_FP16_VECTOR_ARITHMETIC) + endif () + set(CMAKE_REQUIRED_FLAGS ${CMAKE_REQUIRED_FLAGS_PREV}) else() check_cxx_compiler_flag(-mfp16-format=ieee COMPILER_SUPPORTS_FP16_FORMAT_I3E) if (NOT "${COMPILER_SUPPORTS_FP16_FORMAT_I3E}" STREQUAL "") - add_compile_options(-mfp16-format=ieee) + list(APPEND ARCH_FLAGS -mfp16-format=ieee) endif() if (${CMAKE_SYSTEM_PROCESSOR} MATCHES "armv6") # Raspberry Pi 1, Zero - add_compile_options(-mfpu=neon-fp-armv8 -mno-unaligned-access) + list(APPEND ARCH_FLAGS -mfpu=neon-fp-armv8 -mno-unaligned-access) endif() if (${CMAKE_SYSTEM_PROCESSOR} MATCHES "armv7") - # Raspberry Pi 2 - add_compile_options(-mfpu=neon-fp-armv8 -mno-unaligned-access -funsafe-math-optimizations) + if ("${CMAKE_SYSTEM_NAME}" STREQUAL "Android") + # Android armeabi-v7a + list(APPEND ARCH_FLAGS -mfpu=neon-vfpv4 -mno-unaligned-access -funsafe-math-optimizations) + else() + # Raspberry Pi 2 + list(APPEND ARCH_FLAGS -mfpu=neon-fp-armv8 -mno-unaligned-access -funsafe-math-optimizations) + endif() endif() if (${CMAKE_SYSTEM_PROCESSOR} MATCHES "armv8") + # Android arm64-v8a # Raspberry Pi 3, 4, Zero 2 (32-bit) - add_compile_options(-mno-unaligned-access) + list(APPEND ARCH_FLAGS -mno-unaligned-access) endif() endif() -elseif (${CMAKE_SYSTEM_PROCESSOR} MATCHES "^(x86_64|i686|AMD64)$" OR "${CMAKE_GENERATOR_PLATFORM_LWR}" MATCHES "^(x86_64|i686|amd64|x64)$" ) +elseif (CMAKE_OSX_ARCHITECTURES STREQUAL "x86_64" OR CMAKE_GENERATOR_PLATFORM_LWR MATCHES "^(x86_64|i686|amd64|x64|win32)$" OR + (NOT CMAKE_OSX_ARCHITECTURES AND NOT CMAKE_GENERATOR_PLATFORM_LWR AND + CMAKE_SYSTEM_PROCESSOR MATCHES "^(x86_64|i686|AMD64)$")) message(STATUS "x86 detected") if (MSVC) # instruction set detection for MSVC only if (LLAMA_NATIVE) - include(${llama.cpp_SOURCE_DIR}/cmake/FindSIMD.cmake) + include(cmake/FindSIMD.cmake) endif () if (LLAMA_AVX512) - add_compile_options($<$:/arch:AVX512>) - add_compile_options($<$:/arch:AVX512>) + list(APPEND ARCH_FLAGS /arch:AVX512) # MSVC has no compile-time flags enabling specific # AVX512 extensions, neither it defines the # macros corresponding to the extensions. @@ -539,54 +987,64 @@ elseif (${CMAKE_SYSTEM_PROCESSOR} MATCHES "^(x86_64|i686|AMD64)$" OR "${CMAKE_GE add_compile_definitions($<$:__AVX512VNNI__>) endif() elseif (LLAMA_AVX2) - add_compile_options($<$:/arch:AVX2>) - add_compile_options($<$:/arch:AVX2>) + list(APPEND ARCH_FLAGS /arch:AVX2) elseif (LLAMA_AVX) - add_compile_options($<$:/arch:AVX>) - add_compile_options($<$:/arch:AVX>) + list(APPEND ARCH_FLAGS /arch:AVX) endif() else() if (LLAMA_NATIVE) - add_compile_options(-march=native) + list(APPEND ARCH_FLAGS -march=native) endif() if (LLAMA_F16C) - add_compile_options(-mf16c) + list(APPEND ARCH_FLAGS -mf16c) endif() if (LLAMA_FMA) - add_compile_options(-mfma) + list(APPEND ARCH_FLAGS -mfma) endif() if (LLAMA_AVX) - add_compile_options(-mavx) + list(APPEND ARCH_FLAGS -mavx) endif() if (LLAMA_AVX2) - add_compile_options(-mavx2) + list(APPEND ARCH_FLAGS -mavx2) endif() if (LLAMA_AVX512) - add_compile_options(-mavx512f) - add_compile_options(-mavx512bw) + list(APPEND ARCH_FLAGS -mavx512f) + list(APPEND ARCH_FLAGS -mavx512bw) endif() if (LLAMA_AVX512_VBMI) - add_compile_options(-mavx512vbmi) + list(APPEND ARCH_FLAGS -mavx512vbmi) endif() if (LLAMA_AVX512_VNNI) - add_compile_options(-mavx512vnni) + list(APPEND ARCH_FLAGS -mavx512vnni) endif() endif() elseif (${CMAKE_SYSTEM_PROCESSOR} MATCHES "ppc64") message(STATUS "PowerPC detected") if (${CMAKE_SYSTEM_PROCESSOR} MATCHES "ppc64le") - add_compile_options(-mcpu=powerpc64le) + list(APPEND ARCH_FLAGS -mcpu=powerpc64le) else() - add_compile_options(-mcpu=native -mtune=native) + list(APPEND ARCH_FLAGS -mcpu=native -mtune=native) #TODO: Add targets for Power8/Power9 (Altivec/VSX) and Power10(MMA) and query for big endian systems (ppc64/le/be) endif() else() message(STATUS "Unknown architecture") endif() +add_compile_options("$<$:${ARCH_FLAGS}>") +add_compile_options("$<$:${ARCH_FLAGS}>") + +if (LLAMA_CUDA) + list(APPEND CUDA_CXX_FLAGS ${ARCH_FLAGS}) + list(JOIN CUDA_CXX_FLAGS " " CUDA_CXX_FLAGS_JOINED) # pass host compiler flags as a single argument + if (NOT CUDA_CXX_FLAGS_JOINED STREQUAL "") + list(APPEND CUDA_FLAGS -Xcompiler ${CUDA_CXX_FLAGS_JOINED}) + endif() + add_compile_options("$<$:${CUDA_FLAGS}>") +endif() + if (MINGW) # Target Windows 8 for PrefetchVirtualMemory - add_compile_definitions(_WIN32_WINNT=0x602) + add_compile_definitions(_WIN32_WINNT=${LLAMA_WIN_VER}) endif() # From 73382e42748a753c1da3086168c1678612c9c624 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Thu, 4 Apr 2024 14:07:49 +0200 Subject: [PATCH 026/285] Update readme llama.cpp badge --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 2c2a0f5b..da8094f9 100644 --- a/README.md +++ b/README.md @@ -1,5 +1,5 @@ ![Java 11+](https://img.shields.io/badge/Java-11%2B-informational) -![llama.cpp b1645](https://img.shields.io/badge/llama.cpp-%23b1645-informational) +![llama.cpp b2589](https://img.shields.io/badge/llama.cpp-%23b2589-informational) # Java Bindings for [llama.cpp](https://github.com/ggerganov/llama.cpp) From 1727c692a91a64469e9787ff89f02e074fdad14f Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Thu, 4 Apr 2024 14:32:39 +0200 Subject: [PATCH 027/285] Add clang-format --- .clang-format | 236 +++++++++++++++++++++ src/main/cpp/jllama.cpp | 457 ++++++++++++++++++++++------------------ 2 files changed, 488 insertions(+), 205 deletions(-) create mode 100644 .clang-format diff --git a/.clang-format b/.clang-format new file mode 100644 index 00000000..1d24348d --- /dev/null +++ b/.clang-format @@ -0,0 +1,236 @@ +--- +Language: Cpp +# BasedOnStyle: Microsoft +AccessModifierOffset: -2 +AlignAfterOpenBracket: Align +AlignArrayOfStructures: None +AlignConsecutiveAssignments: + Enabled: false + AcrossEmptyLines: false + AcrossComments: false + AlignCompound: false + PadOperators: true +AlignConsecutiveBitFields: + Enabled: false + AcrossEmptyLines: false + AcrossComments: false + AlignCompound: false + PadOperators: false +AlignConsecutiveDeclarations: + Enabled: false + AcrossEmptyLines: false + AcrossComments: false + AlignCompound: false + PadOperators: false +AlignConsecutiveMacros: + Enabled: false + AcrossEmptyLines: false + AcrossComments: false + AlignCompound: false + PadOperators: false +AlignConsecutiveShortCaseStatements: + Enabled: false + AcrossEmptyLines: false + AcrossComments: false + AlignCaseColons: false +AlignEscapedNewlines: Right +AlignOperands: Align +AlignTrailingComments: + Kind: Always + OverEmptyLines: 0 +AllowAllArgumentsOnNextLine: true +AllowAllParametersOfDeclarationOnNextLine: true +AllowShortBlocksOnASingleLine: Never +AllowShortCaseLabelsOnASingleLine: false +AllowShortEnumsOnASingleLine: false +AllowShortFunctionsOnASingleLine: None +AllowShortIfStatementsOnASingleLine: Never +AllowShortLambdasOnASingleLine: All +AllowShortLoopsOnASingleLine: false +AlwaysBreakAfterDefinitionReturnType: None +AlwaysBreakAfterReturnType: None +AlwaysBreakBeforeMultilineStrings: false +AlwaysBreakTemplateDeclarations: MultiLine +AttributeMacros: + - __capability +BinPackArguments: true +BinPackParameters: true +BitFieldColonSpacing: Both +BraceWrapping: + AfterCaseLabel: false + AfterClass: true + AfterControlStatement: Always + AfterEnum: true + AfterExternBlock: true + AfterFunction: true + AfterNamespace: true + AfterObjCDeclaration: true + AfterStruct: true + AfterUnion: false + BeforeCatch: true + BeforeElse: true + BeforeLambdaBody: false + BeforeWhile: false + IndentBraces: false + SplitEmptyFunction: true + SplitEmptyRecord: true + SplitEmptyNamespace: true +BreakAfterAttributes: Never +BreakAfterJavaFieldAnnotations: false +BreakArrays: true +BreakBeforeBinaryOperators: None +BreakBeforeConceptDeclarations: Always +BreakBeforeBraces: Custom +BreakBeforeInlineASMColon: OnlyMultiline +BreakBeforeTernaryOperators: true +BreakConstructorInitializers: BeforeColon +BreakInheritanceList: BeforeColon +BreakStringLiterals: true +ColumnLimit: 120 +CommentPragmas: '^ IWYU pragma:' +CompactNamespaces: false +ConstructorInitializerIndentWidth: 4 +ContinuationIndentWidth: 4 +Cpp11BracedListStyle: true +DerivePointerAlignment: false +DisableFormat: false +EmptyLineAfterAccessModifier: Never +EmptyLineBeforeAccessModifier: LogicalBlock +ExperimentalAutoDetectBinPacking: false +FixNamespaceComments: true +ForEachMacros: + - foreach + - Q_FOREACH + - BOOST_FOREACH +IfMacros: + - KJ_IF_MAYBE +IncludeBlocks: Preserve +IncludeCategories: + - Regex: '^"(llvm|llvm-c|clang|clang-c)/' + Priority: 2 + SortPriority: 0 + CaseSensitive: false + - Regex: '^(<|"(gtest|gmock|isl|json)/)' + Priority: 3 + SortPriority: 0 + CaseSensitive: false + - Regex: '.*' + Priority: 1 + SortPriority: 0 + CaseSensitive: false +IncludeIsMainRegex: '(Test)?$' +IncludeIsMainSourceRegex: '' +IndentAccessModifiers: false +IndentCaseBlocks: false +IndentCaseLabels: false +IndentExternBlock: AfterExternBlock +IndentGotoLabels: true +IndentPPDirectives: None +IndentRequiresClause: true +IndentWidth: 4 +IndentWrappedFunctionNames: false +InsertBraces: false +InsertNewlineAtEOF: false +InsertTrailingCommas: None +IntegerLiteralSeparator: + Binary: 0 + BinaryMinDigits: 0 + Decimal: 0 + DecimalMinDigits: 0 + Hex: 0 + HexMinDigits: 0 +JavaScriptQuotes: Leave +JavaScriptWrapImports: true +KeepEmptyLinesAtTheStartOfBlocks: true +KeepEmptyLinesAtEOF: false +LambdaBodyIndentation: Signature +LineEnding: DeriveLF +MacroBlockBegin: '' +MacroBlockEnd: '' +MaxEmptyLinesToKeep: 1 +NamespaceIndentation: None +ObjCBinPackProtocolList: Auto +ObjCBlockIndentWidth: 2 +ObjCBreakBeforeNestedBlockParam: true +ObjCSpaceAfterProperty: false +ObjCSpaceBeforeProtocolList: true +PackConstructorInitializers: BinPack +PenaltyBreakAssignment: 2 +PenaltyBreakBeforeFirstCallParameter: 19 +PenaltyBreakComment: 300 +PenaltyBreakFirstLessLess: 120 +PenaltyBreakOpenParenthesis: 0 +PenaltyBreakString: 1000 +PenaltyBreakTemplateDeclaration: 10 +PenaltyExcessCharacter: 1000000 +PenaltyIndentedWhitespace: 0 +PenaltyReturnTypeOnItsOwnLine: 1000 +PointerAlignment: Right +PPIndentWidth: -1 +QualifierAlignment: Leave +ReferenceAlignment: Pointer +ReflowComments: true +RemoveBracesLLVM: false +RemoveParentheses: Leave +RemoveSemicolon: false +RequiresClausePosition: OwnLine +RequiresExpressionIndentation: OuterScope +SeparateDefinitionBlocks: Leave +ShortNamespaceLines: 1 +SortIncludes: CaseSensitive +SortJavaStaticImport: Before +SortUsingDeclarations: LexicographicNumeric +SpaceAfterCStyleCast: false +SpaceAfterLogicalNot: false +SpaceAfterTemplateKeyword: true +SpaceAroundPointerQualifiers: Default +SpaceBeforeAssignmentOperators: true +SpaceBeforeCaseColon: false +SpaceBeforeCpp11BracedList: false +SpaceBeforeCtorInitializerColon: true +SpaceBeforeInheritanceColon: true +SpaceBeforeJsonColon: false +SpaceBeforeParens: ControlStatements +SpaceBeforeParensOptions: + AfterControlStatements: true + AfterForeachMacros: true + AfterFunctionDefinitionName: false + AfterFunctionDeclarationName: false + AfterIfMacros: true + AfterOverloadedOperator: false + AfterRequiresInClause: false + AfterRequiresInExpression: false + BeforeNonEmptyParentheses: false +SpaceBeforeRangeBasedForLoopColon: true +SpaceBeforeSquareBrackets: false +SpaceInEmptyBlock: false +SpacesBeforeTrailingComments: 1 +SpacesInAngles: Never +SpacesInContainerLiterals: true +SpacesInLineCommentPrefix: + Minimum: 1 + Maximum: -1 +SpacesInParens: Never +SpacesInParensOptions: + InCStyleCasts: false + InConditionalStatements: false + InEmptyParentheses: false + Other: false +SpacesInSquareBrackets: false +Standard: Latest +StatementAttributeLikeMacros: + - Q_EMIT +StatementMacros: + - Q_UNUSED + - QT_REQUIRE_VERSION +TabWidth: 4 +UseTab: Never +VerilogBreakBetweenInstancePorts: true +WhitespaceSensitiveMacros: + - BOOST_PP_STRINGIZE + - CF_SWIFT_NAME + - NS_SWIFT_NAME + - PP_STRINGIZE + - STRINGIZE +... + diff --git a/src/main/cpp/jllama.cpp b/src/main/cpp/jllama.cpp index 3876c108..ba5fbc4d 100644 --- a/src/main/cpp/jllama.cpp +++ b/src/main/cpp/jllama.cpp @@ -1,13 +1,14 @@ +#include "jllama.h" + #include #include -#include #include +#include -#include "llama.h" -#include "jllama.h" #include "common.h" -#include "sampling.h" #include "grammar-parser.h" +#include "llama.h" +#include "sampling.h" // classes static jclass c_llama_model = 0; @@ -147,7 +148,9 @@ JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) c_llama_error = env->FindClass("de/kherud/llama/LlamaException"); c_error_oom = env->FindClass("java/lang/OutOfMemoryError"); - if (!(c_llama_model && c_llama_iterator && c_infer_params && c_model_params && c_standard_charsets && c_output && c_string && c_hash_map && c_map && c_set && c_entry && c_iterator && c_integer && c_float && c_log_level && c_biconsumer && c_llama_error && c_error_oom)) + if (!(c_llama_model && c_llama_iterator && c_infer_params && c_model_params && c_standard_charsets && c_output && + c_string && c_hash_map && c_map && c_set && c_entry && c_iterator && c_integer && c_float && c_log_level && + c_biconsumer && c_llama_error && c_error_oom)) { goto error; } @@ -171,19 +174,20 @@ JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) c_llama_error = (jclass)env->NewGlobalRef(c_llama_error); c_error_oom = (jclass)env->NewGlobalRef(c_error_oom); - // find constructors + // find constructors cc_output = env->GetMethodID(c_output, "", "(I[BLjava/util/Map;)V"); cc_hash_map = env->GetMethodID(c_hash_map, "", "()V"); cc_integer = env->GetMethodID(c_integer, "", "(I)V"); cc_float = env->GetMethodID(c_float, "", "(F)V"); - if (!(cc_output && cc_hash_map && cc_integer && cc_float)) - { - goto error; - } + if (!(cc_output && cc_hash_map && cc_integer && cc_float)) + { + goto error; + } // find methods -// m_get_bytes = env->GetMethodID(c_string, "getBytes", "(Ljava/nio/charset/Charset;)[B"); + // m_get_bytes = env->GetMethodID(c_string, "getBytes", + // "(Ljava/nio/charset/Charset;)[B"); m_get_bytes = env->GetMethodID(c_string, "getBytes", "(Ljava/lang/String;)[B"); m_entry_set = env->GetMethodID(c_map, "entrySet", "()Ljava/util/Set;"); m_set_iterator = env->GetMethodID(c_set, "iterator", "()Ljava/util/Iterator;"); @@ -196,7 +200,8 @@ JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) m_float_value = env->GetMethodID(c_float, "floatValue", "()F"); m_biconsumer_accept = env->GetMethodID(c_biconsumer, "accept", "(Ljava/lang/Object;Ljava/lang/Object;)V"); - if (!(m_get_bytes && m_entry_set && m_set_iterator && m_iterator_has_next && m_iterator_next && m_entry_key && m_entry_value && m_map_put && m_int_value && m_float_value && m_biconsumer_accept)) + if (!(m_get_bytes && m_entry_set && m_set_iterator && m_iterator_has_next && m_iterator_next && m_entry_key && + m_entry_value && m_map_put && m_int_value && m_float_value && m_biconsumer_accept)) { goto error; } @@ -259,11 +264,17 @@ JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) { goto error; } - if (!(f_n_predict && f_n_keep && f_n_probs && f_logit_bias && f_top_k && f_top_p && f_tfs_z && f_typical_p && f_temperature && f_repeat_penalty && f_repeat_last_n && f_frequency_penalty && f_presence_penalty && f_penalize_nl && f_ignore_eos && f_mirostat && f_mirostat_tau && f_mirostat_eta && f_beam_search && f_n_beams && f_grammar && f_antiprompt && f_infer_seed && f_tokenize_special)) + if (!(f_n_predict && f_n_keep && f_n_probs && f_logit_bias && f_top_k && f_top_p && f_tfs_z && f_typical_p && + f_temperature && f_repeat_penalty && f_repeat_last_n && f_frequency_penalty && f_presence_penalty && + f_penalize_nl && f_ignore_eos && f_mirostat && f_mirostat_tau && f_mirostat_eta && f_beam_search && + f_n_beams && f_grammar && f_antiprompt && f_infer_seed && f_tokenize_special)) { goto error; } - if (!(f_n_threads && f_model_seed && f_n_ctx && f_n_batch && f_n_gpu_layers && f_main_gpu && f_tensor_split && f_rope_freq_base && f_rope_freq_scale && f_mul_mat_q && f_f16_kv && f_logits_all && f_vocab_only && f_use_mmap && f_use_mlock && f_embedding && f_lora_adapter && f_lora_base && f_memory_f16 && f_mem_test && f_numa && f_verbose_prompt)) + if (!(f_n_threads && f_model_seed && f_n_ctx && f_n_batch && f_n_gpu_layers && f_main_gpu && f_tensor_split && + f_rope_freq_base && f_rope_freq_scale && f_mul_mat_q && f_f16_kv && f_logits_all && f_vocab_only && + f_use_mmap && f_use_mlock && f_embedding && f_lora_adapter && f_lora_base && f_memory_f16 && f_mem_test && + f_numa && f_verbose_prompt)) { goto error; } @@ -279,7 +290,7 @@ JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) goto error; } -// o_utf_8 = env->GetStaticObjectField(c_standard_charsets, f_utf_8); + // o_utf_8 = env->GetStaticObjectField(c_standard_charsets, f_utf_8); o_utf_8 = env->NewStringUTF("UTF-8"); o_utf_8 = (jclass)env->NewGlobalRef(o_utf_8); @@ -372,7 +383,8 @@ static void jllama_log_callback(enum ggml_log_level level, const char *text, voi env->DeleteLocalRef(java_text); } -static void jllama_log_callback(enum ggml_log_level level, std::string text) { +static void jllama_log_callback(enum ggml_log_level level, std::string text) +{ jllama_log_callback(level, text.c_str(), nullptr); } @@ -405,9 +417,10 @@ static float parse_jfloat(JNIEnv *env, jobject java_float) return env->CallFloatMethod(java_float, m_float_value); } -// Since Java expects utf16 but std::strings are utf8, we can't directly use `env->NewString` or `env-NewString`, but -// we simply send the bytes directly and do the conversion in Java. Unfortunately, there isn't a nice/standardized way -// to do this conversion in C++ +// Since Java expects utf16 but std::strings are utf8, we can't directly use +// `env->NewString` or `env-NewString`, but we simply send the bytes directly +// and do the conversion in Java. Unfortunately, there isn't a +// nice/standardized way to do this conversion in C++ static jbyteArray parse_jbytes(JNIEnv *env, std::string string) { jsize len = string.size(); @@ -446,12 +459,10 @@ enum stop_type static bool ends_with(const std::string &str, const std::string &suffix) { - return str.size() >= suffix.size() && - 0 == str.compare(str.size() - suffix.size(), suffix.size(), suffix); + return str.size() >= suffix.size() && 0 == str.compare(str.size() - suffix.size(), suffix.size(), suffix); } -static size_t find_partial_stop_string(const std::string &stop, - const std::string &text) +static size_t find_partial_stop_string(const std::string &stop, const std::string &text) { if (!text.empty() && !stop.empty()) { @@ -471,8 +482,7 @@ static size_t find_partial_stop_string(const std::string &stop, return std::string::npos; } -template -static std::string tokens_to_str(llama_context *ctx, Iter begin, Iter end) +template static std::string tokens_to_str(llama_context *ctx, Iter begin, Iter end) { std::string ret; for (; begin != end; ++begin) @@ -522,7 +532,8 @@ struct jllama_context grammar_parser::parse_state parsed_grammar; llama_grammar *grammar = nullptr; - // Whether to tokenize special and/or control tokens which otherwise are not exposed and treated as plaintext. + // Whether to tokenize special and/or control tokens which otherwise are not + // exposed and treated as plaintext. bool tokenize_special = false; bool truncated = false; @@ -576,7 +587,8 @@ struct jllama_context n_remain = 0; n_past = 0; - if (grammar != nullptr) { + if (grammar != nullptr) + { llama_grammar_free(grammar); grammar = nullptr; ctx_sampling = *llama_sampling_init(params.sparams); @@ -604,10 +616,12 @@ struct jllama_context bool loadGrammar() { - if (!params.sparams.grammar.empty()) { + if (!params.sparams.grammar.empty()) + { parsed_grammar = grammar_parser::parse(params.sparams.grammar.c_str()); // will be empty (default) if there are parse errors - if (parsed_grammar.rules.empty()) { + if (parsed_grammar.rules.empty()) + { jllama_log_callback(GGML_LOG_LEVEL_ERROR, "grammar parse error"); return false; } @@ -615,14 +629,16 @@ struct jllama_context { auto it = params.sparams.logit_bias.find(llama_token_eos(model)); - if (it != params.sparams.logit_bias.end() && it->second == -INFINITY) { - jllama_log_callback(GGML_LOG_LEVEL_WARN, "EOS token is disabled, which will cause most grammars to fail"); + if (it != params.sparams.logit_bias.end() && it->second == -INFINITY) + { + jllama_log_callback(GGML_LOG_LEVEL_WARN, "EOS token is disabled, which will cause " + "most grammars to fail"); } } std::vector grammar_rules(parsed_grammar.c_rules()); - grammar = llama_grammar_init( - grammar_rules.data(), grammar_rules.size(), parsed_grammar.symbol_ids.at("root")); + grammar = + llama_grammar_init(grammar_rules.data(), grammar_rules.size(), parsed_grammar.symbol_ids.at("root")); } ctx_sampling = *llama_sampling_init(params.sparams); return true; @@ -631,7 +647,8 @@ struct jllama_context void loadInfill() { bool suff_rm_leading_spc = true; - if (params.input_suffix.find_first_of(" ") == 0 && params.input_suffix.size() > 1) { + if (params.input_suffix.find_first_of(" ") == 0 && params.input_suffix.size() > 1) + { params.input_suffix.erase(0, 1); suff_rm_leading_spc = false; } @@ -639,11 +656,13 @@ struct jllama_context auto prefix_tokens = tokenize(params.input_prefix, false); auto suffix_tokens = tokenize(params.input_suffix, false); const int space_token = 29871; - if (suff_rm_leading_spc && suffix_tokens[0] == space_token) { + if (suff_rm_leading_spc && suffix_tokens[0] == space_token) + { suffix_tokens.erase(suffix_tokens.begin()); } prefix_tokens.insert(prefix_tokens.begin(), llama_token_prefix(model)); - prefix_tokens.insert(prefix_tokens.begin(), llama_token_bos(model)); // always add BOS + prefix_tokens.insert(prefix_tokens.begin(), + llama_token_bos(model)); // always add BOS prefix_tokens.insert(prefix_tokens.end(), llama_token_suffix(model)); prefix_tokens.insert(prefix_tokens.end(), suffix_tokens.begin(), suffix_tokens.end()); prefix_tokens.push_back(llama_token_middle(model)); @@ -664,10 +683,11 @@ struct jllama_context const int n_left = (params.n_ctx - params.n_keep) / 2; std::vector new_tokens(prompt_tokens.begin(), prompt_tokens.begin() + params.n_keep); const int erased_blocks = (num_prompt_tokens - params.n_keep - n_left - 1) / n_left; - new_tokens.insert(new_tokens.end(), prompt_tokens.begin() + params.n_keep + erased_blocks * n_left, prompt_tokens.end()); + new_tokens.insert(new_tokens.end(), prompt_tokens.begin() + params.n_keep + erased_blocks * n_left, + prompt_tokens.end()); std::copy(prompt_tokens.end() - params.n_ctx, prompt_tokens.end(), last_n_tokens.begin()); - jllama_log_callback(GGML_LOG_LEVEL_INFO, "input truncated n_left=" + std::to_string(n_left) ); + jllama_log_callback(GGML_LOG_LEVEL_INFO, "input truncated n_left=" + std::to_string(n_left)); truncated = true; prompt_tokens = new_tokens; @@ -697,7 +717,7 @@ struct jllama_context void loadPrompt() { - auto prompt_tokens = tokenize(prompt, true); // always add BOS + auto prompt_tokens = tokenize(prompt, true); // always add BOS num_prompt_tokens = prompt_tokens.size(); @@ -713,7 +733,8 @@ struct jllama_context const int n_left = (n_ctx - params.n_keep) / 2; std::vector new_tokens(prompt_tokens.begin(), prompt_tokens.begin() + params.n_keep); const int erased_blocks = (num_prompt_tokens - params.n_keep - n_left - 1) / n_left; - new_tokens.insert(new_tokens.end(), prompt_tokens.begin() + params.n_keep + erased_blocks * n_left, prompt_tokens.end()); + new_tokens.insert(new_tokens.end(), prompt_tokens.begin() + params.n_keep + erased_blocks * n_left, + prompt_tokens.end()); std::copy(prompt_tokens.end() - n_ctx, prompt_tokens.end(), last_n_tokens.begin()); jllama_log_callback(GGML_LOG_LEVEL_INFO, "input truncated n_left=" + std::to_string(n_left)); @@ -760,10 +781,10 @@ struct jllama_context { // Shift context - const int n_left = n_past - params.n_keep - 1; - const int n_discard = n_left/2; + const int n_left = n_past - params.n_keep - 1; + const int n_discard = n_left / 2; - llama_kv_cache_seq_rm (ctx, 0, params.n_keep + 1 , params.n_keep + n_discard + 1); + llama_kv_cache_seq_rm(ctx, 0, params.n_keep + 1, params.n_keep + n_discard + 1); llama_kv_cache_seq_shift(ctx, 0, params.n_keep + 1 + n_discard, n_past, -n_discard); for (size_t i = params.n_keep + 1 + n_discard; i < embd.size(); i++) @@ -775,7 +796,7 @@ struct jllama_context n_past -= n_discard; truncated = true; - jllama_log_callback(GGML_LOG_LEVEL_INFO, "input truncated n_left=" + std::to_string(n_left) ); + jllama_log_callback(GGML_LOG_LEVEL_INFO, "input truncated n_left=" + std::to_string(n_left)); } bool tg = true; @@ -808,7 +829,7 @@ struct jllama_context // out of user input, sample next token result.tok = llama_sampling_sample(&ctx_sampling, ctx, NULL); - llama_token_data_array candidates_p = { ctx_sampling.cur.data(), ctx_sampling.cur.size(), false }; + llama_token_data_array candidates_p = {ctx_sampling.cur.data(), ctx_sampling.cur.size(), false}; const int32_t n_probs = params.sparams.n_probs; if (params.sparams.temp <= 0 && n_probs > 0) @@ -823,7 +844,8 @@ struct jllama_context } llama_sampling_accept(&ctx_sampling, ctx, result.tok, true); - if (tg) { + if (tg) + { num_tokens_predicted++; } } @@ -845,8 +867,7 @@ struct jllama_context return result; } - size_t findStoppingStrings(const std::string &text, const size_t last_token_size, - const stop_type type) + size_t findStoppingStrings(const std::string &text, const size_t last_token_size, const stop_type type) { size_t stop_pos = std::string::npos; for (const std::string &word : params.antiprompt) @@ -862,8 +883,7 @@ struct jllama_context { pos = find_partial_stop_string(word, text); } - if (pos != std::string::npos && - (stop_pos == std::string::npos || pos < stop_pos)) + if (pos != std::string::npos && (stop_pos == std::string::npos || pos < stop_pos)) { if (type == STOP_FULL) { @@ -881,7 +901,8 @@ struct jllama_context { auto token_with_probs = nextToken(); - const std::string token_text = token_with_probs.tok == -1 ? "" : llama_token_to_piece(ctx, token_with_probs.tok); + const std::string token_text = + token_with_probs.tok == -1 ? "" : llama_token_to_piece(ctx, token_with_probs.tok); generated_text += token_text; if (params.sparams.n_probs > 0) @@ -965,32 +986,34 @@ static gpt_params parse_model_params(JNIEnv *env, jobject jparams, jstring java_ params.numa = env->GetBooleanField(jparams, f_numa); params.verbose_prompt = env->GetBooleanField(jparams, f_verbose_prompt); -// jstring j_lora_adapter = (jstring)env->GetObjectField(jparams, f_lora_adapter); -// if (j_lora_adapter != nullptr) -// { -// params.lora_adapter = parse_jstring(env, j_lora_adapter); -// std::cout << params.lora_adapter << std::endl; -// env->DeleteLocalRef(j_lora_adapter); -// } -// jstring j_lora_base = (jstring)env->GetObjectField(jparams, f_lora_base); -// if (j_lora_base != nullptr) -// { -// params.lora_base = parse_jstring(env, j_lora_base); -// std::cout << params.lora_base << std::endl; -// env->DeleteLocalRef(j_lora_base); -// } - - // jfloatArray j_tensor_split = (jfloatArray)env->GetObjectField(jparams, f_tensor_split); - // if (j_tensor_split != nullptr) + // jstring j_lora_adapter = (jstring)env->GetObjectField(jparams, + // f_lora_adapter); if (j_lora_adapter != nullptr) + // { + // params.lora_adapter = parse_jstring(env, j_lora_adapter); + // std::cout << params.lora_adapter << std::endl; + // env->DeleteLocalRef(j_lora_adapter); + // } + // jstring j_lora_base = (jstring)env->GetObjectField(jparams, + // f_lora_base); if (j_lora_base != nullptr) + // { + // params.lora_base = parse_jstring(env, j_lora_base); + // std::cout << params.lora_base << std::endl; + // env->DeleteLocalRef(j_lora_base); + // } + + // jfloatArray j_tensor_split = (jfloatArray)env->GetObjectField(jparams, + // f_tensor_split); if (j_tensor_split != nullptr) // { // #ifndef GGML_USE_CUBLAS - // // LOG_WARNING("llama.cpp was compiled without cuBLAS. It is not possible to set a tensor split.\n", {}); + // // LOG_WARNING("llama.cpp was compiled without cuBLAS. It is not + // possible to set a tensor split.\n", {}); // #endif // jsize array_length = env->GetArrayLength(j_tensor_split); // GGML_ASSERT(array_length <= LLAMA_MAX_DEVICES); // float *tensor_split = new float[array_length]; - // env->GetFloatArrayRegion(j_tensor_split, 0, array_length, tensor_split); - // for (size_t i_device = 0; i_device < LLAMA_MAX_DEVICES; ++i_device) + // env->GetFloatArrayRegion(j_tensor_split, 0, array_length, + // tensor_split); for (size_t i_device = 0; i_device < + // LLAMA_MAX_DEVICES; ++i_device) // { // if (i_device < array_length) // { @@ -1006,21 +1029,27 @@ static gpt_params parse_model_params(JNIEnv *env, jobject jparams, jstring java_ // // #ifndef LLAMA_SUPPORTS_GPU_OFFLOAD // if (params.n_gpu_layers > 0) { - // // LOG_WARNING("Not compiled with GPU offload support, --n-gpu-layers option will be ignored. " - // // "See main README.md for information on enabling GPU BLAS support", - // // {{"n_gpu_layers", params.n_gpu_layers}}); + // // LOG_WARNING("Not compiled with GPU offload support, + //--n-gpu-layers option will be ignored. " + // // "See main README.md for + // information on enabling GPU BLAS support", + // // {{"n_gpu_layers", + // params.n_gpu_layers}}); // } // #endif // // #ifndef GGML_USE_CUBLAS // if (params.low_vram) { - // // LOG_WARNING("warning: llama.cpp was compiled without cuBLAS. It is not possible to set lower vram usage.\n", {}); + // // LOG_WARNING("warning: llama.cpp was compiled without cuBLAS. + // It is not possible to set lower vram usage.\n", {}); // } // if (!params.mul_mat_q) { - // // LOG_WARNING("warning: llama.cpp was compiled without cuBLAS. Disabling mul_mat_q kernels has no effect.\n", {}); + // // LOG_WARNING("warning: llama.cpp was compiled without cuBLAS. + // Disabling mul_mat_q kernels has no effect.\n", {}); // } // if (params.main_gpu != 0) { - // // LOG_WARNING("llama.cpp was compiled without cuBLAS. It is not possible to set a main GPU.", {}); + // // LOG_WARNING("llama.cpp was compiled without cuBLAS. It is + // not possible to set a main GPU.", {}); // } // #endif // @@ -1040,13 +1069,13 @@ static gpt_params parse_model_params(JNIEnv *env, jobject jparams, jstring java_ static void setup_infer_params(JNIEnv *env, jllama_context *llama, jobject jparams) { - auto & params = llama->params; + auto ¶ms = llama->params; - params.seed = env->GetIntField(jparams, f_infer_seed); + params.seed = env->GetIntField(jparams, f_infer_seed); params.n_predict = env->GetIntField(jparams, f_n_predict); params.n_keep = env->GetIntField(jparams, f_n_keep); - auto & sparams = params.sparams; + auto &sparams = params.sparams; sparams.top_k = env->GetIntField(jparams, f_top_k); sparams.top_p = env->GetFloatField(jparams, f_top_p); @@ -1069,9 +1098,9 @@ static void setup_infer_params(JNIEnv *env, jllama_context *llama, jobject jpara sparams.grammar = parse_jstring(env, j_grammar); env->DeleteLocalRef(j_grammar); if (!llama->loadGrammar()) - { - env->ThrowNew(c_llama_error, "could not load grammar"); - } + { + env->ThrowNew(c_llama_error, "could not load grammar"); + } } sparams.logit_bias.clear(); @@ -1127,19 +1156,20 @@ static void setup_answering(JNIEnv *env, jllama_context *llama, jstring prompt, { llama->prompt = parse_jstring(env, prompt); llama->params.input_prefix = ""; - llama->params.input_suffix = ""; + llama->params.input_suffix = ""; setup_infer_params(env, llama, params); } static void setup_infilling(JNIEnv *env, jllama_context *llama, jstring prefix, jstring suffix, jobject params) { - llama->prompt = ""; - llama->params.input_prefix = parse_jstring(env, prefix); - llama->params.input_suffix = parse_jstring(env, suffix); - setup_infer_params(env, llama, params); + llama->prompt = ""; + llama->params.input_prefix = parse_jstring(env, prefix); + llama->params.input_suffix = parse_jstring(env, suffix); + setup_infer_params(env, llama, params); } -JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_loadModel(JNIEnv *env, jobject obj, jstring file_path, jobject jparams) +JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_loadModel(JNIEnv *env, jobject obj, jstring file_path, + jobject jparams) { gpt_params params = parse_model_params(env, jparams, file_path); @@ -1155,18 +1185,21 @@ JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_loadModel(JNIEnv *env, jo // jllama_log_callback(GGML_LOG_LEVEL_INFO, "build=" + BUILD_NUMBER); // jllama_log_callback(GGML_LOG_LEVEL_INFO, "commit=" + BUILD_COMMIT); // jllama_log_callback(GGML_LOG_LEVEL_INFO, "n_threads=" + params.n_threads); - // jllama_log_callback(GGML_LOG_LEVEL_INFO, "total_threads=" + std::thread::hardware_concurrency()); - // jllama_log_callback(GGML_LOG_LEVEL_INFO, "system_info=" + llama_print_system_info()); + // jllama_log_callback(GGML_LOG_LEVEL_INFO, "total_threads=" + + // std::thread::hardware_concurrency()); + // jllama_log_callback(GGML_LOG_LEVEL_INFO, "system_info=" + + // llama_print_system_info()); env->SetLongField(obj, f_model_pointer, reinterpret_cast(llama)); } -JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_newAnswerIterator(JNIEnv *env, jobject obj, jstring prompt, jobject params) +JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_newAnswerIterator(JNIEnv *env, jobject obj, jstring prompt, + jobject params) { jlong llama_handle = env->GetLongField(obj, f_model_pointer); jllama_context *llama = reinterpret_cast(llama_handle); -// auto lock = llama->lock(); + // auto lock = llama->lock(); llama->rewind(); @@ -1178,12 +1211,13 @@ JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_newAnswerIterator(JNIEnv llama->beginCompletion(); } -JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_newInfillIterator(JNIEnv *env, jobject obj, jstring prefix, jstring suffix, jobject params) +JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_newInfillIterator(JNIEnv *env, jobject obj, jstring prefix, + jstring suffix, jobject params) { jlong llama_handle = env->GetLongField(obj, f_model_pointer); jllama_context *llama = reinterpret_cast(llama_handle); -// auto lock = llama->lock(); + // auto lock = llama->lock(); llama->rewind(); @@ -1216,44 +1250,49 @@ JNIEXPORT jobject JNICALL Java_de_kherud_llama_LlamaModel_getNext(JNIEnv *env, j size_t pos = std::min(sent_count, llama->generated_text.size()); - const std::string str_test = llama->generated_text.substr(pos); - bool is_stop_full = false; - size_t stop_pos = llama->findStoppingStrings(str_test, token_text.size(), STOP_FULL); - if (stop_pos != std::string::npos) { - is_stop_full = true; - llama->generated_text.erase( - llama->generated_text.begin() + pos + stop_pos, - llama->generated_text.end()); - pos = std::min(sent_count, llama->generated_text.size()); - } else { - is_stop_full = false; - stop_pos = llama->findStoppingStrings(str_test, token_text.size(), - STOP_PARTIAL); - } + const std::string str_test = llama->generated_text.substr(pos); + bool is_stop_full = false; + size_t stop_pos = llama->findStoppingStrings(str_test, token_text.size(), STOP_FULL); + if (stop_pos != std::string::npos) + { + is_stop_full = true; + llama->generated_text.erase(llama->generated_text.begin() + pos + stop_pos, llama->generated_text.end()); + pos = std::min(sent_count, llama->generated_text.size()); + } + else + { + is_stop_full = false; + stop_pos = llama->findStoppingStrings(str_test, token_text.size(), STOP_PARTIAL); + } std::string to_send; - if ( - stop_pos == std::string::npos || - // Send rest of the text if we are at the end of the generation - (!llama->has_next_token && !is_stop_full && stop_pos > 0) - ) { - to_send = llama->generated_text.substr(pos, std::string::npos); - - sent_count += to_send.size(); - env->SetLongField(iter, f_iter_n_generated, sent_count); - - std::vector probs_output = {}; - - if (llama->params.sparams.n_probs > 0) { - const std::vector to_send_toks = llama_tokenize(llama->ctx, to_send, false, llama->tokenize_special); - size_t probs_pos = std::min(sent_token_probs_index, llama->generated_token_probs.size()); - size_t probs_stop_pos = std::min(sent_token_probs_index + to_send_toks.size(), llama->generated_token_probs.size()); - if (probs_pos < probs_stop_pos) { - probs_output = std::vector(llama->generated_token_probs.begin() + probs_pos, llama->generated_token_probs.begin() + probs_stop_pos); - } - sent_token_probs_index = probs_stop_pos; - env->SetLongField(iter, f_iter_token_index, sent_token_probs_index); - } + if (stop_pos == std::string::npos || + // Send rest of the text if we are at the end of the generation + (!llama->has_next_token && !is_stop_full && stop_pos > 0)) + { + to_send = llama->generated_text.substr(pos, std::string::npos); + + sent_count += to_send.size(); + env->SetLongField(iter, f_iter_n_generated, sent_count); + + std::vector probs_output = {}; + + if (llama->params.sparams.n_probs > 0) + { + const std::vector to_send_toks = + llama_tokenize(llama->ctx, to_send, false, llama->tokenize_special); + size_t probs_pos = std::min(sent_token_probs_index, llama->generated_token_probs.size()); + size_t probs_stop_pos = + std::min(sent_token_probs_index + to_send_toks.size(), llama->generated_token_probs.size()); + if (probs_pos < probs_stop_pos) + { + probs_output = + std::vector(llama->generated_token_probs.begin() + probs_pos, + llama->generated_token_probs.begin() + probs_stop_pos); + } + sent_token_probs_index = probs_stop_pos; + env->SetLongField(iter, f_iter_token_index, sent_token_probs_index); + } } else { @@ -1267,93 +1306,99 @@ JNIEXPORT jobject JNICALL Java_de_kherud_llama_LlamaModel_getNext(JNIEnv *env, j // lock.release(); } - jobject o_probabilities = env->NewObject(c_hash_map, cc_hash_map); - for (const auto& tp : token_with_probs.probs) + jobject o_probabilities = env->NewObject(c_hash_map, cc_hash_map); + for (const auto &tp : token_with_probs.probs) { - jobject jtoken = env->NewObject(c_integer, cc_integer, tp.tok); - jobject jprob = env->NewObject(c_float, cc_float, tp.prob); - env->CallObjectMethod(o_probabilities, m_map_put, jtoken, jprob); + jobject jtoken = env->NewObject(c_integer, cc_integer, tp.tok); + jobject jprob = env->NewObject(c_float, cc_float, tp.prob); + env->CallObjectMethod(o_probabilities, m_map_put, jtoken, jprob); } - jbyteArray jbytes = parse_jbytes(env, to_send); - return env->NewObject(c_output, cc_output, token_with_probs.tok, jbytes, o_probabilities); + jbyteArray jbytes = parse_jbytes(env, to_send); + return env->NewObject(c_output, cc_output, token_with_probs.tok, jbytes, o_probabilities); } -JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_getAnswer(JNIEnv *env, jobject obj, jstring prompt, jobject params) +JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_getAnswer(JNIEnv *env, jobject obj, jstring prompt, + jobject params) { jlong llama_handle = env->GetLongField(obj, f_model_pointer); - jllama_context *llama = reinterpret_cast(llama_handle); + jllama_context *llama = reinterpret_cast(llama_handle); -// auto lock = llama->lock(); + // auto lock = llama->lock(); - llama->rewind(); + llama->rewind(); - llama_reset_timings(llama->ctx); + llama_reset_timings(llama->ctx); - setup_answering(env, llama, prompt, params); + setup_answering(env, llama, prompt, params); - llama->loadPrompt(); - llama->beginCompletion(); + llama->loadPrompt(); + llama->beginCompletion(); size_t stop_pos = std::string::npos; - while (llama->has_next_token) { - const completion_token_output token_with_probs = llama->doCompletion(); - const std::string token_text = token_with_probs.tok == -1 ? "" : llama_token_to_piece(llama->ctx, token_with_probs.tok); + while (llama->has_next_token) + { + const completion_token_output token_with_probs = llama->doCompletion(); + const std::string token_text = + token_with_probs.tok == -1 ? "" : llama_token_to_piece(llama->ctx, token_with_probs.tok); - stop_pos = llama->findStoppingStrings(llama->generated_text, - token_text.size(), STOP_FULL); - } + stop_pos = llama->findStoppingStrings(llama->generated_text, token_text.size(), STOP_FULL); + } - if (stop_pos == std::string::npos) { - stop_pos = llama->findStoppingStrings(llama->generated_text, 0, STOP_PARTIAL); - } - if (stop_pos != std::string::npos) { - llama->generated_text.erase(llama->generated_text.begin() + stop_pos, - llama->generated_text.end()); - } + if (stop_pos == std::string::npos) + { + stop_pos = llama->findStoppingStrings(llama->generated_text, 0, STOP_PARTIAL); + } + if (stop_pos != std::string::npos) + { + llama->generated_text.erase(llama->generated_text.begin() + stop_pos, llama->generated_text.end()); + } -// llama->lock().release(); -// llama->mutex.unlock(); + // llama->lock().release(); + // llama->mutex.unlock(); return parse_jbytes(env, llama->generated_text); } -JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_getInfill(JNIEnv *env, jobject obj, jstring prefix, jstring suffix, jobject params) +JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_getInfill(JNIEnv *env, jobject obj, jstring prefix, + jstring suffix, jobject params) { jlong llama_handle = env->GetLongField(obj, f_model_pointer); - jllama_context *llama = reinterpret_cast(llama_handle); + jllama_context *llama = reinterpret_cast(llama_handle); -// auto lock = llama->lock(); + // auto lock = llama->lock(); - llama->rewind(); + llama->rewind(); - llama_reset_timings(llama->ctx); + llama_reset_timings(llama->ctx); - setup_infilling(env, llama, prefix, suffix, params); + setup_infilling(env, llama, prefix, suffix, params); - llama->loadInfill(); - llama->beginCompletion(); + llama->loadInfill(); + llama->beginCompletion(); size_t stop_pos = std::string::npos; - while (llama->has_next_token) { - const completion_token_output token_with_probs = llama->doCompletion(); - const std::string token_text = token_with_probs.tok == -1 ? "" : llama_token_to_piece(llama->ctx, token_with_probs.tok); + while (llama->has_next_token) + { + const completion_token_output token_with_probs = llama->doCompletion(); + const std::string token_text = + token_with_probs.tok == -1 ? "" : llama_token_to_piece(llama->ctx, token_with_probs.tok); - stop_pos = llama->findStoppingStrings(llama->generated_text, - token_text.size(), STOP_FULL); - } + stop_pos = llama->findStoppingStrings(llama->generated_text, token_text.size(), STOP_FULL); + } - if (stop_pos == std::string::npos) { - stop_pos = llama->findStoppingStrings(llama->generated_text, 0, STOP_PARTIAL); - } - if (stop_pos != std::string::npos) { - llama->generated_text.erase(llama->generated_text.begin() + stop_pos, - llama->generated_text.end()); - } + if (stop_pos == std::string::npos) + { + stop_pos = llama->findStoppingStrings(llama->generated_text, 0, STOP_PARTIAL); + } + if (stop_pos != std::string::npos) + { + llama->generated_text.erase(llama->generated_text.begin() + stop_pos, llama->generated_text.end()); + } -// llama->lock().release(); -// llama->mutex.unlock(); + // llama->lock().release(); + // llama->mutex.unlock(); return parse_jbytes(env, llama->generated_text); } @@ -1363,15 +1408,15 @@ JNIEXPORT jfloatArray JNICALL Java_de_kherud_llama_LlamaModel_embed(JNIEnv *env, jlong llama_handle = env->GetLongField(obj, f_model_pointer); jllama_context *llama = reinterpret_cast(llama_handle); -// auto lock = llama->lock(); + // auto lock = llama->lock(); - llama->rewind(); - llama_reset_timings(llama->ctx); - llama->prompt = parse_jstring(env, java_prompt); - llama->params.n_predict = 0; - llama->loadPrompt(); - llama->beginCompletion(); - llama->doCompletion(); + llama->rewind(); + llama_reset_timings(llama->ctx); + llama->prompt = parse_jstring(env, java_prompt); + llama->params.n_predict = 0; + llama->loadPrompt(); + llama->beginCompletion(); + llama->doCompletion(); static const int n_embd = llama_n_embd(llama->model); const float *data = llama_get_embeddings(llama->ctx); @@ -1391,12 +1436,12 @@ JNIEXPORT jfloatArray JNICALL Java_de_kherud_llama_LlamaModel_embed(JNIEnv *env, JNIEXPORT jintArray JNICALL Java_de_kherud_llama_LlamaModel_encode(JNIEnv *env, jobject obj, jstring jprompt) { - jlong llama_handle = env->GetLongField(obj, f_model_pointer); - jllama_context *llama = reinterpret_cast(llama_handle); + jlong llama_handle = env->GetLongField(obj, f_model_pointer); + jllama_context *llama = reinterpret_cast(llama_handle); -// auto lock = llama->lock(); + // auto lock = llama->lock(); - std::string prompt = parse_jstring(env, jprompt); + std::string prompt = parse_jstring(env, jprompt); std::vector tokens = llama->tokenize(prompt, false); jintArray java_tokens = env->NewIntArray(tokens.size()); @@ -1408,16 +1453,17 @@ JNIEXPORT jintArray JNICALL Java_de_kherud_llama_LlamaModel_encode(JNIEnv *env, env->SetIntArrayRegion(java_tokens, 0, tokens.size(), reinterpret_cast(tokens.data())); -// lock.release(); + // lock.release(); return java_tokens; } -JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_decodeBytes(JNIEnv *env, jobject obj, jintArray java_tokens) +JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_decodeBytes(JNIEnv *env, jobject obj, + jintArray java_tokens) { jlong llama_handle = env->GetLongField(obj, f_model_pointer); jllama_context *llama = reinterpret_cast(llama_handle); -// auto lock = llama->lock(); + // auto lock = llama->lock(); jsize length = env->GetArrayLength(java_tokens); jint *elements = env->GetIntArrayElements(java_tokens, nullptr); @@ -1426,8 +1472,8 @@ JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_decodeBytes(JNIEnv env->ReleaseIntArrayElements(java_tokens, elements, 0); -// lock.release(); - return parse_jbytes(env, text); + // lock.release(); + return parse_jbytes(env, text); } JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_setLogger(JNIEnv *env, jclass clazz, jobject callback) @@ -1450,8 +1496,9 @@ JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_setLogger(JNIEnv *env, jc } } -JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_delete(JNIEnv * env, jobject obj) { - jlong llama_handle = env->GetLongField(obj, f_model_pointer); - jllama_context *llama = reinterpret_cast(llama_handle); - delete llama; +JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_delete(JNIEnv *env, jobject obj) +{ + jlong llama_handle = env->GetLongField(obj, f_model_pointer); + jllama_context *llama = reinterpret_cast(llama_handle); + delete llama; } From b94ff26f22ed0af90d3716c251b0f02848bea059 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Thu, 4 Apr 2024 14:32:44 +0200 Subject: [PATCH 028/285] Add clang-tidy --- .clang-tidy | 24 ++++++++++++++++++++++++ 1 file changed, 24 insertions(+) create mode 100644 .clang-tidy diff --git a/.clang-tidy b/.clang-tidy new file mode 100644 index 00000000..952c0cca --- /dev/null +++ b/.clang-tidy @@ -0,0 +1,24 @@ +--- +Checks: > + bugprone-*, + -bugprone-easily-swappable-parameters, + -bugprone-implicit-widening-of-multiplication-result, + -bugprone-misplaced-widening-cast, + -bugprone-narrowing-conversions, + readability-*, + -readability-avoid-unconditional-preprocessor-if, + -readability-function-cognitive-complexity, + -readability-identifier-length, + -readability-implicit-bool-conversion, + -readability-magic-numbers, + -readability-uppercase-literal-suffix, + -readability-simplify-boolean-expr, + clang-analyzer-*, + -clang-analyzer-security.insecureAPI.DeprecatedOrUnsafeBufferHandling, + performance-*, + portability-*, + misc-*, + -misc-const-correctness, + -misc-non-private-member-variables-in-classes, + -misc-no-recursion, +FormatStyle: none From 3915095f7fd8a98a01aacb3f92c745bbea9dc341 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Thu, 4 Apr 2024 15:03:54 +0200 Subject: [PATCH 029/285] Add cmake nlohmann:json dependency --- CMakeLists.txt | 21 +++++++++++++++++---- 1 file changed, 17 insertions(+), 4 deletions(-) diff --git a/CMakeLists.txt b/CMakeLists.txt index c9b992ff..9bddd1c1 100644 --- a/CMakeLists.txt +++ b/CMakeLists.txt @@ -5,7 +5,8 @@ project(jllama CXX) set(CMAKE_POSITION_INDEPENDENT_CODE ON) set(BUILD_SHARED_LIBS ON) -# checkout llama.cpp +#################### llama.cpp #################### + include(FetchContent) FetchContent_Declare( llama.cpp @@ -14,6 +15,18 @@ FetchContent_Declare( ) FetchContent_MakeAvailable(llama.cpp) + +#################### json #################### + +FetchContent_Declare( + json + GIT_REPOSITORY https://github.com/nlohmann/json + GIT_TAG v3.11.3 +) +FetchContent_MakeAvailable(json) + +#################### jllama #################### + # todo: Is there a better way to build the library than copy & pasting the build argument cmake definition of llama.cpp? include(build-args.cmake) @@ -48,8 +61,6 @@ endif() set(JLLAMA_DIR ${CMAKE_SOURCE_DIR}/src/main/resources/de/kherud/llama/${OS_NAME}/${OS_ARCH}) message(STATUS "Installing files to ${JLLAMA_DIR}") -add_library(jllama SHARED src/main/cpp/jllama.cpp) - # include jni.h and jni_md.h if(NOT DEFINED JNI_INCLUDE_DIRS) if(OS_NAME MATCHES "^Linux" OR OS_NAME STREQUAL "Mac") @@ -75,8 +86,10 @@ if(NOT JNI_INCLUDE_DIRS) message(FATAL_ERROR "Could not determine JNI include directories") endif() +add_library(jllama SHARED src/main/cpp/jllama.cpp src/main/cpp/server.cpp src/main/cpp/utils.cpp) + target_include_directories(jllama PRIVATE src/main/cpp ${JNI_INCLUDE_DIRS}) -target_link_libraries(jllama PRIVATE common llama ${LLAMA_EXTRA_LIBS}) +target_link_libraries(jllama PRIVATE common llama nlohmann_json ${LLAMA_EXTRA_LIBS}) target_compile_features(jllama PRIVATE cxx_std_11) if(OS_NAME STREQUAL "Windows") From a91290ee741bb8be24a8271addc11d6f2a5747ef Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Thu, 4 Apr 2024 19:10:53 +0200 Subject: [PATCH 030/285] Update model and inference parameters --- .../java/de/kherud/llama/ModelParameters.java | 296 ---------- .../de/kherud/llama/args/GpuSplitMode.java | 9 + .../llama/{ => args}/InferenceParameters.java | 288 ++++++++-- .../java/de/kherud/llama/args/LogFormat.java | 9 + .../java/de/kherud/llama/args/MiroStat.java | 9 + .../de/kherud/llama/args/ModelParameters.java | 531 ++++++++++++++++++ .../de/kherud/llama/args/NumaStrategy.java | 10 + .../de/kherud/llama/args/PoolingType.java | 9 + .../de/kherud/llama/args/RopeScalingType.java | 8 + .../java/de/kherud/llama/args/Sampler.java | 12 + 10 files changed, 829 insertions(+), 352 deletions(-) delete mode 100644 src/main/java/de/kherud/llama/ModelParameters.java create mode 100644 src/main/java/de/kherud/llama/args/GpuSplitMode.java rename src/main/java/de/kherud/llama/{ => args}/InferenceParameters.java (57%) create mode 100644 src/main/java/de/kherud/llama/args/LogFormat.java create mode 100644 src/main/java/de/kherud/llama/args/MiroStat.java create mode 100644 src/main/java/de/kherud/llama/args/ModelParameters.java create mode 100644 src/main/java/de/kherud/llama/args/NumaStrategy.java create mode 100644 src/main/java/de/kherud/llama/args/PoolingType.java create mode 100644 src/main/java/de/kherud/llama/args/RopeScalingType.java create mode 100644 src/main/java/de/kherud/llama/args/Sampler.java diff --git a/src/main/java/de/kherud/llama/ModelParameters.java b/src/main/java/de/kherud/llama/ModelParameters.java deleted file mode 100644 index 4e1d7506..00000000 --- a/src/main/java/de/kherud/llama/ModelParameters.java +++ /dev/null @@ -1,296 +0,0 @@ -package de.kherud.llama; - -import org.jetbrains.annotations.Nullable; - -/** - * Parameters used for initializing a {@link LlamaModel}. - */ -public final class ModelParameters { - - private int nThreads = Runtime.getRuntime().availableProcessors(); - - private int seed = -1; - // text context - private int nCtx = 512; - // prompt processing batch size - private int nBatch = 512; - // number of layers to store in VRAM - private int nGpuLayers = -1; - // the GPU that is used for scratch and small tensors - private int mainGpu = 0; - // how to split layers across multiple GPUs (size: LLAMA_MAX_DEVICES) - private float[] tensorSplit = null; - // RoPE base frequency - private float ropeFreqBase = 0f; - // RoPE frequency scaling factor - private float ropeFreqScale = 0f; - // if true, use experimental mul_mat_q kernels - private boolean mulMatQ = true; - // use fp16 for KV cache - private boolean f16Kv = false; - // the llama_eval() call computes all logits, not just the last one - private boolean logitsAll = false; - // only load the vocabulary, no weights - private boolean vocabOnly = false; - // use mmap if possible - private boolean useMmap = true; - // force system to keep model in RAM - private boolean useMlock = false; - // embedding mode - private boolean embedding = false; - // lora adapter path - @Nullable - private String loraAdapter = null; - // base model path for the lora adapter - @Nullable - private String loraBase = null; - // use f16 instead of f32 for memory kv - private boolean memoryF16 = true; - // compute maximum memory usage - private boolean memTest = false; - // attempt optimizations that help on some NUMA systems - private boolean numa = false; - private boolean verbosePrompt = false; // log prompt tokens before generation - - public ModelParameters setNThreads(int nThreads) { - this.nThreads = nThreads; - return this; - } - - public ModelParameters setLoraAdapter(@Nullable String loraAdapter) { - this.loraAdapter = loraAdapter; - return this; - } - - public ModelParameters setLoraBase(@Nullable String loraBase) { - this.loraBase = loraBase; - return this; - } - - public ModelParameters setMemoryF16(boolean memoryF16) { - this.memoryF16 = memoryF16; - return this; - } - - public ModelParameters setMemTest(boolean memTest) { - this.memTest = memTest; - return this; - } - - public ModelParameters setNuma(boolean numa) { - this.numa = numa; - return this; - } - - public ModelParameters setVerbosePrompt(boolean verbosePrompt) { - this.verbosePrompt = verbosePrompt; - return this; - } - - /** - * Set a callback that will be used to report progress loading the model with a float value of 0-1. - * - * @return this builder object - */ -// public ModelParameters setProgressCallback(@Nullable Consumer progressCallback) { -// // Similarly to setting the logger, we don't allow passing any user data to the progress callback, since -// // the JVM might move the object around in the memory, thus invalidating any pointers. -// if (progressCallback == null) { -// ctxParams.setProgress_callback(null); -// } else { -// ctxParams.setProgress_callback((progress, ctx) -> progressCallback.accept(progress)); -// } -// return this; -// } - - public ModelParameters setSeed(int seed) { - this.seed = seed; - return this; - } - - public ModelParameters setNCtx(int nCtx) { - this.nCtx = nCtx; - return this; - } - - public ModelParameters setNBbatch(int nBatch) { - this.nBatch = nBatch; - return this; - } - - public ModelParameters setNGpuLayers(int nGpuLayers) { - this.nGpuLayers = nGpuLayers; - return this; - } - - public ModelParameters setMainGpu(int mainGpu) { - this.mainGpu = mainGpu; - return this; - } - - public ModelParameters setTensorSplit(float[] tensorSplit) { - this.tensorSplit = tensorSplit; - return this; - } - - public ModelParameters setRopeFreqBase(float ropeFreqBase) { - this.ropeFreqBase = ropeFreqBase; - return this; - } - - public ModelParameters setRopeFreqScale(float ropeFreqScale) { - this.ropeFreqScale = ropeFreqScale; - return this; - } - -// public ModelParameters setProgressCallback(LlamaLibrary.llama_progress_callback progress_callback) { -// ctxParams.setProgress_callback(progress_callback); -// return this; -// } - -// public ModelParameters setProgressCallbackUserData(Pointer progress_callback_user_data) { -// ctxParams.setProgress_callback_user_data(progress_callback_user_data); -// return this; -// } - - public ModelParameters setMulMatQ(boolean mulMatQ) { - this.mulMatQ = mulMatQ; - return this; - } - - /** - * use fp16 for KV cache - */ - public ModelParameters setF16Kv(boolean f16Kv) { - this.f16Kv = f16Kv; - return this; - } - - /** - * the llama_eval() call computes all logits, not just the last one - */ - public ModelParameters setLogitsAll(boolean logitsAll) { - this.logitsAll = logitsAll; - return this; - } - - /** - * only load the vocabulary, no weights - */ - public ModelParameters setVocabOnly(boolean vocabOnly) { - this.vocabOnly = vocabOnly; - return this; - } - - /** - * use mmap if possible - */ - public ModelParameters setUseMmap(boolean useMmap) { - this.useMmap = useMmap; - return this; - } - - /** - * force system to keep model in RAM - */ - public ModelParameters setUseMLock(boolean useMlock) { - this.useMlock = useMlock; - return this; - } - - /** - * embedding mode only - */ - public ModelParameters setEmbedding(boolean embedding) { - this.embedding = embedding; - return this; - } - - public int getNThreads() { - return nThreads; - } - - public int getSeed() { - return seed; - } - - public int getNCtx() { - return nCtx; - } - - public int getNBatch() { - return nBatch; - } - - public int getNGpuLayers() { - return nGpuLayers; - } - - public int getMainGpu() { - return mainGpu; - } - - public float[] getTensorSplit() { - return tensorSplit; - } - - public float getRopeFreqBase() { - return ropeFreqBase; - } - - public float getRopeFreqScale() { - return ropeFreqScale; - } - - public boolean isMulMatQ() { - return mulMatQ; - } - - public boolean isF16Kv() { - return f16Kv; - } - - public boolean isLogitsAll() { - return logitsAll; - } - - public boolean isVocabOnly() { - return vocabOnly; - } - - public boolean isUseMmap() { - return useMmap; - } - - public boolean isUseMlock() { - return useMlock; - } - - public boolean isEmbedding() { - return embedding; - } - - public @Nullable String getLoraAdapter() { - return loraAdapter; - } - - public @Nullable String getLoraBase() { - return loraBase; - } - - public boolean isMemoryF16() { - return memoryF16; - } - - public boolean isMemTest() { - return memTest; - } - - public boolean isNuma() { - return numa; - } - - public boolean isVerbosePrompt() { - return verbosePrompt; - } -} diff --git a/src/main/java/de/kherud/llama/args/GpuSplitMode.java b/src/main/java/de/kherud/llama/args/GpuSplitMode.java new file mode 100644 index 00000000..1a4b7b9c --- /dev/null +++ b/src/main/java/de/kherud/llama/args/GpuSplitMode.java @@ -0,0 +1,9 @@ +package de.kherud.llama.args; + +public enum GpuSplitMode { + + NONE, + LAYER, + ROW + +} diff --git a/src/main/java/de/kherud/llama/InferenceParameters.java b/src/main/java/de/kherud/llama/args/InferenceParameters.java similarity index 57% rename from src/main/java/de/kherud/llama/InferenceParameters.java rename to src/main/java/de/kherud/llama/args/InferenceParameters.java index a92c4fc0..ec65b001 100644 --- a/src/main/java/de/kherud/llama/InferenceParameters.java +++ b/src/main/java/de/kherud/llama/args/InferenceParameters.java @@ -1,4 +1,4 @@ -package de.kherud.llama; +package de.kherud.llama.args; import java.io.BufferedReader; import java.io.File; @@ -11,155 +11,299 @@ import org.jetbrains.annotations.NotNull; import org.jetbrains.annotations.Nullable; +import de.kherud.llama.LlamaModel; + /** * Parameters used throughout inference of a {@link LlamaModel}, e.g., {@link LlamaModel#generate(String)} and * {@link LlamaModel#complete(String)}. */ public final class InferenceParameters { - // new tokens to predict - @Native private int nPredict = -1; + @Native + private int nPredict = -1; // new tokens to predict + @Native + private boolean cachePrompt = false; // number of tokens to keep from initial prompt - @Native private int nKeep = 0; + @Native + private int nKeep = 0; + @Native + private int nDiscard = 0; + private int minKeep = 0; // if greater than 0, output the probabilities of top nProbs tokens. - @Native private int nProbs = 0; + @Native + private int nProbs = 0; // logit bias for specific tokens @Nullable - @Native private Map logitBias = null; + @Native + private Map logitBias = null; // <= 0 to use vocab size - @Native private int topK = 40; + @Native + private int topK = 40; // 1.0 = disabled - @Native private float topP = 0.95f; + @Native + private float topP = 0.95f; + @Native + private float minP = 0.05f; // 1.0 = disabled - @Native private float tfsZ = 1.00f; + @Native + private float tfsZ = 1.00f; // 1.0 = disabled - @Native private float typicalP = 1.00f; + @Native + private float typicalP = 1.00f; // 1.0 = disabled - @Native private float temperature = 0.80f; + @Native + private float temperature = 0.80f; + private float dynamicTemperatureRange = 0.00f; + private float dynamicTemperatureExponent = 1.00f; // 1.0 = disabled - @Native private float repeatPenalty = 1.10f; + @Native + private float repeatPenalty = 1.10f; // last n tokens to penalize (0 = disable penalty, -1 = context size) - @Native private int repeatLastN = 64; + @Native + private int repeatLastN = 64; // 0.0 = disabled - @Native private float frequencyPenalty = 0.00f; + @Native + private float frequencyPenalty = 0.00f; // 0.0 = disabled - @Native private float presencePenalty = 0.00f; + @Native + private float presencePenalty = 0.00f; // 0.0 = disabled - @Native private boolean penalizeNl = false; - @Native private boolean ignoreEos = false; + @Native + private boolean penalizeNl = false; + @Native + private boolean ignoreEos = false; // 0 = disabled, 1 = mirostat, 2 = mirostat 2.0 - @Native private int mirostat = MiroStat.Disabled.level; + @Native + private MiroStat mirostat = MiroStat.DISABLED; // target entropy - @Native private float mirostatTau = 5.00f; + @Native + private float mirostatTau = 5.00f; // learning rate - @Native private float mirostatEta = 0.10f; - @Native private boolean beamSearch = false; - @Native private int nBeams = 2; + @Native + private float mirostatEta = 0.10f; + @Native + private boolean beamSearch = false; + @Native + private int nBeams = 2; // optional BNF-like grammar to constrain sampling @Nullable - @Native private String grammar = null; + @Native + private String grammar = null; // strings upon seeing which more user input is prompted @Nullable - @Native private String[] antiPrompt = null; - @Native private int seed = 42; - // Whether to tokenize special and/or control tokens which otherwise are not exposed and treated as plaintext. - @Native private boolean tokenizeSpecial = false; + @Native + private String[] stopStrings = null; + @Nullable + @Native + private String[] promptTokenPenalties = null; + @Native + private Sampler[] samplers = null; + @Native + private int seed = 42; + /** + * Set the amount of new tokens to predict + */ public InferenceParameters setNPredict(int nPredict) { this.nPredict = nPredict; return this; } + /** + * + */ + public InferenceParameters setCachePrompt(boolean cachePrompt) { + this.cachePrompt = cachePrompt; + return this; + } + + /** + * + */ public InferenceParameters setNKeep(int nKeep) { this.nKeep = nKeep; return this; } + /** + * + */ + public InferenceParameters setNDiscard(int nDiscard) { + this.nDiscard = nDiscard; + return this; + } + + /** + * + */ + public InferenceParameters setMinKeep(int minKeep) { + this.minKeep = minKeep; + return this; + } + + /** + * + */ public InferenceParameters setNProbs(int nProbs) { this.nProbs = nProbs; return this; } + /** + * + */ public InferenceParameters setLogitBias(@NotNull Map logitBias) { this.logitBias = Collections.unmodifiableMap(logitBias); return this; } + /** + * + */ public InferenceParameters setTopK(int topK) { this.topK = topK; return this; } + /** + * + */ public InferenceParameters setTopP(float topP) { this.topP = topP; return this; } + /** + * + */ + public InferenceParameters setMinP(float minP) { + this.minP = minP; + return this; + } + + /** + * + */ public InferenceParameters setTfsZ(float tfsZ) { this.tfsZ = tfsZ; return this; } + /** + * + */ public InferenceParameters setTypicalP(float typicalP) { this.typicalP = typicalP; return this; } + /** + * + */ public InferenceParameters setTemperature(float temperature) { this.temperature = temperature; return this; } + /** + * + */ + public InferenceParameters setDynamicTemperatureRange(float dynamicTemperatureRange) { + this.dynamicTemperatureRange = dynamicTemperatureRange; + return this; + } + + /** + * + */ + public InferenceParameters setDynamicTemperatureExponent(float dynamicTemperatureExponent) { + this.dynamicTemperatureExponent = dynamicTemperatureExponent; + return this; + } + + /** + * + */ public InferenceParameters setRepeatPenalty(float repeatPenalty) { this.repeatPenalty = repeatPenalty; return this; } + /** + * + */ public InferenceParameters setRepeatLastN(int repeatLastN) { this.repeatLastN = repeatLastN; return this; } + /** + * + */ public InferenceParameters setFrequencyPenalty(float frequencyPenalty) { this.frequencyPenalty = frequencyPenalty; return this; } + /** + * + */ public InferenceParameters setPresencePenalty(float presencePenalty) { this.presencePenalty = presencePenalty; return this; } + /** + * + */ public InferenceParameters setPenalizeNl(boolean penalizeNl) { this.penalizeNl = penalizeNl; return this; } + /** + * + */ public InferenceParameters setIgnoreEos(boolean ignoreEos) { this.ignoreEos = ignoreEos; return this; } - public InferenceParameters setMirostat(MiroStat mode) { - this.mirostat = mode.level; + /** + * + */ + public InferenceParameters setMirostat(MiroStat mirostat) { + this.mirostat = mirostat; return this; } + /** + * + */ public InferenceParameters setMirostatTau(float mirostatTau) { this.mirostatTau = mirostatTau; return this; } + /** + * + */ public InferenceParameters setMirostatEta(float mirostatEta) { this.mirostatEta = mirostatEta; return this; } + /** + * + */ public InferenceParameters setBeamSearch(boolean beamSearch) { this.beamSearch = beamSearch; return this; } + /** + * + */ public InferenceParameters setNBeams(int nBeams) { this.nBeams = nBeams; return this; @@ -178,27 +322,43 @@ public InferenceParameters setGrammar(@NotNull File file) throws IOException { return setGrammar(grammarBuilder.toString()); } + /** + * + */ public InferenceParameters setGrammar(@Nullable String grammar) { this.grammar = grammar; return this; } - public InferenceParameters setAntiPrompt(@NotNull String... antiPrompt) { - this.antiPrompt = antiPrompt; + /** + * + */ + public InferenceParameters setStopStrings(@NotNull String... stopStrings) { + this.stopStrings = stopStrings; return this; } - public InferenceParameters setSeed(int seed) { - this.seed = seed; + /** + * + */ + public InferenceParameters setPromptTokenPenalties(@NotNull String... promptTokenPenalties) { + this.promptTokenPenalties = promptTokenPenalties; + return this; + } + + /** + * + */ + public InferenceParameters setSamplers(@NotNull Sampler... samplers) { + this.samplers = samplers; return this; } /** - * Changes whether special and/or control tokens are tokenized which otherwise are not exposed and treated as - * plaintext. + * */ - public InferenceParameters setTokenizeSpecial(boolean tokenizeSpecial) { - this.tokenizeSpecial = tokenizeSpecial; + public InferenceParameters setSeed(int seed) { + this.seed = seed; return this; } @@ -206,10 +366,22 @@ public int getNPredict() { return nPredict; } + public boolean isCachePrompt() { + return cachePrompt; + } + public int getNKeep() { return nKeep; } + public int getMinKeep() { + return minKeep; + } + + public int getNDiscard() { + return nDiscard; + } + public int getNProbs() { return nProbs; } @@ -226,6 +398,10 @@ public float getTopP() { return topP; } + public float getMinP() { + return minP; + } + public float getTfsZ() { return tfsZ; } @@ -238,6 +414,14 @@ public float getTemperature() { return temperature; } + public float getDynamicTemperatureRange() { + return dynamicTemperatureRange; + } + + public float getDynamicTemperatureExponent() { + return dynamicTemperatureExponent; + } + public float getRepeatPenalty() { return repeatPenalty; } @@ -262,7 +446,7 @@ public boolean isIgnoreEos() { return ignoreEos; } - public int getMirostat() { + public MiroStat getMirostat() { return mirostat; } @@ -278,7 +462,7 @@ public boolean isBeamSearch() { return beamSearch; } - public int getnBeams() { + public int getNBeams() { return nBeams; } @@ -286,28 +470,20 @@ public int getnBeams() { return grammar; } - public @Nullable String[] getAntiPrompt() { - return antiPrompt; + public @Nullable String[] getStopStrings() { + return stopStrings; } - public int getSeed() { - return seed; + public @Nullable String[] getPromptTokenPenalties() { + return promptTokenPenalties; } - public boolean getTokenizeSpecial() { - return tokenizeSpecial; + public @Nullable Sampler[] getSamplers() { + return samplers; } - public enum MiroStat { - - Disabled(0), - V1(1), - V2(2); - - private final int level; - - MiroStat(int level) { - this.level = level; - } + public int getSeed() { + return seed; } + } diff --git a/src/main/java/de/kherud/llama/args/LogFormat.java b/src/main/java/de/kherud/llama/args/LogFormat.java new file mode 100644 index 00000000..3fba6a1c --- /dev/null +++ b/src/main/java/de/kherud/llama/args/LogFormat.java @@ -0,0 +1,9 @@ +package de.kherud.llama.args; + +public enum LogFormat { + + NONE, + JSON, + TEXT + +} diff --git a/src/main/java/de/kherud/llama/args/MiroStat.java b/src/main/java/de/kherud/llama/args/MiroStat.java new file mode 100644 index 00000000..5f8a8ce7 --- /dev/null +++ b/src/main/java/de/kherud/llama/args/MiroStat.java @@ -0,0 +1,9 @@ +package de.kherud.llama.args; + +public enum MiroStat { + + DISABLED, + V1, + V2 + +} diff --git a/src/main/java/de/kherud/llama/args/ModelParameters.java b/src/main/java/de/kherud/llama/args/ModelParameters.java new file mode 100644 index 00000000..2ed70724 --- /dev/null +++ b/src/main/java/de/kherud/llama/args/ModelParameters.java @@ -0,0 +1,531 @@ +package de.kherud.llama.args; + +import java.lang.annotation.Native; + +import de.kherud.llama.LlamaModel; + +/** + * Parameters used for initializing a {@link LlamaModel}. + */ +public final class ModelParameters { + + @Native + private int seed = -1; // RNG seed + @Native + private int nThreads = Runtime.getRuntime().availableProcessors(); + @Native + private int nThreadsBatch = -1; // number of threads to use for batch processing (-1 = use n_threads) + @Native + private String modelFilePath; // model path + @Native + private String modelUrl; // model url to download + @Native + private String huggingFaceRepository; // HF repo + @Native + private String huggingFaceFile; // HF file + @Native + private String modelAlias; // model alias + @Native + private String systemPromptFile; + @Native + private int nCtx = 512; // context size + @Native + private int nBatch = 2048; // logical batch size for prompt processing (must be >=32 to use BLAS) + @Native + private int nUBatch = 512; // physical batch size for prompt processing (must be >=32 to use BLAS) + @Native + private int nParallel = 1; // number of parallel sequences to decode + @Native + private int nPredict = -1; // new tokens to predict + @Native + private GpuSplitMode gpuSplitMode = GpuSplitMode.LAYER; // how to split the model across GPUs + @Native + private int nGpuLayers = -1; // number of layers to store in VRAM (-1 - use default) + @Native + private int mainGpu = 0; // the GPU that is used for scratch and small tensors + @Native + private float[] tensorSplit = null; // // how split tensors should be distributed across GPUs + @Native + private RopeScalingType ropeScalingType = RopeScalingType.UNSPECIFIED; + @Native + private float ropeFreqBase = 0f; // RoPE base frequency + @Native + private float ropeFreqScale = 0f; // RoPE frequency scaling factor + @Native + private float yarnExtFactor = -1.0f; + @Native + private float yarnAttnFactor = 1.0f; + @Native + private float yarnBetaFast = 32.0f; + @Native + private float yarnBetaSlow = 1.0f; + @Native + private PoolingType poolingType = PoolingType.UNSPECIFIED; // pooling type for embeddings + @Native + private float defragmentationThreshold = -1.0f; // KV cache defragmentation threshold + @Native + private int groupAttnN = 1; + @Native + private int groupAttnW = 512; + @Native + private boolean useMmap = true; // use mmap if possible + @Native + private boolean useMlock = false; // force system to keep model in RAM + @Native + private boolean noKVOffload = false; + @Native + private boolean embedding = false; // embedding mode + @Native + private boolean continuousBatching = true; // insert new sequences for decoding on-the-fly + @Native + private NumaStrategy numa = NumaStrategy.NONE; // attempt optimizations that help on some NUMA systems + @Native + private LogFormat logFormat = LogFormat.TEXT; + @Native + private boolean verbose = false; + +// @Nullable +// private String loraAdapter = null; +// @Nullable +// private String loraBase = null; + + /** + * Set the RNG seed + */ + public ModelParameters setSeed(int seed) { + this.seed = seed; + return this; + } + + /** + * Set the total amount of threads ever used + */ + public ModelParameters setNThreads(int nThreads) { + this.nThreads = nThreads; + return this; + } + + /** + * number of threads to use for batch processing (-1 = use {@link #nThreads}) + */ + public ModelParameters setNThreadsBatch(int nThreadsBatch) { + this.nThreadsBatch = nThreadsBatch; + return this; + } + + /** + * Set a file path to load the model from + */ + public ModelParameters setModelFilePath(String modelFilePath) { + this.modelFilePath = modelFilePath; + return this; + } + + /** + * Set a URL to load the model from + */ + public ModelParameters setModelUrl(String modelUrl) { + this.modelUrl = modelUrl; + return this; + } + + /** + * Set a HuggingFace repository to load a model from (see {@link #setHuggingFaceFile(String)}) + */ + public ModelParameters setHuggingFaceRepository(String huggingFaceRepository) { + this.huggingFaceRepository = huggingFaceRepository; + return this; + } + + /** + * Set a HuggingFace file to load a model from (see {@link #setHuggingFaceRepository(String)}) + */ + public ModelParameters setHuggingFaceFile(String huggingFaceFile) { + this.huggingFaceFile = huggingFaceFile; + return this; + } + + /** + * Set the model alias + */ + public ModelParameters setModelAlias(String modelAlias) { + this.modelAlias = modelAlias; + return this; + } + + /** + * Set a file path to load a system prompt from + */ + public ModelParameters setSystemPrompt(String systemPromptFile) { + this.systemPromptFile = systemPromptFile; + return this; + } + + /** + * Set the context size + */ + public ModelParameters setNCtx(int nCtx) { + this.nCtx = nCtx; + return this; + } + + /** + * Set the logical batch size for prompt processing (must be >=32 to use BLAS) + */ + public ModelParameters setNBatch(int nBatch) { + this.nBatch = nBatch; + return this; + } + + /** + * Set the physical batch size for prompt processing (must be >=32 to use BLAS) + */ + public ModelParameters setNUBatch(int nUBatch) { + this.nUBatch = nUBatch; + return this; + } + + /** + * Set how the number of parallel sequences to decode + */ + public ModelParameters setNParallel(int nParallel) { + this.nParallel = nParallel; + return this; + } + + /** + * Set the amount of new tokens to predict + */ + public ModelParameters setNPredict(int nPredict) { + this.nPredict = nPredict; + return this; + } + + /** + * Set how to split the model across GPUs + */ + public ModelParameters setGpuSplitMode(GpuSplitMode gpuSplitMode) { + this.gpuSplitMode = gpuSplitMode; + return this; + } + + /** + * Set the number of layers to store in VRAM (-1 - use default) + */ + public ModelParameters setNGpuLayers(int nGpuLayers) { + this.nGpuLayers = nGpuLayers; + return this; + } + + /** + * Set the GPU that is used for scratch and small tensors + */ + public ModelParameters setMainGpu(int mainGpu) { + this.mainGpu = mainGpu; + return this; + } + + /** + * Set how split tensors should be distributed across GPUs + */ + public ModelParameters setTensorSplit(float[] tensorSplit) { + this.tensorSplit = tensorSplit; + return this; + } + + /** + * Set the RoPE scaling type + */ + public ModelParameters setRopeScalingType(RopeScalingType ropeScalingType) { + this.ropeScalingType = ropeScalingType; + return this; + } + + /** + * Set the RoPE base frequency + */ + public ModelParameters setRopeFreqBase(float ropeFreqBase) { + this.ropeFreqBase = ropeFreqBase; + return this; + } + + /** + * Set the RoPE frequency scaling factor + */ + public ModelParameters setRopeFreqScale(float ropeFreqScale) { + this.ropeFreqScale = ropeFreqScale; + return this; + } + + /** + * Set the YaRN extrapolation mix factor + */ + public ModelParameters setYarnExtrapolationFactor(float yarnExtFactor) { + this.yarnExtFactor = yarnExtFactor; + return this; + } + + /** + * Set the YaRN magnitude scaling factor + */ + public ModelParameters setYarnMagnitudeFactor(float yarnAttnFactor) { + this.yarnAttnFactor = yarnAttnFactor; + return this; + } + + /** + * Set the YaRN low correction dim + */ + public ModelParameters setYarnBetaFast(float yarnBetaFast) { + this.yarnBetaFast = yarnBetaFast; + return this; + } + + /** + * Set the YaRN high correction dim + */ + public ModelParameters setYarnBetaSlow(float yarnBetaSlow) { + this.yarnBetaSlow = yarnBetaSlow; + return this; + } + + /** + * Set the pooling type for embeddings + */ + public ModelParameters setPoolingType(PoolingType poolingType) { + this.poolingType = poolingType; + return this; + } + + /** + * Set the KV cache defragmentation threshold + */ + public ModelParameters setDefragmentationThreshold(float defragmentationThreshold) { + this.defragmentationThreshold = defragmentationThreshold; + return this; + } + + /** + * Set the group-attention factor + */ + public ModelParameters setGroupAttnN(int groupAttnN) { + this.groupAttnN = groupAttnN; + return this; + } + + /** + * Set the group-attention width + */ + public ModelParameters setGroupAttnW(int groupAttnW) { + this.groupAttnW = groupAttnW; + return this; + } + + /** + * Whether to use mmap for faster loads + */ + public ModelParameters setUseMmap(boolean useMmap) { + this.useMmap = useMmap; + return this; + } + + /** + * Whether to use mlock to keep model in memory + */ + public ModelParameters setUseMlock(boolean useMlock) { + this.useMlock = useMlock; + return this; + } + + /** + * Whether to disable KV offloading + */ + public ModelParameters setNoKVOffload(boolean noKVOffload) { + this.noKVOffload = noKVOffload; + return this; + } + + /** + * Whether to only get sentence embeddings + */ + public ModelParameters setEmbedding(boolean embedding) { + this.embedding = embedding; + return this; + } + + /** + * Whether to insert new sequences for decoding on-the-fly + */ + public ModelParameters setContinuousBatching(boolean continuousBatching) { + this.continuousBatching = continuousBatching; + return this; + } + + /** + * Set a numa strategy if compiled with NUMA support + */ + public ModelParameters setNumaStrategy(NumaStrategy numa) { + this.numa = numa; + return this; + } + + /** + * Set the log format + */ + public ModelParameters setLogFormat(LogFormat logFormat) { + this.logFormat = logFormat; + return this; + } + + /** + * Whether to log additional output (if compiled with LLAMA_VERBOSE) + */ + public ModelParameters setVerbose(boolean verbose) { + this.verbose = verbose; + return this; + } + + public int getSeed() { + return seed; + } + + public int getNThreads() { + return nThreads; + } + + public int getNThreadsBatch() { + return nThreadsBatch; + } + + public String getModelFilePath() { + return modelFilePath; + } + + public String getModelUrl() { + return modelUrl; + } + + public String getHuggingFaceRepository() { + return huggingFaceRepository; + } + + public String getHuggingFaceFile() { + return huggingFaceFile; + } + + public String getModelAlias() { + return modelAlias; + } + + public String getSystemPromptFile() { + return systemPromptFile; + } + + public int getNCtx() { + return nCtx; + } + + public int getNBatch() { + return nBatch; + } + + public int getNUBatch() { + return nUBatch; + } + + public int getNParallel() { + return nParallel; + } + + public int getNPredict() { + return nPredict; + } + + public GpuSplitMode getGpuSplitMode() { + return gpuSplitMode; + } + + public int getNGpuLayers() { + return nGpuLayers; + } + + public int getMainGpu() { + return mainGpu; + } + + public float[] getTensorSplit() { + return tensorSplit; + } + + public RopeScalingType getRopeScalingType() { + return ropeScalingType; + } + + public float getRopeFreqBase() { + return ropeFreqBase; + } + + public float getRopeFreqScale() { + return ropeFreqScale; + } + + public float getYarnExtFactor() { + return yarnExtFactor; + } + + public float getYarnAttnFactor() { + return yarnAttnFactor; + } + + public float getYarnBetaFast() { + return yarnBetaFast; + } + + public float getYarnBetaSlow() { + return yarnBetaSlow; + } + + public PoolingType getPoolingType() { + return poolingType; + } + + public float getDefragmentationThreshold() { + return defragmentationThreshold; + } + + public int getGroupAttnN() { + return groupAttnN; + } + + public int getGroupAttnW() { + return groupAttnW; + } + + public boolean isUseMmap() { + return useMmap; + } + + public boolean isUseMlock() { + return useMlock; + } + + public boolean isNoKVOffload() { + return noKVOffload; + } + + public boolean isEmbedding() { + return embedding; + } + + public NumaStrategy getNuma() { + return numa; + } + + public LogFormat getLogFormat() { + return logFormat; + } + + public boolean isVerbose() { + return verbose; + } +} diff --git a/src/main/java/de/kherud/llama/args/NumaStrategy.java b/src/main/java/de/kherud/llama/args/NumaStrategy.java new file mode 100644 index 00000000..ded2bc87 --- /dev/null +++ b/src/main/java/de/kherud/llama/args/NumaStrategy.java @@ -0,0 +1,10 @@ +package de.kherud.llama.args; + +public enum NumaStrategy { + + NONE, + DISTRIBUTE, + ISOLATE, + NUMA_CTL + +} diff --git a/src/main/java/de/kherud/llama/args/PoolingType.java b/src/main/java/de/kherud/llama/args/PoolingType.java new file mode 100644 index 00000000..066e86e2 --- /dev/null +++ b/src/main/java/de/kherud/llama/args/PoolingType.java @@ -0,0 +1,9 @@ +package de.kherud.llama.args; + +public enum PoolingType { + + UNSPECIFIED, + MEAN, + CLS + +} diff --git a/src/main/java/de/kherud/llama/args/RopeScalingType.java b/src/main/java/de/kherud/llama/args/RopeScalingType.java new file mode 100644 index 00000000..a69596f5 --- /dev/null +++ b/src/main/java/de/kherud/llama/args/RopeScalingType.java @@ -0,0 +1,8 @@ +package de.kherud.llama.args; + +public enum RopeScalingType { + + UNSPECIFIED, + LINEAR, + YARN +} diff --git a/src/main/java/de/kherud/llama/args/Sampler.java b/src/main/java/de/kherud/llama/args/Sampler.java new file mode 100644 index 00000000..6f031d64 --- /dev/null +++ b/src/main/java/de/kherud/llama/args/Sampler.java @@ -0,0 +1,12 @@ +package de.kherud.llama.args; + +public enum Sampler { + + TOP_K, + TFS_Z, + TYPICAL_P, + TOP_P, + MIN_P, + TEMPERATURE + +} From 5123d785d04f5ffd32ac6da2c2b4f05d845561ce Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Thu, 4 Apr 2024 19:11:07 +0200 Subject: [PATCH 031/285] Remove cmake build info --- build-args.cmake | 3 --- 1 file changed, 3 deletions(-) diff --git a/build-args.cmake b/build-args.cmake index 98dc43d3..a0a4bcb8 100644 --- a/build-args.cmake +++ b/build-args.cmake @@ -93,9 +93,6 @@ option(LLAMA_BUILD_SERVER "llama: build server example" # add perf arguments option(LLAMA_PERF "llama: enable perf" OFF) -# Required for relocatable CMake package -include(${CMAKE_CURRENT_SOURCE_DIR}/scripts/build-info.cmake) - # # Compile flags # From 58d10580c9d1722a8b0fc30e78adc40ef9ae5dce Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Thu, 4 Apr 2024 19:11:48 +0200 Subject: [PATCH 032/285] Split cpp source --- src/main/cpp/jllama.cpp | 2360 +++++++++++++++++++-------------------- src/main/cpp/server.cpp | 2124 +++++++++++++++++++++++++++++++++++ src/main/cpp/utils.cpp | 11 + 3 files changed, 3281 insertions(+), 1214 deletions(-) create mode 100644 src/main/cpp/server.cpp create mode 100644 src/main/cpp/utils.cpp diff --git a/src/main/cpp/jllama.cpp b/src/main/cpp/jllama.cpp index ba5fbc4d..7349287e 100644 --- a/src/main/cpp/jllama.cpp +++ b/src/main/cpp/jllama.cpp @@ -1,14 +1,12 @@ #include "jllama.h" -#include -#include -#include -#include - #include "common.h" -#include "grammar-parser.h" -#include "llama.h" -#include "sampling.h" +#include "json.hpp" + +using json = nlohmann::json; + +JavaVM *g_vm = nullptr; +jobject g_log_callback = nullptr; // classes static jclass c_llama_model = 0; @@ -29,6 +27,13 @@ static jclass c_log_level = 0; static jclass c_biconsumer = 0; static jclass c_llama_error = 0; static jclass c_error_oom = 0; +static jclass c_split_mode = 0; +static jclass c_log_format = 0; +static jclass c_miro_stat = 0; +static jclass c_numa_strategy = 0; +static jclass c_pooling_type = 0; +static jclass c_rope_scaling = 0; +static jclass c_sampler = 0; // constructors static jmethodID cc_output = 0; @@ -56,69 +61,635 @@ static jfieldID f_iter_has_next = 0; static jfieldID f_iter_n_generated = 0; static jfieldID f_iter_token_index = 0; // inference parameters +static jfieldID f_cache_prompt = 0; static jfieldID f_n_predict = 0; -static jfieldID f_n_keep = 0; -static jfieldID f_n_probs = 0; -static jfieldID f_logit_bias = 0; static jfieldID f_top_k = 0; static jfieldID f_top_p = 0; +static jfieldID f_min_p = 0; static jfieldID f_tfs_z = 0; static jfieldID f_typical_p = 0; -static jfieldID f_temperature = 0; -static jfieldID f_repeat_penalty = 0; -static jfieldID f_repeat_last_n = 0; -static jfieldID f_frequency_penalty = 0; -static jfieldID f_presence_penalty = 0; -static jfieldID f_penalize_nl = 0; -static jfieldID f_ignore_eos = 0; +static jfieldID f_temp = 0; +static jfieldID f_dynatemp_range = 0; +static jfieldID f_dynatemp_exponent = 0; +static jfieldID f_penalty_last_n = 0; +static jfieldID f_penalty_repeat = 0; +static jfieldID f_penalty_freq = 0; +static jfieldID f_penalty_present = 0; static jfieldID f_mirostat = 0; static jfieldID f_mirostat_tau = 0; static jfieldID f_mirostat_eta = 0; -static jfieldID f_beam_search = 0; -static jfieldID f_n_beams = 0; +static jfieldID f_penalize_nl = 0; +static jfieldID f_n_keep = 0; +static jfieldID f_n_discard = 0; +static jfieldID f_infer_seed = 0; +static jfieldID f_n_probs = 0; +static jfieldID f_min_keep = 0; static jfieldID f_grammar = 0; +static jfieldID f_ignore_eos = 0; +static jfieldID f_logit_bias = 0; static jfieldID f_antiprompt = 0; -static jfieldID f_infer_seed = 0; -static jfieldID f_tokenize_special = 0; // model parameters -static jfieldID f_n_threads = 0; static jfieldID f_model_seed = 0; +static jfieldID f_model_path = 0; +static jfieldID f_model_url = 0; +static jfieldID f_model_hf_repo = 0; +static jfieldID f_model_hf_file = 0; +static jfieldID f_model_alias = 0; static jfieldID f_n_ctx = 0; +static jfieldID f_rope_scaling_type = 0; +static jfieldID f_rope_freq_base = 0; +static jfieldID f_rope_freq_scale = 0; +static jfieldID f_yarn_ext_factor = 0; +static jfieldID f_yarn_attn_factor = 0; +static jfieldID f_yarn_beta_fast = 0; +static jfieldID f_yarn_beta_slow = 0; +static jfieldID f_pooling_type = 0; +static jfieldID f_defrag_thold = 0; +static jfieldID f_n_threads = 0; +static jfieldID f_grp_attn_n = 0; +static jfieldID f_grp_attn_w = 0; +static jfieldID f_n_threads_batch = 0; static jfieldID f_n_batch = 0; +static jfieldID f_n_ubatch = 0; static jfieldID f_n_gpu_layers = 0; -static jfieldID f_main_gpu = 0; +static jfieldID f_no_kv_offload = 0; +static jfieldID f_split_mode = 0; static jfieldID f_tensor_split = 0; -static jfieldID f_rope_freq_base = 0; -static jfieldID f_rope_freq_scale = 0; -static jfieldID f_mul_mat_q = 0; -static jfieldID f_f16_kv = 0; -static jfieldID f_logits_all = 0; -static jfieldID f_vocab_only = 0; -static jfieldID f_use_mmap = 0; +static jfieldID f_main_gpu = 0; +static jfieldID f_verbose = 0; static jfieldID f_use_mlock = 0; +static jfieldID f_use_mmap = 0; +static jfieldID f_numa_strategy = 0; static jfieldID f_embedding = 0; -static jfieldID f_lora_adapter = 0; -static jfieldID f_lora_base = 0; -static jfieldID f_memory_f16 = 0; -static jfieldID f_mem_test = 0; -static jfieldID f_numa = 0; -static jfieldID f_verbose_prompt = 0; -// log level +static jfieldID f_cont_batching = 0; +static jfieldID f_n_parallel = 0; +static jfieldID f_n_predict = 0; +static jfieldID f_system_prompt_file = 0; +static jfieldID f_log_format = 0; +// enum fields static jfieldID f_utf_8 = 0; static jfieldID f_log_level_debug = 0; static jfieldID f_log_level_info = 0; static jfieldID f_log_level_warn = 0; static jfieldID f_log_level_error = 0; +static jfieldID f_rope_scaling_none = 0; +static jfieldID f_rope_scaling_linear = 0; +static jfieldID f_rope_scaling_yarn = 0; +static jfieldID f_pooling_type_none = 0; +static jfieldID f_pooling_type_mean = 0; +static jfieldID f_pooling_type_cls = 0; +static jfieldID f_split_mode_none = 0; +static jfieldID f_split_mode_layer = 0; +static jfieldID f_split_mode_row = 0; +static jfieldID f_numa_strategy_distribute = 0; +static jfieldID f_numa_strategy_isolate = 0; +static jfieldID f_numa_strategy_numactl = 0; +static jfieldID f_log_format_json = 0; +static jfieldID f_log_format_text = 0; +static jfieldID f_mirostat_v1 = 0; +static jfieldID f_mirostat_v2 = 0; // objects static jobject o_utf_8 = 0; static jobject o_log_level_debug = 0; static jobject o_log_level_info = 0; static jobject o_log_level_warn = 0; static jobject o_log_level_error = 0; +static jobject o_rope_scaling_none = 0; +static jobject o_rope_scaling_linear = 0; +static jobject o_rope_scaling_yarn = 0; +static jobject o_pooling_type_none = 0; +static jobject o_pooling_type_mean = 0; +static jobject o_pooling_type_cls = 0; +static jobject o_split_mode_none = 0; +static jobject o_split_mode_layer = 0; +static jobject o_split_mode_row = 0; +static jobject o_numa_strategy_distribute = 0; +static jobject o_numa_strategy_isolate = 0; +static jobject o_numa_strategy_numactl = 0; +static jobject o_log_format_json = 0; +static jobject o_log_format_text = 0; +static jobject o_mirostat_v1 = 0; +static jobject o_mirostat_v2 = 0; + +static std::string parse_jstring(JNIEnv *env, jstring java_string) +{ + const jbyteArray string_bytes = (jbyteArray)env->CallObjectMethod(java_string, m_get_bytes, o_utf_8); + + size_t length = (size_t)env->GetArrayLength(string_bytes); + jbyte *byte_elements = env->GetByteArrayElements(string_bytes, nullptr); + + std::string string = std::string((char *)byte_elements, length); + + env->ReleaseByteArrayElements(string_bytes, byte_elements, JNI_ABORT); + env->DeleteLocalRef(string_bytes); + + return string; +} + +static int parse_jinteger(JNIEnv *env, jobject java_integer) +{ + if (!java_integer) + return 0; + return env->CallIntMethod(java_integer, m_int_value); +} + +static float parse_jfloat(JNIEnv *env, jobject java_float) +{ + if (!java_float) + return 0; + return env->CallFloatMethod(java_float, m_float_value); +} + +// Since Java expects utf16 but std::strings are utf8, we can't directly use +// `env->NewString` or `env-NewString`, but we simply send the bytes directly +// and do the conversion in Java. Unfortunately, there isn't a +// nice/standardized way to do this conversion in C++ +static jbyteArray parse_jbytes(JNIEnv *env, std::string string) +{ + jsize len = string.size(); + jbyteArray bytes = env->NewByteArray(len); + env->SetByteArrayRegion(bytes, 0, len, reinterpret_cast(string.c_str())); + return bytes; +} + +// this method +static void load_server_params(JNIEnv *env, jobject jparams, server_params &sparams, gpt_params ¶ms) +{ + gpt_params default_params; + server_params default_sparams; + + bool invalid_param = false; + + params.seed = env->GetIntField(jparams, f_model_seed); + params.model = get_string_field(env, jparams, f_model_path); + params.model_url = get_string_field(env, jparams, f_model_url); + params.hf_repo = get_string_field(env, jparams, f_model_hf_repo); + params.hf_file = get_string_field(env, jparams, f_model_hf_file); + params.model_alias = get_string_field(env, jparams, f_model_alias); + params.n_ctx = env->GetIntField(jparams, f_n_ctx); + + jobject value = env->GetObjectField(jparams, f_rope_scaling_type); + if (value == o_rope_scaling_none) + { + params.rope_scaling_type = LLAMA_ROPE_SCALING_TYPE_NONE; + } + else if (value == o_rope_scaling_linear) + { + params.rope_scaling_type = LLAMA_ROPE_SCALING_TYPE_LINEAR; + } + else if (value == o_rope_scaling_yarn) + { + params.rope_scaling_type = LLAMA_ROPE_SCALING_TYPE_YARN; + } + + params.rope_freq_base = env->GetFloatField(jparams, f_rope_freq_base); + params.rope_freq_scale = env->GetFloatField(jparams, f_rope_freq_scale); + params.yarn_ext_factor = env->GetFloatField(jparams, f_yarn_ext_factor); + params.yarn_attn_factor = env->GetFloatField(jparams, f_yarn_attn_factor); + params.yarn_beta_fast = env->GetFloatField(jparams, f_yarn_beta_fast); + params.yarn_beta_slow = env->GetFloatField(jparams, f_yarn_beta_slow); + + value = env->GetObjectField(jparams, f_pooling_type); + if (value == o_pooling_type_none) + { + params.pooling_type = LLAMA_POOLING_TYPE_NONE; + } + else if (value == o_pooling_type_mean) + { + params.pooling_type = LLAMA_POOLING_TYPE_MEAN; + } + else if (value == o_pooling_type_cls) + { + params.pooling_type = LLAMA_POOLING_TYPE_CLS; + } + + params.defrag_thold = env->GetFloatField(jparams, f_defrag_thold); + params.n_threads = env->GetIntField(jparams, f_n_threads); + params.grp_attn_n = env->GetIntField(jparams, f_grp_attn_n); + params.grp_attn_w = env->GetIntField(jparams, f_grp_attn_w); + params.n_threads_batch = env->GetIntField(jparams, f_n_threads_batch); + params.n_batch = env->GetIntField(jparams, f_n_batch); + params.n_ubatch = env->GetIntField(jparams, f_n_ubatch); + + if (llama_supports_gpu_offload()) + { + params.n_gpu_layers = env->GetIntField(jparams, f_n_gpu_layers); + } + else + { + LOG_WARNING("Not compiled with GPU offload support, --n-gpu-layers option will be ignored. " + "See main README.md for information on enabling GPU BLAS support", + {{"n_gpu_layers", params.n_gpu_layers}}); + } + + params.no_kv_offload = env->GetBooleanField(jparams, f_no_kv_offload); + + value = env->GetObjectField(jparams, f_split_mode); + if (value == o_split_mode_none) + { + params.split_mode = LLAMA_SPLIT_MODE_NONE; + } + else if (value == o_split_mode_layer) + { + params.split_mode = LLAMA_SPLIT_MODE_LAYER; + } + else if (value == o_split_mode_row) + { + params.split_mode = LLAMA_SPLIT_MODE_ROW; + } + +#ifndef GGML_USE_CUDA + if (value != o_split_mode_none) + { + fprintf(stderr, "warning: llama.cpp was compiled without CUDA. Setting the split mode has no effect.\n"); + } +#endif + + jintArray j_tensor_split = env->GetObjectField(jparams, f_tensor_split); + jsize j_tensor_split_size = env->GetArrayLength(j_tensor_split); + jfloat *j_tensor_split_elements = env->GetFloatArrayElements(j_tensor_split, 0); + +#if defined(GGML_USE_CUDA) || defined(GGML_USE_SYCL) + GGML_ASSERT(j_tensor_split_size <= llama_max_devices()); + + for (size_t i_device = 0; i_device < llama_max_devices(); ++i_device) + { + if (i_device < j_tensor_split_size) + { + params.tensor_split[i_device] = j_tensor_split_elements[i_device]; + } + else + { + params.tensor_split[i_device] = 0.0f; + } + } +#else + LOG_WARNING("llama.cpp was compiled without CUDA. It is not possible to set a tensor split.\n", {}); +#endif + + params.main_gpu = env->GetIntField(jparams, f_main_gpu); +#if defined(GGML_USE_CUDA) || defined(GGML_USE_SYCL) +#else + LOG_WARNING("llama.cpp was compiled without CUDA. It is not possible to set a main GPU.", {}); +#endif + + // // todo: there can be multiple lora adapters + // value = env->GetObjectField(jparams, f_lora_adapter); + // if (value != nullptr) { + // auto adapter = parse_jstring(env, (jstring) value); + // params.lora_adapter.emplace_back(adapter, 1.0f); + // params.use_mmap = false; + // } + + // else if (arg == "--lora-scaled") { + // if (++i >= argc) { + // invalid_param = true; + // break; + // } + // const char * lora_adapter = argv[i]; + // if (++i >= argc) { + // invalid_param = true; + // break; + // } + // params.lora_adapter.emplace_back(lora_adapter, std::stof(argv[i])); + // params.use_mmap = false; + // } + + // params.lora_base = get_string_field(env, jparams, f_lora_base); -static JavaVM *g_vm = nullptr; -static jobject g_log_callback = nullptr; + sparams.verbose = env->GetBooleanField(jparams, f_verbose); +#if SERVER_VERBOSE != 1 + if (sparams.verbose) + { + LOG_WARNING("server.cpp is not built with verbose logging.", {}); + } +#else + server_verbose = true; +#endif + + params.use_mlock = env->GetBooleanField(jparams, f_use_mlock); + params.use_mmap = env->GetBooleanField(jparams, f_use_mmap); + + value = env->GetObjectField(jparams, f_numa_strategy); + if (value == o_numa_strategy_distribute) + { + params.numa = GGML_NUMA_STRATEGY_DISTRIBUTE; + } + else if (value == o_numa_strategy_isolate) + { + params.numa = GGML_NUMA_STRATEGY_ISOLATE; + } + else if (value == o_numa_strategy_numactl) + { + params.numa = GGML_NUMA_STRATEGY_NUMACTL; + } + + params.embedding = env->GetBooleanField(jparams, f_embedding); + params.cont_batching = env->GetBooleanField(jparams, f_cont_batching); + params.n_parallel = env->GetIntField(jparams, f_n_parallel); + params.n_predict = env->GetIntField(jparams, f_n_predict); + + auto system_prompt_file = get_string_field(env, jparams, f_system_prompt_file); + if (system_prompt_file.length() > 0) + { + std::ifstream file(system_prompt_file); + if (!file) + { + fprintf(stderr, "error: failed to open file '%s'\n", argv[i]); + invalid_param = true; + break; + } + std::string system_prompt; + std::copy(std::istreambuf_iterator(file), std::istreambuf_iterator(), + std::back_inserter(system_prompt)); + sparams.system_prompt = system_prompt; + } + + value = env->GetObjectField(jparams, f_log_format); + if (value == o_log_format_json) + { + server_log_json = true; + } + else if (value == o_log_format_text) + { + server_log_json = false; + } + else + { + log_set_target(stdout); + LOG_INFO("logging to file is disabled.", {}); + } + + // auto system_prompt_file = get_string_field(env, jparams, f_system_prompt_file); + // + // else if (arg == "--chat-template") { + // if (++i >= argc) { + // invalid_param = true; + // break; + // } + // if (!verify_custom_template(argv[i])) { + // fprintf(stderr, "error: the supplied chat template is not supported: %s\n", argv[i]); + // fprintf(stderr, "note: llama.cpp does not use jinja parser, we only support commonly used + // templates\n"); invalid_param = true; break; + // } + // sparams.chat_template = argv[i]; + // } else if (arg == "--override-kv") { + // if (++i >= argc) { + // invalid_param = true; + // break; + // } + // char * sep = strchr(argv[i], '='); + // if (sep == nullptr || sep - argv[i] >= 128) { + // fprintf(stderr, "error: Malformed KV override: %s\n", argv[i]); + // invalid_param = true; + // break; + // } + // + // struct llama_model_kv_override kvo; + // std::strncpy(kvo.key, argv[i], sep - argv[i]); + // kvo.key[sep - argv[i]] = 0; + // sep++; + // if (strncmp(sep, "int:", 4) == 0) { + // sep += 4; + // kvo.tag = LLAMA_KV_OVERRIDE_TYPE_INT; + // kvo.int_value = std::atol(sep); + // } else if (strncmp(sep, "float:", 6) == 0) { + // sep += 6; + // kvo.tag = LLAMA_KV_OVERRIDE_TYPE_FLOAT; + // kvo.float_value = std::atof(sep); + // } else if (strncmp(sep, "bool:", 5) == 0) { + // sep += 5; + // kvo.tag = LLAMA_KV_OVERRIDE_TYPE_BOOL; + // if (std::strcmp(sep, "true") == 0) { + // kvo.bool_value = true; + // } else if (std::strcmp(sep, "false") == 0) { + // kvo.bool_value = false; + // } else { + // fprintf(stderr, "error: Invalid boolean value for KV override: %s\n", argv[i]); + // invalid_param = true; + // break; + // } + // } else { + // fprintf(stderr, "error: Invalid type for KV override: %s\n", argv[i]); + // invalid_param = true; + // break; + // } + // params.kv_overrides.push_back(kvo); + // } + // } + // + // if (!params.kv_overrides.empty()) { + // params.kv_overrides.emplace_back(); + // params.kv_overrides.back().key[0] = 0; + // } +} + +// +static bool launch_slot(server_slot &slot, const server_task &task) +{ + slot_params default_params; + llama_sampling_params default_sparams; + auto &data = task.data; + + slot.oaicompat = false; + slot.oaicompat_model = ""; + + slot.params.stream = task.stream; + slot.params.cache_prompt = env->GetBooleanField(jparams, f_cache_prompt); + slot.params.n_predict = env->GetIntField(jparams, f_n_predict); + slot.sparams.top_k = env->GetIntField(jparams, f_top_k); + slot.sparams.top_p = env->GetFloatField(jparams, f_top_p); + slot.sparams.min_p = env->GetFloatField(jparams, f_min_p); + slot.sparams.tfs_z = env->GetFloatField(jparams, f_tfs_z); + slot.sparams.typical_p = env->GetFloatField(jparams, f_typical_p); + slot.sparams.temp = env->GetFloatField(jparams, f_temp); + slot.sparams.dynatemp_range = env->GetFloatField(jparams, f_dynatemp_range); + slot.sparams.dynatemp_exponent = env->GetFloatField(jparams, f_dynatemp_exponent); + slot.sparams.penalty_last_n = env->GetIntField(jparams, f_penalty_last_n); + slot.sparams.penalty_repeat = env->GetFloatField(jparams, f_penalty_repeat); + slot.sparams.penalty_freq = env->GetFloatField(jparams, f_penalty_freq); + slot.sparams.penalty_present = env->GetFloatField(jparams, f_penalty_present); + + auto mirostat = env->GetObjectField(jparams, f_mirostat); + if (mirostat == o_mirostat_v1) + { + slot.sparams.mirostat = 1; + } + else if (mirostat == o_mirostat_v2) + { + slot.sparams.mirostat = 2; + } + else + { + slot.sparams.mirostat = 0; + } + slot.sparams.mirostat_tau = env->GetFloatField(jparams, f_mirostat_tau); + slot.sparams.mirostat_eta = env->GetFloatField(jparams, f_mirostat_eta); + slot.sparams.penalize_nl = env->GetBooleanField(jparams, f_penalize_nl); + slot.params.n_keep = env->GetIntField(jparams, f_n_keep); + slot.params.n_discard = env->GetIntField(jparams, f_n_discard); + slot.params.seed = env->GetIntField(jparams, f_infer_seed); + slot.sparams.n_probs = env->GetIntField(jparams, f_n_probs); + slot.sparams.min_keep = env->GetIntField(jparams, f_min_keep); + + jstring j_grammar = (jstring)env->GetObjectField(jparams, f_grammar); + if (j_grammar != nullptr) + { + slot.sparams.grammar = parse_jstring(env, j_grammar); + } + + if (slot.params.cache_prompt && slot.ga_n != 1) + { + LOG_WARNING("cache_prompt is not supported with group-attention", {}); + slot.params.cache_prompt = false; + } + + if (slot.n_predict > 0 && slot.params.n_predict > slot.n_predict) + { + // Might be better to reject the request with a 400 ? + LOG_WARNING("Max tokens to predict exceeds server configuration", + { + {"params.n_predict", slot.params.n_predict}, + {"slot.n_predict", slot.n_predict}, + }); + slot.params.n_predict = slot.n_predict; + } + + slot.prompt = task.prompt; + slot.params.input_prefix = task.input_prefix; + slot.params.input_suffix = task.input_suffix; + + // penalize user-provided tokens + // { + // slot.sparams.penalty_prompt_tokens.clear(); + // slot.sparams.use_penalty_prompt_tokens = false; + // + // const auto & penalty_prompt = data.find("penalty_prompt"); + // + // if (penalty_prompt != data.end()) { + // if (penalty_prompt->is_string()) { + // const auto penalty_prompt_string = penalty_prompt->get(); + // slot.sparams.penalty_prompt_tokens = llama_tokenize(model, penalty_prompt_string, false); + // + // if (slot.params.n_predict > 0) { + // slot.sparams.penalty_prompt_tokens.reserve(slot.sparams.penalty_prompt_tokens.size() + + // slot.params.n_predict); + // } + // slot.sparams.use_penalty_prompt_tokens = true; + // + // LOG_VERBOSE("penalty_prompt_tokens", { + // {"id_slot", slot.id}, + // {"tokens", slot.sparams.penalty_prompt_tokens}, + // }); + // } + // else if (penalty_prompt->is_array()) { + // const auto n_tokens = penalty_prompt->size(); + // slot.sparams.penalty_prompt_tokens.reserve(n_tokens + std::max(0, slot.params.n_predict)); + // + // const int n_vocab = llama_n_vocab(model); + // for (const auto & penalty_token : *penalty_prompt) { + // if (penalty_token.is_number_integer()) { + // const auto tok = penalty_token.get(); + // if (tok >= 0 && tok < n_vocab) { + // slot.sparams.penalty_prompt_tokens.push_back(tok); + // } + // } + // } + // slot.sparams.use_penalty_prompt_tokens = true; + // + // LOG_VERBOSE("penalty_prompt_tokens", { + // {"id_slot", slot.id}, + // {"tokens", slot.sparams.penalty_prompt_tokens}, + // }); + // } + // } + // } + + sparams.logit_bias.clear(); + jboolean ignore_eos = env->GetBooleanField(jparams, f_ignore_eos); + if (ignore_eos) + { + slot.sparams.logit_bias[llama_token_eos(llama->model)] = -INFINITY; + } + + jobject logit_bias = env->GetObjectField(jparams, f_logit_bias); + if (logit_bias != nullptr) + { + jobject entry_set = env->CallObjectMethod(logit_bias, m_entry_set); + jobject iterator = env->CallObjectMethod(entry_set, m_set_iterator); + while (env->CallBooleanMethod(iterator, m_iterator_has_next)) + { + jobject entry = env->CallObjectMethod(iterator, m_iterator_next); + jobject key = env->CallObjectMethod(entry, m_entry_key); + jobject value = env->CallObjectMethod(entry, m_entry_value); + + int tok = parse_jinteger(env, key); + float bias = parse_jfloat(env, value); + slot.sparams.logit_bias[tok] = bias; + + env->DeleteLocalRef(entry); + env->DeleteLocalRef(key); + env->DeleteLocalRef(value); + } + } + + slot.params.antiprompt.clear(); + jobjectArray antiprompt = (jobjectArray)env->GetObjectField(jparams, f_antiprompt); + if (antiprompt != nullptr) + { + jsize array_length = env->GetArrayLength(antiprompt); + for (jsize i = 0; i < array_length; i++) + { + jstring java_string = (jstring)env->GetObjectArrayElement(antiprompt, i); + if (java_string != nullptr) + { + std::string string = parse_jstring(env, java_string); + slot.params.antiprompt.push_back(string); + env->DeleteLocalRef(java_string); + } + } + } + + // { + // const auto & samplers_sequence = data.find("samplers"); + // if (samplers_sequence != data.end() && samplers_sequence->is_array()) { + // std::vector sampler_names; + // for (const auto & sampler_name : *samplers_sequence) { + // if (sampler_name.is_string()) { + // sampler_names.emplace_back(sampler_name); + // } + // } + // slot.sparams.samplers_sequence = sampler_types_from_names(sampler_names, false); + // } else { + // slot.sparams.samplers_sequence = default_sparams.samplers_sequence; + // } + // } + + // { + // if (slot.ctx_sampling != nullptr) { + // llama_sampling_free(slot.ctx_sampling); + // } + // slot.ctx_sampling = llama_sampling_init(slot.sparams); + // if (slot.ctx_sampling == nullptr) { + // // for now, the only error that may happen here is invalid grammar + // send_error(task, "Failed to parse grammar", ERROR_TYPE_INVALID_REQUEST); + // return false; + // } + // llama_set_rng_seed(ctx, slot.params.seed); + // } + + slot.command = SLOT_COMMAND_LOAD_PROMPT; + slot.prompt_tokens.clear(); +} +/** + * The VM calls JNI_OnLoad when the native library is loaded (for example, through `System.loadLibrary`). + * `JNI_OnLoad` must return the JNI version needed by the native library. + * In order to use any of the new JNI functions, a native library must export a `JNI_OnLoad` function that returns + * `JNI_VERSION_1_2`. If the native library does not export a JNI_OnLoad function, the VM assumes that the library + * only requires JNI version `JNI_VERSION_1_1`. If the VM does not recognize the version number returned by + `JNI_OnLoad`, the VM will unload the library and act as if the library was never loaded. + */ JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) { JNIEnv *env = 0; @@ -147,10 +718,18 @@ JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) c_biconsumer = env->FindClass("java/util/function/BiConsumer"); c_llama_error = env->FindClass("de/kherud/llama/LlamaException"); c_error_oom = env->FindClass("java/lang/OutOfMemoryError"); + c_split_mode = env->FindClass("de/kherud/llama/args/GpuSplitMode"); + c_log_format = env->FindClass("de/kherud/llama/args/LogFormat"); + c_miro_stat = env->FindClass("de/kherud/llama/args/MiroStat"); + c_numa_strategy = env->FindClass("de/kherud/llama/args/NumaStrategy"); + c_pooling_type = env->FindClass("de/kherud/llama/args/PoolingType"); + c_rope_scaling = env->FindClass("de/kherud/llama/args/RopeScalingType"); + c_sampler = env->FindClass("de/kherud/llama/args/Sampler"); if (!(c_llama_model && c_llama_iterator && c_infer_params && c_model_params && c_standard_charsets && c_output && c_string && c_hash_map && c_map && c_set && c_entry && c_iterator && c_integer && c_float && c_log_level && - c_biconsumer && c_llama_error && c_error_oom)) + c_biconsumer && c_llama_error && c_error_oom && c_split_mode && c_log_format && c_miro_stat && + c_numa_strategy && c_pooling_type && c_rope_scaling && c_sampler)) { goto error; } @@ -173,6 +752,13 @@ JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) c_biconsumer = (jclass)env->NewGlobalRef(c_biconsumer); c_llama_error = (jclass)env->NewGlobalRef(c_llama_error); c_error_oom = (jclass)env->NewGlobalRef(c_error_oom); + c_split_mode = (jclass)env->NewGlobalRef(c_split_mode); + c_log_format = (jclass)env->NewGlobalRef(c_log_format); + c_miro_stat = (jclass)env->NewGlobalRef(c_miro_stat); + c_numa_strategy = (jclass)env->NewGlobalRef(c_numa_strategy); + c_pooling_type = (jclass)env->NewGlobalRef(c_pooling_type); + c_rope_scaling = (jclass)env->NewGlobalRef(c_rope_scaling); + c_sampler = (jclass)env->NewGlobalRef(c_sampler); // find constructors cc_output = env->GetMethodID(c_output, "", "(I[BLjava/util/Map;)V"); @@ -186,8 +772,6 @@ JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) } // find methods - // m_get_bytes = env->GetMethodID(c_string, "getBytes", - // "(Ljava/nio/charset/Charset;)[B"); m_get_bytes = env->GetMethodID(c_string, "getBytes", "(Ljava/lang/String;)[B"); m_entry_set = env->GetMethodID(c_map, "entrySet", "()Ljava/util/Set;"); m_set_iterator = env->GetMethodID(c_set, "iterator", "()Ljava/util/Iterator;"); @@ -212,80 +796,134 @@ JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) f_iter_n_generated = env->GetFieldID(c_llama_iterator, "generatedCount", "J"); f_iter_token_index = env->GetFieldID(c_llama_iterator, "tokenIndex", "J"); + if (!(f_model_pointer && f_iter_has_next && f_iter_n_generated && f_iter_token_index)) + { + goto error; + } + + // find inference parameters fields + f_cache_prompt = env->GetFieldID(c_infer_params, "cachePrompt", "I"); f_n_predict = env->GetFieldID(c_infer_params, "nPredict", "I"); - f_n_keep = env->GetFieldID(c_infer_params, "nKeep", "I"); - f_n_probs = env->GetFieldID(c_infer_params, "nProbs", "I"); - f_logit_bias = env->GetFieldID(c_infer_params, "logitBias", "Ljava/util/Map;"); f_top_k = env->GetFieldID(c_infer_params, "topK", "I"); f_top_p = env->GetFieldID(c_infer_params, "topP", "F"); + f_min_p = env->GetFieldID(c_infer_params, "minP", "F"); f_tfs_z = env->GetFieldID(c_infer_params, "tfsZ", "F"); f_typical_p = env->GetFieldID(c_infer_params, "typicalP", "F"); - f_temperature = env->GetFieldID(c_infer_params, "temperature", "F"); - f_repeat_penalty = env->GetFieldID(c_infer_params, "repeatPenalty", "F"); - f_repeat_last_n = env->GetFieldID(c_infer_params, "repeatLastN", "I"); - f_frequency_penalty = env->GetFieldID(c_infer_params, "frequencyPenalty", "F"); - f_presence_penalty = env->GetFieldID(c_infer_params, "presencePenalty", "F"); - f_penalize_nl = env->GetFieldID(c_infer_params, "penalizeNl", "Z"); - f_ignore_eos = env->GetFieldID(c_infer_params, "ignoreEos", "Z"); - f_mirostat = env->GetFieldID(c_infer_params, "mirostat", "I"); + f_temp = env->GetFieldID(c_infer_params, "temperature", "F"); + f_dynatemp_range = env->GetFieldID(c_infer_params, "dynamicTemperatureRange", "F"); + f_dynatemp_exponent = env->GetFieldID(c_infer_params, "dynamicTemperatureExponent", "F"); + f_penalty_last_n = env->GetFieldID(c_infer_params, "repeatLastN", "I"); + f_penalty_repeat = env->GetFieldID(c_infer_params, "repeatPenalty", "F"); + f_penalty_freq = env->GetFieldID(c_infer_params, "frequencyPenalty", "F"); + f_penalty_present = env->GetFieldID(c_infer_params, "presencePenalty", "F"); + f_mirostat = env->GetFieldID(c_infer_params, "mirostat", "Lde/kherud/llama/args/MiroStat;"); f_mirostat_tau = env->GetFieldID(c_infer_params, "mirostatTau", "F"); f_mirostat_eta = env->GetFieldID(c_infer_params, "mirostatEta", "F"); - f_beam_search = env->GetFieldID(c_infer_params, "beamSearch", "Z"); - f_n_beams = env->GetFieldID(c_infer_params, "nBeams", "I"); - f_grammar = env->GetFieldID(c_infer_params, "grammar", "Ljava/lang/String;"); - f_antiprompt = env->GetFieldID(c_infer_params, "antiPrompt", "[Ljava/lang/String;"); - f_infer_seed = env->GetFieldID(c_infer_params, "seed", "I"); - f_tokenize_special = env->GetFieldID(c_infer_params, "tokenizeSpecial", "Z"); + f_penalize_nl = env->GetFieldID(c_infer_params, "penalizeNl", "Z"); + f_n_keep = env->GetFieldID(c_infer_params, "nKeep", "I"); + f_n_discard = env->GetFieldID(c_infer_params, "nDiscard", "I"); + f_infer_seed = env->GetFieldID(c_infer_params, "seed", "I"); + f_n_probs = env->GetFieldID(c_infer_params, "nProbs", "I"); + f_min_keep = env->GetFieldID(c_infer_params, "minKeep", "I"); + f_grammar = env->GetFieldID(c_infer_params, "grammar", "Ljava/lang/String;"); + f_ignore_eos = env->GetFieldID(c_infer_params, "ignoreEos", "Z"); + f_logit_bias = env->GetFieldID(c_infer_params, "logitBias", "Ljava/util/Map;"); + f_antiprompt = env->GetFieldID(c_infer_params, "stopStrings", "[Ljava/lang/String;"); - f_n_threads = env->GetFieldID(c_model_params, "nThreads", "I"); - f_model_seed = env->GetFieldID(c_model_params, "seed", "I"); + if (!(f_cache_prompt && f_n_predict && f_top_k && f_top_p && f_min_p && f_tfs_z && f_typical_p && f_temp && + f_dynatemp_range && f_dynatemp_exponent && f_penalty_last_n && f_penalty_repeat && f_penalty_freq && + f_penalty_present && f_mirostat && f_mirostat_tau && f_mirostat_eta && f_penalize_nl && f_n_keep && + f_n_discard && f_infer_seed && f_n_probs && f_min_keep && f_grammar && f_ignore_eos && f_logit_bias && + f_antiprompt)) + { + goto error; + } + + // find model parameters fields + f_model_seed = env->GetFieldID(c_model_params, "seed", "I"); + f_model_path = env->GetFieldID(c_model_params, "modelFilePath", "Ljava/lang/String;"); + f_model_url = env->GetFieldID(c_model_params, "modelUrl", "Ljava/lang/String;"); + f_model_hf_repo = env->GetFieldID(c_model_params, "huggingFaceRepository", "Ljava/lang/String;"); + f_model_hf_file = env->GetFieldID(c_model_params, "huggingFaceFile", "Ljava/lang/String;"); + f_model_alias = env->GetFieldID(c_model_params, "modelAlias", "Ljava/lang/String;"); f_n_ctx = env->GetFieldID(c_model_params, "nCtx", "I"); + f_rope_scaling_type = env->GetFieldID(c_model_params, "ropeScalingType", "Lde/kherud/llama/args/RopeScalingType;"); + f_rope_freq_base = env->GetFieldID(c_model_params, "ropeFreqBase", "F"); + f_rope_freq_scale = env->GetFieldID(c_model_params, "ropeFreqScale", "F"); + f_yarn_ext_factor = env->GetFieldID(c_model_params, "yarnExtFactor", "F"); + f_yarn_attn_factor = env->GetFieldID(c_model_params, "yarnAttnFactor", "F"); + f_yarn_beta_fast = env->GetFieldID(c_model_params, "yarnBetaFast", "F"); + f_yarn_beta_slow = env->GetFieldID(c_model_params, "yarnBetaSlow", "F"); + f_pooling_type = env->GetFieldID(c_model_params, "poolingType", "Lde/kherud/llama/args/PoolingType;"); + f_defrag_thold = env->GetFieldID(c_model_params, "defragmentationThreshold", "F"); + f_n_threads = env->GetFieldID(c_model_params, "nThreads", "I"); + f_grp_attn_n = env->GetFieldID(c_model_params, "groupAttnN", "I"); + f_grp_attn_w = env->GetFieldID(c_model_params, "groupAttnW", "I"); + f_n_threads_batch = env->GetFieldID(c_model_params, "nThreadsBatch", "I"); f_n_batch = env->GetFieldID(c_model_params, "nBatch", "I"); + f_n_ubatch = env->GetFieldID(c_model_params, "nUBatch", "I"); f_n_gpu_layers = env->GetFieldID(c_model_params, "nGpuLayers", "I"); + f_no_kv_offload = env->GetFieldID(c_model_params, "noKVOffload", "Z"); + f_split_mode = env->GetFieldID(c_model_params, "gpuSplitMode", "Lde/kherud/llama/args/GpuSplitMode;"); + f_tensor_split = env->GetFieldID(c_model_params, "tensorSplit", "[F;"); f_main_gpu = env->GetFieldID(c_model_params, "mainGpu", "I"); - f_tensor_split = env->GetFieldID(c_model_params, "tensorSplit", "[F"); - f_rope_freq_base = env->GetFieldID(c_model_params, "ropeFreqBase", "F"); - f_rope_freq_scale = env->GetFieldID(c_model_params, "ropeFreqScale", "F"); - f_mul_mat_q = env->GetFieldID(c_model_params, "mulMatQ", "Z"); - f_f16_kv = env->GetFieldID(c_model_params, "f16Kv", "Z"); - f_logits_all = env->GetFieldID(c_model_params, "logitsAll", "Z"); - f_vocab_only = env->GetFieldID(c_model_params, "vocabOnly", "Z"); - f_use_mmap = env->GetFieldID(c_model_params, "useMmap", "Z"); + f_verbose = env->GetFieldID(c_model_params, "verbose", "Z"); f_use_mlock = env->GetFieldID(c_model_params, "useMlock", "Z"); + f_use_mmap = env->GetFieldID(c_model_params, "useMmap", "Z"); + f_numa_strategy = env->GetFieldID(c_model_params, "numa", "Lde/kherud/llama/args/NumaStrategy;"); f_embedding = env->GetFieldID(c_model_params, "embedding", "Z"); - f_lora_adapter = env->GetFieldID(c_model_params, "loraAdapter", "Ljava/lang/String;"); - f_lora_base = env->GetFieldID(c_model_params, "loraBase", "Ljava/lang/String;"); - f_memory_f16 = env->GetFieldID(c_model_params, "memoryF16", "Z"); - f_mem_test = env->GetFieldID(c_model_params, "memTest", "Z"); - f_numa = env->GetFieldID(c_model_params, "numa", "Z"); - f_verbose_prompt = env->GetFieldID(c_model_params, "verbosePrompt", "Z"); - - if (!(f_model_pointer && f_iter_has_next && f_iter_n_generated && f_iter_token_index)) - { - goto error; - } - if (!(f_n_predict && f_n_keep && f_n_probs && f_logit_bias && f_top_k && f_top_p && f_tfs_z && f_typical_p && - f_temperature && f_repeat_penalty && f_repeat_last_n && f_frequency_penalty && f_presence_penalty && - f_penalize_nl && f_ignore_eos && f_mirostat && f_mirostat_tau && f_mirostat_eta && f_beam_search && - f_n_beams && f_grammar && f_antiprompt && f_infer_seed && f_tokenize_special)) - { - goto error; - } - if (!(f_n_threads && f_model_seed && f_n_ctx && f_n_batch && f_n_gpu_layers && f_main_gpu && f_tensor_split && - f_rope_freq_base && f_rope_freq_scale && f_mul_mat_q && f_f16_kv && f_logits_all && f_vocab_only && - f_use_mmap && f_use_mlock && f_embedding && f_lora_adapter && f_lora_base && f_memory_f16 && f_mem_test && - f_numa && f_verbose_prompt)) + f_cont_batching = env->GetFieldID(c_model_params, "continuousBatching", "Z"); + f_n_parallel = env->GetFieldID(c_model_params, "nParallel", "I"); + f_n_predict = env->GetFieldID(c_model_params, "nPredict", "I"); + f_system_prompt_file = env->GetFieldID(c_model_params, "systemPromptFile", "Ljava/lang/String;"); + f_log_format = env->GetFieldID(c_model_params, "logFormat", "Lde/kherud/llama/args/LogFormat;"); + + if (!(f_model_seed && f_model_path && f_model_url && f_model_hf_repo && f_model_hf_file && f_model_alias && + f_n_ctx && f_rope_scaling_type && f_rope_freq_base && f_rope_freq_scale && f_yarn_ext_factor && + f_yarn_attn_factor && f_yarn_beta_fast && f_yarn_beta_slow && f_pooling_type && f_defrag_thold && + f_n_threads && f_grp_attn_n && f_grp_attn_w && f_n_threads_batch && f_n_batch && f_n_ubatch && + f_n_gpu_layers && f_no_kv_offload && f_split_mode && f_tensor_split && f_main_gpu && f_verbose && + f_use_mlock && f_use_mmap && f_numa_strategy && f_embedding && f_cont_batching && f_n_parallel && + f_n_predict && f_system_prompt_file && f_log_format)) { goto error; } f_utf_8 = env->GetStaticFieldID(c_standard_charsets, "UTF_8", "Ljava/nio/charset/Charset;"); + f_log_level_debug = env->GetStaticFieldID(c_log_level, "DEBUG", "Lde/kherud/llama/LogLevel;"); f_log_level_info = env->GetStaticFieldID(c_log_level, "INFO", "Lde/kherud/llama/LogLevel;"); f_log_level_warn = env->GetStaticFieldID(c_log_level, "WARN", "Lde/kherud/llama/LogLevel;"); f_log_level_error = env->GetStaticFieldID(c_log_level, "ERROR", "Lde/kherud/llama/LogLevel;"); - if (!(f_utf_8 && f_log_level_debug && f_log_level_info && f_log_level_warn && f_log_level_error)) + f_rope_scaling_none = env->GetStaticFieldID(c_log_level, "UNSPECIFIED", "Lde/kherud/llama/args/RopeScalingType;"); + f_rope_scaling_linear = env->GetStaticFieldID(c_log_level, "LINEAR", "Lde/kherud/llama/args/RopeScalingType;"); + f_rope_scaling_yarn = env->GetStaticFieldID(c_log_level, "YARN", "Lde/kherud/llama/args/RopeScalingType;"); + + f_pooling_type_none = env->GetStaticFieldID(c_log_level, "UNSPECIFIED", "Lde/kherud/llama/args/PoolingType;"); + f_pooling_type_mean = env->GetStaticFieldID(c_log_level, "MEAN", "Lde/kherud/llama/args/PoolingType;"); + f_pooling_type_cls = env->GetStaticFieldID(c_log_level, "CLS", "Lde/kherud/llama/args/PoolingType;"); + + f_split_mode_none = env->GetStaticFieldID(c_log_level, "NONE", "Lde/kherud/llama/args/GpuSplitMode;"); + f_split_mode_layer = env->GetStaticFieldID(c_log_level, "LAYER", "Lde/kherud/llama/args/GpuSplitMode;"); + f_split_mode_row = env->GetStaticFieldID(c_log_level, "ROW", "Lde/kherud/llama/args/GpuSplitMode;"); + + f_numa_strategy_distribute = + env->GetStaticFieldID(c_log_level, "DISTRIBUTE", "Lde/kherud/llama/args/NumaStrategy;"); + f_numa_strategy_isolate = env->GetStaticFieldID(c_log_level, "ISOLATE", "Lde/kherud/llama/args/NumaStrategy;"); + f_numa_strategy_numactl = env->GetStaticFieldID(c_log_level, "NUMA_CTL", "Lde/kherud/llama/args/NumaStrategy;"); + + f_log_format_json = env->GetStaticFieldID(c_log_level, "JSON", "Lde/kherud/llama/args/LogFormat;"); + f_log_format_text = env->GetStaticFieldID(c_log_level, "TEXT", "Lde/kherud/llama/args/LogFormat;"); + + f_mirostat_v1 = env->GetStaticFieldID(c_log_level, "V1", "Lde/kherud/llama/args/MiroStat;"); + f_mirostat_v2 = env->GetStaticFieldID(c_log_level, "V2", "Lde/kherud/llama/args/MiroStat;"); + + if (!(f_utf_8 && f_log_level_debug && f_log_level_info && f_log_level_warn && f_log_level_error && + f_rope_scaling_none && f_rope_scaling_linear && f_rope_scaling_yarn && f_pooling_type_none && + f_pooling_type_mean && f_pooling_type_cls && f_split_mode_none && f_split_mode_layer && f_split_mode_row && + f_numa_strategy_distribute && f_numa_strategy_isolate && f_numa_strategy_numactl && f_log_format_json && + f_log_format_text && f_mirostat_v1 && f_mirostat_v2)) { goto error; } @@ -299,6 +937,28 @@ JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) o_log_level_warn = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_log_level, f_log_level_warn)); o_log_level_error = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_log_level, f_log_level_error)); + o_rope_scaling_none = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_rope_scaling, f_rope_scaling_none)); + o_rope_scaling_linear = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_rope_scaling, f_rope_scaling_linear)); + o_rope_scaling_yarn = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_rope_scaling, f_rope_scaling_yarn)); + + o_pooling_type_none = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_pooling_type, f_pooling_type_none)); + o_pooling_type_mean = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_pooling_type, f_pooling_type_mean)); + o_pooling_type_cls = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_pooling_type, f_pooling_type_cls)); + + o_split_mode_none = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_split_mode, f_split_mode_none)); + o_split_mode_layer = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_split_mode, f_split_mode_layer)); + o_split_mode_row = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_split_mode, f_split_mode_row)); + + o_numa_strategy_distribute = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_numa_strategy, f_numa_strategy_distribute)); + o_numa_strategy_isolate = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_numa_strategy, f_numa_strategy_isolate)); + o_numa_strategy_numactl = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_numa_strategy, f_numa_strategy_numactl)); + + o_log_format_json = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_log_format, f_log_format_json)); + o_log_format_text = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_log_format, f_log_format_text)); + + o_mirostat_v1 = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_miro_stat, f_mirostat_v1)); + o_mirostat_v2 = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_miro_stat, f_mirostat_v2)); + if (!(o_utf_8 && o_log_level_debug && o_log_level_info && o_log_level_warn && o_log_level_error)) { goto error; @@ -319,6 +979,14 @@ JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) return JNI_VERSION_1_2; } +/** + * The VM calls `JNI_OnUnload` when the class loader containing the native library is garbage collected. + * This function can be used to perform cleanup operations. Because this function is called in an unknown context + * (such as from a finalizer), the programmer should be conservative on using Java VM services, and refrain from + * arbitrary Java call-backs. + * Note that `JNI_OnLoad` and `JNI_OnUnload` are two functions optionally supplied by JNI libraries, not exported from + * the VM. + */ JNIEXPORT void JNICALL JNI_OnUnload(JavaVM *vm, void *reserved) { JNIEnv *env = 0; @@ -343,1162 +1011,426 @@ JNIEXPORT void JNICALL JNI_OnUnload(JavaVM *vm, void *reserved) env->DeleteGlobalRef(c_biconsumer); env->DeleteGlobalRef(c_llama_error); env->DeleteGlobalRef(c_error_oom); + env->DeleteGlobalRef(c_split_mode); + env->DeleteGlobalRef(c_log_format); + env->DeleteGlobalRef(c_miro_stat); + env->DeleteGlobalRef(c_numa_strategy); + env->DeleteGlobalRef(c_pooling_type); + env->DeleteGlobalRef(c_rope_scaling); + env->DeleteGlobalRef(c_sampler); env->DeleteGlobalRef(o_utf_8); - env->DeleteGlobalRef(o_log_level_debug); env->DeleteGlobalRef(o_log_level_info); env->DeleteGlobalRef(o_log_level_warn); env->DeleteGlobalRef(o_log_level_error); + env->DeleteGlobalRef(o_rope_scaling_none); + env->DeleteGlobalRef(o_rope_scaling_linear); + env->DeleteGlobalRef(o_rope_scaling_yarn); + env->DeleteGlobalRef(o_pooling_type_none); + env->DeleteGlobalRef(o_pooling_type_mean); + env->DeleteGlobalRef(o_pooling_type_cls); + env->DeleteGlobalRef(o_split_mode_none); + env->DeleteGlobalRef(o_split_mode_layer); + env->DeleteGlobalRef(o_split_mode_row); + env->DeleteGlobalRef(o_numa_strategy_distribute); + env->DeleteGlobalRef(o_numa_strategy_isolate); + env->DeleteGlobalRef(o_numa_strategy_numactl); + env->DeleteGlobalRef(o_log_format_json); + env->DeleteGlobalRef(o_log_format_text); + env->DeleteGlobalRef(o_mirostat_v1); + env->DeleteGlobalRef(o_mirostat_v2); } -static void jllama_log_callback(enum ggml_log_level level, const char *text, void *user_data) -{ - if (g_log_callback == nullptr) - return; - - JNIEnv *env; - g_vm->GetEnv(reinterpret_cast(&env), JNI_VERSION_1_2); - - jobject java_log_level; - switch (level) - { - case GGML_LOG_LEVEL_ERROR: - java_log_level = o_log_level_error; - break; - case GGML_LOG_LEVEL_WARN: - java_log_level = o_log_level_warn; - break; - case GGML_LOG_LEVEL_INFO: - java_log_level = o_log_level_info; - break; - default: - java_log_level = o_log_level_debug; - break; - } - jstring java_text = env->NewStringUTF(text); - - env->CallVoidMethod(g_log_callback, m_biconsumer_accept, java_log_level, java_text); - - env->DeleteLocalRef(java_text); -} - -static void jllama_log_callback(enum ggml_log_level level, std::string text) -{ - jllama_log_callback(level, text.c_str(), nullptr); -} - -static std::string parse_jstring(JNIEnv *env, jstring java_string) -{ - const jbyteArray string_bytes = (jbyteArray)env->CallObjectMethod(java_string, m_get_bytes, o_utf_8); - - size_t length = (size_t)env->GetArrayLength(string_bytes); - jbyte *byte_elements = env->GetByteArrayElements(string_bytes, nullptr); - - std::string string = std::string((char *)byte_elements, length); - - env->ReleaseByteArrayElements(string_bytes, byte_elements, JNI_ABORT); - env->DeleteLocalRef(string_bytes); - - return string; -} - -static int parse_jinteger(JNIEnv *env, jobject java_integer) -{ - if (!java_integer) - return 0; - return env->CallIntMethod(java_integer, m_int_value); -} - -static float parse_jfloat(JNIEnv *env, jobject java_float) -{ - if (!java_float) - return 0; - return env->CallFloatMethod(java_float, m_float_value); -} - -// Since Java expects utf16 but std::strings are utf8, we can't directly use -// `env->NewString` or `env-NewString`, but we simply send the bytes directly -// and do the conversion in Java. Unfortunately, there isn't a -// nice/standardized way to do this conversion in C++ -static jbyteArray parse_jbytes(JNIEnv *env, std::string string) -{ - jsize len = string.size(); - jbyteArray bytes = env->NewByteArray(len); - env->SetByteArrayRegion(bytes, 0, len, reinterpret_cast(string.c_str())); - return bytes; -} - -// completion token output with probabilities -struct completion_token_output -{ - struct token_prob - { - llama_token tok; - float prob; - }; - - std::vector probs; - llama_token tok; -}; - -static size_t common_part(const std::vector &a, const std::vector &b) -{ - size_t i; - for (i = 0; i < a.size() && i < b.size() && a[i] == b[i]; i++) - { - } - return i; -} - -enum stop_type +JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_loadModel(JNIEnv *env, jobject obj, jstring file_path, + jobject jparams) { - STOP_FULL, - STOP_PARTIAL, -}; + gpt_params params; + server_params sparams; -static bool ends_with(const std::string &str, const std::string &suffix) -{ - return str.size() >= suffix.size() && 0 == str.compare(str.size() - suffix.size(), suffix.size(), suffix); -} + server_context ctx_server; -static size_t find_partial_stop_string(const std::string &stop, const std::string &text) -{ - if (!text.empty() && !stop.empty()) - { - const char text_last_char = text.back(); - for (int64_t char_index = stop.size() - 1; char_index >= 0; char_index--) - { - if (stop[char_index] == text_last_char) - { - const std::string current_partial = stop.substr(0, char_index + 1); - if (ends_with(text, current_partial)) - { - return text.size() - char_index - 1; - } - } - } - } - return std::string::npos; -} + server_params_parse(env, jparams, sparams, params); -template static std::string tokens_to_str(llama_context *ctx, Iter begin, Iter end) -{ - std::string ret; - for (; begin != end; ++begin) + if (!sparams.system_prompt.empty()) { - ret += llama_token_to_piece(ctx, *begin); + ctx_server.system_prompt_set(sparams.system_prompt); } - return ret; -} -// format incomplete utf-8 multibyte character for output -static std::string tokens_to_output_formatted_string(const llama_context *ctx, const llama_token token) -{ - std::string out = token == -1 ? "" : llama_token_to_piece(ctx, token); - // if the size is 1 and first bit is 1, meaning it's a partial character - // (size > 1 meaning it's already a known token) - if (out.size() == 1 && (out[0] & 0x80) == 0x80) + if (params.model_alias == "unknown") { - std::stringstream ss; - ss << std::hex << (out[0] & 0xff); - std::string res(ss.str()); - out = "byte: \\x" + res; + params.model_alias = params.model; } - return out; -} - -struct jllama_context -{ - bool has_next_token = false; - std::string generated_text; - std::vector generated_token_probs; - - size_t num_prompt_tokens = 0; - size_t num_tokens_predicted = 0; - size_t n_past = 0; - size_t n_remain = 0; - - std::string prompt; - std::vector embd; - std::vector last_n_tokens; - - llama_model *model = nullptr; - llama_context *ctx = nullptr; - gpt_params params; - llama_sampling_context ctx_sampling; - int n_ctx; - - grammar_parser::parse_state parsed_grammar; - llama_grammar *grammar = nullptr; - - // Whether to tokenize special and/or control tokens which otherwise are not - // exposed and treated as plaintext. - bool tokenize_special = false; - - bool truncated = false; - bool stopped_eos = false; - bool stopped_word = false; - bool stopped_limit = false; - std::string stopping_word; - int32_t multibyte_pending = 0; - std::mutex mutex; + llama_backend_init(); + llama_numa_init(params.numa); - std::unique_lock lock() - { - return std::unique_lock(mutex); - } - - ~jllama_context() - { - if (ctx) - { - llama_free(ctx); - ctx = nullptr; - } - if (model) - { - llama_free_model(model); - model = nullptr; - } - if (grammar) - { - llama_grammar_free(grammar); - grammar = nullptr; - } - } + LOG_INFO("build info", {{"build", LLAMA_BUILD_NUMBER}, {"commit", LLAMA_COMMIT}}); - void rewind() - { - params.antiprompt.clear(); - params.sparams.grammar.clear(); - num_prompt_tokens = 0; - num_tokens_predicted = 0; - generated_text = ""; - generated_text.reserve(n_ctx); - generated_token_probs.clear(); - truncated = false; - stopped_eos = false; - stopped_word = false; - stopped_limit = false; - stopping_word = ""; - multibyte_pending = 0; - n_remain = 0; - n_past = 0; - - if (grammar != nullptr) - { - llama_grammar_free(grammar); - grammar = nullptr; - ctx_sampling = *llama_sampling_init(params.sparams); - } - } + LOG_INFO("system info", { + {"n_threads", params.n_threads}, + {"n_threads_batch", params.n_threads_batch}, + {"total_threads", std::thread::hardware_concurrency()}, + {"system_info", llama_print_system_info()}, + }); - bool loadModel(const gpt_params ¶ms_) - { - params = params_; - std::tie(model, ctx) = llama_init_from_gpt_params(params); - if (model == nullptr) - { - return false; - } - n_ctx = llama_n_ctx(ctx); - last_n_tokens.resize(n_ctx); - std::fill(last_n_tokens.begin(), last_n_tokens.end(), 0); - return true; - } + std::atomic state{SERVER_STATE_LOADING_MODEL}; - std::vector tokenize(std::string prompt, bool add_bos) const + // load the model + if (!ctx_server.load_model(params)) { - return ::llama_tokenize(ctx, prompt, add_bos, tokenize_special); + state.store(SERVER_STATE_ERROR); + env->ThrowNew(c_llama_error, "could not load model from given file path"); + return; } - - bool loadGrammar() + else { - if (!params.sparams.grammar.empty()) - { - parsed_grammar = grammar_parser::parse(params.sparams.grammar.c_str()); - // will be empty (default) if there are parse errors - if (parsed_grammar.rules.empty()) - { - jllama_log_callback(GGML_LOG_LEVEL_ERROR, "grammar parse error"); - return false; - } - grammar_parser::print_grammar(stderr, parsed_grammar); - - { - auto it = params.sparams.logit_bias.find(llama_token_eos(model)); - if (it != params.sparams.logit_bias.end() && it->second == -INFINITY) - { - jllama_log_callback(GGML_LOG_LEVEL_WARN, "EOS token is disabled, which will cause " - "most grammars to fail"); - } - } - - std::vector grammar_rules(parsed_grammar.c_rules()); - grammar = - llama_grammar_init(grammar_rules.data(), grammar_rules.size(), parsed_grammar.symbol_ids.at("root")); - } - ctx_sampling = *llama_sampling_init(params.sparams); - return true; + ctx_server.init(); + state.store(SERVER_STATE_READY); } - void loadInfill() - { - bool suff_rm_leading_spc = true; - if (params.input_suffix.find_first_of(" ") == 0 && params.input_suffix.size() > 1) - { - params.input_suffix.erase(0, 1); - suff_rm_leading_spc = false; - } - - auto prefix_tokens = tokenize(params.input_prefix, false); - auto suffix_tokens = tokenize(params.input_suffix, false); - const int space_token = 29871; - if (suff_rm_leading_spc && suffix_tokens[0] == space_token) - { - suffix_tokens.erase(suffix_tokens.begin()); - } - prefix_tokens.insert(prefix_tokens.begin(), llama_token_prefix(model)); - prefix_tokens.insert(prefix_tokens.begin(), - llama_token_bos(model)); // always add BOS - prefix_tokens.insert(prefix_tokens.end(), llama_token_suffix(model)); - prefix_tokens.insert(prefix_tokens.end(), suffix_tokens.begin(), suffix_tokens.end()); - prefix_tokens.push_back(llama_token_middle(model)); - auto prompt_tokens = prefix_tokens; - - num_prompt_tokens = prompt_tokens.size(); - - if (params.n_keep < 0) - { - params.n_keep = (int)num_prompt_tokens; - } - params.n_keep = std::min(params.n_ctx - 4, params.n_keep); - - // if input prompt is too big, truncate like normal - if (num_prompt_tokens >= (size_t)params.n_ctx) - { - // todo we probably want to cut from both sides - const int n_left = (params.n_ctx - params.n_keep) / 2; - std::vector new_tokens(prompt_tokens.begin(), prompt_tokens.begin() + params.n_keep); - const int erased_blocks = (num_prompt_tokens - params.n_keep - n_left - 1) / n_left; - new_tokens.insert(new_tokens.end(), prompt_tokens.begin() + params.n_keep + erased_blocks * n_left, - prompt_tokens.end()); - std::copy(prompt_tokens.end() - params.n_ctx, prompt_tokens.end(), last_n_tokens.begin()); - - jllama_log_callback(GGML_LOG_LEVEL_INFO, "input truncated n_left=" + std::to_string(n_left)); - - truncated = true; - prompt_tokens = new_tokens; - } - else - { - const size_t ps = num_prompt_tokens; - std::fill(last_n_tokens.begin(), last_n_tokens.end() - ps, 0); - std::copy(prompt_tokens.begin(), prompt_tokens.end(), last_n_tokens.end() - ps); - } - - // compare the evaluated prompt with the new prompt - n_past = common_part(embd, prompt_tokens); - embd = prompt_tokens; - - if (n_past == num_prompt_tokens) - { - // we have to evaluate at least 1 token to generate logits. - n_past--; - } - - // since #3228 we now have to manually manage the KV cache - llama_kv_cache_seq_rm(ctx, 0, n_past, -1); + LOG_INFO("model loaded", {}); - has_next_token = true; - } + const auto model_meta = ctx_server.model_meta(); - void loadPrompt() + // if a custom chat template is not supplied, we will use the one that comes with the model (if any) + if (sparams.chat_template.empty()) { - auto prompt_tokens = tokenize(prompt, true); // always add BOS - - num_prompt_tokens = prompt_tokens.size(); - - if (params.n_keep < 0) - { - params.n_keep = (int)num_prompt_tokens; - } - params.n_keep = std::min(n_ctx - 4, params.n_keep); - - // if input prompt is too big, truncate like normal - if (num_prompt_tokens >= (size_t)n_ctx) - { - const int n_left = (n_ctx - params.n_keep) / 2; - std::vector new_tokens(prompt_tokens.begin(), prompt_tokens.begin() + params.n_keep); - const int erased_blocks = (num_prompt_tokens - params.n_keep - n_left - 1) / n_left; - new_tokens.insert(new_tokens.end(), prompt_tokens.begin() + params.n_keep + erased_blocks * n_left, - prompt_tokens.end()); - std::copy(prompt_tokens.end() - n_ctx, prompt_tokens.end(), last_n_tokens.begin()); - - jllama_log_callback(GGML_LOG_LEVEL_INFO, "input truncated n_left=" + std::to_string(n_left)); - - truncated = true; - prompt_tokens = new_tokens; - } - else - { - const size_t ps = num_prompt_tokens; - std::fill(last_n_tokens.begin(), last_n_tokens.end() - ps, 0); - std::copy(prompt_tokens.begin(), prompt_tokens.end(), last_n_tokens.end() - ps); - } - - // compare the evaluated prompt with the new prompt - n_past = common_part(embd, prompt_tokens); - - embd = prompt_tokens; - if (n_past == num_prompt_tokens) + if (!ctx_server.validate_model_chat_template()) { - // we have to evaluate at least 1 token to generate logits. - n_past--; + LOG_ERROR("The chat template that comes with this model is not yet supported, falling back to chatml. This " + "may cause the model to output suboptimal responses", + {}); + sparams.chat_template = "chatml"; } - - // since #3228 we now have to manually manage the KV cache - llama_kv_cache_seq_rm(ctx, 0, n_past, -1); - - has_next_token = true; - } - - void beginCompletion() - { - // number of tokens to keep when resetting context - n_remain = params.n_predict; - llama_set_rng_seed(ctx, params.seed); } - completion_token_output nextToken() + // print sample chat example to make it clear which template is used { - completion_token_output result; - result.tok = -1; - - if (embd.size() >= (size_t)n_ctx) - { - // Shift context - - const int n_left = n_past - params.n_keep - 1; - const int n_discard = n_left / 2; - - llama_kv_cache_seq_rm(ctx, 0, params.n_keep + 1, params.n_keep + n_discard + 1); - llama_kv_cache_seq_shift(ctx, 0, params.n_keep + 1 + n_discard, n_past, -n_discard); - - for (size_t i = params.n_keep + 1 + n_discard; i < embd.size(); i++) - { - embd[i - n_discard] = embd[i]; - } - embd.resize(embd.size() - n_discard); - - n_past -= n_discard; - - truncated = true; - jllama_log_callback(GGML_LOG_LEVEL_INFO, "input truncated n_left=" + std::to_string(n_left)); - } - - bool tg = true; - while (n_past < embd.size()) - { - int n_eval = (int)embd.size() - n_past; - tg = n_eval == 1; - if (n_eval > params.n_batch) - { - n_eval = params.n_batch; - } - - if (llama_decode(ctx, llama_batch_get_one(&embd[n_past], n_eval, n_past, 0))) - { - jllama_log_callback(GGML_LOG_LEVEL_ERROR, "failed to eval n_eval=" + std::to_string(n_eval)); - has_next_token = false; - return result; - } - n_past += n_eval; - } - - if (params.n_predict == 0) - { - has_next_token = false; - result.tok = llama_token_eos(model); - return result; - } - - { - // out of user input, sample next token - result.tok = llama_sampling_sample(&ctx_sampling, ctx, NULL); - - llama_token_data_array candidates_p = {ctx_sampling.cur.data(), ctx_sampling.cur.size(), false}; - - const int32_t n_probs = params.sparams.n_probs; - if (params.sparams.temp <= 0 && n_probs > 0) - { - // For llama_sample_token_greedy we need to sort candidates - llama_sample_softmax(ctx, &candidates_p); - } - - for (size_t i = 0; i < std::min(candidates_p.size, (size_t)n_probs); ++i) - { - result.probs.push_back({candidates_p.data[i].id, candidates_p.data[i].p}); - } - - llama_sampling_accept(&ctx_sampling, ctx, result.tok, true); - if (tg) - { - num_tokens_predicted++; - } - } - - // add it to the context - embd.push_back(result.tok); - // decrement remaining sampling budget - --n_remain; - - if (!embd.empty() && embd.back() == llama_token_eos(model)) - { - // stopping_word = llama_token_to_piece(ctx, embd.back()); - has_next_token = false; - stopped_eos = true; - return result; - } - - has_next_token = params.n_predict == -1 || n_remain != 0; - return result; + json chat; + chat.push_back({{"role", "system"}, {"content", "You are a helpful assistant"}}); + chat.push_back({{"role", "user"}, {"content", "Hello"}}); + chat.push_back({{"role", "assistant"}, {"content", "Hi there"}}); + chat.push_back({{"role", "user"}, {"content", "How are you?"}}); + + const std::string chat_example = format_chat(ctx_server.model, sparams.chat_template, chat); + + LOG_INFO("chat template", { + {"chat_example", chat_example}, + {"built_in", sparams.chat_template.empty()}, + }); } - size_t findStoppingStrings(const std::string &text, const size_t last_token_size, const stop_type type) - { - size_t stop_pos = std::string::npos; - for (const std::string &word : params.antiprompt) - { - size_t pos; - if (type == STOP_FULL) - { - const size_t tmp = word.size() + last_token_size; - const size_t from_pos = text.size() > tmp ? text.size() - tmp : 0; - pos = text.find(word, from_pos); - } - else - { - pos = find_partial_stop_string(word, text); - } - if (pos != std::string::npos && (stop_pos == std::string::npos || pos < stop_pos)) - { - if (type == STOP_FULL) - { - stopping_word = word; - stopped_word = true; - has_next_token = false; - } - stop_pos = pos; - } - } - return stop_pos; - } + env->SetLongField(obj, f_model_pointer, reinterpret_cast(llama)); +} - completion_token_output doCompletion() - { - auto token_with_probs = nextToken(); - - const std::string token_text = - token_with_probs.tok == -1 ? "" : llama_token_to_piece(ctx, token_with_probs.tok); - generated_text += token_text; - - if (params.sparams.n_probs > 0) - { - generated_token_probs.push_back(token_with_probs); - } - - if (multibyte_pending > 0) - { - multibyte_pending -= token_text.size(); - } - else if (token_text.size() == 1) - { - const char c = token_text[0]; - // 2-byte characters: 110xxxxx 10xxxxxx - if ((c & 0xE0) == 0xC0) - { - multibyte_pending = 1; - // 3-byte characters: 1110xxxx 10xxxxxx 10xxxxxx - } - else if ((c & 0xF0) == 0xE0) - { - multibyte_pending = 2; - // 4-byte characters: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx - } - else if ((c & 0xF8) == 0xF0) - { - multibyte_pending = 3; - } - else - { - multibyte_pending = 0; - } - } - - if (multibyte_pending > 0 && !has_next_token) - { - has_next_token = true; - n_remain++; - } - - if (!has_next_token && n_remain == 0) - { - stopped_limit = true; - } - - return token_with_probs; - } - - std::vector getEmbedding() - { - static const int n_embd = llama_n_embd(model); - if (!params.embedding) - { - jllama_log_callback(GGML_LOG_LEVEL_ERROR, "embedding disabled"); - return std::vector(n_embd, 0.0f); - } - const float *data = llama_get_embeddings(ctx); - std::vector embedding(data, data + n_embd); - return embedding; - } -}; - -static gpt_params parse_model_params(JNIEnv *env, jobject jparams, jstring java_file_path) -{ - gpt_params params; - - params.model = parse_jstring(env, java_file_path); - params.seed = env->GetIntField(jparams, f_model_seed); - params.n_threads = env->GetIntField(jparams, f_n_threads); - params.n_ctx = env->GetIntField(jparams, f_n_ctx); - params.n_batch = env->GetIntField(jparams, f_n_batch); - params.n_gpu_layers = env->GetIntField(jparams, f_n_gpu_layers); - params.main_gpu = env->GetIntField(jparams, f_main_gpu); - params.rope_freq_base = env->GetFloatField(jparams, f_rope_freq_base); - params.rope_freq_scale = env->GetFloatField(jparams, f_rope_freq_scale); - params.mul_mat_q = env->GetBooleanField(jparams, f_mul_mat_q); - params.embedding = env->GetBooleanField(jparams, f_embedding); - params.use_mmap = env->GetBooleanField(jparams, f_use_mmap); - params.use_mlock = env->GetBooleanField(jparams, f_use_mlock); - params.numa = env->GetBooleanField(jparams, f_numa); - params.verbose_prompt = env->GetBooleanField(jparams, f_verbose_prompt); - - // jstring j_lora_adapter = (jstring)env->GetObjectField(jparams, - // f_lora_adapter); if (j_lora_adapter != nullptr) - // { - // params.lora_adapter = parse_jstring(env, j_lora_adapter); - // std::cout << params.lora_adapter << std::endl; - // env->DeleteLocalRef(j_lora_adapter); - // } - // jstring j_lora_base = (jstring)env->GetObjectField(jparams, - // f_lora_base); if (j_lora_base != nullptr) - // { - // params.lora_base = parse_jstring(env, j_lora_base); - // std::cout << params.lora_base << std::endl; - // env->DeleteLocalRef(j_lora_base); - // } - - // jfloatArray j_tensor_split = (jfloatArray)env->GetObjectField(jparams, - // f_tensor_split); if (j_tensor_split != nullptr) - // { - // #ifndef GGML_USE_CUBLAS - // // LOG_WARNING("llama.cpp was compiled without cuBLAS. It is not - // possible to set a tensor split.\n", {}); - // #endif - // jsize array_length = env->GetArrayLength(j_tensor_split); - // GGML_ASSERT(array_length <= LLAMA_MAX_DEVICES); - // float *tensor_split = new float[array_length]; - // env->GetFloatArrayRegion(j_tensor_split, 0, array_length, - // tensor_split); for (size_t i_device = 0; i_device < - // LLAMA_MAX_DEVICES; ++i_device) - // { - // if (i_device < array_length) - // { - // params.tensor_split[i_device] = tensor_split[i_device]; - // } - // else - // { - // params.tensor_split[i_device] = 0.0f; - // } - // } - // delete[] tensor_split; - // } - // - // #ifndef LLAMA_SUPPORTS_GPU_OFFLOAD - // if (params.n_gpu_layers > 0) { - // // LOG_WARNING("Not compiled with GPU offload support, - //--n-gpu-layers option will be ignored. " - // // "See main README.md for - // information on enabling GPU BLAS support", - // // {{"n_gpu_layers", - // params.n_gpu_layers}}); - // } - // #endif - // - // #ifndef GGML_USE_CUBLAS - // if (params.low_vram) { - // // LOG_WARNING("warning: llama.cpp was compiled without cuBLAS. - // It is not possible to set lower vram usage.\n", {}); - // } - // if (!params.mul_mat_q) { - // // LOG_WARNING("warning: llama.cpp was compiled without cuBLAS. - // Disabling mul_mat_q kernels has no effect.\n", {}); - // } - // if (params.main_gpu != 0) { - // // LOG_WARNING("llama.cpp was compiled without cuBLAS. It is - // not possible to set a main GPU.", {}); - // } - // #endif - // - // // todo: these have to be set in llama_context_params - // // f_logits_all - // // f_vocab_only - // // f_memory_f16 - // // f_f16_kv - - if (params.model_alias == "unknown") - { - params.model_alias = params.model; - } - - return params; -} - -static void setup_infer_params(JNIEnv *env, jllama_context *llama, jobject jparams) -{ - auto ¶ms = llama->params; - - params.seed = env->GetIntField(jparams, f_infer_seed); - params.n_predict = env->GetIntField(jparams, f_n_predict); - params.n_keep = env->GetIntField(jparams, f_n_keep); - - auto &sparams = params.sparams; - - sparams.top_k = env->GetIntField(jparams, f_top_k); - sparams.top_p = env->GetFloatField(jparams, f_top_p); - sparams.tfs_z = env->GetFloatField(jparams, f_tfs_z); - sparams.typical_p = env->GetFloatField(jparams, f_typical_p); - sparams.temp = env->GetFloatField(jparams, f_temperature); - sparams.penalty_repeat = env->GetFloatField(jparams, f_repeat_penalty); - sparams.n_prev = env->GetIntField(jparams, f_repeat_last_n); - sparams.penalty_freq = env->GetFloatField(jparams, f_frequency_penalty); - sparams.penalty_present = env->GetFloatField(jparams, f_presence_penalty); - sparams.penalize_nl = env->GetBooleanField(jparams, f_penalize_nl); - sparams.mirostat = env->GetIntField(jparams, f_mirostat); - sparams.mirostat_tau = env->GetFloatField(jparams, f_mirostat_tau); - sparams.mirostat_eta = env->GetFloatField(jparams, f_mirostat_eta); - sparams.n_probs = env->GetIntField(jparams, f_n_probs); - - jstring j_grammar = (jstring)env->GetObjectField(jparams, f_grammar); - if (j_grammar != nullptr) - { - sparams.grammar = parse_jstring(env, j_grammar); - env->DeleteLocalRef(j_grammar); - if (!llama->loadGrammar()) - { - env->ThrowNew(c_llama_error, "could not load grammar"); - } - } - - sparams.logit_bias.clear(); - jboolean ignore_eos = env->GetBooleanField(jparams, f_ignore_eos); - if (ignore_eos) - { - sparams.logit_bias[llama_token_eos(llama->model)] = -INFINITY; - } - - jobject logit_bias = env->GetObjectField(jparams, f_logit_bias); - if (logit_bias != nullptr) - { - jobject entry_set = env->CallObjectMethod(logit_bias, m_entry_set); - jobject iterator = env->CallObjectMethod(entry_set, m_set_iterator); - while (env->CallBooleanMethod(iterator, m_iterator_has_next)) - { - jobject entry = env->CallObjectMethod(iterator, m_iterator_next); - jobject key = env->CallObjectMethod(entry, m_entry_key); - jobject value = env->CallObjectMethod(entry, m_entry_value); - - int tok = parse_jinteger(env, key); - float bias = parse_jfloat(env, value); - sparams.logit_bias[tok] = bias; - - env->DeleteLocalRef(entry); - env->DeleteLocalRef(key); - env->DeleteLocalRef(value); - } - } - - params.antiprompt.clear(); - jobjectArray antiprompt = (jobjectArray)env->GetObjectField(jparams, f_antiprompt); - if (antiprompt != nullptr) - { - jsize array_length = env->GetArrayLength(antiprompt); - for (jsize i = 0; i < array_length; i++) - { - jstring java_string = (jstring)env->GetObjectArrayElement(antiprompt, i); - if (java_string != nullptr) - { - std::string string = parse_jstring(env, java_string); - params.antiprompt.push_back(string); - env->DeleteLocalRef(java_string); - } - } - } - - llama->ctx_sampling = *llama_sampling_init(params.sparams); - llama->tokenize_special = env->GetBooleanField(jparams, f_tokenize_special); -} - -static void setup_answering(JNIEnv *env, jllama_context *llama, jstring prompt, jobject params) -{ - llama->prompt = parse_jstring(env, prompt); - llama->params.input_prefix = ""; - llama->params.input_suffix = ""; - setup_infer_params(env, llama, params); -} - -static void setup_infilling(JNIEnv *env, jllama_context *llama, jstring prefix, jstring suffix, jobject params) -{ - llama->prompt = ""; - llama->params.input_prefix = parse_jstring(env, prefix); - llama->params.input_suffix = parse_jstring(env, suffix); - setup_infer_params(env, llama, params); -} - -JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_loadModel(JNIEnv *env, jobject obj, jstring file_path, - jobject jparams) -{ - gpt_params params = parse_model_params(env, jparams, file_path); - - jllama_context *llama = new jllama_context; - llama_backend_init(false); - - if (!llama->loadModel(params)) - { - env->ThrowNew(c_llama_error, "could not load model from given file path"); - return; - } - - // jllama_log_callback(GGML_LOG_LEVEL_INFO, "build=" + BUILD_NUMBER); - // jllama_log_callback(GGML_LOG_LEVEL_INFO, "commit=" + BUILD_COMMIT); - // jllama_log_callback(GGML_LOG_LEVEL_INFO, "n_threads=" + params.n_threads); - // jllama_log_callback(GGML_LOG_LEVEL_INFO, "total_threads=" + - // std::thread::hardware_concurrency()); - // jllama_log_callback(GGML_LOG_LEVEL_INFO, "system_info=" + - // llama_print_system_info()); - - env->SetLongField(obj, f_model_pointer, reinterpret_cast(llama)); -} - -JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_newAnswerIterator(JNIEnv *env, jobject obj, jstring prompt, - jobject params) -{ - jlong llama_handle = env->GetLongField(obj, f_model_pointer); - jllama_context *llama = reinterpret_cast(llama_handle); - - // auto lock = llama->lock(); - - llama->rewind(); - - llama_reset_timings(llama->ctx); - - setup_answering(env, llama, prompt, params); - - llama->loadPrompt(); - llama->beginCompletion(); -} - -JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_newInfillIterator(JNIEnv *env, jobject obj, jstring prefix, - jstring suffix, jobject params) -{ - jlong llama_handle = env->GetLongField(obj, f_model_pointer); - jllama_context *llama = reinterpret_cast(llama_handle); - - // auto lock = llama->lock(); - - llama->rewind(); - - llama_reset_timings(llama->ctx); - - setup_infilling(env, llama, prefix, suffix, params); - - llama->loadInfill(); - llama->beginCompletion(); -} - -JNIEXPORT jobject JNICALL Java_de_kherud_llama_LlamaModel_getNext(JNIEnv *env, jobject obj, jobject iter) -{ - jlong llama_handle = env->GetLongField(obj, f_model_pointer); - jllama_context *llama = reinterpret_cast(llama_handle); - - size_t sent_count = env->GetLongField(iter, f_iter_n_generated); - size_t sent_token_probs_index = env->GetLongField(iter, f_iter_token_index); - - completion_token_output token_with_probs; - while (llama->has_next_token) - { - token_with_probs = llama->doCompletion(); - if (token_with_probs.tok >= 0 && llama->multibyte_pending <= 0) - { - break; - } - } - const std::string token_text = llama_token_to_piece(llama->ctx, token_with_probs.tok); - - size_t pos = std::min(sent_count, llama->generated_text.size()); - - const std::string str_test = llama->generated_text.substr(pos); - bool is_stop_full = false; - size_t stop_pos = llama->findStoppingStrings(str_test, token_text.size(), STOP_FULL); - if (stop_pos != std::string::npos) - { - is_stop_full = true; - llama->generated_text.erase(llama->generated_text.begin() + pos + stop_pos, llama->generated_text.end()); - pos = std::min(sent_count, llama->generated_text.size()); - } - else - { - is_stop_full = false; - stop_pos = llama->findStoppingStrings(str_test, token_text.size(), STOP_PARTIAL); - } - - std::string to_send; - if (stop_pos == std::string::npos || - // Send rest of the text if we are at the end of the generation - (!llama->has_next_token && !is_stop_full && stop_pos > 0)) - { - to_send = llama->generated_text.substr(pos, std::string::npos); - - sent_count += to_send.size(); - env->SetLongField(iter, f_iter_n_generated, sent_count); - - std::vector probs_output = {}; - - if (llama->params.sparams.n_probs > 0) - { - const std::vector to_send_toks = - llama_tokenize(llama->ctx, to_send, false, llama->tokenize_special); - size_t probs_pos = std::min(sent_token_probs_index, llama->generated_token_probs.size()); - size_t probs_stop_pos = - std::min(sent_token_probs_index + to_send_toks.size(), llama->generated_token_probs.size()); - if (probs_pos < probs_stop_pos) - { - probs_output = - std::vector(llama->generated_token_probs.begin() + probs_pos, - llama->generated_token_probs.begin() + probs_stop_pos); - } - sent_token_probs_index = probs_stop_pos; - env->SetLongField(iter, f_iter_token_index, sent_token_probs_index); - } - } - else - { - to_send = ""; - } - - if (!llama->has_next_token) - { - env->SetBooleanField(iter, f_iter_has_next, false); - // llama.mutex.unlock(); - // lock.release(); - } - - jobject o_probabilities = env->NewObject(c_hash_map, cc_hash_map); - for (const auto &tp : token_with_probs.probs) - { - jobject jtoken = env->NewObject(c_integer, cc_integer, tp.tok); - jobject jprob = env->NewObject(c_float, cc_float, tp.prob); - env->CallObjectMethod(o_probabilities, m_map_put, jtoken, jprob); - } - jbyteArray jbytes = parse_jbytes(env, to_send); - return env->NewObject(c_output, cc_output, token_with_probs.tok, jbytes, o_probabilities); -} - -JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_getAnswer(JNIEnv *env, jobject obj, jstring prompt, - jobject params) -{ - jlong llama_handle = env->GetLongField(obj, f_model_pointer); - jllama_context *llama = reinterpret_cast(llama_handle); - - // auto lock = llama->lock(); - - llama->rewind(); - - llama_reset_timings(llama->ctx); - - setup_answering(env, llama, prompt, params); - - llama->loadPrompt(); - llama->beginCompletion(); - - size_t stop_pos = std::string::npos; - - while (llama->has_next_token) - { - const completion_token_output token_with_probs = llama->doCompletion(); - const std::string token_text = - token_with_probs.tok == -1 ? "" : llama_token_to_piece(llama->ctx, token_with_probs.tok); - - stop_pos = llama->findStoppingStrings(llama->generated_text, token_text.size(), STOP_FULL); - } - - if (stop_pos == std::string::npos) - { - stop_pos = llama->findStoppingStrings(llama->generated_text, 0, STOP_PARTIAL); - } - if (stop_pos != std::string::npos) - { - llama->generated_text.erase(llama->generated_text.begin() + stop_pos, llama->generated_text.end()); - } - - // llama->lock().release(); - // llama->mutex.unlock(); - - return parse_jbytes(env, llama->generated_text); -} - -JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_getInfill(JNIEnv *env, jobject obj, jstring prefix, - jstring suffix, jobject params) -{ - jlong llama_handle = env->GetLongField(obj, f_model_pointer); - jllama_context *llama = reinterpret_cast(llama_handle); - - // auto lock = llama->lock(); - - llama->rewind(); - - llama_reset_timings(llama->ctx); - - setup_infilling(env, llama, prefix, suffix, params); - - llama->loadInfill(); - llama->beginCompletion(); - - size_t stop_pos = std::string::npos; - - while (llama->has_next_token) - { - const completion_token_output token_with_probs = llama->doCompletion(); - const std::string token_text = - token_with_probs.tok == -1 ? "" : llama_token_to_piece(llama->ctx, token_with_probs.tok); - - stop_pos = llama->findStoppingStrings(llama->generated_text, token_text.size(), STOP_FULL); - } - - if (stop_pos == std::string::npos) - { - stop_pos = llama->findStoppingStrings(llama->generated_text, 0, STOP_PARTIAL); - } - if (stop_pos != std::string::npos) - { - llama->generated_text.erase(llama->generated_text.begin() + stop_pos, llama->generated_text.end()); - } - - // llama->lock().release(); - // llama->mutex.unlock(); - - return parse_jbytes(env, llama->generated_text); -} - -JNIEXPORT jfloatArray JNICALL Java_de_kherud_llama_LlamaModel_embed(JNIEnv *env, jobject obj, jstring java_prompt) -{ - jlong llama_handle = env->GetLongField(obj, f_model_pointer); - jllama_context *llama = reinterpret_cast(llama_handle); - - // auto lock = llama->lock(); - - llama->rewind(); - llama_reset_timings(llama->ctx); - llama->prompt = parse_jstring(env, java_prompt); - llama->params.n_predict = 0; - llama->loadPrompt(); - llama->beginCompletion(); - llama->doCompletion(); - - static const int n_embd = llama_n_embd(llama->model); - const float *data = llama_get_embeddings(llama->ctx); - std::vector embedding(data, data + n_embd); - - jfloatArray java_embedding = env->NewFloatArray(embedding.size()); - if (java_embedding == nullptr) - { - env->ThrowNew(c_error_oom, "could not allocate embedding"); - return nullptr; - } - - env->SetFloatArrayRegion(java_embedding, 0, embedding.size(), reinterpret_cast(embedding.data())); - - return java_embedding; -} - -JNIEXPORT jintArray JNICALL Java_de_kherud_llama_LlamaModel_encode(JNIEnv *env, jobject obj, jstring jprompt) -{ - jlong llama_handle = env->GetLongField(obj, f_model_pointer); - jllama_context *llama = reinterpret_cast(llama_handle); - - // auto lock = llama->lock(); - - std::string prompt = parse_jstring(env, jprompt); - std::vector tokens = llama->tokenize(prompt, false); - - jintArray java_tokens = env->NewIntArray(tokens.size()); - if (java_tokens == nullptr) - { - env->ThrowNew(c_error_oom, "could not allocate tokens"); - return nullptr; - } - - env->SetIntArrayRegion(java_tokens, 0, tokens.size(), reinterpret_cast(tokens.data())); - - // lock.release(); - return java_tokens; -} - -JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_decodeBytes(JNIEnv *env, jobject obj, - jintArray java_tokens) -{ - jlong llama_handle = env->GetLongField(obj, f_model_pointer); - jllama_context *llama = reinterpret_cast(llama_handle); - - // auto lock = llama->lock(); - - jsize length = env->GetArrayLength(java_tokens); - jint *elements = env->GetIntArrayElements(java_tokens, nullptr); - std::vector tokens(elements, elements + length); - std::string text = tokens_to_str(llama->ctx, tokens.cbegin(), tokens.cend()); - - env->ReleaseIntArrayElements(java_tokens, elements, 0); - - // lock.release(); - return parse_jbytes(env, text); -} - -JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_setLogger(JNIEnv *env, jclass clazz, jobject callback) -{ - env->GetJavaVM(&g_vm); - - if (g_log_callback != nullptr) - { - env->DeleteGlobalRef(g_log_callback); - } - - if (callback == nullptr) - { - llama_log_set(nullptr, nullptr); - } - else - { - g_log_callback = env->NewGlobalRef(callback); - llama_log_set(jllama_log_callback, nullptr); - } -} - -JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_delete(JNIEnv *env, jobject obj) -{ - jlong llama_handle = env->GetLongField(obj, f_model_pointer); - jllama_context *llama = reinterpret_cast(llama_handle); - delete llama; -} +// JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_newAnswerIterator(JNIEnv *env, jobject obj, jstring prompt, +// jobject params) +//{ +// jlong llama_handle = env->GetLongField(obj, f_model_pointer); +// jllama_context *llama = reinterpret_cast(llama_handle); +// +// // auto lock = llama->lock(); +// +// llama->rewind(); +// +// llama_reset_timings(llama->ctx); +// +// setup_answering(env, llama, prompt, params); +// +// llama->loadPrompt(); +// llama->beginCompletion(); +// } +// +// JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_newInfillIterator(JNIEnv *env, jobject obj, jstring prefix, +// jstring suffix, jobject params) +//{ +// jlong llama_handle = env->GetLongField(obj, f_model_pointer); +// jllama_context *llama = reinterpret_cast(llama_handle); +// +// // auto lock = llama->lock(); +// +// llama->rewind(); +// +// llama_reset_timings(llama->ctx); +// +// setup_infilling(env, llama, prefix, suffix, params); +// +// llama->loadInfill(); +// llama->beginCompletion(); +// } +// +// JNIEXPORT jobject JNICALL Java_de_kherud_llama_LlamaModel_getNext(JNIEnv *env, jobject obj, jobject iter) +//{ +// jlong llama_handle = env->GetLongField(obj, f_model_pointer); +// jllama_context *llama = reinterpret_cast(llama_handle); +// +// size_t sent_count = env->GetLongField(iter, f_iter_n_generated); +// size_t sent_token_probs_index = env->GetLongField(iter, f_iter_token_index); +// +// completion_token_output token_with_probs; +// while (llama->has_next_token) +// { +// token_with_probs = llama->doCompletion(); +// if (token_with_probs.tok >= 0 && llama->multibyte_pending <= 0) +// { +// break; +// } +// } +// const std::string token_text = llama_token_to_piece(llama->ctx, token_with_probs.tok); +// +// size_t pos = std::min(sent_count, llama->generated_text.size()); +// +// const std::string str_test = llama->generated_text.substr(pos); +// bool is_stop_full = false; +// size_t stop_pos = llama->findStoppingStrings(str_test, token_text.size(), STOP_FULL); +// if (stop_pos != std::string::npos) +// { +// is_stop_full = true; +// llama->generated_text.erase(llama->generated_text.begin() + pos + stop_pos, llama->generated_text.end()); +// pos = std::min(sent_count, llama->generated_text.size()); +// } +// else +// { +// is_stop_full = false; +// stop_pos = llama->findStoppingStrings(str_test, token_text.size(), STOP_PARTIAL); +// } +// +// std::string to_send; +// if (stop_pos == std::string::npos || +// // Send rest of the text if we are at the end of the generation +// (!llama->has_next_token && !is_stop_full && stop_pos > 0)) +// { +// to_send = llama->generated_text.substr(pos, std::string::npos); +// +// sent_count += to_send.size(); +// env->SetLongField(iter, f_iter_n_generated, sent_count); +// +// std::vector probs_output = {}; +// +// if (llama->params.sparams.n_probs > 0) +// { +// const std::vector to_send_toks = +// llama_tokenize(llama->ctx, to_send, false, llama->tokenize_special); +// size_t probs_pos = std::min(sent_token_probs_index, llama->generated_token_probs.size()); +// size_t probs_stop_pos = +// std::min(sent_token_probs_index + to_send_toks.size(), llama->generated_token_probs.size()); +// if (probs_pos < probs_stop_pos) +// { +// probs_output = +// std::vector(llama->generated_token_probs.begin() + probs_pos, +// llama->generated_token_probs.begin() + probs_stop_pos); +// } +// sent_token_probs_index = probs_stop_pos; +// env->SetLongField(iter, f_iter_token_index, sent_token_probs_index); +// } +// } +// else +// { +// to_send = ""; +// } +// +// if (!llama->has_next_token) +// { +// env->SetBooleanField(iter, f_iter_has_next, false); +// // llama.mutex.unlock(); +// // lock.release(); +// } +// +// jobject o_probabilities = env->NewObject(c_hash_map, cc_hash_map); +// for (const auto &tp : token_with_probs.probs) +// { +// jobject jtoken = env->NewObject(c_integer, cc_integer, tp.tok); +// jobject jprob = env->NewObject(c_float, cc_float, tp.prob); +// env->CallObjectMethod(o_probabilities, m_map_put, jtoken, jprob); +// } +// jbyteArray jbytes = parse_jbytes(env, to_send); +// return env->NewObject(c_output, cc_output, token_with_probs.tok, jbytes, o_probabilities); +// } +// +// JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_getAnswer(JNIEnv *env, jobject obj, jstring prompt, +// jobject params) +//{ +// jlong llama_handle = env->GetLongField(obj, f_model_pointer); +// jllama_context *llama = reinterpret_cast(llama_handle); +// +// // auto lock = llama->lock(); +// +// llama->rewind(); +// +// llama_reset_timings(llama->ctx); +// +// setup_answering(env, llama, prompt, params); +// +// llama->loadPrompt(); +// llama->beginCompletion(); +// +// size_t stop_pos = std::string::npos; +// +// while (llama->has_next_token) +// { +// const completion_token_output token_with_probs = llama->doCompletion(); +// const std::string token_text = +// token_with_probs.tok == -1 ? "" : llama_token_to_piece(llama->ctx, token_with_probs.tok); +// +// stop_pos = llama->findStoppingStrings(llama->generated_text, token_text.size(), STOP_FULL); +// } +// +// if (stop_pos == std::string::npos) +// { +// stop_pos = llama->findStoppingStrings(llama->generated_text, 0, STOP_PARTIAL); +// } +// if (stop_pos != std::string::npos) +// { +// llama->generated_text.erase(llama->generated_text.begin() + stop_pos, llama->generated_text.end()); +// } +// +// // llama->lock().release(); +// // llama->mutex.unlock(); +// +// return parse_jbytes(env, llama->generated_text); +// } +// +// JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_getInfill(JNIEnv *env, jobject obj, jstring prefix, +// jstring suffix, jobject params) +//{ +// jlong llama_handle = env->GetLongField(obj, f_model_pointer); +// jllama_context *llama = reinterpret_cast(llama_handle); +// +// // auto lock = llama->lock(); +// +// llama->rewind(); +// +// llama_reset_timings(llama->ctx); +// +// setup_infilling(env, llama, prefix, suffix, params); +// +// llama->loadInfill(); +// llama->beginCompletion(); +// +// size_t stop_pos = std::string::npos; +// +// while (llama->has_next_token) +// { +// const completion_token_output token_with_probs = llama->doCompletion(); +// const std::string token_text = +// token_with_probs.tok == -1 ? "" : llama_token_to_piece(llama->ctx, token_with_probs.tok); +// +// stop_pos = llama->findStoppingStrings(llama->generated_text, token_text.size(), STOP_FULL); +// } +// +// if (stop_pos == std::string::npos) +// { +// stop_pos = llama->findStoppingStrings(llama->generated_text, 0, STOP_PARTIAL); +// } +// if (stop_pos != std::string::npos) +// { +// llama->generated_text.erase(llama->generated_text.begin() + stop_pos, llama->generated_text.end()); +// } +// +// // llama->lock().release(); +// // llama->mutex.unlock(); +// +// return parse_jbytes(env, llama->generated_text); +// } +// +// JNIEXPORT jfloatArray JNICALL Java_de_kherud_llama_LlamaModel_embed(JNIEnv *env, jobject obj, jstring java_prompt) +//{ +// jlong llama_handle = env->GetLongField(obj, f_model_pointer); +// jllama_context *llama = reinterpret_cast(llama_handle); +// +// // auto lock = llama->lock(); +// +// llama->rewind(); +// llama_reset_timings(llama->ctx); +// llama->prompt = parse_jstring(env, java_prompt); +// llama->params.n_predict = 0; +// llama->loadPrompt(); +// llama->beginCompletion(); +// llama->doCompletion(); +// +// static const int n_embd = llama_n_embd(llama->model); +// const float *data = llama_get_embeddings(llama->ctx); +// std::vector embedding(data, data + n_embd); +// +// jfloatArray java_embedding = env->NewFloatArray(embedding.size()); +// if (java_embedding == nullptr) +// { +// env->ThrowNew(c_error_oom, "could not allocate embedding"); +// return nullptr; +// } +// +// env->SetFloatArrayRegion(java_embedding, 0, embedding.size(), reinterpret_cast(embedding.data())); +// +// return java_embedding; +// } +// +// JNIEXPORT jintArray JNICALL Java_de_kherud_llama_LlamaModel_encode(JNIEnv *env, jobject obj, jstring jprompt) +//{ +// jlong llama_handle = env->GetLongField(obj, f_model_pointer); +// jllama_context *llama = reinterpret_cast(llama_handle); +// +// // auto lock = llama->lock(); +// +// std::string prompt = parse_jstring(env, jprompt); +// std::vector tokens = llama->tokenize(prompt, false); +// +// jintArray java_tokens = env->NewIntArray(tokens.size()); +// if (java_tokens == nullptr) +// { +// env->ThrowNew(c_error_oom, "could not allocate tokens"); +// return nullptr; +// } +// +// env->SetIntArrayRegion(java_tokens, 0, tokens.size(), reinterpret_cast(tokens.data())); +// +// // lock.release(); +// return java_tokens; +// } +// +// JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_decodeBytes(JNIEnv *env, jobject obj, +// jintArray java_tokens) +//{ +// jlong llama_handle = env->GetLongField(obj, f_model_pointer); +// jllama_context *llama = reinterpret_cast(llama_handle); +// +// // auto lock = llama->lock(); +// +// jsize length = env->GetArrayLength(java_tokens); +// jint *elements = env->GetIntArrayElements(java_tokens, nullptr); +// std::vector tokens(elements, elements + length); +// std::string text = tokens_to_str(llama->ctx, tokens.cbegin(), tokens.cend()); +// +// env->ReleaseIntArrayElements(java_tokens, elements, 0); +// +// // lock.release(); +// return parse_jbytes(env, text); +// } +// +// JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_setLogger(JNIEnv *env, jclass clazz, jobject callback) +//{ +// env->GetJavaVM(&g_vm); +// +// if (g_log_callback != nullptr) +// { +// env->DeleteGlobalRef(g_log_callback); +// } +// +// if (callback == nullptr) +// { +// llama_log_set(nullptr, nullptr); +// } +// else +// { +// g_log_callback = env->NewGlobalRef(callback); +// llama_log_set(jllama_log_callback, nullptr); +// } +// } +// +// JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_delete(JNIEnv *env, jobject obj) +//{ +// jlong llama_handle = env->GetLongField(obj, f_model_pointer); +// jllama_context *llama = reinterpret_cast(llama_handle); +// delete llama; +// } diff --git a/src/main/cpp/server.cpp b/src/main/cpp/server.cpp new file mode 100644 index 00000000..f30e1fce --- /dev/null +++ b/src/main/cpp/server.cpp @@ -0,0 +1,2124 @@ +#include "common.h" +#include "grammar-parser.h" +#include "json.hpp" +#include "llama.h" + +#include +#include +#include +#include +#include +#include +#include +#include +#include + +bool server_verbose = false; +bool server_log_json = true; + +enum stop_type +{ + STOP_TYPE_FULL, + STOP_TYPE_PARTIAL, +}; + +enum slot_state +{ + SLOT_STATE_IDLE, + SLOT_STATE_PROCESSING, +}; + +enum slot_command +{ + SLOT_COMMAND_NONE, + SLOT_COMMAND_LOAD_PROMPT, + SLOT_COMMAND_RELEASE, +}; + +enum server_state +{ + SERVER_STATE_LOADING_MODEL, // Server is starting up, model not fully loaded yet + SERVER_STATE_READY, // Server is ready and model is loaded + SERVER_STATE_ERROR // An error occurred, load_model failed +}; + +enum server_task_type +{ + SERVER_TASK_TYPE_COMPLETION, + SERVER_TASK_TYPE_CANCEL, + SERVER_TASK_TYPE_NEXT_RESPONSE, + SERVER_TASK_TYPE_METRICS +}; + +struct server_task +{ + int id = -1; // to be filled by server_queue + int id_multi = -1; + int id_target = -1; + + server_task_type type; + jobject data; + + std::string prompt; + std::string input_prefix; + std::string input_suffix; + + bool infill = false; + bool embedding = false; + bool stream = false; +}; + +struct server_task_result +{ + int id = -1; + int id_multi = -1; + + json data; + + bool stop; + bool error; +}; + +struct server_task_multi +{ + int id = -1; + + std::set subtasks_remaining; + std::vector results; +}; + +struct slot_params +{ + bool stream = true; + bool cache_prompt = false; // remember the prompt to avoid reprocessing all prompt + + uint32_t seed = -1; // RNG seed + int32_t n_keep = 0; // number of tokens to keep from initial prompt + int32_t n_discard = + 0; // number of tokens after n_keep that may be discarded when shifting context, 0 defaults to half + int32_t n_predict = -1; // new tokens to predict + + std::vector antiprompt; + + std::string input_prefix; + std::string input_suffix; +}; + +struct server_params +{ + std::string chat_template = ""; + std::string system_prompt = ""; +}; + +struct server_slot +{ + int id; + int id_task = -1; + int id_multi = -1; + + struct slot_params params; + + slot_state state = SLOT_STATE_IDLE; + slot_command command = SLOT_COMMAND_NONE; + + // used to determine the slot that has been used the longest + int64_t t_last_used = -1; + + // generation props + int32_t n_ctx = 0; // context size per slot + int32_t n_past = 0; + int32_t n_decoded = 0; + int32_t n_remaining = -1; + int32_t i_batch = -1; + int32_t n_predict = -1; // TODO: disambiguate from params.n_predict + + int32_t n_prompt_tokens = 0; + int32_t n_prompt_tokens_processed = 0; + + json prompt; + + // when a task is submitted, we first tokenize the prompt and store it here + std::vector prompt_tokens; + + std::string generated_text; + std::vector cache_tokens; + std::vector generated_token_probs; + + bool infill = false; + bool embedding = false; + bool has_next_token = true; + bool truncated = false; + bool stopped_eos = false; + bool stopped_word = false; + bool stopped_limit = false; + + bool oaicompat = false; + + std::string oaicompat_model; + std::string stopping_word; + + // sampling + llama_token sampled; + struct llama_sampling_params sparams; + llama_sampling_context *ctx_sampling = nullptr; + json json_schema; + + int32_t ga_i = 0; // group-attention state + int32_t ga_n = 1; // group-attention factor + int32_t ga_w = 512; // group-attention width + + int32_t n_past_se = 0; // self-extend + + // stats + size_t n_sent_text = 0; // number of sent text character + size_t n_sent_token_probs = 0; + + int64_t t_start_process_prompt; + int64_t t_start_generation; + + double t_prompt_processing; // ms + double t_token_generation; // ms + + void reset() + { + n_prompt_tokens = 0; + generated_text = ""; + truncated = false; + stopped_eos = false; + stopped_word = false; + stopped_limit = false; + stopping_word = ""; + n_past = 0; + n_sent_text = 0; + n_sent_token_probs = 0; + infill = false; + ga_i = 0; + n_past_se = 0; + + generated_token_probs.clear(); + } + + bool has_budget(gpt_params &global_params) + { + if (params.n_predict == -1 && global_params.n_predict == -1) + { + return true; // limitless + } + + n_remaining = -1; + + if (params.n_predict != -1) + { + n_remaining = params.n_predict - n_decoded; + } + else if (global_params.n_predict != -1) + { + n_remaining = global_params.n_predict - n_decoded; + } + + return n_remaining > 0; // no budget + } + + bool available() const + { + return state == SLOT_STATE_IDLE && command == SLOT_COMMAND_NONE; + } + + bool is_processing() const + { + return (state == SLOT_STATE_IDLE && command == SLOT_COMMAND_LOAD_PROMPT) || state == SLOT_STATE_PROCESSING; + } + + void add_token_string(const completion_token_output &token) + { + if (command == SLOT_COMMAND_RELEASE) + { + return; + } + generated_token_probs.push_back(token); + } + + void release() + { + if (state == SLOT_STATE_PROCESSING) + { + t_token_generation = (ggml_time_us() - t_start_generation) / 1e3; + command = SLOT_COMMAND_RELEASE; + } + } + + json get_formated_timings() const + { + return json{ + {"prompt_n", n_prompt_tokens_processed}, + {"prompt_ms", t_prompt_processing}, + {"prompt_per_token_ms", t_prompt_processing / n_prompt_tokens_processed}, + {"prompt_per_second", 1e3 / t_prompt_processing * n_prompt_tokens_processed}, + + {"predicted_n", n_decoded}, + {"predicted_ms", t_token_generation}, + {"predicted_per_token_ms", t_token_generation / n_decoded}, + {"predicted_per_second", 1e3 / t_token_generation * n_decoded}, + }; + } + + size_t find_stopping_strings(const std::string &text, const size_t last_token_size, const stop_type type) + { + size_t stop_pos = std::string::npos; + + for (const std::string &word : params.antiprompt) + { + size_t pos; + + if (type == STOP_TYPE_FULL) + { + const size_t tmp = word.size() + last_token_size; + const size_t from_pos = text.size() > tmp ? text.size() - tmp : 0; + + pos = text.find(word, from_pos); + } + else + { + pos = find_partial_stop_string(word, text); + } + + if (pos != std::string::npos && (stop_pos == std::string::npos || pos < stop_pos)) + { + if (type == STOP_TYPE_FULL) + { + stopped_word = true; + stopping_word = word; + has_next_token = false; + } + stop_pos = pos; + } + } + + return stop_pos; + } + + void print_timings() const + { + char buffer[512]; + + double t_token = t_prompt_processing / n_prompt_tokens_processed; + double n_tokens_second = 1e3 / t_prompt_processing * n_prompt_tokens_processed; + + snprintf(buffer, 512, + "prompt eval time = %10.2f ms / %5d tokens (%8.2f ms per token, %8.2f tokens per second)", + t_prompt_processing, n_prompt_tokens_processed, t_token, n_tokens_second); + + LOG_INFO(buffer, { + {"id_slot", id}, + {"id_task", id_task}, + {"t_prompt_processing", t_prompt_processing}, + {"n_prompt_tokens_processed", n_prompt_tokens_processed}, + {"t_token", t_token}, + {"n_tokens_second", n_tokens_second}, + }); + + t_token = t_token_generation / n_decoded; + n_tokens_second = 1e3 / t_token_generation * n_decoded; + + snprintf(buffer, 512, + "generation eval time = %10.2f ms / %5d runs (%8.2f ms per token, %8.2f tokens per second)", + t_token_generation, n_decoded, t_token, n_tokens_second); + + LOG_INFO(buffer, { + {"id_slot", id}, + {"id_task", id_task}, + {"t_token_generation", t_token_generation}, + {"n_decoded", n_decoded}, + {"t_token", t_token}, + {"n_tokens_second", n_tokens_second}, + }); + + snprintf(buffer, 512, " total time = %10.2f ms", t_prompt_processing + t_token_generation); + + LOG_INFO(buffer, { + {"id_slot", id}, + {"id_task", id_task}, + {"t_prompt_processing", t_prompt_processing}, + {"t_token_generation", t_token_generation}, + {"t_total", t_prompt_processing + t_token_generation}, + }); + } +}; + +struct server_metrics +{ + int64_t t_start = 0; + + uint64_t n_prompt_tokens_processed_total = 0; + uint64_t t_prompt_processing_total = 0; + uint64_t n_tokens_predicted_total = 0; + uint64_t t_tokens_generation_total = 0; + + uint64_t n_prompt_tokens_processed = 0; + uint64_t t_prompt_processing = 0; + + uint64_t n_tokens_predicted = 0; + uint64_t t_tokens_generation = 0; + + void init() + { + t_start = ggml_time_us(); + } + + void on_prompt_eval(const server_slot &slot) + { + n_prompt_tokens_processed_total += slot.n_prompt_tokens_processed; + n_prompt_tokens_processed += slot.n_prompt_tokens_processed; + t_prompt_processing += slot.t_prompt_processing; + t_prompt_processing_total += slot.t_prompt_processing; + } + + void on_prediction(const server_slot &slot) + { + n_tokens_predicted_total += slot.n_decoded; + n_tokens_predicted += slot.n_decoded; + t_tokens_generation += slot.t_token_generation; + t_tokens_generation_total += slot.t_token_generation; + } + + void reset_bucket() + { + n_prompt_tokens_processed = 0; + t_prompt_processing = 0; + n_tokens_predicted = 0; + t_tokens_generation = 0; + } +}; + +struct server_queue +{ + int id = 0; + bool running; + + // queues + std::vector queue_tasks; + std::vector queue_tasks_deferred; + + std::vector queue_multitasks; + + std::mutex mutex_tasks; + std::condition_variable condition_tasks; + + // callback functions + std::function callback_new_task; + std::function callback_finish_multitask; + std::function callback_update_slots; + + // Add a new task to the end of the queue + int post(server_task task) + { + std::unique_lock lock(mutex_tasks); + if (task.id == -1) + { + task.id = id++; + LOG_VERBOSE("new task id", {{"new_id", task.id}}); + } + queue_tasks.push_back(std::move(task)); + condition_tasks.notify_one(); + return task.id; + } + + // Add a new task, but defer until one slot is available + void defer(server_task task) + { + std::unique_lock lock(mutex_tasks); + queue_tasks_deferred.push_back(std::move(task)); + } + + // Get the next id for creating anew task + int get_new_id() + { + std::unique_lock lock(mutex_tasks); + int new_id = id++; + LOG_VERBOSE("new task id", {{"new_id", new_id}}); + return new_id; + } + + // Register function to process a new task + void on_new_task(std::function callback) + { + callback_new_task = std::move(callback); + } + + // Register function to process a multitask when it is finished + void on_finish_multitask(std::function callback) + { + callback_finish_multitask = std::move(callback); + } + + // Register the function to be called when all slots data is ready to be processed + void on_update_slots(std::function callback) + { + callback_update_slots = std::move(callback); + } + + // Call when the state of one slot is changed + void notify_slot_changed() + { + // move deferred tasks back to main loop + std::unique_lock lock(mutex_tasks); + for (auto &task : queue_tasks_deferred) + { + queue_tasks.push_back(std::move(task)); + } + queue_tasks_deferred.clear(); + } + + // end the start_loop routine + void terminate() + { + std::unique_lock lock(mutex_tasks); + running = false; + condition_tasks.notify_all(); + } + + /** + * Main loop consists of these steps: + * - Wait until a new task arrives + * - Process the task (i.e. maybe copy data into slot) + * - Check if multitask is finished + * - Update all slots + */ + void start_loop() + { + running = true; + + while (true) + { + LOG_VERBOSE("new task may arrive", {}); + + while (true) + { + std::unique_lock lock(mutex_tasks); + if (queue_tasks.empty()) + { + lock.unlock(); + break; + } + server_task task = queue_tasks.front(); + queue_tasks.erase(queue_tasks.begin()); + lock.unlock(); + LOG_VERBOSE("callback_new_task", {{"id_task", task.id}}); + callback_new_task(task); + } + + LOG_VERBOSE("update_multitasks", {}); + + // check if we have any finished multitasks + auto queue_iterator = queue_multitasks.begin(); + while (queue_iterator != queue_multitasks.end()) + { + if (queue_iterator->subtasks_remaining.empty()) + { + // all subtasks done == multitask is done + server_task_multi current_multitask = *queue_iterator; + callback_finish_multitask(current_multitask); + // remove this multitask + queue_iterator = queue_multitasks.erase(queue_iterator); + } + else + { + ++queue_iterator; + } + } + + // all tasks in the current loop is processed, slots data is now ready + LOG_VERBOSE("callback_update_slots", {}); + + callback_update_slots(); + + LOG_VERBOSE("wait for new task", {}); + { + std::unique_lock lock(mutex_tasks); + if (queue_tasks.empty()) + { + if (!running) + { + LOG_VERBOSE("ending start_loop", {}); + return; + } + condition_tasks.wait(lock, [&] { return (!queue_tasks.empty() || !running); }); + } + } + } + } + + // + // functions to manage multitasks + // + + // add a multitask by specifying the id of all subtask (subtask is a server_task) + void add_multitask(int id_multi, std::vector &sub_ids) + { + std::lock_guard lock(mutex_tasks); + server_task_multi multi; + multi.id = id_multi; + std::copy(sub_ids.begin(), sub_ids.end(), + std::inserter(multi.subtasks_remaining, multi.subtasks_remaining.end())); + queue_multitasks.push_back(multi); + } + + // update the remaining subtasks, while appending results to multitask + void update_multitask(int id_multi, int id_sub, server_task_result &result) + { + std::lock_guard lock(mutex_tasks); + for (auto &multitask : queue_multitasks) + { + if (multitask.id == id_multi) + { + multitask.subtasks_remaining.erase(id_sub); + multitask.results.push_back(result); + } + } + } +}; + +struct server_response +{ + typedef std::function callback_multitask_t; + callback_multitask_t callback_update_multitask; + + // for keeping track of all tasks waiting for the result + std::set waiting_task_ids; + + // the main result queue + std::vector queue_results; + + std::mutex mutex_results; + std::condition_variable condition_results; + + // add the id_task to the list of tasks waiting for response + void add_waiting_task_id(int id_task) + { + LOG_VERBOSE("waiting for task id", {{"id_task", id_task}}); + + std::unique_lock lock(mutex_results); + waiting_task_ids.insert(id_task); + } + + // when the request is finished, we can remove task associated with it + void remove_waiting_task_id(int id_task) + { + LOG_VERBOSE("remove waiting for task id", {{"id_task", id_task}}); + + std::unique_lock lock(mutex_results); + waiting_task_ids.erase(id_task); + } + + // This function blocks the thread until there is a response for this id_task + server_task_result recv(int id_task) + { + while (true) + { + std::unique_lock lock(mutex_results); + condition_results.wait(lock, [&] { return !queue_results.empty(); }); + + for (int i = 0; i < (int)queue_results.size(); i++) + { + if (queue_results[i].id == id_task) + { + assert(queue_results[i].id_multi == -1); + server_task_result res = queue_results[i]; + queue_results.erase(queue_results.begin() + i); + return res; + } + } + } + + // should never reach here + } + + // Register the function to update multitask + void on_multitask_update(callback_multitask_t callback) + { + callback_update_multitask = std::move(callback); + } + + // Send a new result to a waiting id_task + void send(server_task_result result) + { + LOG_VERBOSE("send new result", {{"id_task", result.id}}); + + std::unique_lock lock(mutex_results); + for (const auto &id_task : waiting_task_ids) + { + // LOG_TEE("waiting task id %i \n", id_task); + // for now, tasks that have associated parent multitasks just get erased once multitask picks up the result + if (result.id_multi == id_task) + { + LOG_VERBOSE("callback_update_multitask", {{"id_task", id_task}}); + callback_update_multitask(id_task, result.id, result); + continue; + } + + if (result.id == id_task) + { + LOG_VERBOSE("queue_results.push_back", {{"id_task", id_task}}); + queue_results.push_back(result); + condition_results.notify_all(); + return; + } + } + } +}; + +struct server_context +{ + llama_model *model = nullptr; + llama_context *ctx = nullptr; + + gpt_params params; + + llama_batch batch; + + bool clean_kv_cache = true; + bool add_bos_token = true; + + int32_t n_ctx; // total context for all clients / slots + + // system prompt + bool system_need_update = false; + + std::string system_prompt; + std::vector system_tokens; + + std::string name_user; // this should be the antiprompt + std::string name_assistant; + + // slots / clients + std::vector slots; + json default_generation_settings_for_props; + + server_queue queue_tasks; + server_response queue_results; + + server_metrics metrics; + + ~server_context() + { + if (ctx) + { + llama_free(ctx); + ctx = nullptr; + } + + if (model) + { + llama_free_model(model); + model = nullptr; + } + } + + bool load_model(const gpt_params ¶ms_) + { + params = params_; + + // dedicate one sequence to the system prompt + params.n_parallel += 1; + + std::tie(model, ctx) = llama_init_from_gpt_params(params); + params.n_parallel -= 1; // but be sneaky about it + if (model == nullptr) + { + LOG_ERROR("unable to load model", {{"model", params.model}}); + return false; + } + + n_ctx = llama_n_ctx(ctx); + + add_bos_token = llama_should_add_bos_token(model); + + return true; + } + + bool validate_model_chat_template() const + { + llama_chat_message chat[] = {{"user", "test"}}; + + const int res = llama_chat_apply_template(model, nullptr, chat, 1, true, nullptr, 0); + + return res > 0; + } + + void init() + { + const int32_t n_ctx_slot = n_ctx / params.n_parallel; + + LOG_INFO("initializing slots", {{"n_slots", params.n_parallel}}); + + for (int i = 0; i < params.n_parallel; i++) + { + server_slot slot; + + slot.id = i; + slot.n_ctx = n_ctx_slot; + slot.n_predict = params.n_predict; + + LOG_INFO("new slot", {{"id_slot", slot.id}, {"n_ctx_slot", slot.n_ctx}}); + + const int ga_n = params.grp_attn_n; + const int ga_w = params.grp_attn_w; + + if (ga_n != 1) + { + GGML_ASSERT(ga_n > 0 && "ga_n must be positive"); // NOLINT + GGML_ASSERT(ga_w % ga_n == 0 && "ga_w must be a multiple of ga_n"); // NOLINT + // GGML_ASSERT(n_ctx_train % ga_w == 0 && "n_ctx_train must be a multiple of ga_w"); // NOLINT + // GGML_ASSERT(n_ctx >= n_ctx_train * ga_n && "n_ctx must be at least n_ctx_train * ga_n"); // NOLINT + + LOG_INFO("slot self-extend", {{"id_slot", slot.id}, {"ga_n", ga_n}, {"ga_w", ga_w}}); + } + + slot.ga_i = 0; + slot.ga_n = ga_n; + slot.ga_w = ga_w; + + slot.reset(); + + slots.push_back(slot); + } + + default_generation_settings_for_props = get_formated_generation(slots.front()); + default_generation_settings_for_props["seed"] = -1; + + // the update_slots() logic will always submit a maximum of n_batch tokens + // note that n_batch can be > n_ctx (e.g. for non-causal attention models such as BERT where the KV cache is not + // used) + { + const int32_t n_batch = llama_n_batch(ctx); + + // only a single seq_id per token is needed + batch = llama_batch_init(n_batch, 0, 1); + } + + metrics.init(); + } + + std::vector tokenize(const json &json_prompt, bool add_bos) const + { + // TODO: currently, we tokenize using special tokens by default + // this is not always correct (see + // https://github.com/ggerganov/llama.cpp/pull/4160#issuecomment-1824826216) but it's better compared to + // completely ignoring ChatML and other chat templates + const bool TMP_FORCE_SPECIAL = true; + + // If `add_bos` is true, we only add BOS, when json_prompt is a string, + // or the first element of the json_prompt array is a string. + std::vector prompt_tokens; + + if (json_prompt.is_array()) + { + bool first = true; + for (const auto &p : json_prompt) + { + if (p.is_string()) + { + auto s = p.template get(); + + std::vector p; + if (first) + { + p = ::llama_tokenize(ctx, s, add_bos, TMP_FORCE_SPECIAL); + first = false; + } + else + { + p = ::llama_tokenize(ctx, s, false, TMP_FORCE_SPECIAL); + } + + prompt_tokens.insert(prompt_tokens.end(), p.begin(), p.end()); + } + else + { + if (first) + { + first = false; + } + + prompt_tokens.push_back(p.template get()); + } + } + } + else + { + auto s = json_prompt.template get(); + prompt_tokens = ::llama_tokenize(ctx, s, add_bos, TMP_FORCE_SPECIAL); + } + + return prompt_tokens; + } + + server_slot *get_slot(int id) + { + int64_t t_last = ggml_time_us(); + + server_slot *last_used = nullptr; + + for (server_slot &slot : slots) + { + if (slot.id == id && slot.available()) + { + return &slot; + } + + // among all available slots, find the one that has been least recently used + if (slot.available() && slot.t_last_used < t_last) + { + last_used = &slot; + t_last = slot.t_last_used; + } + } + + return last_used; + } + + void kv_cache_clear() + { + LOG_VERBOSE("clearing KV cache", {}); + + // clear the entire KV cache + llama_kv_cache_clear(ctx); + clean_kv_cache = false; + } + + void system_prompt_update() + { + LOG_VERBOSE("system prompt update", { + {"system_prompt", system_prompt}, + }); + + kv_cache_clear(); + system_tokens.clear(); + + if (!system_prompt.empty()) + { + system_tokens = ::llama_tokenize(ctx, system_prompt, add_bos_token); + + llama_batch_clear(batch); + + for (int i = 0; i < (int)system_tokens.size(); ++i) + { + llama_batch_add(batch, system_tokens[i], i, {0}, false); + } + + const int32_t n_batch = llama_n_batch(ctx); + + for (int32_t i = 0; i < batch.n_tokens; i += n_batch) + { + const int32_t n_tokens = std::min(params.n_batch, batch.n_tokens - i); + llama_batch batch_view = { + n_tokens, + batch.token + i, + nullptr, + batch.pos + i, + batch.n_seq_id + i, + batch.seq_id + i, + batch.logits + i, + 0, + 0, + 0, // unused + }; + + if (llama_decode(ctx, batch_view) != 0) + { + LOG_TEE("%s: llama_decode() failed\n", __func__); + return; + } + } + + // assign the system KV cache to all parallel sequences + for (int32_t i = 1; i <= params.n_parallel; ++i) + { + llama_kv_cache_seq_cp(ctx, 0, i, -1, -1); + } + } + + system_need_update = false; + } + + void system_prompt_set(const json &sys_props) + { + system_prompt = sys_props.value("prompt", ""); + name_user = sys_props.value("anti_prompt", ""); + name_assistant = sys_props.value("assistant_name", ""); + + LOG_VERBOSE("system prompt process", { + {"system_prompt", system_prompt}, + {"name_user", name_user}, + {"name_assistant", name_assistant}, + }); + + // release all slots + for (server_slot &slot : slots) + { + slot.release(); + } + + system_need_update = true; + } + + bool process_token(completion_token_output &result, server_slot &slot) + { + // remember which tokens were sampled - used for repetition penalties during sampling + const std::string token_str = llama_token_to_piece(ctx, result.tok); + slot.sampled = result.tok; + + // search stop word and delete it + slot.generated_text += token_str; + slot.has_next_token = true; + + if (slot.ctx_sampling->params.use_penalty_prompt_tokens && result.tok != -1) + { + // we can change penalty_prompt_tokens because it is always created from scratch each request + slot.ctx_sampling->params.penalty_prompt_tokens.push_back(result.tok); + } + + // check if there is incomplete UTF-8 character at the end + bool incomplete = false; + for (unsigned i = 1; i < 5 && i <= slot.generated_text.size(); ++i) + { + unsigned char c = slot.generated_text[slot.generated_text.size() - i]; + if ((c & 0xC0) == 0x80) + { + // continuation byte: 10xxxxxx + continue; + } + if ((c & 0xE0) == 0xC0) + { + // 2-byte character: 110xxxxx ... + incomplete = i < 2; + } + else if ((c & 0xF0) == 0xE0) + { + // 3-byte character: 1110xxxx ... + incomplete = i < 3; + } + else if ((c & 0xF8) == 0xF0) + { + // 4-byte character: 11110xxx ... + incomplete = i < 4; + } + // else 1-byte character or invalid byte + break; + } + + if (!incomplete) + { + size_t pos = std::min(slot.n_sent_text, slot.generated_text.size()); + + const std::string str_test = slot.generated_text.substr(pos); + bool is_stop_full = false; + + size_t stop_pos = slot.find_stopping_strings(str_test, token_str.size(), STOP_TYPE_FULL); + if (stop_pos != std::string::npos) + { + is_stop_full = true; + slot.generated_text.erase(slot.generated_text.begin() + pos + stop_pos, slot.generated_text.end()); + pos = std::min(slot.n_sent_text, slot.generated_text.size()); + } + else + { + is_stop_full = false; + stop_pos = slot.find_stopping_strings(str_test, token_str.size(), STOP_TYPE_PARTIAL); + } + + // check if there is any token to predict + if (stop_pos == std::string::npos || (!slot.has_next_token && !is_stop_full && stop_pos > 0)) + { + // no send the stop word in the response + result.text_to_send = slot.generated_text.substr(pos, std::string::npos); + slot.n_sent_text += result.text_to_send.size(); + // add the token to slot queue and cache + } + + slot.add_token_string(result); + if (slot.params.stream) + { + send_partial_response(slot, result); + } + } + + if (incomplete) + { + slot.has_next_token = true; + } + + // check the limits + if (slot.n_decoded > 0 && slot.has_next_token && !slot.has_budget(params)) + { + slot.stopped_limit = true; + slot.has_next_token = false; + + LOG_VERBOSE("stopped by limit", { + {"id_slot", slot.id}, + {"id_task", slot.id_task}, + {"n_decoded", slot.n_decoded}, + {"n_predict", slot.params.n_predict}, + }); + } + + if (result.tok == llama_token_eos(model)) + { + slot.stopped_eos = true; + slot.has_next_token = false; + + LOG_VERBOSE("eos token found", {}); + } + + LOG_VERBOSE("next token", { + {"id_slot", slot.id}, + {"id_task", slot.id_task}, + {"token", result.tok}, + {"token_text", tokens_to_output_formatted_string(ctx, result.tok)}, + {"has_next_token", slot.has_next_token}, + {"n_remain", slot.n_remaining}, + {"n_decoded", slot.n_decoded}, + {"stopped_eos", slot.stopped_eos}, + {"stopped_word", slot.stopped_word}, + {"stopped_limit", slot.stopped_limit}, + {"stopping_word", slot.stopping_word}, + }); + + return slot.has_next_token; // continue + } + + json get_formated_generation(const server_slot &slot) const + { + const auto eos_bias = slot.sparams.logit_bias.find(llama_token_eos(model)); + const bool ignore_eos = + eos_bias != slot.sparams.logit_bias.end() && eos_bias->second < 0.0f && std::isinf(eos_bias->second); + + std::vector samplers_sequence; + samplers_sequence.reserve(slot.sparams.samplers_sequence.size()); + for (const auto &sampler_type : slot.sparams.samplers_sequence) + { + samplers_sequence.emplace_back(sampler_type_to_name_string(sampler_type)); + } + + return json{{"n_ctx", slot.n_ctx}, + {"n_predict", slot.n_predict}, + {"model", params.model_alias}, + {"seed", slot.params.seed}, + {"temperature", slot.sparams.temp}, + {"dynatemp_range", slot.sparams.dynatemp_range}, + {"dynatemp_exponent", slot.sparams.dynatemp_exponent}, + {"top_k", slot.sparams.top_k}, + {"top_p", slot.sparams.top_p}, + {"min_p", slot.sparams.min_p}, + {"tfs_z", slot.sparams.tfs_z}, + {"typical_p", slot.sparams.typical_p}, + {"repeat_last_n", slot.sparams.penalty_last_n}, + {"repeat_penalty", slot.sparams.penalty_repeat}, + {"presence_penalty", slot.sparams.penalty_present}, + {"frequency_penalty", slot.sparams.penalty_freq}, + {"penalty_prompt_tokens", slot.sparams.penalty_prompt_tokens}, + {"use_penalty_prompt_tokens", slot.sparams.use_penalty_prompt_tokens}, + {"mirostat", slot.sparams.mirostat}, + {"mirostat_tau", slot.sparams.mirostat_tau}, + {"mirostat_eta", slot.sparams.mirostat_eta}, + {"penalize_nl", slot.sparams.penalize_nl}, + {"stop", slot.params.antiprompt}, + {"n_predict", slot.params.n_predict}, // TODO: fix duplicate key n_predict + {"n_keep", slot.params.n_keep}, + {"n_discard", slot.params.n_discard}, + {"ignore_eos", ignore_eos}, + {"stream", slot.params.stream}, + {"logit_bias", slot.sparams.logit_bias}, + {"n_probs", slot.sparams.n_probs}, + {"min_keep", slot.sparams.min_keep}, + {"grammar", slot.sparams.grammar}, + {"samplers", samplers_sequence}}; + } + + void send_error(const server_task &task, const std::string &error, const enum error_type type = ERROR_TYPE_SERVER) + { + send_error(task.id, task.id_multi, error, type); + } + + void send_error(const server_slot &slot, const std::string &error, const enum error_type type = ERROR_TYPE_SERVER) + { + send_error(slot.id_task, slot.id_multi, error, type); + } + + void send_error(const int id_task, const int id_multi, const std::string &error, + const enum error_type type = ERROR_TYPE_SERVER) + { + LOG_TEE("task %i - error: %s\n", id_task, error.c_str()); + + server_task_result res; + res.id = id_task; + res.id_multi = id_multi; + res.stop = false; + res.error = true; + res.data = format_error_response(error, type); + + queue_results.send(res); + } + + void send_partial_response(server_slot &slot, completion_token_output tkn) + { + server_task_result res; + res.id = slot.id_task; + res.id_multi = slot.id_multi; + res.error = false; + res.stop = false; + res.data = json{{"content", tkn.text_to_send}, {"stop", false}, {"id_slot", slot.id}, {"multimodal", false}}; + + if (slot.sparams.n_probs > 0) + { + const std::vector to_send_toks = llama_tokenize(ctx, tkn.text_to_send, false); + const size_t probs_pos = std::min(slot.n_sent_token_probs, slot.generated_token_probs.size()); + const size_t probs_stop_pos = + std::min(slot.n_sent_token_probs + to_send_toks.size(), slot.generated_token_probs.size()); + + std::vector probs_output; + if (probs_pos < probs_stop_pos) + { + probs_output = + std::vector(slot.generated_token_probs.begin() + probs_pos, + slot.generated_token_probs.begin() + probs_stop_pos); + } + slot.n_sent_token_probs = probs_stop_pos; + + res.data["completion_probabilities"] = probs_vector_to_json(ctx, probs_output); + } + + if (slot.oaicompat) + { + res.data["oaicompat_token_ctr"] = slot.n_decoded; + res.data["model"] = slot.oaicompat_model; + } + + queue_results.send(res); + } + + void send_final_response(const server_slot &slot) + { + server_task_result res; + res.id = slot.id_task; + res.id_multi = slot.id_multi; + res.error = false; + res.stop = true; + res.data = json{{"content", !slot.params.stream ? slot.generated_text : ""}, + {"id_slot", slot.id}, + {"stop", true}, + {"model", params.model_alias}, + {"tokens_predicted", slot.n_decoded}, + {"tokens_evaluated", slot.n_prompt_tokens}, + {"generation_settings", get_formated_generation(slot)}, + {"prompt", slot.prompt}, + {"truncated", slot.truncated}, + {"stopped_eos", slot.stopped_eos}, + {"stopped_word", slot.stopped_word}, + {"stopped_limit", slot.stopped_limit}, + {"stopping_word", slot.stopping_word}, + {"tokens_cached", slot.n_past}, + {"timings", slot.get_formated_timings()}}; + + if (slot.sparams.n_probs > 0) + { + std::vector probs; + if (!slot.params.stream && slot.stopped_word) + { + const std::vector stop_word_toks = llama_tokenize(ctx, slot.stopping_word, false); + + probs = std::vector(slot.generated_token_probs.begin(), + slot.generated_token_probs.end() - stop_word_toks.size()); + } + else + { + probs = std::vector(slot.generated_token_probs.begin(), + slot.generated_token_probs.end()); + } + + res.data["completion_probabilities"] = probs_vector_to_json(ctx, probs); + } + + if (slot.oaicompat) + { + res.data["oaicompat_token_ctr"] = slot.n_decoded; + res.data["model"] = slot.oaicompat_model; + } + + queue_results.send(res); + } + + void send_embedding(const server_slot &slot, const llama_batch &batch) + { + server_task_result res; + res.id = slot.id_task; + res.id_multi = slot.id_multi; + res.error = false; + res.stop = true; + + const int n_embd = llama_n_embd(model); + + std::vector embd_res(n_embd, 0.0f); + + for (int i = 0; i < batch.n_tokens; ++i) + { + if (!batch.logits[i] || batch.seq_id[i][0] != slot.id + 1) + { + continue; + } + + const float *embd = llama_get_embeddings_seq(ctx, batch.seq_id[i][0]); + if (embd == NULL) + { + embd = llama_get_embeddings_ith(ctx, i); + } + + if (embd == NULL) + { + LOG_ERROR("failed to get embeddings", {{"token", batch.token[i]}, {"seq_id", batch.seq_id[i][0]}}); + + res.data = json{ + {"embedding", std::vector(n_embd, 0.0f)}, + }; + + continue; + } + + llama_embd_normalize(embd, embd_res.data(), n_embd); + + res.data = json{ + {"embedding", embd_res}, + }; + } + + queue_results.send(res); + } + + void request_completion(int id_task, int id_multi, json data, bool infill, bool embedding) + { + server_task task; + task.id = id_task; + task.id_multi = id_multi; + task.id_target = 0; + task.data = std::move(data); + task.infill = infill; + task.embedding = embedding; + task.type = SERVER_TASK_TYPE_COMPLETION; + + // when a completion task's prompt array is not a singleton, we split it into multiple requests + // otherwise, it's a single-prompt task, we actually queue it + // if there's numbers in the prompt array it will be treated as an array of tokens + if (task.data.count("prompt") != 0 && task.data.at("prompt").size() > 1) + { + bool numbers = false; + for (const auto &e : task.data.at("prompt")) + { + if (e.is_number()) + { + numbers = true; + break; + } + } + + // NOTE: split_multiprompt_task() does not handle a mix of strings and numbers, + // it will completely stall the server. I don't know where the bug for this is. + // + // if there are numbers, it needs to be treated like a single prompt, + // queue_tasks handles a mix of strings and numbers just fine. + if (numbers) + { + queue_tasks.post(task); + } + else + { + split_multiprompt_task(id_task, task); + } + } + else + { + queue_tasks.post(task); + } + } + + void request_cancel(int id_task) + { + server_task task; + task.type = SERVER_TASK_TYPE_CANCEL; + task.id_target = id_task; + + queue_tasks.post(task); + } + + void split_multiprompt_task(int id_multi, const server_task &multiprompt_task) + { + const int prompt_count = multiprompt_task.data.at("prompt").size(); + if (prompt_count <= 1) + { + send_error(multiprompt_task, "error while handling multiple prompts"); + return; + } + + // generate all the ID for subtask + std::vector subtask_ids(prompt_count); + for (int i = 0; i < prompt_count; i++) + { + subtask_ids[i] = queue_tasks.get_new_id(); + } + + // queue up the multitask so we can track its subtask progression + queue_tasks.add_multitask(id_multi, subtask_ids); + + // add subtasks + for (int i = 0; i < prompt_count; i++) + { + json subtask_data = multiprompt_task.data; + subtask_data["prompt"] = subtask_data["prompt"][i]; + + // subtasks inherit everything else (infill mode, embedding mode, etc.) + request_completion(subtask_ids[i], id_multi, subtask_data, multiprompt_task.infill, + multiprompt_task.embedding); + } + } + + void process_single_task(const server_task &task) + { + switch (task.type) + { + case SERVER_TASK_TYPE_COMPLETION: { + server_slot *slot = get_slot(json_value(task.data, "id_slot", -1)); + if (slot == nullptr) + { + // if no slot is available, we defer this task for processing later + LOG_VERBOSE("no slot is available", {{"id_task", task.id}}); + queue_tasks.defer(task); + break; + } + + if (task.data.contains("system_prompt")) + { + system_prompt_set(task.data["system_prompt"]); + + for (server_slot &slot : slots) + { + slot.n_past = 0; + slot.n_past_se = 0; + } + } + + slot->reset(); + + slot->id_task = task.id; + slot->id_multi = task.id_multi; + slot->infill = task.infill; + slot->embedding = task.embedding; + + if (!launch_slot_with_task(*slot, task)) + { + LOG_ERROR("error while launching slot", task.data); + break; + } + } + break; + case SERVER_TASK_TYPE_CANCEL: { + // release slot linked with the task id + for (auto &slot : slots) + { + if (slot.id_task == task.id_target) + { + slot.release(); + break; + } + } + } + break; + case SERVER_TASK_TYPE_NEXT_RESPONSE: { + // do nothing + } + break; + case SERVER_TASK_TYPE_METRICS: { + json slots_data = json::array(); + + int n_idle_slots = 0; + int n_processing_slots = 0; + + for (server_slot &slot : slots) + { + json slot_data = get_formated_generation(slot); + slot_data["id"] = slot.id; + slot_data["id_task"] = slot.id_task; + slot_data["state"] = slot.state; + slot_data["prompt"] = slot.prompt; + slot_data["next_token"] = { + {"has_next_token", slot.has_next_token}, {"n_remain", slot.n_remaining}, + {"n_decoded", slot.n_decoded}, {"stopped_eos", slot.stopped_eos}, + {"stopped_word", slot.stopped_word}, {"stopped_limit", slot.stopped_limit}, + {"stopping_word", slot.stopping_word}, + }; + + if (slot_data["state"] == SLOT_STATE_IDLE) + { + n_idle_slots++; + } + else + { + n_processing_slots++; + } + + slots_data.push_back(slot_data); + } + LOG_INFO( + "slot data", + {{"id_task", task.id}, {"n_idle_slots", n_idle_slots}, {"n_processing_slots", n_processing_slots}}); + + LOG_VERBOSE("slot data", {{"id_task", task.id}, + {"n_idle_slots", n_idle_slots}, + {"n_processing_slots", n_processing_slots}, + {"slots", slots_data}}); + + server_task_result res; + res.id = task.id; + res.id_multi = task.id_multi; + res.stop = true; + res.error = false; + res.data = { + {"idle", n_idle_slots}, + {"processing", n_processing_slots}, + {"deferred", queue_tasks.queue_tasks_deferred.size()}, + {"t_start", metrics.t_start}, + + {"n_prompt_tokens_processed_total", metrics.n_prompt_tokens_processed_total}, + {"t_tokens_generation_total", metrics.t_tokens_generation_total}, + {"n_tokens_predicted_total", metrics.n_tokens_predicted_total}, + {"t_prompt_processing_total", metrics.t_prompt_processing_total}, + + {"n_prompt_tokens_processed", metrics.n_prompt_tokens_processed}, + {"t_prompt_processing", metrics.t_prompt_processing}, + {"n_tokens_predicted", metrics.n_tokens_predicted}, + {"t_tokens_generation", metrics.t_tokens_generation}, + + {"kv_cache_tokens_count", llama_get_kv_cache_token_count(ctx)}, + {"kv_cache_used_cells", llama_get_kv_cache_used_cells(ctx)}, + + {"slots", slots_data}, + }; + + if (json_value(task.data, "reset_bucket", false)) + { + metrics.reset_bucket(); + } + queue_results.send(res); + } + break; + } + } + + void on_finish_multitask(const server_task_multi &multitask) + { + // all subtasks done == multitask is done + server_task_result result; + result.id = multitask.id; + result.stop = true; + result.error = false; + + // collect json results into one json result + std::vector result_jsons; + for (const auto &subres : multitask.results) + { + result_jsons.push_back(subres.data); + result.error = result.error && subres.error; + } + result.data = json{{"results", result_jsons}}; + + queue_results.send(result); + } + + void update_slots() + { + if (system_need_update) + { + system_prompt_update(); + } + + // release slots + for (auto &slot : slots) + { + if (slot.command == SLOT_COMMAND_RELEASE) + { + slot.state = SLOT_STATE_IDLE; + slot.command = SLOT_COMMAND_NONE; + slot.t_last_used = ggml_time_us(); + + LOG_INFO("slot released", {{"id_slot", slot.id}, + {"id_task", slot.id_task}, + {"n_ctx", n_ctx}, + {"n_past", slot.n_past}, + {"n_system_tokens", system_tokens.size()}, + {"n_cache_tokens", slot.cache_tokens.size()}, + {"truncated", slot.truncated}}); + + queue_tasks.notify_slot_changed(); + } + } + + // check if all slots are idle + { + bool all_idle = true; + + for (auto &slot : slots) + { + if (slot.state != SLOT_STATE_IDLE || slot.command != SLOT_COMMAND_NONE) + { + all_idle = false; + break; + } + } + + if (all_idle) + { + LOG_INFO("all slots are idle", {}); + if (system_prompt.empty() && clean_kv_cache) + { + kv_cache_clear(); + } + + return; + } + } + + { + LOG_VERBOSE("posting NEXT_RESPONSE", {}); + + server_task task; + task.type = SERVER_TASK_TYPE_NEXT_RESPONSE; + task.id_target = -1; + + queue_tasks.post(task); + } + + // apply context-shift if needed + // TODO: simplify and improve + for (server_slot &slot : slots) + { + if (slot.ga_n == 1) + { + if (slot.is_processing() && (int)system_tokens.size() + slot.n_past >= slot.n_ctx - 1) + { + // Shift context + const int n_keep = slot.params.n_keep + add_bos_token; + const int n_left = (int)system_tokens.size() + slot.n_past - n_keep; + const int n_discard = slot.params.n_discard ? slot.params.n_discard : (n_left / 2); + + LOG_INFO("slot context shift", {{"id_slot", slot.id}, + {"id_task", slot.id_task}, + {"n_keep", n_keep}, + {"n_left", n_left}, + {"n_discard", n_discard}, + {"n_ctx", n_ctx}, + {"n_past", slot.n_past}, + {"n_system_tokens", system_tokens.size()}, + {"n_cache_tokens", slot.cache_tokens.size()}}); + + llama_kv_cache_seq_rm(ctx, slot.id + 1, n_keep, n_keep + n_discard); + llama_kv_cache_seq_add(ctx, slot.id + 1, n_keep + n_discard, system_tokens.size() + slot.n_past, + -n_discard); + + if (slot.params.cache_prompt) + { + for (size_t i = n_keep + n_discard; i < slot.cache_tokens.size(); i++) + { + slot.cache_tokens[i - n_discard] = slot.cache_tokens[i]; + } + + slot.cache_tokens.resize(slot.cache_tokens.size() - n_discard); + } + + slot.n_past -= n_discard; + + slot.truncated = true; + } + } + } + + // start populating the batch for this iteration + llama_batch_clear(batch); + + // frist, add sampled tokens from any ongoing sequences + for (auto &slot : slots) + { + if (slot.state == SLOT_STATE_IDLE) + { + continue; + } + + slot.i_batch = batch.n_tokens; + + const int32_t slot_npast = slot.n_past_se > 0 ? slot.n_past_se : slot.n_past; + + // TODO: we always have to take into account the "system_tokens" + // this is not great and needs to be improved somehow + llama_batch_add(batch, slot.sampled, system_tokens.size() + slot_npast, {slot.id + 1}, true); + + slot.n_past += 1; + + if (slot.params.cache_prompt) + { + slot.cache_tokens.push_back(slot.sampled); + } + + LOG_VERBOSE("slot decode token", {{"id_slot", slot.id}, + {"id_task", slot.id_task}, + {"n_ctx", n_ctx}, + {"n_past", slot.n_past}, + {"n_system_tokens", system_tokens.size()}, + {"n_cache_tokens", slot.cache_tokens.size()}, + {"truncated", slot.truncated}}); + } + + // process in chunks of params.n_batch + int32_t n_batch = llama_n_batch(ctx); + int32_t n_ubatch = llama_n_ubatch(ctx); + + // next, batch any pending prompts without exceeding n_batch + if (params.cont_batching || batch.n_tokens == 0) + { + for (auto &slot : slots) + { + // this slot still has a prompt to be processed + if (slot.state == SLOT_STATE_IDLE && slot.command == SLOT_COMMAND_LOAD_PROMPT) + { + auto &prompt_tokens = slot.prompt_tokens; + + // we haven't tokenized the prompt yet - do it now: + if (prompt_tokens.empty()) + { + LOG_VERBOSE("tokenizing prompt", {{"id_slot", slot.id}, {"id_task", slot.id_task}}); + + slot.t_start_process_prompt = ggml_time_us(); + slot.t_start_generation = 0; + + if (slot.infill) + { + bool suff_rm_leading_spc = true; + if (params.input_suffix.find_first_of(' ') == 0 && params.input_suffix.size() > 1) + { + params.input_suffix.erase(0, 1); + suff_rm_leading_spc = false; + } + + auto prefix_tokens = tokenize(slot.params.input_prefix, false); + auto suffix_tokens = tokenize(slot.params.input_suffix, false); + + const int space_token = 29871; // TODO: this should not be hardcoded + if (suff_rm_leading_spc && !suffix_tokens.empty() && suffix_tokens[0] == space_token) + { + suffix_tokens.erase(suffix_tokens.begin()); + } + + prefix_tokens.insert(prefix_tokens.begin(), llama_token_prefix(model)); + prefix_tokens.insert(prefix_tokens.begin(), llama_token_bos(model)); // always add BOS + prefix_tokens.insert(prefix_tokens.end(), llama_token_suffix(model)); + prefix_tokens.insert(prefix_tokens.end(), suffix_tokens.begin(), suffix_tokens.end()); + prefix_tokens.push_back(llama_token_middle(model)); + prompt_tokens = prefix_tokens; + } + else + { + prompt_tokens = + tokenize(slot.prompt, system_prompt.empty() && + add_bos_token); // add BOS if there isn't system prompt + } + + slot.n_past = 0; + slot.n_prompt_tokens = prompt_tokens.size(); + + LOG_VERBOSE("prompt tokenized", { + {"id_slot", slot.id}, + {"id_task", slot.id_task}, + {"n_ctx", slot.n_ctx}, + {"n_keep", slot.params.n_keep}, + {"n_prompt_tokens", slot.n_prompt_tokens}, + {"prompt_tokens", tokens_to_str(ctx, prompt_tokens.cbegin(), + prompt_tokens.cend())}, + }); + + // empty prompt passed -> release the slot and send empty response + if (prompt_tokens.empty()) + { + LOG_INFO("empty prompt - releasing slot", + {{"id_slot", slot.id}, {"id_task", slot.id_task}}); + + slot.state = SLOT_STATE_PROCESSING; + slot.command = SLOT_COMMAND_NONE; + slot.release(); + slot.print_timings(); + send_final_response(slot); + continue; + } + + if (slot.embedding) + { + // this prompt is too large to process - discard it + if (slot.n_prompt_tokens > n_ubatch) + { + slot.state = SLOT_STATE_PROCESSING; + slot.command = SLOT_COMMAND_NONE; + slot.release(); + slot.print_timings(); + send_final_response(slot); + continue; + } + } + else + { + if (slot.params.n_keep < 0) + { + slot.params.n_keep = slot.n_prompt_tokens; + } + slot.params.n_keep = std::min(slot.n_ctx - 4, slot.params.n_keep); + + // if input prompt is too big, truncate it (if group attention self-extend is disabled) + if (slot.ga_n == 1 && slot.n_prompt_tokens >= slot.n_ctx) + { + const int n_left = slot.n_ctx - slot.params.n_keep; + + const int n_block_size = n_left / 2; + const int erased_blocks = + (slot.n_prompt_tokens - slot.params.n_keep - n_block_size) / n_block_size; + + std::vector new_tokens(prompt_tokens.begin(), + prompt_tokens.begin() + slot.params.n_keep); + + new_tokens.insert(new_tokens.end(), + prompt_tokens.begin() + slot.params.n_keep + + erased_blocks * n_block_size, + prompt_tokens.end()); + + prompt_tokens = std::move(new_tokens); + + slot.truncated = true; + slot.n_prompt_tokens = prompt_tokens.size(); + + LOG_VERBOSE("input truncated", + { + {"id_slot", slot.id}, + {"id_task", slot.id_task}, + {"n_ctx", slot.n_ctx}, + {"n_keep", slot.params.n_keep}, + {"n_left", n_left}, + {"n_prompt_tokens", slot.n_prompt_tokens}, + {"prompt_tokens", + tokens_to_str(ctx, prompt_tokens.cbegin(), prompt_tokens.cend())}, + }); + + GGML_ASSERT(slot.n_prompt_tokens < slot.n_ctx); + } + + llama_sampling_reset(slot.ctx_sampling); + + if (!slot.params.cache_prompt) + { + slot.n_past_se = 0; + slot.ga_i = 0; + } + else + { + GGML_ASSERT(slot.ga_n == 1); + + // reuse any previously computed tokens that are common with the new prompt + slot.n_past = common_part(slot.cache_tokens, prompt_tokens); + + // push the prompt into the sampling context (do not apply grammar) + for (int i = 0; i < slot.n_past; ++i) + { + llama_sampling_accept(slot.ctx_sampling, ctx, slot.cache_tokens[i], false); + } + } + } + + if (slot.n_past == slot.n_prompt_tokens && slot.n_past > 0) + { + // we have to evaluate at least 1 token to generate logits. + LOG_INFO("we have to evaluate at least 1 token to generate logits", + {{"id_slot", slot.id}, {"id_task", slot.id_task}}); + + slot.n_past--; + if (slot.ga_i > 0) + { + slot.n_past_se--; + } + } + + slot.n_prompt_tokens_processed = 0; + } + + if (slot.embedding) + { + // cannot fit the prompt in the current batch - will try next iter + if (batch.n_tokens + slot.n_prompt_tokens > n_batch) + { + continue; + } + } + + // keep only the common part + int p0 = (int)system_tokens.size() + slot.n_past; + if (!llama_kv_cache_seq_rm(ctx, slot.id + 1, p0, -1)) + { + // could not partially delete (likely using a non-Transformer model) + llama_kv_cache_seq_rm(ctx, slot.id + 1, -1, -1); + + p0 = (int)system_tokens.size(); + if (p0 != 0) + { + // copy over the system prompt when there is one + llama_kv_cache_seq_cp(ctx, 0, slot.id + 1, -1, -1); + } + + // there is no common part left (except for the system prompt) + slot.n_past = 0; + slot.n_past_se = 0; + slot.ga_i = 0; + // TODO: is the system prompt ever in the sampling context? + llama_sampling_reset(slot.ctx_sampling); + } + + // remove the non-common part from the cache + slot.cache_tokens.resize(slot.n_past); + + LOG_INFO("kv cache rm [p0, end)", {{"id_slot", slot.id}, {"id_task", slot.id_task}, {"p0", p0}}); + + int32_t slot_npast = slot.n_past_se > 0 ? slot.n_past_se : slot.n_past; + + int32_t ga_i = slot.ga_i; + int32_t ga_n = slot.ga_n; + int32_t ga_w = slot.ga_w; + + // add prompt tokens for processing in the current batch + // TODO: the self-extend stuff here is a mess - simplify and/or abstract it somehow + for (; slot.n_past < slot.n_prompt_tokens && batch.n_tokens < n_batch; ++slot.n_past) + { + if (slot.ga_n != 1) + { + while (slot_npast >= ga_i + ga_w) + { + const int bd = (ga_w / ga_n) * (ga_n - 1); + slot_npast -= bd; + ga_i += ga_w / ga_n; + } + } + + llama_batch_add(batch, prompt_tokens[slot.n_past], system_tokens.size() + slot_npast, + {slot.id + 1}, false); + + if (slot.params.cache_prompt) + { + slot.cache_tokens.push_back(prompt_tokens[slot.n_past]); + } + + slot.n_prompt_tokens_processed++; + slot_npast++; + } + + LOG_VERBOSE("prompt processing progress", + { + {"id_slot", slot.id}, + {"n_past", slot.n_past}, + {"n_ctx", n_ctx}, + {"n_tokens", batch.n_tokens}, + {"progress", (float)slot.n_prompt_tokens_processed / slot.n_prompt_tokens}, + }); + + // entire prompt has been processed - start decoding new tokens + if (slot.n_past == slot.n_prompt_tokens) + { + slot.state = SLOT_STATE_PROCESSING; + slot.command = SLOT_COMMAND_NONE; + + GGML_ASSERT(batch.n_tokens > 0); + + // extract the logits only for the last token + batch.logits[batch.n_tokens - 1] = true; + + slot.n_decoded = 0; + slot.i_batch = batch.n_tokens - 1; + + LOG_VERBOSE("prompt done", { + {"id_slot", slot.id}, + {"n_past", slot.n_past}, + {"n_ctx", n_ctx}, + {"n_tokens", batch.n_tokens}, + }); + } + } + + if (batch.n_tokens >= n_batch) + { + break; + } + } + } + + if (batch.n_tokens == 0) + { + LOG_VERBOSE("no tokens to decode", {}); + return; + } + + LOG_VERBOSE("decoding batch", { + {"n_tokens", batch.n_tokens}, + }); + + // process the created batch of tokens + for (int32_t i = 0; i < (int32_t)batch.n_tokens; i += n_batch) + { + const int32_t n_tokens = std::min(n_batch, batch.n_tokens - i); + + for (auto &slot : slots) + { + if (slot.ga_n != 1) + { + // context extension via Self-Extend + // TODO: simplify and/or abstract this + while (slot.n_past_se >= slot.ga_i + slot.ga_w) + { + const int ib = (slot.ga_n * slot.ga_i) / slot.ga_w; + const int bd = (slot.ga_w / slot.ga_n) * (slot.ga_n - 1); + const int dd = (slot.ga_w / slot.ga_n) - ib * bd - slot.ga_w; + + LOG_TEE("\n"); + LOG_TEE("shift: [%6d, %6d] + %6d -> [%6d, %6d]\n", slot.ga_i, slot.n_past_se, ib * bd, + slot.ga_i + ib * bd, slot.n_past_se + ib * bd); + LOG_TEE("div: [%6d, %6d] / %6d -> [%6d, %6d]\n", slot.ga_i + ib * bd, + slot.ga_i + ib * bd + slot.ga_w, slot.ga_n, (slot.ga_i + ib * bd) / slot.ga_n, + (slot.ga_i + ib * bd + slot.ga_w) / slot.ga_n); + LOG_TEE("shift: [%6d, %6d] + %6d -> [%6d, %6d]\n", slot.ga_i + ib * bd + slot.ga_w, + slot.n_past_se + ib * bd, dd, slot.ga_i + ib * bd + slot.ga_w + dd, + slot.n_past_se + ib * bd + dd); + + llama_kv_cache_seq_add(ctx, slot.id + 1, slot.ga_i, slot.n_past_se, ib * bd); + llama_kv_cache_seq_div(ctx, slot.id + 1, slot.ga_i + ib * bd, slot.ga_i + ib * bd + slot.ga_w, + slot.ga_n); + llama_kv_cache_seq_add(ctx, slot.id + 1, slot.ga_i + ib * bd + slot.ga_w, + slot.n_past_se + ib * bd, dd); + + slot.n_past_se -= bd; + + slot.ga_i += slot.ga_w / slot.ga_n; + + LOG_TEE("\nn_past_old = %d, n_past = %d, ga_i = %d\n\n", slot.n_past_se + bd, slot.n_past_se, + slot.ga_i); + } + + slot.n_past_se += n_tokens; + } + } + + llama_batch batch_view = { + n_tokens, + batch.token + i, + nullptr, + batch.pos + i, + batch.n_seq_id + i, + batch.seq_id + i, + batch.logits + i, + 0, + 0, + 0, // unused + }; + + const int ret = llama_decode(ctx, batch_view); + + if (ret != 0) + { + if (n_batch == 1 || ret < 0) + { + // if you get here, it means the KV cache is full - try increasing it via the context size + LOG_TEE("%s : failed to decode the batch, n_batch = %d, ret = %d\n", __func__, n_batch, ret); + for (auto &slot : slots) + { + slot.state = SLOT_STATE_PROCESSING; + slot.command = SLOT_COMMAND_NONE; + slot.release(); + send_error(slot, "Input prompt is too big compared to KV size. Please try increasing KV size."); + } + break; // break loop of n_batch + } + + LOG_TEE("%s : failed to find free space in the KV cache, retrying with smaller n_batch = %d\n", + __func__, n_batch / 2); + + // retry with half the batch size to try to find a free slot in the KV cache + n_batch /= 2; + i -= n_batch; + + continue; // continue loop of n_batch + } + + for (auto &slot : slots) + { + if (slot.state != SLOT_STATE_PROCESSING || slot.i_batch < (int)i || slot.i_batch >= (int)(i + n_tokens)) + { + continue; // continue loop of slots + } + + // prompt evaluated for embedding + if (slot.embedding) + { + send_embedding(slot, batch_view); + slot.release(); + slot.i_batch = -1; + continue; // continue loop of slots + } + + completion_token_output result; + const llama_token id = llama_sampling_sample(slot.ctx_sampling, ctx, NULL, slot.i_batch - i); + + llama_sampling_accept(slot.ctx_sampling, ctx, id, true); + + slot.n_decoded += 1; + if (slot.n_decoded == 1) + { + slot.t_start_generation = ggml_time_us(); + slot.t_prompt_processing = (slot.t_start_generation - slot.t_start_process_prompt) / 1e3; + metrics.on_prompt_eval(slot); + } + + llama_token_data_array cur_p = {slot.ctx_sampling->cur.data(), slot.ctx_sampling->cur.size(), false}; + result.tok = id; + + const int32_t n_probs = slot.sparams.n_probs; + if (slot.sparams.temp <= 0 && n_probs > 0) + { + // for llama_sample_token_greedy we need to sort candidates + llama_sample_softmax(ctx, &cur_p); + } + + for (size_t i = 0; i < std::min(cur_p.size, (size_t)n_probs); ++i) + { + result.probs.push_back({cur_p.data[i].id, cur_p.data[i].p}); + } + + if (!process_token(result, slot)) + { + slot.release(); + slot.print_timings(); + send_final_response(slot); + metrics.on_prediction(slot); + } + + slot.i_batch = -1; + } + } + + LOG_VERBOSE("run slots completed", {}); + } + + json model_meta() const + { + return json{ + {"vocab_type", llama_vocab_type(model)}, {"n_vocab", llama_n_vocab(model)}, + {"n_ctx_train", llama_n_ctx_train(model)}, {"n_embd", llama_n_embd(model)}, + {"n_params", llama_model_n_params(model)}, {"size", llama_model_size(model)}, + }; + } +}; diff --git a/src/main/cpp/utils.cpp b/src/main/cpp/utils.cpp new file mode 100644 index 00000000..d815bac3 --- /dev/null +++ b/src/main/cpp/utils.cpp @@ -0,0 +1,11 @@ +#pragma once + +#include "common.h" +#include "llama.h" + +#include "json.hpp" + +#include +#include +#include +#include From 071a4c311798916818bb657a22352b7a9b5559ad Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 13:22:23 +0200 Subject: [PATCH 033/285] Add numa strategy mirror --- src/main/java/de/kherud/llama/args/NumaStrategy.java | 5 +++-- 1 file changed, 3 insertions(+), 2 deletions(-) diff --git a/src/main/java/de/kherud/llama/args/NumaStrategy.java b/src/main/java/de/kherud/llama/args/NumaStrategy.java index ded2bc87..32bd7131 100644 --- a/src/main/java/de/kherud/llama/args/NumaStrategy.java +++ b/src/main/java/de/kherud/llama/args/NumaStrategy.java @@ -2,9 +2,10 @@ public enum NumaStrategy { - NONE, + DISABLED, DISTRIBUTE, ISOLATE, - NUMA_CTL + NUMA_CTL, + MIRROR } From d2a0910ac4753a155b6cbbe4fb4f31a9d813e504 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 13:22:52 +0200 Subject: [PATCH 034/285] Switch to json-based parameters --- .../llama/args/InferenceParameters.java | 491 +++++--------- .../de/kherud/llama/args/JsonParameters.java | 52 ++ .../de/kherud/llama/args/ModelParameters.java | 626 +++++++++--------- 3 files changed, 536 insertions(+), 633 deletions(-) create mode 100644 src/main/java/de/kherud/llama/args/JsonParameters.java diff --git a/src/main/java/de/kherud/llama/args/InferenceParameters.java b/src/main/java/de/kherud/llama/args/InferenceParameters.java index ec65b001..cf946078 100644 --- a/src/main/java/de/kherud/llama/args/InferenceParameters.java +++ b/src/main/java/de/kherud/llama/args/InferenceParameters.java @@ -1,489 +1,318 @@ package de.kherud.llama.args; -import java.io.BufferedReader; -import java.io.File; -import java.io.FileReader; -import java.io.IOException; -import java.lang.annotation.Native; -import java.util.Collections; import java.util.Map; -import org.jetbrains.annotations.NotNull; -import org.jetbrains.annotations.Nullable; - import de.kherud.llama.LlamaModel; /** * Parameters used throughout inference of a {@link LlamaModel}, e.g., {@link LlamaModel#generate(String)} and * {@link LlamaModel#complete(String)}. */ -public final class InferenceParameters { - - @Native - private int nPredict = -1; // new tokens to predict - @Native - private boolean cachePrompt = false; - // number of tokens to keep from initial prompt - @Native - private int nKeep = 0; - @Native - private int nDiscard = 0; - private int minKeep = 0; - // if greater than 0, output the probabilities of top nProbs tokens. - @Native - private int nProbs = 0; - // logit bias for specific tokens - @Nullable - @Native - private Map logitBias = null; - // <= 0 to use vocab size - @Native - private int topK = 40; - // 1.0 = disabled - @Native - private float topP = 0.95f; - @Native - private float minP = 0.05f; - // 1.0 = disabled - @Native - private float tfsZ = 1.00f; - // 1.0 = disabled - @Native - private float typicalP = 1.00f; - // 1.0 = disabled - @Native - private float temperature = 0.80f; - private float dynamicTemperatureRange = 0.00f; - private float dynamicTemperatureExponent = 1.00f; - // 1.0 = disabled - @Native - private float repeatPenalty = 1.10f; - // last n tokens to penalize (0 = disable penalty, -1 = context size) - @Native - private int repeatLastN = 64; - // 0.0 = disabled - @Native - private float frequencyPenalty = 0.00f; - // 0.0 = disabled - @Native - private float presencePenalty = 0.00f; - // 0.0 = disabled - @Native - private boolean penalizeNl = false; - @Native - private boolean ignoreEos = false; - // 0 = disabled, 1 = mirostat, 2 = mirostat 2.0 - @Native - private MiroStat mirostat = MiroStat.DISABLED; - // target entropy - @Native - private float mirostatTau = 5.00f; - // learning rate - @Native - private float mirostatEta = 0.10f; - @Native - private boolean beamSearch = false; - @Native - private int nBeams = 2; - // optional BNF-like grammar to constrain sampling - @Nullable - @Native - private String grammar = null; - // strings upon seeing which more user input is prompted - @Nullable - @Native - private String[] stopStrings = null; - @Nullable - @Native - private String[] promptTokenPenalties = null; - @Native - private Sampler[] samplers = null; - @Native - private int seed = 42; - - /** - * Set the amount of new tokens to predict - */ - public InferenceParameters setNPredict(int nPredict) { - this.nPredict = nPredict; - return this; - } +public final class InferenceParameters extends JsonParameters { + + private static final String PARAM_CACHE_PROMPT = "cache_prompt"; + private static final String PARAM_N_PREDICT = "n_predict"; + private static final String PARAM_TOP_K = "top_k"; + private static final String PARAM_TOP_P = "top_p"; + private static final String PARAM_MIN_P = "min_p"; + private static final String PARAM_TFS_Z = "tfs_z"; + private static final String PARAM_TYPICAL_P = "typical_p"; + private static final String PARAM_TEMPERATURE = "temperature"; + private static final String PARAM_DYNATEMP_RANGE = "dynatemp_range"; + private static final String PARAM_DYNATEMP_EXPONENT = "dynatemp_exponent"; + private static final String PARAM_REPEAT_LAST_N = "repeat_last_n"; + private static final String PARAM_REPEAT_PENALTY = "repeat_penalty"; + private static final String PARAM_FREQUENCY_PENALTY = "frequency_penalty"; + private static final String PARAM_PRESENCE_PENALTY = "presence_penalty"; + private static final String PARAM_MIROSTAT = "mirostat"; + private static final String PARAM_MIROSTAT_TAU = "mirostat_tau"; + private static final String PARAM_MIROSTAT_ETA = "mirostat_eta"; + private static final String PARAM_PENALIZE_NL = "penalize_nl"; + private static final String PARAM_N_KEEP = "n_keep"; + private static final String PARAM_SEED = "seed"; + private static final String PARAM_N_PROBS = "n_probs"; + private static final String PARAM_MIN_KEEP = "min_keep"; + private static final String PARAM_GRAMMAR = "grammar"; + private static final String PARAM_PENALTY_PROMPT = "penalty_prompt"; + private static final String PARAM_IGNORE_EOS = "ignore_eos"; + private static final String PARAM_LOGIT_BIAS = "logit_bias"; + private static final String PARAM_STOP = "stop"; + private static final String PARAM_SAMPLERS = "samplers"; /** - * + * Whether to remember the prompt to avoid reprocessing it */ public InferenceParameters setCachePrompt(boolean cachePrompt) { - this.cachePrompt = cachePrompt; + parameters.put(PARAM_CACHE_PROMPT, String.valueOf(cachePrompt)); return this; } /** - * + * Set the number of tokens to predict (default: -1, -1 = infinity, -2 = until context filled) */ - public InferenceParameters setNKeep(int nKeep) { - this.nKeep = nKeep; - return this; - } - - /** - * - */ - public InferenceParameters setNDiscard(int nDiscard) { - this.nDiscard = nDiscard; - return this; - } - - /** - * - */ - public InferenceParameters setMinKeep(int minKeep) { - this.minKeep = minKeep; - return this; - } - - /** - * - */ - public InferenceParameters setNProbs(int nProbs) { - this.nProbs = nProbs; + public InferenceParameters setNPredict(int nPredict) { + parameters.put(PARAM_N_PREDICT, String.valueOf(nPredict)); return this; } /** - * - */ - public InferenceParameters setLogitBias(@NotNull Map logitBias) { - this.logitBias = Collections.unmodifiableMap(logitBias); - return this; - } - - /** - * + * Set top-k sampling (default: 40, 0 = disabled) */ public InferenceParameters setTopK(int topK) { - this.topK = topK; + parameters.put(PARAM_TOP_K, String.valueOf(topK)); return this; } /** - * + * Set top-p sampling (default: 0.9, 1.0 = disabled) */ public InferenceParameters setTopP(float topP) { - this.topP = topP; + parameters.put(PARAM_TOP_P, String.valueOf(topP)); return this; } /** - * + * Set min-p sampling (default: 0.1, 0.0 = disabled) */ public InferenceParameters setMinP(float minP) { - this.minP = minP; + parameters.put(PARAM_MIN_P, String.valueOf(minP)); return this; } /** - * + * Set tail free sampling, parameter z (default: 1.0, 1.0 = disabled) */ public InferenceParameters setTfsZ(float tfsZ) { - this.tfsZ = tfsZ; + parameters.put(PARAM_TFS_Z, String.valueOf(tfsZ)); return this; } /** - * + * Set locally typical sampling, parameter p (default: 1.0, 1.0 = disabled) */ public InferenceParameters setTypicalP(float typicalP) { - this.typicalP = typicalP; + parameters.put(PARAM_TYPICAL_P, String.valueOf(typicalP)); return this; } /** - * + * Set the temperature (default: 0.8) */ public InferenceParameters setTemperature(float temperature) { - this.temperature = temperature; + parameters.put(PARAM_TEMPERATURE, String.valueOf(temperature)); return this; } /** - * + * Set the dynamic temperature range (default: 0.0, 0.0 = disabled) */ - public InferenceParameters setDynamicTemperatureRange(float dynamicTemperatureRange) { - this.dynamicTemperatureRange = dynamicTemperatureRange; + public InferenceParameters setDynamicTemperatureRange(float dynatempRange) { + parameters.put(PARAM_DYNATEMP_RANGE, String.valueOf(dynatempRange)); return this; } /** - * + * Set the dynamic temperature exponent (default: 1.0) */ - public InferenceParameters setDynamicTemperatureExponent(float dynamicTemperatureExponent) { - this.dynamicTemperatureExponent = dynamicTemperatureExponent; + public InferenceParameters setDynamicTemperatureExponent(float dynatempExponent) { + parameters.put(PARAM_DYNATEMP_EXPONENT, String.valueOf(dynatempExponent)); return this; } /** - * + * Set the last n tokens to consider for penalties (default: 64, 0 = disabled, -1 = ctx_size) */ - public InferenceParameters setRepeatPenalty(float repeatPenalty) { - this.repeatPenalty = repeatPenalty; + public InferenceParameters setRepeatLastN(int repeatLastN) { + parameters.put(PARAM_REPEAT_LAST_N, String.valueOf(repeatLastN)); return this; } /** - * + * Set the penalty of repeated sequences of tokens (default: 1.0, 1.0 = disabled) */ - public InferenceParameters setRepeatLastN(int repeatLastN) { - this.repeatLastN = repeatLastN; + public InferenceParameters setRepeatPenalty(float repeatPenalty) { + parameters.put(PARAM_REPEAT_PENALTY, String.valueOf(repeatPenalty)); return this; } /** - * + * Set the repetition alpha frequency penalty (default: 0.0, 0.0 = disabled) */ public InferenceParameters setFrequencyPenalty(float frequencyPenalty) { - this.frequencyPenalty = frequencyPenalty; + parameters.put(PARAM_FREQUENCY_PENALTY, String.valueOf(frequencyPenalty)); return this; } /** - * + * Set the repetition alpha presence penalty (default: 0.0, 0.0 = disabled) */ public InferenceParameters setPresencePenalty(float presencePenalty) { - this.presencePenalty = presencePenalty; + parameters.put(PARAM_PRESENCE_PENALTY, String.valueOf(presencePenalty)); return this; } /** - * + * Set MiroStat sampling strategies. */ - public InferenceParameters setPenalizeNl(boolean penalizeNl) { - this.penalizeNl = penalizeNl; + public InferenceParameters setMiroStat(MiroStat mirostat) { + parameters.put(PARAM_MIROSTAT, String.valueOf(mirostat.ordinal())); return this; } /** - * + * Set the MiroStat target entropy, parameter tau (default: 5.0) */ - public InferenceParameters setIgnoreEos(boolean ignoreEos) { - this.ignoreEos = ignoreEos; + public InferenceParameters setMiroStatTau(float mirostatTau) { + parameters.put(PARAM_MIROSTAT_TAU, String.valueOf(mirostatTau)); return this; } /** - * + * Set the MiroStat learning rate, parameter eta (default: 0.1) */ - public InferenceParameters setMirostat(MiroStat mirostat) { - this.mirostat = mirostat; + public InferenceParameters setMiroStatEta(float mirostatEta) { + parameters.put(PARAM_MIROSTAT_ETA, String.valueOf(mirostatEta)); return this; } /** - * + * Whether to penalize newline tokens */ - public InferenceParameters setMirostatTau(float mirostatTau) { - this.mirostatTau = mirostatTau; + public InferenceParameters setPenalizeNl(boolean penalizeNl) { + parameters.put(PARAM_PENALIZE_NL, String.valueOf(penalizeNl)); return this; } /** - * + * Set the number of tokens to keep from the initial prompt (default: 0, -1 = all) */ - public InferenceParameters setMirostatEta(float mirostatEta) { - this.mirostatEta = mirostatEta; + public InferenceParameters setNKeep(int nKeep) { + parameters.put(PARAM_N_KEEP, String.valueOf(nKeep)); return this; } /** - * + * Set the RNG seed (default: -1, use random seed for < 0) */ - public InferenceParameters setBeamSearch(boolean beamSearch) { - this.beamSearch = beamSearch; + public InferenceParameters setSeed(int seed) { + parameters.put(PARAM_SEED, String.valueOf(seed)); return this; } /** - * + * Set the amount top tokens probabilities to output if greater than 0. */ - public InferenceParameters setNBeams(int nBeams) { - this.nBeams = nBeams; + public InferenceParameters setNProbs(int nProbs) { + parameters.put(PARAM_N_PROBS, String.valueOf(nProbs)); return this; } - // default charset usage for Java backwards compatibility - @SuppressWarnings("ImplicitDefaultCharsetUsage") - public InferenceParameters setGrammar(@NotNull File file) throws IOException { - StringBuilder grammarBuilder = new StringBuilder(); - try (BufferedReader br = new BufferedReader(new FileReader(file))) { - String currentLine; - while ((currentLine = br.readLine()) != null) { - grammarBuilder.append(currentLine).append("\n"); - } - } - return setGrammar(grammarBuilder.toString()); + /** + * Set the amount of tokens the samplers should return at least (0 = disabled) + */ + public InferenceParameters setMinKeep(int minKeep) { + parameters.put(PARAM_MIN_KEEP, String.valueOf(minKeep)); + return this; } /** - * + * Set BNF-like grammar to constrain generations (see samples in grammars/ dir) */ - public InferenceParameters setGrammar(@Nullable String grammar) { - this.grammar = grammar; + public InferenceParameters setGrammar(String grammar) { + parameters.put(PARAM_GRAMMAR, toJsonString(grammar)); return this; } /** * */ - public InferenceParameters setStopStrings(@NotNull String... stopStrings) { - this.stopStrings = stopStrings; + public InferenceParameters setPenaltyPrompt(String penaltyPrompt) { + parameters.put(PARAM_PENALTY_PROMPT, toJsonString(penaltyPrompt)); return this; } /** * */ - public InferenceParameters setPromptTokenPenalties(@NotNull String... promptTokenPenalties) { - this.promptTokenPenalties = promptTokenPenalties; + public InferenceParameters setIgnoreEos(boolean ignoreEos) { + parameters.put(PARAM_IGNORE_EOS, String.valueOf(ignoreEos)); return this; } /** * */ - public InferenceParameters setSamplers(@NotNull Sampler... samplers) { - this.samplers = samplers; + public InferenceParameters setLogitBias(Map logitBias) { + if (!logitBias.isEmpty()) { + StringBuilder builder = new StringBuilder(); + builder.append("["); + int i = 0; + for (Map.Entry entry : logitBias.entrySet()) { + Integer key = entry.getKey(); + Float value = entry.getValue(); + builder.append("[") + .append(key) + .append(", ") + .append(value) + .append("]"); + if (i++ < logitBias.size()) { + builder.append(", "); + } + } + builder.append("]"); + parameters.put(PARAM_LOGIT_BIAS, builder.toString()); + } return this; } /** * */ - public InferenceParameters setSeed(int seed) { - this.seed = seed; + public InferenceParameters setStopStrings(String... stopStrings) { + if (stopStrings.length > 0) { + StringBuilder builder = new StringBuilder(); + builder.append("["); + for (int i = 0; i < stopStrings.length; i++) { + builder.append(toJsonString(stopStrings[i])); + if (i < stopStrings.length - 1) { + builder.append(", "); + } + } + builder.append("]"); + parameters.put(PARAM_STOP, builder.toString()); + } return this; } - public int getNPredict() { - return nPredict; - } - - public boolean isCachePrompt() { - return cachePrompt; - } - - public int getNKeep() { - return nKeep; - } - - public int getMinKeep() { - return minKeep; - } - - public int getNDiscard() { - return nDiscard; - } - - public int getNProbs() { - return nProbs; - } - - public @Nullable Map getLogitBias() { - return logitBias; - } - - public int getTopK() { - return topK; - } - - public float getTopP() { - return topP; - } - - public float getMinP() { - return minP; - } - - public float getTfsZ() { - return tfsZ; - } - - public float getTypicalP() { - return typicalP; - } - - public float getTemperature() { - return temperature; - } - - public float getDynamicTemperatureRange() { - return dynamicTemperatureRange; - } - - public float getDynamicTemperatureExponent() { - return dynamicTemperatureExponent; - } - - public float getRepeatPenalty() { - return repeatPenalty; - } - - public int getRepeatLastN() { - return repeatLastN; - } - - public float getFrequencyPenalty() { - return frequencyPenalty; - } - - public float getPresencePenalty() { - return presencePenalty; - } - - public boolean isPenalizeNl() { - return penalizeNl; - } - - public boolean isIgnoreEos() { - return ignoreEos; - } - - public MiroStat getMirostat() { - return mirostat; - } - - public float getMirostatTau() { - return mirostatTau; - } - - public float getMirostatEta() { - return mirostatEta; - } - - public boolean isBeamSearch() { - return beamSearch; - } - - public int getNBeams() { - return nBeams; - } - - public @Nullable String getGrammar() { - return grammar; - } - - public @Nullable String[] getStopStrings() { - return stopStrings; - } - - public @Nullable String[] getPromptTokenPenalties() { - return promptTokenPenalties; - } - - public @Nullable Sampler[] getSamplers() { - return samplers; - } - - public int getSeed() { - return seed; + /** + * + */ + public InferenceParameters setSamplers(Sampler... samplers) { + if (samplers.length > 0) { + StringBuilder builder = new StringBuilder(); + builder.append("["); + for (int i = 0; i < samplers.length; i++) { + switch (samplers[i]) { + case TOP_K: + break; + case TFS_Z: + break; + case TYPICAL_P: + break; + case TOP_P: + break; + case MIN_P: + break; + case TEMPERATURE: + break; + } + if (i < samplers.length - 1) { + builder.append(", "); + } + } + builder.append("]"); + parameters.put(PARAM_SAMPLERS, builder.toString()); + } + return this; } - } diff --git a/src/main/java/de/kherud/llama/args/JsonParameters.java b/src/main/java/de/kherud/llama/args/JsonParameters.java new file mode 100644 index 00000000..35c71a0c --- /dev/null +++ b/src/main/java/de/kherud/llama/args/JsonParameters.java @@ -0,0 +1,52 @@ +package de.kherud.llama.args; + +import java.util.HashMap; +import java.util.Map; + +/** + * The Java library re-uses most of the llama.cpp server code, which mostly works with JSONs. Thus, the complexity and + * maintainability is much lower if we work with JSONs. This class provides a simple abstraction to easily create + * JSON object strings by filling a Map<String, String> with key value pairs. + */ +abstract class JsonParameters { + + // We save parameters directly as a String map here, to re-use as much as possible of the (json-based) C++ code. + // The JNI code for a proper Java-typed data object is comparatively too complex and hard to maintain. + final Map parameters = new HashMap<>(); + + @Override + public String toString() { + StringBuilder builder = new StringBuilder(); + builder.append("{\n"); + int i = 0; + for (Map.Entry entry : parameters.entrySet()) { + String key = entry.getKey(); + String value = entry.getValue(); + builder.append("\t\"") + .append(key) + .append("\": ") + .append(value); + if (i++ < parameters.size() - 1) { + builder.append(","); + } + builder.append("\n"); + } + builder.append("}"); + return builder.toString(); + } + + String toJsonString(String text) { + if (text == null) return null; + StringBuilder builder = new StringBuilder((text.length()) + 2); + builder.append('"'); + for (int i = 0; i < text.length(); i++) { + char c = text.charAt(i); + if (c == '"' || c == '\\') { + builder.append('\\'); + } + builder.append(c); + } + builder.append('"'); + return builder.toString(); + } +} diff --git a/src/main/java/de/kherud/llama/args/ModelParameters.java b/src/main/java/de/kherud/llama/args/ModelParameters.java index 2ed70724..3c4948bb 100644 --- a/src/main/java/de/kherud/llama/args/ModelParameters.java +++ b/src/main/java/de/kherud/llama/args/ModelParameters.java @@ -1,211 +1,186 @@ package de.kherud.llama.args; -import java.lang.annotation.Native; +import java.util.Map; import de.kherud.llama.LlamaModel; -/** +/*** * Parameters used for initializing a {@link LlamaModel}. */ -public final class ModelParameters { - - @Native - private int seed = -1; // RNG seed - @Native - private int nThreads = Runtime.getRuntime().availableProcessors(); - @Native - private int nThreadsBatch = -1; // number of threads to use for batch processing (-1 = use n_threads) - @Native - private String modelFilePath; // model path - @Native - private String modelUrl; // model url to download - @Native - private String huggingFaceRepository; // HF repo - @Native - private String huggingFaceFile; // HF file - @Native - private String modelAlias; // model alias - @Native - private String systemPromptFile; - @Native - private int nCtx = 512; // context size - @Native - private int nBatch = 2048; // logical batch size for prompt processing (must be >=32 to use BLAS) - @Native - private int nUBatch = 512; // physical batch size for prompt processing (must be >=32 to use BLAS) - @Native - private int nParallel = 1; // number of parallel sequences to decode - @Native - private int nPredict = -1; // new tokens to predict - @Native - private GpuSplitMode gpuSplitMode = GpuSplitMode.LAYER; // how to split the model across GPUs - @Native - private int nGpuLayers = -1; // number of layers to store in VRAM (-1 - use default) - @Native - private int mainGpu = 0; // the GPU that is used for scratch and small tensors - @Native - private float[] tensorSplit = null; // // how split tensors should be distributed across GPUs - @Native - private RopeScalingType ropeScalingType = RopeScalingType.UNSPECIFIED; - @Native - private float ropeFreqBase = 0f; // RoPE base frequency - @Native - private float ropeFreqScale = 0f; // RoPE frequency scaling factor - @Native - private float yarnExtFactor = -1.0f; - @Native - private float yarnAttnFactor = 1.0f; - @Native - private float yarnBetaFast = 32.0f; - @Native - private float yarnBetaSlow = 1.0f; - @Native - private PoolingType poolingType = PoolingType.UNSPECIFIED; // pooling type for embeddings - @Native - private float defragmentationThreshold = -1.0f; // KV cache defragmentation threshold - @Native - private int groupAttnN = 1; - @Native - private int groupAttnW = 512; - @Native - private boolean useMmap = true; // use mmap if possible - @Native - private boolean useMlock = false; // force system to keep model in RAM - @Native - private boolean noKVOffload = false; - @Native - private boolean embedding = false; // embedding mode - @Native - private boolean continuousBatching = true; // insert new sequences for decoding on-the-fly - @Native - private NumaStrategy numa = NumaStrategy.NONE; // attempt optimizations that help on some NUMA systems - @Native - private LogFormat logFormat = LogFormat.TEXT; - @Native - private boolean verbose = false; - -// @Nullable -// private String loraAdapter = null; -// @Nullable -// private String loraBase = null; +public final class ModelParameters extends JsonParameters { + + private static final String PARAM_SEED = "seed"; + private static final String PARAM_N_THREADS = "n_threads"; + private static final String PARAM_N_THREADS_DRAFT = "n_threads_draft"; + private static final String PARAM_N_THREADS_BATCH = "n_threads_batch"; + private static final String PARAM_N_THREADS_BATCH_DRAFT = "n_threads_batch_draft"; + private static final String PARAM_N_PREDICT = "n_predict"; + private static final String PARAM_N_CTX = "n_ctx"; + private static final String PARAM_N_BATCH = "n_batch"; + private static final String PARAM_N_UBATCH = "n_ubatch"; + private static final String PARAM_N_KEEP = "n_keep"; + private static final String PARAM_N_DRAFT = "n_draft"; + private static final String PARAM_N_CHUNKS = "n_chunks"; + private static final String PARAM_N_PARALLEL = "n_parallel"; + private static final String PARAM_N_SEQUENCES = "n_sequences"; + private static final String PARAM_P_SPLIT = "p_split"; + private static final String PARAM_N_GPU_LAYERS = "n_gpu_layers"; + private static final String PARAM_N_GPU_LAYERS_DRAFT = "n_gpu_layers_draft"; + private static final String PARAM_SPLIT_MODE = "split_mode"; + private static final String PARAM_MAIN_GPU = "main_gpu"; + private static final String PARAM_TENSOR_SPLIT = "tensor_split"; + private static final String PARAM_N_BEAMS = "n_beams"; + private static final String PARAM_GRP_ATTN_N = "grp_attn_n"; + private static final String PARAM_GRP_ATTN_W = "grp_attn_w"; + private static final String PARAM_ROPE_FREQ_BASE = "rope_freq_base"; + private static final String PARAM_ROPE_FREQ_SCALE = "rope_freq_scale"; + private static final String PARAM_YARN_EXT_FACTOR = "yarn_ext_factor"; + private static final String PARAM_YARN_ATTN_FACTOR = "yarn_attn_factor"; + private static final String PARAM_YARN_BETA_FAST = "yarn_beta_fast"; + private static final String PARAM_YARN_BETA_SLOW = "yarn_beta_slow"; + private static final String PARAM_YARN_ORIG_CTX = "yarn_orig_ctx"; + private static final String PARAM_DEFRAG_THOLD = "defrag_thold"; + private static final String PARAM_NUMA = "numa"; + private static final String PARAM_ROPE_SCALING_TYPE = "rope_scaling_type"; + private static final String PARAM_POOLING_TYPE = "pooling_type"; + private static final String PARAM_MODEL = "model"; + private static final String PARAM_MODEL_DRAFT = "model_draft"; + private static final String PARAM_MODEL_ALIAS = "model_alias"; + private static final String PARAM_MODEL_URL = "model_url"; + private static final String PARAM_HF_REPO = "hf_repo"; + private static final String PARAM_HF_FILE = "hf_file"; + private static final String PARAM_ANTIPROMPT = "antiprompt"; + private static final String PARAM_LOGDIR = "logdir"; + private static final String PARAM_LOOKUP_CACHE_STATIC = "lookup_cache_static"; + private static final String PARAM_LOOKUP_CACHE_DYNAMIC = "lookup_cache_dynamic"; + private static final String PARAM_LORA_ADAPTER = "lora_adapter"; + private static final String PARAM_LORA_BASE = "lora_base"; + private static final String PARAM_EMBEDDING = "embedding"; + private static final String PARAM_CONT_BATCHING = "cont_batching"; + private static final String PARAM_INPUT_PREFIX_BOS = "input_prefix_bos"; + private static final String PARAM_IGNORE_EOS = "ignore_eos"; + private static final String PARAM_USE_MMAP = "use_mmap"; + private static final String PARAM_USE_MLOCK = "use_mlock"; + private static final String PARAM_NO_KV_OFFLOAD = "no_kv_offload"; /** * Set the RNG seed */ public ModelParameters setSeed(int seed) { - this.seed = seed; + parameters.put(PARAM_SEED, String.valueOf(seed)); return this; } /** - * Set the total amount of threads ever used + * Set the number of threads to use during generation (default: 8) */ public ModelParameters setNThreads(int nThreads) { - this.nThreads = nThreads; + parameters.put(PARAM_N_THREADS, String.valueOf(nThreads)); return this; } /** - * number of threads to use for batch processing (-1 = use {@link #nThreads}) + * Set the number of threads to use during draft generation (default: same as {@link #setNThreads(int)}) */ - public ModelParameters setNThreadsBatch(int nThreadsBatch) { - this.nThreadsBatch = nThreadsBatch; + public ModelParameters setNThreadsDraft(int nThreadsDraft) { + parameters.put(PARAM_N_THREADS_DRAFT, String.valueOf(nThreadsDraft)); return this; } /** - * Set a file path to load the model from + * Set the number of threads to use during batch and prompt processing (default: same as {@link #setNThreads(int)}) */ - public ModelParameters setModelFilePath(String modelFilePath) { - this.modelFilePath = modelFilePath; + public ModelParameters setNThreadsBatch(int nThreadsBatch) { + parameters.put(PARAM_N_THREADS_BATCH, String.valueOf(nThreadsBatch)); return this; } /** - * Set a URL to load the model from + * Set the number of threads to use during batch and prompt processing (default: same as + * {@link #setNThreadsDraft(int)}) */ - public ModelParameters setModelUrl(String modelUrl) { - this.modelUrl = modelUrl; + public ModelParameters setNThreadsBatchDraft(int nThreadsBatchDraft) { + parameters.put(PARAM_N_THREADS_BATCH_DRAFT, String.valueOf(nThreadsBatchDraft)); return this; } /** - * Set a HuggingFace repository to load a model from (see {@link #setHuggingFaceFile(String)}) + * Set the number of tokens to predict (default: -1, -1 = infinity, -2 = until context filled) */ - public ModelParameters setHuggingFaceRepository(String huggingFaceRepository) { - this.huggingFaceRepository = huggingFaceRepository; + public ModelParameters setNPredict(int nPredict) { + parameters.put(PARAM_N_PREDICT, String.valueOf(nPredict)); return this; } /** - * Set a HuggingFace file to load a model from (see {@link #setHuggingFaceRepository(String)}) + * Set the size of the prompt context (default: 512, 0 = loaded from model) */ - public ModelParameters setHuggingFaceFile(String huggingFaceFile) { - this.huggingFaceFile = huggingFaceFile; + public ModelParameters setNCtx(int nCtx) { + parameters.put(PARAM_N_CTX, String.valueOf(nCtx)); return this; } /** - * Set the model alias + * Set the logical batch size for prompt processing (must be >=32 to use BLAS) */ - public ModelParameters setModelAlias(String modelAlias) { - this.modelAlias = modelAlias; + public ModelParameters setNBatch(int nBatch) { + parameters.put(PARAM_N_BATCH, String.valueOf(nBatch)); return this; } /** - * Set a file path to load a system prompt from + * Set the physical batch size for prompt processing (must be >=32 to use BLAS) */ - public ModelParameters setSystemPrompt(String systemPromptFile) { - this.systemPromptFile = systemPromptFile; + public ModelParameters setNUbatch(int nUbatch) { + parameters.put(PARAM_N_UBATCH, String.valueOf(nUbatch)); return this; } /** - * Set the context size + * Set the number of tokens to keep from the initial prompt (default: 0, -1 = all) */ - public ModelParameters setNCtx(int nCtx) { - this.nCtx = nCtx; + public ModelParameters setNKeep(int nKeep) { + parameters.put(PARAM_N_KEEP, String.valueOf(nKeep)); return this; } /** - * Set the logical batch size for prompt processing (must be >=32 to use BLAS) + * Set the number of tokens to draft for speculative decoding (default: 5) */ - public ModelParameters setNBatch(int nBatch) { - this.nBatch = nBatch; + public ModelParameters setNDraft(int nDraft) { + parameters.put(PARAM_N_DRAFT, String.valueOf(nDraft)); return this; } /** - * Set the physical batch size for prompt processing (must be >=32 to use BLAS) + * Set the maximal number of chunks to process (default: -1, -1 = all) */ - public ModelParameters setNUBatch(int nUBatch) { - this.nUBatch = nUBatch; + public ModelParameters setNChunks(int nChunks) { + parameters.put(PARAM_N_CHUNKS, String.valueOf(nChunks)); return this; } /** - * Set how the number of parallel sequences to decode + * Set the number of parallel sequences to decode (default: 1) */ public ModelParameters setNParallel(int nParallel) { - this.nParallel = nParallel; + parameters.put(PARAM_N_PARALLEL, String.valueOf(nParallel)); return this; } /** - * Set the amount of new tokens to predict + * Set the number of sequences to decode (default: 1) */ - public ModelParameters setNPredict(int nPredict) { - this.nPredict = nPredict; + public ModelParameters setNSequences(int nSequences) { + parameters.put(PARAM_N_SEQUENCES, String.valueOf(nSequences)); return this; } /** - * Set how to split the model across GPUs + * Set the speculative decoding split probability (default: 0.1) */ - public ModelParameters setGpuSplitMode(GpuSplitMode gpuSplitMode) { - this.gpuSplitMode = gpuSplitMode; + public ModelParameters setPSplit(float pSplit) { + parameters.put(PARAM_P_SPLIT, String.valueOf(pSplit)); return this; } @@ -213,319 +188,366 @@ public ModelParameters setGpuSplitMode(GpuSplitMode gpuSplitMode) { * Set the number of layers to store in VRAM (-1 - use default) */ public ModelParameters setNGpuLayers(int nGpuLayers) { - this.nGpuLayers = nGpuLayers; + parameters.put(PARAM_N_GPU_LAYERS, String.valueOf(nGpuLayers)); return this; } /** - * Set the GPU that is used for scratch and small tensors + * Set the number of layers to store in VRAM for the draft model (-1 - use default) */ - public ModelParameters setMainGpu(int mainGpu) { - this.mainGpu = mainGpu; + public ModelParameters setNGpuLayersDraft(int nGpuLayersDraft) { + parameters.put(PARAM_N_GPU_LAYERS_DRAFT, String.valueOf(nGpuLayersDraft)); return this; } /** - * Set how split tensors should be distributed across GPUs + * Set how to split the model across GPUs */ - public ModelParameters setTensorSplit(float[] tensorSplit) { - this.tensorSplit = tensorSplit; + public ModelParameters setSplitMode(GpuSplitMode splitMode) { +// switch (splitMode) { +// case NONE: parameters.put(PARAM_SPLIT_MODE, "\"none\""); break; +// case ROW: parameters.put(PARAM_SPLIT_MODE, "\"row\""); break; +// case LAYER: parameters.put(PARAM_SPLIT_MODE, "\"layer\""); break; +// } + parameters.put(PARAM_SPLIT_MODE, String.valueOf(splitMode.ordinal())); return this; } /** - * Set the RoPE scaling type + * Set the GPU that is used for scratch and small tensors */ - public ModelParameters setRopeScalingType(RopeScalingType ropeScalingType) { - this.ropeScalingType = ropeScalingType; + public ModelParameters setMainGpu(int mainGpu) { + parameters.put(PARAM_MAIN_GPU, String.valueOf(mainGpu)); return this; } /** - * Set the RoPE base frequency + * Set how split tensors should be distributed across GPUs */ - public ModelParameters setRopeFreqBase(float ropeFreqBase) { - this.ropeFreqBase = ropeFreqBase; + public ModelParameters setTensorSplit(float[] tensorSplit) { + if (tensorSplit.length > 0) { + StringBuilder builder = new StringBuilder(); + builder.append("["); + for (int i = 0; i < tensorSplit.length; i++) { + builder.append(tensorSplit[i]); + if (i < tensorSplit.length - 1) { + builder.append(", "); + } + } + builder.append("]"); + parameters.put(PARAM_TENSOR_SPLIT, builder.toString()); + } return this; } /** - * Set the RoPE frequency scaling factor + * Set usage of beam search of given width if non-zero. */ - public ModelParameters setRopeFreqScale(float ropeFreqScale) { - this.ropeFreqScale = ropeFreqScale; + public ModelParameters setNBeams(int nBeams) { + parameters.put(PARAM_N_BEAMS, String.valueOf(nBeams)); return this; } /** - * Set the YaRN extrapolation mix factor + * Set the group-attention factor (default: 1) */ - public ModelParameters setYarnExtrapolationFactor(float yarnExtFactor) { - this.yarnExtFactor = yarnExtFactor; + public ModelParameters setGrpAttnN(int grpAttnN) { + parameters.put(PARAM_GRP_ATTN_N, String.valueOf(grpAttnN)); return this; } /** - * Set the YaRN magnitude scaling factor + * Set the group-attention width (default: 512.0) */ - public ModelParameters setYarnMagnitudeFactor(float yarnAttnFactor) { - this.yarnAttnFactor = yarnAttnFactor; + public ModelParameters setGrpAttnW(int grpAttnW) { + parameters.put(PARAM_GRP_ATTN_W, String.valueOf(grpAttnW)); return this; } /** - * Set the YaRN low correction dim + * Set the RoPE base frequency, used by NTK-aware scaling (default: loaded from model) */ - public ModelParameters setYarnBetaFast(float yarnBetaFast) { - this.yarnBetaFast = yarnBetaFast; + public ModelParameters setRopeFreqBase(float ropeFreqBase) { + parameters.put(PARAM_ROPE_FREQ_BASE, String.valueOf(ropeFreqBase)); return this; } /** - * Set the YaRN high correction dim + * Set the RoPE frequency scaling factor, expands context by a factor of 1/N */ - public ModelParameters setYarnBetaSlow(float yarnBetaSlow) { - this.yarnBetaSlow = yarnBetaSlow; + public ModelParameters setRopeFreqScale(float ropeFreqScale) { + parameters.put(PARAM_ROPE_FREQ_SCALE, String.valueOf(ropeFreqScale)); return this; } /** - * Set the pooling type for embeddings + * Set the YaRN extrapolation mix factor (default: 1.0, 0.0 = full interpolation) */ - public ModelParameters setPoolingType(PoolingType poolingType) { - this.poolingType = poolingType; + public ModelParameters setYarnExtFactor(float yarnExtFactor) { + parameters.put(PARAM_YARN_EXT_FACTOR, String.valueOf(yarnExtFactor)); return this; } /** - * Set the KV cache defragmentation threshold + * Set the YaRN scale sqrt(t) or attention magnitude (default: 1.0) */ - public ModelParameters setDefragmentationThreshold(float defragmentationThreshold) { - this.defragmentationThreshold = defragmentationThreshold; + public ModelParameters setYarnAttnFactor(float yarnAttnFactor) { + parameters.put(PARAM_YARN_ATTN_FACTOR, String.valueOf(yarnAttnFactor)); return this; } /** - * Set the group-attention factor + * Set the YaRN low correction dim or beta (default: 32.0) */ - public ModelParameters setGroupAttnN(int groupAttnN) { - this.groupAttnN = groupAttnN; + public ModelParameters setYarnBetaFast(float yarnBetaFast) { + parameters.put(PARAM_YARN_BETA_FAST, String.valueOf(yarnBetaFast)); return this; } /** - * Set the group-attention width + * Set the YaRN high correction dim or alpha (default: 1.0) */ - public ModelParameters setGroupAttnW(int groupAttnW) { - this.groupAttnW = groupAttnW; + public ModelParameters setYarnBetaSlow(float yarnBetaSlow) { + parameters.put(PARAM_YARN_BETA_SLOW, String.valueOf(yarnBetaSlow)); return this; } /** - * Whether to use mmap for faster loads + * Set the YaRN original context size of model (default: 0 = model training context size) */ - public ModelParameters setUseMmap(boolean useMmap) { - this.useMmap = useMmap; + public ModelParameters setYarnOrigCtx(int yarnOrigCtx) { + parameters.put(PARAM_YARN_ORIG_CTX, String.valueOf(yarnOrigCtx)); return this; } /** - * Whether to use mlock to keep model in memory + * Set the KV cache defragmentation threshold (default: -1.0, < 0 - disabled) */ - public ModelParameters setUseMlock(boolean useMlock) { - this.useMlock = useMlock; + public ModelParameters setDefragmentationThreshold(float defragThold) { + parameters.put(PARAM_DEFRAG_THOLD, String.valueOf(defragThold)); return this; } /** - * Whether to disable KV offloading + * Set optimization strategies that help on some NUMA systems (if available) + *

distribute: spread execution evenly over all nodes
isolate: only spawn threads on CPUs on the node that execution started on
numactl: use the CPU map provided by numactl

+ * If run without this previously, it is recommended to drop the system page cache before using this + * (see #1437). */ - public ModelParameters setNoKVOffload(boolean noKVOffload) { - this.noKVOffload = noKVOffload; + public ModelParameters setNuma(NumaStrategy numa) { +// switch (numa) { +// case DISTRIBUTE: +// parameters.put(PARAM_NUMA, "\"distribute\""); +// break; +// case ISOLATE: +// parameters.put(PARAM_NUMA, "\"isolate\""); +// break; +// case NUMA_CTL: +// parameters.put(PARAM_NUMA, "\"numactl\""); +// break; +// case MIRROR: +// parameters.put(PARAM_NUMA, "\"mirror\""); +// break; +// } + parameters.put(PARAM_NUMA, String.valueOf(numa.ordinal())); return this; } /** - * Whether to only get sentence embeddings + * Set the RoPE frequency scaling method, defaults to linear unless specified by the model */ - public ModelParameters setEmbedding(boolean embedding) { - this.embedding = embedding; + public ModelParameters setRopeScalingType(RopeScalingType ropeScalingType) { +// switch (ropeScalingType) { +// case LINEAR: +// parameters.put(PARAM_ROPE_SCALING_TYPE, "\"linear\""); +// break; +// case YARN: +// parameters.put(PARAM_ROPE_SCALING_TYPE, "\"yarn\""); +// break; +// } + parameters.put(PARAM_ROPE_SCALING_TYPE, String.valueOf(ropeScalingType.ordinal())); return this; } /** - * Whether to insert new sequences for decoding on-the-fly + * Set the pooling type for embeddings, use model default if unspecified */ - public ModelParameters setContinuousBatching(boolean continuousBatching) { - this.continuousBatching = continuousBatching; + public ModelParameters setPoolingType(PoolingType poolingType) { +// switch (poolingType) { +// case MEAN: +// parameters.put(PARAM_POOLING_TYPE, "\"mean\""); +// break; +// case CLS: +// parameters.put(PARAM_POOLING_TYPE, "\"cls\""); +// break; +// } + parameters.put(PARAM_POOLING_TYPE, String.valueOf(poolingType.ordinal())); return this; } /** - * Set a numa strategy if compiled with NUMA support + * Set the model file path to load (default: models/7B/ggml-model-f16.gguf) */ - public ModelParameters setNumaStrategy(NumaStrategy numa) { - this.numa = numa; + public ModelParameters setModelFilePath(String model) { + parameters.put(PARAM_MODEL, toJsonString(model)); return this; } /** - * Set the log format + * Set the draft model for speculative decoding (default: unused) */ - public ModelParameters setLogFormat(LogFormat logFormat) { - this.logFormat = logFormat; + public ModelParameters setModelDraft(String modelDraft) { + parameters.put(PARAM_MODEL_DRAFT, toJsonString(modelDraft)); return this; } /** - * Whether to log additional output (if compiled with LLAMA_VERBOSE) + * Set a model alias */ - public ModelParameters setVerbose(boolean verbose) { - this.verbose = verbose; + public ModelParameters setModelAlias(String modelAlias) { + parameters.put(PARAM_MODEL_ALIAS, toJsonString(modelAlias)); return this; } - public int getSeed() { - return seed; - } - - public int getNThreads() { - return nThreads; - } - - public int getNThreadsBatch() { - return nThreadsBatch; - } - - public String getModelFilePath() { - return modelFilePath; - } - - public String getModelUrl() { - return modelUrl; - } - - public String getHuggingFaceRepository() { - return huggingFaceRepository; - } - - public String getHuggingFaceFile() { - return huggingFaceFile; - } - - public String getModelAlias() { - return modelAlias; - } - - public String getSystemPromptFile() { - return systemPromptFile; - } - - public int getNCtx() { - return nCtx; - } - - public int getNBatch() { - return nBatch; - } - - public int getNUBatch() { - return nUBatch; - } - - public int getNParallel() { - return nParallel; - } - - public int getNPredict() { - return nPredict; - } - - public GpuSplitMode getGpuSplitMode() { - return gpuSplitMode; - } - - public int getNGpuLayers() { - return nGpuLayers; - } - - public int getMainGpu() { - return mainGpu; - } - - public float[] getTensorSplit() { - return tensorSplit; - } - - public RopeScalingType getRopeScalingType() { - return ropeScalingType; - } - - public float getRopeFreqBase() { - return ropeFreqBase; - } - - public float getRopeFreqScale() { - return ropeFreqScale; - } - - public float getYarnExtFactor() { - return yarnExtFactor; + /** + * Set a URL to download a model from (default: unused) + */ + public ModelParameters setModelUrl(String modelUrl) { + parameters.put(PARAM_MODEL_URL, toJsonString(modelUrl)); + return this; } - public float getYarnAttnFactor() { - return yarnAttnFactor; + /** + * Set a Hugging Face model repository to use a model from (default: unused, see + * {@link #setHuggingFaceFile(String)}) + */ + public ModelParameters setHuggingFaceRepository(String hfRepo) { + parameters.put(PARAM_HF_REPO, toJsonString(hfRepo)); + return this; } - public float getYarnBetaFast() { - return yarnBetaFast; + /** + * Set a Hugging Face model file to use (default: unused, see {@link #setHuggingFaceRepository(String)}) + */ + public ModelParameters setHuggingFaceFile(String hfFile) { + parameters.put(PARAM_HF_FILE, toJsonString(hfFile)); + return this; } - public float getYarnBetaSlow() { - return yarnBetaSlow; + /** + * Set path under which to save YAML logs (no logging if unset) + */ + public ModelParameters setLogDirectory(String logdir) { + parameters.put(PARAM_LOGDIR, toJsonString(logdir)); + return this; } - public PoolingType getPoolingType() { - return poolingType; + /** + * Set path to static lookup cache to use for lookup decoding (not updated by generation) + */ + public ModelParameters setLookupCacheStaticFilePath(String lookupCacheStatic) { + parameters.put(PARAM_LOOKUP_CACHE_STATIC, toJsonString(lookupCacheStatic)); + return this; } - public float getDefragmentationThreshold() { - return defragmentationThreshold; + /** + * Set path to dynamic lookup cache to use for lookup decoding (updated by generation) + */ + public ModelParameters setLookupCacheDynamicFilePath(String lookupCacheDynamic) { + parameters.put(PARAM_LOOKUP_CACHE_DYNAMIC, toJsonString(lookupCacheDynamic)); + return this; } - public int getGroupAttnN() { - return groupAttnN; + /** + * Set LoRA adapters to use (implies --no-mmap). + * The key is expected to be a file path, the values are expected to be scales. + */ + public ModelParameters setLoraAdapters(Map loraAdapters) { + if (!loraAdapters.isEmpty()) { + StringBuilder builder = new StringBuilder(); + builder.append("{"); + int i = 0; + for (Map.Entry entry : loraAdapters.entrySet()) { + String key = entry.getKey(); + Float value = entry.getValue(); + builder.append(toJsonString(key)) + .append(": ") + .append(value); + if (i++ < loraAdapters.size() - 1) { + builder.append(", "); + } + } + builder.append("}"); + parameters.put(PARAM_LORA_ADAPTER, builder.toString()); + } + return this; } - public int getGroupAttnW() { - return groupAttnW; + /** + * Set an optional model to use as a base for the layers modified by the LoRA adapter + */ + public ModelParameters setLoraBase(String loraBase) { + parameters.put(PARAM_LORA_BASE, toJsonString(loraBase)); + return this; } - public boolean isUseMmap() { - return useMmap; + /** + * Whether to only get sentence embeddings + */ + public ModelParameters setEmbedding(boolean embedding) { + parameters.put(PARAM_EMBEDDING, String.valueOf(embedding)); + return this; } - public boolean isUseMlock() { - return useMlock; + /** + * Whether to enable continuous batching (also called "dynamic batching") (default: disabled) + */ + public ModelParameters setContinuousBatching(boolean contBatching) { + parameters.put(PARAM_CONT_BATCHING, String.valueOf(contBatching)); + return this; } - public boolean isNoKVOffload() { - return noKVOffload; + /** + * Whether to add prefix BOS to user inputs, preceding the `--in-prefix` string + */ + public ModelParameters setInputPrefixBos(boolean inputPrefixBos) { + parameters.put(PARAM_INPUT_PREFIX_BOS, String.valueOf(inputPrefixBos)); + return this; } - public boolean isEmbedding() { - return embedding; + /** + * Whether to ignore end of stream token and continue generating (implies --logit-bias 2-inf) + */ + public ModelParameters setIgnoreEos(boolean ignoreEos) { + parameters.put(PARAM_IGNORE_EOS, String.valueOf(ignoreEos)); + return this; } - public NumaStrategy getNuma() { - return numa; + /** + * Whether to use memory-map model (faster load but may increase pageouts if not using mlock) + */ + public ModelParameters setUseMmap(boolean useMmap) { + parameters.put(PARAM_USE_MMAP, String.valueOf(useMmap)); + return this; } - public LogFormat getLogFormat() { - return logFormat; + /** + * Whether to force the system to keep model in RAM rather than swapping or compressing + */ + public ModelParameters setUseMlock(boolean useMlock) { + parameters.put(PARAM_USE_MLOCK, String.valueOf(useMlock)); + return this; } - public boolean isVerbose() { - return verbose; + /** + * Whether to disable KV offload + */ + public ModelParameters setNoKvOffload(boolean noKvOffload) { + parameters.put(PARAM_NO_KV_OFFLOAD, String.valueOf(noKvOffload)); + return this; } } From 463d3a8f87887284642236f4caf4d51f45d8c53b Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 13:24:02 +0200 Subject: [PATCH 035/285] Add server and util headers --- src/main/cpp/{server.cpp => server.hpp} | 450 +++++++++++++++- src/main/cpp/utils.cpp | 11 - src/main/cpp/utils.hpp | 656 ++++++++++++++++++++++++ 3 files changed, 1085 insertions(+), 32 deletions(-) rename src/main/cpp/{server.cpp => server.hpp} (79%) delete mode 100644 src/main/cpp/utils.cpp create mode 100644 src/main/cpp/utils.hpp diff --git a/src/main/cpp/server.cpp b/src/main/cpp/server.hpp similarity index 79% rename from src/main/cpp/server.cpp rename to src/main/cpp/server.hpp index f30e1fce..5d16a1e6 100644 --- a/src/main/cpp/server.cpp +++ b/src/main/cpp/server.hpp @@ -2,6 +2,7 @@ #include "grammar-parser.h" #include "json.hpp" #include "llama.h" +#include "utils.hpp" #include #include @@ -50,22 +51,16 @@ enum server_task_type SERVER_TASK_TYPE_METRICS }; -struct server_task -{ - int id = -1; // to be filled by server_queue - int id_multi = -1; +struct server_task { + int id = -1; // to be filled by server_queue + int id_multi = -1; int id_target = -1; server_task_type type; - jobject data; - - std::string prompt; - std::string input_prefix; - std::string input_suffix; + json data; - bool infill = false; + bool infill = false; bool embedding = false; - bool stream = false; }; struct server_task_result @@ -87,21 +82,19 @@ struct server_task_multi std::vector results; }; -struct slot_params -{ - bool stream = true; +struct slot_params { + bool stream = true; bool cache_prompt = false; // remember the prompt to avoid reprocessing all prompt - uint32_t seed = -1; // RNG seed - int32_t n_keep = 0; // number of tokens to keep from initial prompt - int32_t n_discard = - 0; // number of tokens after n_keep that may be discarded when shifting context, 0 defaults to half - int32_t n_predict = -1; // new tokens to predict + uint32_t seed = -1; // RNG seed + int32_t n_keep = 0; // number of tokens to keep from initial prompt + int32_t n_discard = 0; // number of tokens after n_keep that may be discarded when shifting context, 0 defaults to half + int32_t n_predict = -1; // new tokens to predict std::vector antiprompt; - std::string input_prefix; - std::string input_suffix; + json input_prefix; + json input_suffix; }; struct server_params @@ -492,6 +485,8 @@ struct server_queue { LOG_VERBOSE("new task may arrive", {}); + std::cout << "hello, X" << std::endl; + while (true) { std::unique_lock lock(mutex_tasks); @@ -877,6 +872,208 @@ struct server_context return last_used; } + bool launch_slot_with_task(server_slot & slot, const server_task & task) { + slot_params default_params; + llama_sampling_params default_sparams; + auto & data = task.data; + + slot.oaicompat = false; + slot.oaicompat_model = ""; + + slot.params.stream = json_value(data, "stream", false); + slot.params.cache_prompt = json_value(data, "cache_prompt", false); + slot.params.n_predict = json_value(data, "n_predict", default_params.n_predict); + slot.sparams.top_k = json_value(data, "top_k", default_sparams.top_k); + slot.sparams.top_p = json_value(data, "top_p", default_sparams.top_p); + slot.sparams.min_p = json_value(data, "min_p", default_sparams.min_p); + slot.sparams.tfs_z = json_value(data, "tfs_z", default_sparams.tfs_z); + slot.sparams.typical_p = json_value(data, "typical_p", default_sparams.typical_p); + slot.sparams.temp = json_value(data, "temperature", default_sparams.temp); + slot.sparams.dynatemp_range = json_value(data, "dynatemp_range", default_sparams.dynatemp_range); + slot.sparams.dynatemp_exponent = json_value(data, "dynatemp_exponent", default_sparams.dynatemp_exponent); + slot.sparams.penalty_last_n = json_value(data, "repeat_last_n", default_sparams.penalty_last_n); + slot.sparams.penalty_repeat = json_value(data, "repeat_penalty", default_sparams.penalty_repeat); + slot.sparams.penalty_freq = json_value(data, "frequency_penalty", default_sparams.penalty_freq); + slot.sparams.penalty_present = json_value(data, "presence_penalty", default_sparams.penalty_present); + slot.sparams.mirostat = json_value(data, "mirostat", default_sparams.mirostat); + slot.sparams.mirostat_tau = json_value(data, "mirostat_tau", default_sparams.mirostat_tau); + slot.sparams.mirostat_eta = json_value(data, "mirostat_eta", default_sparams.mirostat_eta); + slot.sparams.penalize_nl = json_value(data, "penalize_nl", default_sparams.penalize_nl); + slot.params.n_keep = json_value(data, "n_keep", slot.params.n_keep); + slot.params.n_discard = json_value(data, "n_discard", default_params.n_discard); + slot.params.seed = json_value(data, "seed", default_params.seed); + slot.sparams.n_probs = json_value(data, "n_probs", default_sparams.n_probs); + slot.sparams.min_keep = json_value(data, "min_keep", default_sparams.min_keep); + slot.sparams.grammar = json_value(data, "grammar", default_sparams.grammar); + + if (slot.params.cache_prompt && slot.ga_n != 1) { + LOG_WARNING("cache_prompt is not supported with group-attention", {}); + slot.params.cache_prompt = false; + } + + if (slot.n_predict > 0 && slot.params.n_predict > slot.n_predict) { + // Might be better to reject the request with a 400 ? + LOG_WARNING("Max tokens to predict exceeds server configuration", { + {"params.n_predict", slot.params.n_predict}, + {"slot.n_predict", slot.n_predict}, + }); + slot.params.n_predict = slot.n_predict; + } + + // infill + slot.params.input_prefix = json_value(data, "input_prefix", default_params.input_prefix); + slot.params.input_suffix = json_value(data, "input_suffix", default_params.input_suffix); + + // get prompt + { + const auto & prompt = data.find("prompt"); + if (prompt == data.end()) { + send_error(task, "Either \"prompt\" or \"messages\" must be provided", ERROR_TYPE_INVALID_REQUEST); + return false; + } else { + slot.prompt = *prompt; + } + if (slot.prompt.is_array() && slot.prompt.size() == 0) { + send_error(task, "\"prompt\" cannot be an empty array", ERROR_TYPE_INVALID_REQUEST); + return false; + } + } + + // penalize user-provided tokens + { + slot.sparams.penalty_prompt_tokens.clear(); + slot.sparams.use_penalty_prompt_tokens = false; + + const auto & penalty_prompt = data.find("penalty_prompt"); + + if (penalty_prompt != data.end()) { + if (penalty_prompt->is_string()) { + const auto penalty_prompt_string = penalty_prompt->get(); + slot.sparams.penalty_prompt_tokens = llama_tokenize(model, penalty_prompt_string, false); + + if (slot.params.n_predict > 0) { + slot.sparams.penalty_prompt_tokens.reserve(slot.sparams.penalty_prompt_tokens.size() + slot.params.n_predict); + } + slot.sparams.use_penalty_prompt_tokens = true; + + LOG_VERBOSE("penalty_prompt_tokens", { + {"id_slot", slot.id}, + {"tokens", slot.sparams.penalty_prompt_tokens}, + }); + } + else if (penalty_prompt->is_array()) { + const auto n_tokens = penalty_prompt->size(); + slot.sparams.penalty_prompt_tokens.reserve(n_tokens + std::max(0, slot.params.n_predict)); + + const int n_vocab = llama_n_vocab(model); + for (const auto & penalty_token : *penalty_prompt) { + if (penalty_token.is_number_integer()) { + const auto tok = penalty_token.get(); + if (tok >= 0 && tok < n_vocab) { + slot.sparams.penalty_prompt_tokens.push_back(tok); + } + } + } + slot.sparams.use_penalty_prompt_tokens = true; + + LOG_VERBOSE("penalty_prompt_tokens", { + {"id_slot", slot.id}, + {"tokens", slot.sparams.penalty_prompt_tokens}, + }); + } + } + } + + { + slot.sparams.logit_bias.clear(); + + if (json_value(data, "ignore_eos", false)) { + slot.sparams.logit_bias[llama_token_eos(model)] = -INFINITY; + } + + const auto & logit_bias = data.find("logit_bias"); + if (logit_bias != data.end() && logit_bias->is_array()) { + const int n_vocab = llama_n_vocab(model); + for (const auto & el : *logit_bias) { + // TODO: we may want to throw errors here, in case "el" is incorrect + if (el.is_array() && el.size() == 2) { + float bias; + if (el[1].is_number()) { + bias = el[1].get(); + } else if (el[1].is_boolean() && !el[1].get()) { + bias = -INFINITY; + } else { + continue; + } + + if (el[0].is_number_integer()) { + llama_token tok = el[0].get(); + if (tok >= 0 && tok < n_vocab) { + slot.sparams.logit_bias[tok] = bias; + } + } else if (el[0].is_string()) { + auto toks = llama_tokenize(model, el[0].get(), false); + for (auto tok : toks) { + slot.sparams.logit_bias[tok] = bias; + } + } + } + } + } + } + + { + slot.params.antiprompt.clear(); + + const auto & stop = data.find("stop"); + if (stop != data.end() && stop->is_array()) { + for (const auto & word : *stop) { + if (!word.empty()) { + slot.params.antiprompt.push_back(word); + } + } + } + } + + { + const auto & samplers_sequence = data.find("samplers"); + if (samplers_sequence != data.end() && samplers_sequence->is_array()) { + std::vector sampler_names; + for (const auto & sampler_name : *samplers_sequence) { + if (sampler_name.is_string()) { + sampler_names.emplace_back(sampler_name); + } + } + slot.sparams.samplers_sequence = sampler_types_from_names(sampler_names, false); + } else { + slot.sparams.samplers_sequence = default_sparams.samplers_sequence; + } + } + + { + if (slot.ctx_sampling != nullptr) { + llama_sampling_free(slot.ctx_sampling); + } + slot.ctx_sampling = llama_sampling_init(slot.sparams); + if (slot.ctx_sampling == nullptr) { + // for now, the only error that may happen here is invalid grammar + send_error(task, "Failed to parse grammar", ERROR_TYPE_INVALID_REQUEST); + return false; + } + llama_set_rng_seed(ctx, slot.params.seed); + } + + slot.command = SLOT_COMMAND_LOAD_PROMPT; + slot.prompt_tokens.clear(); + + LOG_INFO("slot is processing task", { + {"id_slot", slot.id}, + {"id_task", slot.id_task}, + }); + + return true; + } + void kv_cache_clear() { LOG_VERBOSE("clearing KV cache", {}); @@ -2122,3 +2319,214 @@ struct server_context }; } }; + +// parse the given jparams (see de.kherud.llama.args.ModelParameters#toString()) from JSON to the required C++ struct. +static void server_params_parse(json jparams, server_params &sparams, gpt_params ¶ms) +{ + gpt_params default_params; + server_params default_sparams; + + params.seed = json_value(jparams, "seed", default_params.seed); + params.n_threads = json_value(jparams, "n_threads", default_params.n_threads); + params.n_threads_draft = json_value(jparams, "n_threads_draft", default_params.n_threads_draft); + params.n_threads_batch = json_value(jparams, "n_threads_batch", default_params.n_threads_batch); + params.n_threads_batch_draft = json_value(jparams, "n_threads_batch_draft", default_params.n_threads_batch_draft); + params.n_predict = json_value(jparams, "n_predict", default_params.n_predict); + params.n_ctx = json_value(jparams, "n_ctx", default_params.n_ctx); + params.n_batch = json_value(jparams, "n_batch", default_params.n_batch); + params.n_ubatch = json_value(jparams, "n_ubatch", default_params.n_ubatch); + params.n_keep = json_value(jparams, "n_keep", default_params.n_keep); + params.n_draft = json_value(jparams, "n_draft", default_params.n_draft); + params.n_chunks = json_value(jparams, "n_chunks", default_params.n_chunks); + params.n_parallel = json_value(jparams, "n_parallel", default_params.n_parallel); + params.n_sequences = json_value(jparams, "n_sequences", default_params.n_sequences); + params.p_split = json_value(jparams, "p_split", default_params.p_split); + params.n_beams = json_value(jparams, "n_beams", default_params.n_beams); + params.grp_attn_n = json_value(jparams, "grp_attn_n", default_params.grp_attn_n); + params.grp_attn_w = json_value(jparams, "grp_attn_w", default_params.grp_attn_w); + params.n_print = json_value(jparams, "n_print", default_params.n_print); + params.rope_freq_base = json_value(jparams, "rope_freq_base", default_params.rope_freq_base); + params.rope_freq_scale = json_value(jparams, "rope_freq_scale", default_params.rope_freq_scale); + params.yarn_ext_factor = json_value(jparams, "yarn_ext_factor", default_params.yarn_ext_factor); + params.yarn_attn_factor = json_value(jparams, "yarn_attn_factor", default_params.yarn_attn_factor); + params.yarn_beta_fast = json_value(jparams, "yarn_beta_fast", default_params.yarn_beta_fast); + params.yarn_beta_slow = json_value(jparams, "yarn_beta_slow", default_params.yarn_beta_slow); + params.yarn_orig_ctx = json_value(jparams, "yarn_orig_ctx", default_params.yarn_orig_ctx); + params.defrag_thold = json_value(jparams, "defrag_thold", default_params.defrag_thold); + params.numa = json_value(jparams, "numa", default_params.numa); + params.rope_scaling_type = json_value(jparams, "rope_scaling_type", default_params.rope_scaling_type); + params.pooling_type = json_value(jparams, "pooling_type", default_params.pooling_type); + params.model = json_value(jparams, "model", default_params.model); + params.model_draft = json_value(jparams, "model_draft", default_params.model_draft); + params.model_alias = json_value(jparams, "model_alias", default_params.model_alias); + params.model_url = json_value(jparams, "model_url", default_params.model_url); + params.hf_repo = json_value(jparams, "hf_repo", default_params.hf_repo); + params.hf_file = json_value(jparams, "hf_file", default_params.hf_file); + params.prompt = json_value(jparams, "prompt", default_params.prompt); + params.prompt_file = json_value(jparams, "prompt_file", default_params.prompt_file); + params.path_prompt_cache = json_value(jparams, "path_prompt_cache", default_params.path_prompt_cache); + params.input_prefix = json_value(jparams, "input_prefix", default_params.input_prefix); + params.input_suffix = json_value(jparams, "input_suffix", default_params.input_suffix); + params.antiprompt = json_value(jparams, "antiprompt", default_params.antiprompt); + params.logdir = json_value(jparams, "logdir", default_params.logdir); + params.lookup_cache_static = json_value(jparams, "lookup_cache_static", default_params.lookup_cache_static); + params.lookup_cache_dynamic = json_value(jparams, "lookup_cache_dynamic", default_params.lookup_cache_dynamic); + params.logits_file = json_value(jparams, "logits_file", default_params.logits_file); + params.lora_adapter = json_value(jparams, "lora_adapter", default_params.lora_adapter); + params.lora_base = json_value(jparams, "lora_base", default_params.lora_base); + params.embedding = json_value(jparams, "embedding", default_params.embedding); + params.escape = json_value(jparams, "escape", default_params.escape); + params.cont_batching = json_value(jparams, "cont_batching", default_params.cont_batching); + params.input_prefix_bos = json_value(jparams, "input_prefix_bos", default_params.input_prefix_bos); + params.ignore_eos = json_value(jparams, "ignore_eos", default_params.ignore_eos); + params.use_mmap = json_value(jparams, "use_mmap", default_params.use_mmap); + params.use_mlock = json_value(jparams, "use_mlock", default_params.use_mlock); + params.no_kv_offload = json_value(jparams, "no_kv_offload", default_params.no_kv_offload); + + if (jparams.contains("n_gpu_layers")) { + if (llama_supports_gpu_offload()) + { + params.n_gpu_layers = json_value(jparams, "n_gpu_layers", default_params.n_gpu_layers); + params.n_gpu_layers_draft = json_value(jparams, "n_gpu_layers_draft", default_params.n_gpu_layers_draft); + } + else + { + LOG_WARNING("Not compiled with GPU offload support, --n-gpu-layers option will be ignored. " + "See main README.md for information on enabling GPU BLAS support", + {{"n_gpu_layers", params.n_gpu_layers}}); + } + } + + if (jparams.contains("split_mode")) { + params.split_mode = json_value(jparams, "split_mode", default_params.split_mode); +#ifndef GGML_USE_CUDA + fprintf(stderr, "warning: llama.cpp was compiled without CUDA. Setting the split mode has no effect.\n"); +#endif + } + + if (jparams.contains("tensor_split")) { +#if defined(GGML_USE_CUDA) || defined(GGML_USE_SYCL) + auto tensor_split = json_value(jparams, "tensor_split", default_params.tensor_split); + GGML_ASSERT(tensor_split.size() <= llama_max_devices()); + + for (size_t i_device = 0; i_device < llama_max_devices(); ++i_device) { + if (i_device < tensor_split.size()) { + params.tensor_split[i_device] = tensor_split.at(i_device).get(); + } else { + params.tensor_split[i_device] = 0.0f; + } + } +#else + LOG_WARNING("llama.cpp was compiled without CUDA. It is not possible to set a tensor split.\n", {}); +#endif // GGML_USE_CUDA + } + + if (jparams.contains("main_gpu")) { +#if defined(GGML_USE_CUDA) || defined(GGML_USE_SYCL) + params.main_gpu = json_value(jparams, "main_gpu", default_params.main_gpu); +#else + LOG_WARNING("llama.cpp was compiled without CUDA. It is not possible to set a main GPU.", {}); +#endif + } + +//#if SERVER_VERBOSE != 1 +// LOG_WARNING("server.cpp is not built with verbose logging.", {}); +//#else +// server_verbose = true; +//#endif + +// auto system_prompt_file = get_string_field(env, jparams, f_system_prompt_file); +// if (system_prompt_file.length() > 0) +// { +// std::ifstream file(system_prompt_file); +// if (!file) +// { +// fprintf(stderr, "error: failed to open file '%s'\n", argv[i]); +// invalid_param = true; +// break; +// } +// std::string system_prompt; +// std::copy(std::istreambuf_iterator(file), std::istreambuf_iterator(), +// std::back_inserter(system_prompt)); +// sparams.system_prompt = system_prompt; +// } + +// value = env->GetObjectField(jparams, f_log_format); +// if (value == o_log_format_json) +// { +// server_log_json = true; +// } +// else if (value == o_log_format_text) +// { +// server_log_json = false; +// } +// else +// { +// log_set_target(stdout); +// LOG_INFO("logging to file is disabled.", {}); +// } + + // auto system_prompt_file = get_string_field(env, jparams, f_system_prompt_file); + // + // else if (arg == "--chat-template") { + // if (++i >= argc) { + // invalid_param = true; + // break; + // } + // if (!verify_custom_template(argv[i])) { + // fprintf(stderr, "error: the supplied chat template is not supported: %s\n", argv[i]); + // fprintf(stderr, "note: llama.cpp does not use jinja parser, we only support commonly used + // templates\n"); invalid_param = true; break; + // } + // sparams.chat_template = argv[i]; + // } else if (arg == "--override-kv") { + // if (++i >= argc) { + // invalid_param = true; + // break; + // } + // char * sep = strchr(argv[i], '='); + // if (sep == nullptr || sep - argv[i] >= 128) { + // fprintf(stderr, "error: Malformed KV override: %s\n", argv[i]); + // invalid_param = true; + // break; + // } + // + // struct llama_model_kv_override kvo; + // std::strncpy(kvo.key, argv[i], sep - argv[i]); + // kvo.key[sep - argv[i]] = 0; + // sep++; + // if (strncmp(sep, "int:", 4) == 0) { + // sep += 4; + // kvo.tag = LLAMA_KV_OVERRIDE_TYPE_INT; + // kvo.int_value = std::atol(sep); + // } else if (strncmp(sep, "float:", 6) == 0) { + // sep += 6; + // kvo.tag = LLAMA_KV_OVERRIDE_TYPE_FLOAT; + // kvo.float_value = std::atof(sep); + // } else if (strncmp(sep, "bool:", 5) == 0) { + // sep += 5; + // kvo.tag = LLAMA_KV_OVERRIDE_TYPE_BOOL; + // if (std::strcmp(sep, "true") == 0) { + // kvo.bool_value = true; + // } else if (std::strcmp(sep, "false") == 0) { + // kvo.bool_value = false; + // } else { + // fprintf(stderr, "error: Invalid boolean value for KV override: %s\n", argv[i]); + // invalid_param = true; + // break; + // } + // } else { + // fprintf(stderr, "error: Invalid type for KV override: %s\n", argv[i]); + // invalid_param = true; + // break; + // } + // params.kv_overrides.push_back(kvo); + // } + // } + // + + if (!params.kv_overrides.empty()) { + params.kv_overrides.emplace_back(); + params.kv_overrides.back().key[0] = 0; + } +} diff --git a/src/main/cpp/utils.cpp b/src/main/cpp/utils.cpp deleted file mode 100644 index d815bac3..00000000 --- a/src/main/cpp/utils.cpp +++ /dev/null @@ -1,11 +0,0 @@ -#pragma once - -#include "common.h" -#include "llama.h" - -#include "json.hpp" - -#include -#include -#include -#include diff --git a/src/main/cpp/utils.hpp b/src/main/cpp/utils.hpp new file mode 100644 index 00000000..4bf1d858 --- /dev/null +++ b/src/main/cpp/utils.hpp @@ -0,0 +1,656 @@ +#pragma once + +#include "llama.h" +#include "common.h" + +#include "json.hpp" + +#include +#include +#include +#include + +#define DEFAULT_OAICOMPAT_MODEL "gpt-3.5-turbo-0613" + +using json = nlohmann::ordered_json; + +// https://community.openai.com/t/openai-chat-list-of-error-codes-and-types/357791/11 +enum error_type { + ERROR_TYPE_INVALID_REQUEST, + ERROR_TYPE_AUTHENTICATION, + ERROR_TYPE_SERVER, + ERROR_TYPE_NOT_FOUND, + ERROR_TYPE_PERMISSION, + ERROR_TYPE_UNAVAILABLE, // custom error + ERROR_TYPE_NOT_SUPPORTED, // custom error +}; + +extern bool server_verbose; +extern bool server_log_json; + +#ifndef SERVER_VERBOSE +#define SERVER_VERBOSE 1 +#endif + +#define LOG_VERBOSE(MSG, ...) \ + do \ + { \ + if (server_verbose) \ + { \ + server_log("VERB", __func__, __LINE__, MSG, __VA_ARGS__); \ + } \ + } while (0) +//#if SERVER_VERBOSE != 1 +//#define LOG_VERBOSE(MSG, ...) +//#else +//#define LOG_VERBOSE(MSG, ...) \ +// do \ +// { \ +// if (server_verbose) \ +// { \ +// server_log("VERB", __func__, __LINE__, MSG, __VA_ARGS__); \ +// } \ +// } while (0) +//#endif + +#define LOG_ERROR( MSG, ...) server_log("ERR", __func__, __LINE__, MSG, __VA_ARGS__) +#define LOG_WARNING(MSG, ...) server_log("WARN", __func__, __LINE__, MSG, __VA_ARGS__) +#define LOG_INFO( MSG, ...) server_log("INFO", __func__, __LINE__, MSG, __VA_ARGS__) + +static inline void server_log(const char *level, const char *function, int line, const char *message, const nlohmann::ordered_json &extra); + +template +static T json_value(const json &body, const std::string &key, const T &default_value) { + // Fallback null to default value + if (body.contains(key) && !body.at(key).is_null()){ + try { + return body.value(key, default_value); + } + catch (nlohmann::json_abi_v3_11_3::detail::type_error const&){ + std::string message = "Wrong type supplied for parameter '" + key + "'. Expected '" + typeid(default_value).name() + "', using default value."; + server_log("WARN", __func__, __LINE__, message.c_str(), body); + return default_value; + } + } else { + return default_value; + } +} + +static inline void server_log(const char *level, const char *function, int line, const char *message, const nlohmann::ordered_json &extra) { + std::stringstream ss_tid; + ss_tid << std::this_thread::get_id(); + json log = nlohmann::ordered_json{ + {"tid", ss_tid.str()}, + {"timestamp", time(nullptr)}, + }; + + if (server_log_json) { + log.merge_patch( { + {"level", level}, + {"function", function}, + {"line", line}, + {"msg", message}, + }); + + if (!extra.empty()) { + log.merge_patch(extra); + } + + printf("%s\n", log.dump(-1, ' ', false, json::error_handler_t::replace).c_str()); + } else { + char buf[1024]; + snprintf(buf, 1024, "%4s [%24s] %s", level, function, message); + + if (!extra.empty()) { + log.merge_patch(extra); + } + std::stringstream ss; + ss << buf << " |"; + for (const auto& el : log.items()) + { + const std::string value = el.value().dump(-1, ' ', false, json::error_handler_t::replace); + ss << " " << el.key() << "=" << value; + } + + const std::string str = ss.str(); + printf("%.*s\n", (int)str.size(), str.data()); + } + fflush(stdout); +} + +// +// chat template utils +// + +// Check if the template supplied via "--chat-template" is supported or not. Returns true if it's valid +inline bool verify_custom_template(const std::string & tmpl) { + llama_chat_message chat[] = {{"user", "test"}}; + int res = llama_chat_apply_template(nullptr, tmpl.c_str(), chat, 1, true, nullptr, 0); + return res >= 0; +} + +// Format given chat. If tmpl is empty, we take the template from model metadata +inline std::string format_chat(const struct llama_model * model, const std::string & tmpl, const std::vector & messages) { + size_t alloc_size = 0; + // vector holding all allocated string to be passed to llama_chat_apply_template + std::vector str(messages.size() * 2); + std::vector chat(messages.size()); + + for (size_t i = 0; i < messages.size(); ++i) { + const auto & curr_msg = messages[i]; + str[i*2 + 0] = json_value(curr_msg, "role", std::string("")); + str[i*2 + 1] = json_value(curr_msg, "content", std::string("")); + alloc_size += str[i*2 + 1].length(); + chat[i].role = str[i*2 + 0].c_str(); + chat[i].content = str[i*2 + 1].c_str(); + } + + const char * ptr_tmpl = tmpl.empty() ? nullptr : tmpl.c_str(); + std::vector buf(alloc_size * 2); + + // run the first time to get the total output length + int32_t res = llama_chat_apply_template(model, ptr_tmpl, chat.data(), chat.size(), true, buf.data(), buf.size()); + + // if it turns out that our buffer is too small, we resize it + if ((size_t) res > buf.size()) { + buf.resize(res); + res = llama_chat_apply_template(model, ptr_tmpl, chat.data(), chat.size(), true, buf.data(), buf.size()); + } + + const std::string formatted_chat(buf.data(), res); + + LOG_VERBOSE("formatted_chat", {{"text", formatted_chat.c_str()}}); + + return formatted_chat; +} + +// +// base64 utils (TODO: move to common in the future) +// + +static const std::string base64_chars = + "ABCDEFGHIJKLMNOPQRSTUVWXYZ" + "abcdefghijklmnopqrstuvwxyz" + "0123456789+/"; + +static inline bool is_base64(uint8_t c) { + return (isalnum(c) || (c == '+') || (c == '/')); +} + +static inline std::vector base64_decode(const std::string & encoded_string) { + int i = 0; + int j = 0; + int in_ = 0; + + int in_len = encoded_string.size(); + + uint8_t char_array_4[4]; + uint8_t char_array_3[3]; + + std::vector ret; + + while (in_len-- && (encoded_string[in_] != '=') && is_base64(encoded_string[in_])) { + char_array_4[i++] = encoded_string[in_]; in_++; + if (i == 4) { + for (i = 0; i < 4; i++) { + char_array_4[i] = base64_chars.find(char_array_4[i]); + } + + char_array_3[0] = ((char_array_4[0] ) << 2) + ((char_array_4[1] & 0x30) >> 4); + char_array_3[1] = ((char_array_4[1] & 0xf) << 4) + ((char_array_4[2] & 0x3c) >> 2); + char_array_3[2] = ((char_array_4[2] & 0x3) << 6) + char_array_4[3]; + + for (i = 0; (i < 3); i++) { + ret.push_back(char_array_3[i]); + } + + i = 0; + } + } + + if (i) { + for (j = i; j < 4; j++) { + char_array_4[j] = 0; + } + + for (j = 0; j < 4; j++) { + char_array_4[j] = base64_chars.find(char_array_4[j]); + } + + char_array_3[0] = ((char_array_4[0] ) << 2) + ((char_array_4[1] & 0x30) >> 4); + char_array_3[1] = ((char_array_4[1] & 0xf) << 4) + ((char_array_4[2] & 0x3c) >> 2); + char_array_3[2] = ((char_array_4[2] & 0x3) << 6) + char_array_4[3]; + + for (j = 0; j < i - 1; j++) { + ret.push_back(char_array_3[j]); + } + } + + return ret; +} + +// +// random string / id +// + +static std::string random_string() { + static const std::string str("0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz"); + + std::random_device rd; + std::mt19937 generator(rd()); + + std::string result(32, ' '); + + for (int i = 0; i < 32; ++i) { + result[i] = str[generator() % str.size()]; + } + + return result; +} + +static std::string gen_chatcmplid() { + std::stringstream chatcmplid; + chatcmplid << "chatcmpl-" << random_string(); + + return chatcmplid.str(); +} + +// +// other common utils +// + +static size_t common_part(const std::vector & a, const std::vector & b) { + size_t i; + for (i = 0; i < a.size() && i < b.size() && a[i] == b[i]; i++) {} + + return i; +} + +static bool ends_with(const std::string & str, const std::string & suffix) { + return str.size() >= suffix.size() && 0 == str.compare(str.size() - suffix.size(), suffix.size(), suffix); +} + +static size_t find_partial_stop_string(const std::string &stop, const std::string &text) { + if (!text.empty() && !stop.empty()) { + const char text_last_char = text.back(); + for (int64_t char_index = stop.size() - 1; char_index >= 0; char_index--) { + if (stop[char_index] == text_last_char) { + const std::string current_partial = stop.substr(0, char_index + 1); + if (ends_with(text, current_partial)) { + return text.size() - char_index - 1; + } + } + } + } + + return std::string::npos; +} + +// TODO: reuse llama_detokenize +template +static std::string tokens_to_str(llama_context * ctx, Iter begin, Iter end) { + std::string ret; + for (; begin != end; ++begin) { + ret += llama_token_to_piece(ctx, *begin); + } + + return ret; +} + +// format incomplete utf-8 multibyte character for output +static std::string tokens_to_output_formatted_string(const llama_context * ctx, const llama_token token) { + std::string out = token == -1 ? "" : llama_token_to_piece(ctx, token); + + // if the size is 1 and first bit is 1, meaning it's a partial character + // (size > 1 meaning it's already a known token) + if (out.size() == 1 && (out[0] & 0x80) == 0x80) { + std::stringstream ss; + ss << std::hex << (out[0] & 0xff); + std::string res(ss.str()); + out = "byte: \\x" + res; + } + + return out; +} + +struct completion_token_output { + llama_token tok; + std::string text_to_send; + + struct token_prob { + llama_token tok; + float prob; + }; + + std::vector probs; +}; + +// convert a vector of completion_token_output to json +static json probs_vector_to_json(const llama_context * ctx, const std::vector & probs) { + json out = json::array(); + + for (const auto & prob : probs) { + json probs_for_token = json::array(); + + for (const auto & p : prob.probs) { + const std::string tok_str = tokens_to_output_formatted_string(ctx, p.tok); + probs_for_token.push_back(json { + {"tok_str", tok_str}, + {"prob", p.prob}, + }); + } + + const std::string tok_str = tokens_to_output_formatted_string(ctx, prob.tok); + out.push_back(json { + {"content", tok_str}, + {"probs", probs_for_token}, + }); + } + + return out; +} + +// +// OAI utils +// + +static json oaicompat_completion_params_parse( + const struct llama_model * model, + const json & body, /* openai api json semantics */ + const std::string & chat_template) { + json llama_params; + + llama_params["__oaicompat"] = true; + + // Map OpenAI parameters to llama.cpp parameters + // + // For parameters that are defined by the OpenAI documentation (e.g. + // temperature), we explicitly specify OpenAI's intended default; we + // need to do that because sometimes OpenAI disagrees with llama.cpp + // + // https://platform.openai.com/docs/api-reference/chat/create + llama_sampling_params default_sparams; + llama_params["model"] = json_value(body, "model", std::string("unknown")); + llama_params["frequency_penalty"] = json_value(body, "frequency_penalty", 0.0); + llama_params["logit_bias"] = json_value(body, "logit_bias", json::object()); + llama_params["n_predict"] = json_value(body, "max_tokens", -1); + llama_params["presence_penalty"] = json_value(body, "presence_penalty", 0.0); + llama_params["seed"] = json_value(body, "seed", LLAMA_DEFAULT_SEED); + llama_params["stream"] = json_value(body, "stream", false); + llama_params["temperature"] = json_value(body, "temperature", 0.0); + llama_params["top_p"] = json_value(body, "top_p", 1.0); + + // Apply chat template to the list of messages + llama_params["prompt"] = format_chat(model, chat_template, body["messages"]); + + // Handle "stop" field + if (body.contains("stop") && body["stop"].is_string()) { + llama_params["stop"] = json::array({body["stop"].get()}); + } else { + llama_params["stop"] = json_value(body, "stop", json::array()); + } + // Some chat templates don't use EOS token to stop generation + // We must add their end sequences to list of stop words + llama_params["stop"].push_back("<|im_end|>"); // chatml + llama_params["stop"].push_back(""); // gemma + + // Handle "response_format" field + if (body.contains("response_format")) { + json response_format = json_value(body, "response_format", json::object()); + std::string response_type = json_value(response_format, "type", std::string()); + if (response_type == "json_object") { + llama_params["json_schema"] = json_value(response_format, "schema", json::object()); + } else if (!response_type.empty() && response_type != "text") { + throw std::runtime_error("response_format type must be one of \"text\" or \"json_object\", but got: " + response_type); + } + } + + // Handle "n" field + int n_choices = json_value(body, "n", 1); + if (n_choices != 1) { + throw std::runtime_error("Only one completion choice is allowed"); + } + + // Handle "logprobs" field + // TODO: The response format of this option is not yet OAI-compatible, but seems like no one really using it; We may need to fix it in the future + if (body.contains("logprobs")) { + llama_params["n_probs"] = json_value(body, "top_logprobs", 20); + } else if (body.contains("top_logprobs")) { + throw std::runtime_error("top_logprobs requires logprobs to be set to true"); + } + + // Params supported by OAI but unsupported by llama.cpp + static const std::vector unsupported_params { "tools", "tool_choice" }; + for (auto & param : unsupported_params) { + if (body.contains(param)) { + throw std::runtime_error("Unsupported param: " + param); + } + } + + // Copy remaining properties to llama_params + // This allows user to use llama.cpp-specific params like "mirostat", "tfs_z",... via OAI endpoint. + // See "launch_slot_with_task()" for a complete list of params supported by llama.cpp + for (const auto & item : body.items()) { + // Exception: if "n_predict" is present, we overwrite the value specified earlier by "max_tokens" + if (!llama_params.contains(item.key()) || item.key() == "n_predict") { + llama_params[item.key()] = item.value(); + } + } + + return llama_params; +} + +static json format_final_response_oaicompat(const json & request, json result, const std::string & completion_id, bool streaming = false) { + bool stopped_word = result.count("stopped_word") != 0; + bool stopped_eos = json_value(result, "stopped_eos", false); + int num_tokens_predicted = json_value(result, "tokens_predicted", 0); + int num_prompt_tokens = json_value(result, "tokens_evaluated", 0); + std::string content = json_value(result, "content", std::string("")); + + std::string finish_reason = "length"; + if (stopped_word || stopped_eos) { + finish_reason = "stop"; + } + + json choices = + streaming ? json::array({json{{"finish_reason", finish_reason}, + {"index", 0}, + {"delta", json::object()}}}) + : json::array({json{{"finish_reason", finish_reason}, + {"index", 0}, + {"message", json{{"content", content}, + {"role", "assistant"}}}}}); + + std::time_t t = std::time(0); + + json res = json { + {"choices", choices}, + {"created", t}, + {"model", + json_value(request, "model", std::string(DEFAULT_OAICOMPAT_MODEL))}, + {"object", streaming ? "chat.completion.chunk" : "chat.completion"}, + {"usage", json { + {"completion_tokens", num_tokens_predicted}, + {"prompt_tokens", num_prompt_tokens}, + {"total_tokens", num_tokens_predicted + num_prompt_tokens} + }}, + {"id", completion_id} + }; + + if (server_verbose) { + res["__verbose"] = result; + } + + if (result.contains("completion_probabilities")) { + res["completion_probabilities"] = json_value(result, "completion_probabilities", json::array()); + } + + return res; +} + +// return value is vector as there is one case where we might need to generate two responses +static std::vector format_partial_response_oaicompat(json result, const std::string & completion_id) { + if (!result.contains("model") || !result.contains("oaicompat_token_ctr")) { + return std::vector({result}); + } + + bool first = json_value(result, "oaicompat_token_ctr", 0) == 0; + std::string modelname = json_value(result, "model", std::string(DEFAULT_OAICOMPAT_MODEL)); + + bool stopped_word = json_value(result, "stopped_word", false); + bool stopped_eos = json_value(result, "stopped_eos", false); + bool stopped_limit = json_value(result, "stopped_limit", false); + std::string content = json_value(result, "content", std::string("")); + + std::string finish_reason; + if (stopped_word || stopped_eos) { + finish_reason = "stop"; + } + if (stopped_limit) { + finish_reason = "length"; + } + + std::time_t t = std::time(0); + + json choices; + + if (!finish_reason.empty()) { + choices = json::array({json{{"finish_reason", finish_reason}, + {"index", 0}, + {"delta", json::object()}}}); + } else { + if (first) { + if (content.empty()) { + choices = json::array({json{{"finish_reason", nullptr}, + {"index", 0}, + {"delta", json{{"role", "assistant"}}}}}); + } else { + // We have to send this as two updates to conform to openai behavior + json initial_ret = json{{"choices", json::array({json{ + {"finish_reason", nullptr}, + {"index", 0}, + {"delta", json{ + {"role", "assistant"} + }}}})}, + {"created", t}, + {"id", completion_id}, + {"model", modelname}, + {"object", "chat.completion.chunk"}}; + + json second_ret = json{ + {"choices", json::array({json{{"finish_reason", nullptr}, + {"index", 0}, + {"delta", json{ + {"content", content}}} + }})}, + {"created", t}, + {"id", completion_id}, + {"model", modelname}, + {"object", "chat.completion.chunk"}}; + + return std::vector({initial_ret, second_ret}); + } + } else { + // Some idiosyncrasy in task processing logic makes several trailing calls + // with empty content, we ignore these at the calee site. + if (content.empty()) { + return std::vector({json::object()}); + } + + choices = json::array({json{ + {"finish_reason", nullptr}, + {"index", 0}, + {"delta", + json{ + {"content", content}, + }}, + }}); + } + } + + json ret = json { + {"choices", choices}, + {"created", t}, + {"id", completion_id}, + {"model", modelname}, + {"object", "chat.completion.chunk"} + }; + + return std::vector({ret}); +} + +static json format_embeddings_response_oaicompat(const json & request, const json & embeddings) { + json data = json::array(); + int i = 0; + for (auto & elem : embeddings) { + data.push_back(json{ + {"embedding", json_value(elem, "embedding", json::array())}, + {"index", i++}, + {"object", "embedding"} + }); + } + + json res = json { + {"model", json_value(request, "model", std::string(DEFAULT_OAICOMPAT_MODEL))}, + {"object", "list"}, + {"usage", json { + {"prompt_tokens", 0}, + {"total_tokens", 0} + }}, + {"data", data} + }; + + return res; +} + +static json format_tokenizer_response(const std::vector & tokens) { + return json { + {"tokens", tokens} + }; +} + +static json format_detokenized_response(const std::string & content) { + return json { + {"content", content} + }; +} + +static json format_error_response(const std::string & message, const enum error_type type) { + std::string type_str; + int code = 500; + switch (type) { + case ERROR_TYPE_INVALID_REQUEST: + type_str = "invalid_request_error"; + code = 400; + break; + case ERROR_TYPE_AUTHENTICATION: + type_str = "authentication_error"; + code = 401; + break; + case ERROR_TYPE_NOT_FOUND: + type_str = "not_found_error"; + code = 404; + break; + case ERROR_TYPE_SERVER: + type_str = "server_error"; + code = 500; + break; + case ERROR_TYPE_PERMISSION: + type_str = "permission_error"; + code = 403; + break; + case ERROR_TYPE_NOT_SUPPORTED: + type_str = "not_supported_error"; + code = 501; + break; + case ERROR_TYPE_UNAVAILABLE: + type_str = "unavailable_error"; + code = 503; + break; + } + return json { + {"code", code}, + {"message", message}, + {"type", type_str}, + }; +} From cc85e6f8f8126f7ba12356fba3b86b2680929f73 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 13:24:33 +0200 Subject: [PATCH 036/285] Update JNI api --- src/main/cpp/jllama.h | 28 +++----- src/main/java/de/kherud/llama/LlamaModel.java | 70 ++++++++----------- 2 files changed, 41 insertions(+), 57 deletions(-) diff --git a/src/main/cpp/jllama.h b/src/main/cpp/jllama.h index 859506e6..f599c836 100644 --- a/src/main/cpp/jllama.h +++ b/src/main/cpp/jllama.h @@ -23,37 +23,29 @@ JNIEXPORT jfloatArray JNICALL Java_de_kherud_llama_LlamaModel_embed JNIEXPORT jintArray JNICALL Java_de_kherud_llama_LlamaModel_encode (JNIEnv *, jobject, jstring); -/* - * Class: de_kherud_llama_LlamaModel - * Method: setLogger - * Signature: (Ljava/util/function/BiConsumer;)V - */ -JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_setLogger - (JNIEnv *, jclass, jobject); - /* * Class: de_kherud_llama_LlamaModel * Method: loadModel - * Signature: (Ljava/lang/String;Lde/kherud/llama/ModelParameters;)V + * Signature: (Ljava/lang/String;)V */ JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_loadModel - (JNIEnv *, jobject, jstring, jobject); + (JNIEnv *, jobject, jstring); /* * Class: de_kherud_llama_LlamaModel * Method: newAnswerIterator - * Signature: (Ljava/lang/String;Lde/kherud/llama/InferenceParameters;)V + * Signature: (Ljava/lang/String;Ljava/lang/String;)V */ JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_newAnswerIterator - (JNIEnv *, jobject, jstring, jobject); + (JNIEnv *, jobject, jstring, jstring); /* * Class: de_kherud_llama_LlamaModel * Method: newInfillIterator - * Signature: (Ljava/lang/String;Ljava/lang/String;Lde/kherud/llama/InferenceParameters;)V + * Signature: (Ljava/lang/String;Ljava/lang/String;Ljava/lang/String;)V */ JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_newInfillIterator - (JNIEnv *, jobject, jstring, jstring, jobject); + (JNIEnv *, jobject, jstring, jstring, jstring); /* * Class: de_kherud_llama_LlamaModel @@ -66,18 +58,18 @@ JNIEXPORT jobject JNICALL Java_de_kherud_llama_LlamaModel_getNext /* * Class: de_kherud_llama_LlamaModel * Method: getAnswer - * Signature: (Ljava/lang/String;Lde/kherud/llama/InferenceParameters;)[B + * Signature: (Ljava/lang/String;Ljava/lang/String;)[B */ JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_getAnswer - (JNIEnv *, jobject, jstring, jobject); + (JNIEnv *, jobject, jstring, jstring); /* * Class: de_kherud_llama_LlamaModel * Method: getInfill - * Signature: (Ljava/lang/String;Ljava/lang/String;Lde/kherud/llama/InferenceParameters;)[B + * Signature: (Ljava/lang/String;Ljava/lang/String;Ljava/lang/String;)[B */ JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_getInfill - (JNIEnv *, jobject, jstring, jstring, jobject); + (JNIEnv *, jobject, jstring, jstring, jstring); /* * Class: de_kherud_llama_LlamaModel diff --git a/src/main/java/de/kherud/llama/LlamaModel.java b/src/main/java/de/kherud/llama/LlamaModel.java index 4fb6e885..3e8c3cf6 100644 --- a/src/main/java/de/kherud/llama/LlamaModel.java +++ b/src/main/java/de/kherud/llama/LlamaModel.java @@ -5,10 +5,11 @@ import java.util.Iterator; import java.util.Map; import java.util.NoSuchElementException; -import java.util.function.BiConsumer; import org.jetbrains.annotations.NotNull; -import org.jetbrains.annotations.Nullable; + +import de.kherud.llama.args.InferenceParameters; +import de.kherud.llama.args.ModelParameters; /** * This class is a wrapper around the llama.cpp functionality. @@ -29,31 +30,22 @@ public class LlamaModel implements AutoCloseable { LlamaLoader.initialize(); } - private static final ModelParameters defaultModelParams = new ModelParameters(); - private static final InferenceParameters defaultInferenceParams = new InferenceParameters(); - @Native private long ctx; /** - * Load a gguf llama.cpp model from a given file path with default {@link ModelParameters}. + * Load with the given {@link ModelParameters}. Make sure to either set + *

{@link ModelParameters#setModelFilePath(String)}
{@link ModelParameters#setModelUrl(String)}
{@link ModelParameters#setHuggingFaceRepository(String)}}, {@link ModelParameters#setHuggingFaceFile(String)}

* - * @param filePath a file path pointing to the model + * @param parameters the set of options * @throws LlamaException if no model could be loaded from the given file path */ - public LlamaModel(String filePath) { - this(filePath, defaultModelParams); - } - - /** - * Load a gguf llama.cpp model from a given file path with custom {@link ModelParameters}. - * - * @param filePath a file path pointing to the model - * @param parameters the set of previously configured options - * @throws LlamaException if no model could be loaded from the given file path - */ - public LlamaModel(String filePath, ModelParameters parameters) { - loadModel(filePath, parameters); + public LlamaModel(ModelParameters parameters) { + loadModel(parameters.toString()); } /** @@ -64,7 +56,7 @@ public LlamaModel(String filePath, ModelParameters parameters) { * @return an LLM response */ public String complete(String prompt) { - return complete(prompt, defaultInferenceParams); + return complete(prompt, new InferenceParameters()); } /** @@ -75,7 +67,7 @@ public String complete(String prompt) { * @return an LLM response */ public String complete(String prompt, InferenceParameters parameters) { - byte[] bytes = getAnswer(prompt, parameters); + byte[] bytes = getAnswer(prompt, parameters.toString()); return new String(bytes, StandardCharsets.UTF_8); } @@ -88,7 +80,7 @@ public String complete(String prompt, InferenceParameters parameters) { * @return an LLM response */ public String complete(String prefix, String suffix) { - return complete(prefix, suffix, defaultInferenceParams); + return complete(prefix, suffix, new InferenceParameters()); } /** @@ -100,7 +92,7 @@ public String complete(String prefix, String suffix) { * @return an LLM response */ public String complete(String prefix, String suffix, InferenceParameters parameters) { - byte[] bytes = getInfill(prefix, suffix, parameters); + byte[] bytes = getInfill(prefix, suffix, parameters.toString()); return new String(bytes, StandardCharsets.UTF_8); } @@ -112,7 +104,7 @@ public String complete(String prefix, String suffix, InferenceParameters paramet * @return iterable LLM outputs */ public Iterable generate(String prompt) { - return generate(prompt, defaultInferenceParams); + return generate(prompt, new InferenceParameters()); } /** @@ -135,7 +127,7 @@ public Iterable generate(String prompt, InferenceParameters parameters) * @return iterable LLM outputs */ public Iterable generate(String prefix, String suffix) { - return generate(prefix, suffix, defaultInferenceParams); + return generate(prefix, suffix, new InferenceParameters()); } /** @@ -179,12 +171,12 @@ public String decode(int[] tokens) { return new String(bytes, StandardCharsets.UTF_8); } - /** - * Sets a callback for both Java and C++ log messages. Can be set to {@code null} to disable logging. - * - * @param callback a method to call for log messages - */ - public static native void setLogger(@Nullable BiConsumer callback); +// /** +// * Sets a callback for both Java and C++ log messages. Can be set to {@code null} to disable logging. +// * +// * @param callback a method to call for log messages +// */ +// public static native void setLogger(@Nullable BiConsumer callback); @Override public void close() { @@ -192,12 +184,12 @@ public void close() { } // don't overload native methods since the C++ function names get nasty - private native void loadModel(String filePath, ModelParameters parameters) throws LlamaException; - private native void newAnswerIterator(String prompt, InferenceParameters parameters); - private native void newInfillIterator(String prefix, String suffix, InferenceParameters parameters); + private native void loadModel(String parameters) throws LlamaException; + private native void newAnswerIterator(String prompt, String parameters); + private native void newInfillIterator(String prefix, String suffix, String parameters); private native Output getNext(LlamaIterator iterator); - private native byte[] getAnswer(String prompt, InferenceParameters parameters); - private native byte[] getInfill(String prefix, String suffix, InferenceParameters parameters); + private native byte[] getAnswer(String prompt, String parameters); + private native byte[] getInfill(String prefix, String suffix, String parameters); private native byte[] decodeBytes(int[] tokens); private native void delete(); @@ -240,11 +232,11 @@ private final class LlamaIterator implements Iterator { private long tokenIndex = 0; private LlamaIterator(String prompt, InferenceParameters parameters) { - newAnswerIterator(prompt, parameters); + newAnswerIterator(prompt, parameters.toString()); } private LlamaIterator(String prefix, String suffix, InferenceParameters parameters) { - newInfillIterator(prefix, suffix, parameters); + newInfillIterator(prefix, suffix, parameters.toString()); } @Override From 8b1c702389fd69481acbcf36913f34e64fcdb070 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 13:25:49 +0200 Subject: [PATCH 037/285] Change from Java parameter JNI interface to json --- src/main/cpp/jllama.cpp | 939 +++------------------------------------- 1 file changed, 72 insertions(+), 867 deletions(-) diff --git a/src/main/cpp/jllama.cpp b/src/main/cpp/jllama.cpp index 7349287e..15d41265 100644 --- a/src/main/cpp/jllama.cpp +++ b/src/main/cpp/jllama.cpp @@ -1,18 +1,19 @@ #include "jllama.h" -#include "common.h" #include "json.hpp" +#include "llama.h" +#include "server.hpp" +#include "utils.hpp" -using json = nlohmann::json; +// We store some references to Java classes and their fields/methods here to speed up things for later and to fail +// early on if anything can't be found. This happens when the JVM loads the shared library (see `JNI_OnLoad`). +// The references remain valid throughout the whole life of the shared library, on `JNI_OnUnload` they are released. JavaVM *g_vm = nullptr; -jobject g_log_callback = nullptr; // classes static jclass c_llama_model = 0; static jclass c_llama_iterator = 0; -static jclass c_model_params = 0; -static jclass c_infer_params = 0; static jclass c_standard_charsets = 0; static jclass c_output = 0; static jclass c_string = 0; @@ -23,17 +24,9 @@ static jclass c_entry = 0; static jclass c_iterator = 0; static jclass c_integer = 0; static jclass c_float = 0; -static jclass c_log_level = 0; static jclass c_biconsumer = 0; static jclass c_llama_error = 0; static jclass c_error_oom = 0; -static jclass c_split_mode = 0; -static jclass c_log_format = 0; -static jclass c_miro_stat = 0; -static jclass c_numa_strategy = 0; -static jclass c_pooling_type = 0; -static jclass c_rope_scaling = 0; -static jclass c_sampler = 0; // constructors static jmethodID cc_output = 0; @@ -56,121 +49,18 @@ static jmethodID m_biconsumer_accept = 0; // fields static jfieldID f_model_pointer = 0; +static jfieldID f_utf_8 = 0; // iterator static jfieldID f_iter_has_next = 0; static jfieldID f_iter_n_generated = 0; static jfieldID f_iter_token_index = 0; -// inference parameters -static jfieldID f_cache_prompt = 0; -static jfieldID f_n_predict = 0; -static jfieldID f_top_k = 0; -static jfieldID f_top_p = 0; -static jfieldID f_min_p = 0; -static jfieldID f_tfs_z = 0; -static jfieldID f_typical_p = 0; -static jfieldID f_temp = 0; -static jfieldID f_dynatemp_range = 0; -static jfieldID f_dynatemp_exponent = 0; -static jfieldID f_penalty_last_n = 0; -static jfieldID f_penalty_repeat = 0; -static jfieldID f_penalty_freq = 0; -static jfieldID f_penalty_present = 0; -static jfieldID f_mirostat = 0; -static jfieldID f_mirostat_tau = 0; -static jfieldID f_mirostat_eta = 0; -static jfieldID f_penalize_nl = 0; -static jfieldID f_n_keep = 0; -static jfieldID f_n_discard = 0; -static jfieldID f_infer_seed = 0; -static jfieldID f_n_probs = 0; -static jfieldID f_min_keep = 0; -static jfieldID f_grammar = 0; -static jfieldID f_ignore_eos = 0; -static jfieldID f_logit_bias = 0; -static jfieldID f_antiprompt = 0; -// model parameters -static jfieldID f_model_seed = 0; -static jfieldID f_model_path = 0; -static jfieldID f_model_url = 0; -static jfieldID f_model_hf_repo = 0; -static jfieldID f_model_hf_file = 0; -static jfieldID f_model_alias = 0; -static jfieldID f_n_ctx = 0; -static jfieldID f_rope_scaling_type = 0; -static jfieldID f_rope_freq_base = 0; -static jfieldID f_rope_freq_scale = 0; -static jfieldID f_yarn_ext_factor = 0; -static jfieldID f_yarn_attn_factor = 0; -static jfieldID f_yarn_beta_fast = 0; -static jfieldID f_yarn_beta_slow = 0; -static jfieldID f_pooling_type = 0; -static jfieldID f_defrag_thold = 0; -static jfieldID f_n_threads = 0; -static jfieldID f_grp_attn_n = 0; -static jfieldID f_grp_attn_w = 0; -static jfieldID f_n_threads_batch = 0; -static jfieldID f_n_batch = 0; -static jfieldID f_n_ubatch = 0; -static jfieldID f_n_gpu_layers = 0; -static jfieldID f_no_kv_offload = 0; -static jfieldID f_split_mode = 0; -static jfieldID f_tensor_split = 0; -static jfieldID f_main_gpu = 0; -static jfieldID f_verbose = 0; -static jfieldID f_use_mlock = 0; -static jfieldID f_use_mmap = 0; -static jfieldID f_numa_strategy = 0; -static jfieldID f_embedding = 0; -static jfieldID f_cont_batching = 0; -static jfieldID f_n_parallel = 0; -static jfieldID f_n_predict = 0; -static jfieldID f_system_prompt_file = 0; -static jfieldID f_log_format = 0; -// enum fields -static jfieldID f_utf_8 = 0; -static jfieldID f_log_level_debug = 0; -static jfieldID f_log_level_info = 0; -static jfieldID f_log_level_warn = 0; -static jfieldID f_log_level_error = 0; -static jfieldID f_rope_scaling_none = 0; -static jfieldID f_rope_scaling_linear = 0; -static jfieldID f_rope_scaling_yarn = 0; -static jfieldID f_pooling_type_none = 0; -static jfieldID f_pooling_type_mean = 0; -static jfieldID f_pooling_type_cls = 0; -static jfieldID f_split_mode_none = 0; -static jfieldID f_split_mode_layer = 0; -static jfieldID f_split_mode_row = 0; -static jfieldID f_numa_strategy_distribute = 0; -static jfieldID f_numa_strategy_isolate = 0; -static jfieldID f_numa_strategy_numactl = 0; -static jfieldID f_log_format_json = 0; -static jfieldID f_log_format_text = 0; -static jfieldID f_mirostat_v1 = 0; -static jfieldID f_mirostat_v2 = 0; + // objects static jobject o_utf_8 = 0; -static jobject o_log_level_debug = 0; -static jobject o_log_level_info = 0; -static jobject o_log_level_warn = 0; -static jobject o_log_level_error = 0; -static jobject o_rope_scaling_none = 0; -static jobject o_rope_scaling_linear = 0; -static jobject o_rope_scaling_yarn = 0; -static jobject o_pooling_type_none = 0; -static jobject o_pooling_type_mean = 0; -static jobject o_pooling_type_cls = 0; -static jobject o_split_mode_none = 0; -static jobject o_split_mode_layer = 0; -static jobject o_split_mode_row = 0; -static jobject o_numa_strategy_distribute = 0; -static jobject o_numa_strategy_isolate = 0; -static jobject o_numa_strategy_numactl = 0; -static jobject o_log_format_json = 0; -static jobject o_log_format_text = 0; -static jobject o_mirostat_v1 = 0; -static jobject o_mirostat_v2 = 0; +/** + * Convert a Java string to a std::string + */ static std::string parse_jstring(JNIEnv *env, jstring java_string) { const jbyteArray string_bytes = (jbyteArray)env->CallObjectMethod(java_string, m_get_bytes, o_utf_8); @@ -186,24 +76,11 @@ static std::string parse_jstring(JNIEnv *env, jstring java_string) return string; } -static int parse_jinteger(JNIEnv *env, jobject java_integer) -{ - if (!java_integer) - return 0; - return env->CallIntMethod(java_integer, m_int_value); -} - -static float parse_jfloat(JNIEnv *env, jobject java_float) -{ - if (!java_float) - return 0; - return env->CallFloatMethod(java_float, m_float_value); -} - -// Since Java expects utf16 but std::strings are utf8, we can't directly use -// `env->NewString` or `env-NewString`, but we simply send the bytes directly -// and do the conversion in Java. Unfortunately, there isn't a -// nice/standardized way to do this conversion in C++ +/** + * Since Java expects utf16 but std::strings are utf8, we can't directly use `env->NewString` or `env-NewString`, + * but we directly send the bytes and do the conversion in Java. Unfortunately, there isn't a nice/standardized way to + * do this conversion in C++ + */ static jbyteArray parse_jbytes(JNIEnv *env, std::string string) { jsize len = string.size(); @@ -212,476 +89,6 @@ static jbyteArray parse_jbytes(JNIEnv *env, std::string string) return bytes; } -// this method -static void load_server_params(JNIEnv *env, jobject jparams, server_params &sparams, gpt_params ¶ms) -{ - gpt_params default_params; - server_params default_sparams; - - bool invalid_param = false; - - params.seed = env->GetIntField(jparams, f_model_seed); - params.model = get_string_field(env, jparams, f_model_path); - params.model_url = get_string_field(env, jparams, f_model_url); - params.hf_repo = get_string_field(env, jparams, f_model_hf_repo); - params.hf_file = get_string_field(env, jparams, f_model_hf_file); - params.model_alias = get_string_field(env, jparams, f_model_alias); - params.n_ctx = env->GetIntField(jparams, f_n_ctx); - - jobject value = env->GetObjectField(jparams, f_rope_scaling_type); - if (value == o_rope_scaling_none) - { - params.rope_scaling_type = LLAMA_ROPE_SCALING_TYPE_NONE; - } - else if (value == o_rope_scaling_linear) - { - params.rope_scaling_type = LLAMA_ROPE_SCALING_TYPE_LINEAR; - } - else if (value == o_rope_scaling_yarn) - { - params.rope_scaling_type = LLAMA_ROPE_SCALING_TYPE_YARN; - } - - params.rope_freq_base = env->GetFloatField(jparams, f_rope_freq_base); - params.rope_freq_scale = env->GetFloatField(jparams, f_rope_freq_scale); - params.yarn_ext_factor = env->GetFloatField(jparams, f_yarn_ext_factor); - params.yarn_attn_factor = env->GetFloatField(jparams, f_yarn_attn_factor); - params.yarn_beta_fast = env->GetFloatField(jparams, f_yarn_beta_fast); - params.yarn_beta_slow = env->GetFloatField(jparams, f_yarn_beta_slow); - - value = env->GetObjectField(jparams, f_pooling_type); - if (value == o_pooling_type_none) - { - params.pooling_type = LLAMA_POOLING_TYPE_NONE; - } - else if (value == o_pooling_type_mean) - { - params.pooling_type = LLAMA_POOLING_TYPE_MEAN; - } - else if (value == o_pooling_type_cls) - { - params.pooling_type = LLAMA_POOLING_TYPE_CLS; - } - - params.defrag_thold = env->GetFloatField(jparams, f_defrag_thold); - params.n_threads = env->GetIntField(jparams, f_n_threads); - params.grp_attn_n = env->GetIntField(jparams, f_grp_attn_n); - params.grp_attn_w = env->GetIntField(jparams, f_grp_attn_w); - params.n_threads_batch = env->GetIntField(jparams, f_n_threads_batch); - params.n_batch = env->GetIntField(jparams, f_n_batch); - params.n_ubatch = env->GetIntField(jparams, f_n_ubatch); - - if (llama_supports_gpu_offload()) - { - params.n_gpu_layers = env->GetIntField(jparams, f_n_gpu_layers); - } - else - { - LOG_WARNING("Not compiled with GPU offload support, --n-gpu-layers option will be ignored. " - "See main README.md for information on enabling GPU BLAS support", - {{"n_gpu_layers", params.n_gpu_layers}}); - } - - params.no_kv_offload = env->GetBooleanField(jparams, f_no_kv_offload); - - value = env->GetObjectField(jparams, f_split_mode); - if (value == o_split_mode_none) - { - params.split_mode = LLAMA_SPLIT_MODE_NONE; - } - else if (value == o_split_mode_layer) - { - params.split_mode = LLAMA_SPLIT_MODE_LAYER; - } - else if (value == o_split_mode_row) - { - params.split_mode = LLAMA_SPLIT_MODE_ROW; - } - -#ifndef GGML_USE_CUDA - if (value != o_split_mode_none) - { - fprintf(stderr, "warning: llama.cpp was compiled without CUDA. Setting the split mode has no effect.\n"); - } -#endif - - jintArray j_tensor_split = env->GetObjectField(jparams, f_tensor_split); - jsize j_tensor_split_size = env->GetArrayLength(j_tensor_split); - jfloat *j_tensor_split_elements = env->GetFloatArrayElements(j_tensor_split, 0); - -#if defined(GGML_USE_CUDA) || defined(GGML_USE_SYCL) - GGML_ASSERT(j_tensor_split_size <= llama_max_devices()); - - for (size_t i_device = 0; i_device < llama_max_devices(); ++i_device) - { - if (i_device < j_tensor_split_size) - { - params.tensor_split[i_device] = j_tensor_split_elements[i_device]; - } - else - { - params.tensor_split[i_device] = 0.0f; - } - } -#else - LOG_WARNING("llama.cpp was compiled without CUDA. It is not possible to set a tensor split.\n", {}); -#endif - - params.main_gpu = env->GetIntField(jparams, f_main_gpu); -#if defined(GGML_USE_CUDA) || defined(GGML_USE_SYCL) -#else - LOG_WARNING("llama.cpp was compiled without CUDA. It is not possible to set a main GPU.", {}); -#endif - - // // todo: there can be multiple lora adapters - // value = env->GetObjectField(jparams, f_lora_adapter); - // if (value != nullptr) { - // auto adapter = parse_jstring(env, (jstring) value); - // params.lora_adapter.emplace_back(adapter, 1.0f); - // params.use_mmap = false; - // } - - // else if (arg == "--lora-scaled") { - // if (++i >= argc) { - // invalid_param = true; - // break; - // } - // const char * lora_adapter = argv[i]; - // if (++i >= argc) { - // invalid_param = true; - // break; - // } - // params.lora_adapter.emplace_back(lora_adapter, std::stof(argv[i])); - // params.use_mmap = false; - // } - - // params.lora_base = get_string_field(env, jparams, f_lora_base); - - sparams.verbose = env->GetBooleanField(jparams, f_verbose); -#if SERVER_VERBOSE != 1 - if (sparams.verbose) - { - LOG_WARNING("server.cpp is not built with verbose logging.", {}); - } -#else - server_verbose = true; -#endif - - params.use_mlock = env->GetBooleanField(jparams, f_use_mlock); - params.use_mmap = env->GetBooleanField(jparams, f_use_mmap); - - value = env->GetObjectField(jparams, f_numa_strategy); - if (value == o_numa_strategy_distribute) - { - params.numa = GGML_NUMA_STRATEGY_DISTRIBUTE; - } - else if (value == o_numa_strategy_isolate) - { - params.numa = GGML_NUMA_STRATEGY_ISOLATE; - } - else if (value == o_numa_strategy_numactl) - { - params.numa = GGML_NUMA_STRATEGY_NUMACTL; - } - - params.embedding = env->GetBooleanField(jparams, f_embedding); - params.cont_batching = env->GetBooleanField(jparams, f_cont_batching); - params.n_parallel = env->GetIntField(jparams, f_n_parallel); - params.n_predict = env->GetIntField(jparams, f_n_predict); - - auto system_prompt_file = get_string_field(env, jparams, f_system_prompt_file); - if (system_prompt_file.length() > 0) - { - std::ifstream file(system_prompt_file); - if (!file) - { - fprintf(stderr, "error: failed to open file '%s'\n", argv[i]); - invalid_param = true; - break; - } - std::string system_prompt; - std::copy(std::istreambuf_iterator(file), std::istreambuf_iterator(), - std::back_inserter(system_prompt)); - sparams.system_prompt = system_prompt; - } - - value = env->GetObjectField(jparams, f_log_format); - if (value == o_log_format_json) - { - server_log_json = true; - } - else if (value == o_log_format_text) - { - server_log_json = false; - } - else - { - log_set_target(stdout); - LOG_INFO("logging to file is disabled.", {}); - } - - // auto system_prompt_file = get_string_field(env, jparams, f_system_prompt_file); - // - // else if (arg == "--chat-template") { - // if (++i >= argc) { - // invalid_param = true; - // break; - // } - // if (!verify_custom_template(argv[i])) { - // fprintf(stderr, "error: the supplied chat template is not supported: %s\n", argv[i]); - // fprintf(stderr, "note: llama.cpp does not use jinja parser, we only support commonly used - // templates\n"); invalid_param = true; break; - // } - // sparams.chat_template = argv[i]; - // } else if (arg == "--override-kv") { - // if (++i >= argc) { - // invalid_param = true; - // break; - // } - // char * sep = strchr(argv[i], '='); - // if (sep == nullptr || sep - argv[i] >= 128) { - // fprintf(stderr, "error: Malformed KV override: %s\n", argv[i]); - // invalid_param = true; - // break; - // } - // - // struct llama_model_kv_override kvo; - // std::strncpy(kvo.key, argv[i], sep - argv[i]); - // kvo.key[sep - argv[i]] = 0; - // sep++; - // if (strncmp(sep, "int:", 4) == 0) { - // sep += 4; - // kvo.tag = LLAMA_KV_OVERRIDE_TYPE_INT; - // kvo.int_value = std::atol(sep); - // } else if (strncmp(sep, "float:", 6) == 0) { - // sep += 6; - // kvo.tag = LLAMA_KV_OVERRIDE_TYPE_FLOAT; - // kvo.float_value = std::atof(sep); - // } else if (strncmp(sep, "bool:", 5) == 0) { - // sep += 5; - // kvo.tag = LLAMA_KV_OVERRIDE_TYPE_BOOL; - // if (std::strcmp(sep, "true") == 0) { - // kvo.bool_value = true; - // } else if (std::strcmp(sep, "false") == 0) { - // kvo.bool_value = false; - // } else { - // fprintf(stderr, "error: Invalid boolean value for KV override: %s\n", argv[i]); - // invalid_param = true; - // break; - // } - // } else { - // fprintf(stderr, "error: Invalid type for KV override: %s\n", argv[i]); - // invalid_param = true; - // break; - // } - // params.kv_overrides.push_back(kvo); - // } - // } - // - // if (!params.kv_overrides.empty()) { - // params.kv_overrides.emplace_back(); - // params.kv_overrides.back().key[0] = 0; - // } -} - -// -static bool launch_slot(server_slot &slot, const server_task &task) -{ - slot_params default_params; - llama_sampling_params default_sparams; - auto &data = task.data; - - slot.oaicompat = false; - slot.oaicompat_model = ""; - - slot.params.stream = task.stream; - slot.params.cache_prompt = env->GetBooleanField(jparams, f_cache_prompt); - slot.params.n_predict = env->GetIntField(jparams, f_n_predict); - slot.sparams.top_k = env->GetIntField(jparams, f_top_k); - slot.sparams.top_p = env->GetFloatField(jparams, f_top_p); - slot.sparams.min_p = env->GetFloatField(jparams, f_min_p); - slot.sparams.tfs_z = env->GetFloatField(jparams, f_tfs_z); - slot.sparams.typical_p = env->GetFloatField(jparams, f_typical_p); - slot.sparams.temp = env->GetFloatField(jparams, f_temp); - slot.sparams.dynatemp_range = env->GetFloatField(jparams, f_dynatemp_range); - slot.sparams.dynatemp_exponent = env->GetFloatField(jparams, f_dynatemp_exponent); - slot.sparams.penalty_last_n = env->GetIntField(jparams, f_penalty_last_n); - slot.sparams.penalty_repeat = env->GetFloatField(jparams, f_penalty_repeat); - slot.sparams.penalty_freq = env->GetFloatField(jparams, f_penalty_freq); - slot.sparams.penalty_present = env->GetFloatField(jparams, f_penalty_present); - - auto mirostat = env->GetObjectField(jparams, f_mirostat); - if (mirostat == o_mirostat_v1) - { - slot.sparams.mirostat = 1; - } - else if (mirostat == o_mirostat_v2) - { - slot.sparams.mirostat = 2; - } - else - { - slot.sparams.mirostat = 0; - } - slot.sparams.mirostat_tau = env->GetFloatField(jparams, f_mirostat_tau); - slot.sparams.mirostat_eta = env->GetFloatField(jparams, f_mirostat_eta); - slot.sparams.penalize_nl = env->GetBooleanField(jparams, f_penalize_nl); - slot.params.n_keep = env->GetIntField(jparams, f_n_keep); - slot.params.n_discard = env->GetIntField(jparams, f_n_discard); - slot.params.seed = env->GetIntField(jparams, f_infer_seed); - slot.sparams.n_probs = env->GetIntField(jparams, f_n_probs); - slot.sparams.min_keep = env->GetIntField(jparams, f_min_keep); - - jstring j_grammar = (jstring)env->GetObjectField(jparams, f_grammar); - if (j_grammar != nullptr) - { - slot.sparams.grammar = parse_jstring(env, j_grammar); - } - - if (slot.params.cache_prompt && slot.ga_n != 1) - { - LOG_WARNING("cache_prompt is not supported with group-attention", {}); - slot.params.cache_prompt = false; - } - - if (slot.n_predict > 0 && slot.params.n_predict > slot.n_predict) - { - // Might be better to reject the request with a 400 ? - LOG_WARNING("Max tokens to predict exceeds server configuration", - { - {"params.n_predict", slot.params.n_predict}, - {"slot.n_predict", slot.n_predict}, - }); - slot.params.n_predict = slot.n_predict; - } - - slot.prompt = task.prompt; - slot.params.input_prefix = task.input_prefix; - slot.params.input_suffix = task.input_suffix; - - // penalize user-provided tokens - // { - // slot.sparams.penalty_prompt_tokens.clear(); - // slot.sparams.use_penalty_prompt_tokens = false; - // - // const auto & penalty_prompt = data.find("penalty_prompt"); - // - // if (penalty_prompt != data.end()) { - // if (penalty_prompt->is_string()) { - // const auto penalty_prompt_string = penalty_prompt->get(); - // slot.sparams.penalty_prompt_tokens = llama_tokenize(model, penalty_prompt_string, false); - // - // if (slot.params.n_predict > 0) { - // slot.sparams.penalty_prompt_tokens.reserve(slot.sparams.penalty_prompt_tokens.size() + - // slot.params.n_predict); - // } - // slot.sparams.use_penalty_prompt_tokens = true; - // - // LOG_VERBOSE("penalty_prompt_tokens", { - // {"id_slot", slot.id}, - // {"tokens", slot.sparams.penalty_prompt_tokens}, - // }); - // } - // else if (penalty_prompt->is_array()) { - // const auto n_tokens = penalty_prompt->size(); - // slot.sparams.penalty_prompt_tokens.reserve(n_tokens + std::max(0, slot.params.n_predict)); - // - // const int n_vocab = llama_n_vocab(model); - // for (const auto & penalty_token : *penalty_prompt) { - // if (penalty_token.is_number_integer()) { - // const auto tok = penalty_token.get(); - // if (tok >= 0 && tok < n_vocab) { - // slot.sparams.penalty_prompt_tokens.push_back(tok); - // } - // } - // } - // slot.sparams.use_penalty_prompt_tokens = true; - // - // LOG_VERBOSE("penalty_prompt_tokens", { - // {"id_slot", slot.id}, - // {"tokens", slot.sparams.penalty_prompt_tokens}, - // }); - // } - // } - // } - - sparams.logit_bias.clear(); - jboolean ignore_eos = env->GetBooleanField(jparams, f_ignore_eos); - if (ignore_eos) - { - slot.sparams.logit_bias[llama_token_eos(llama->model)] = -INFINITY; - } - - jobject logit_bias = env->GetObjectField(jparams, f_logit_bias); - if (logit_bias != nullptr) - { - jobject entry_set = env->CallObjectMethod(logit_bias, m_entry_set); - jobject iterator = env->CallObjectMethod(entry_set, m_set_iterator); - while (env->CallBooleanMethod(iterator, m_iterator_has_next)) - { - jobject entry = env->CallObjectMethod(iterator, m_iterator_next); - jobject key = env->CallObjectMethod(entry, m_entry_key); - jobject value = env->CallObjectMethod(entry, m_entry_value); - - int tok = parse_jinteger(env, key); - float bias = parse_jfloat(env, value); - slot.sparams.logit_bias[tok] = bias; - - env->DeleteLocalRef(entry); - env->DeleteLocalRef(key); - env->DeleteLocalRef(value); - } - } - - slot.params.antiprompt.clear(); - jobjectArray antiprompt = (jobjectArray)env->GetObjectField(jparams, f_antiprompt); - if (antiprompt != nullptr) - { - jsize array_length = env->GetArrayLength(antiprompt); - for (jsize i = 0; i < array_length; i++) - { - jstring java_string = (jstring)env->GetObjectArrayElement(antiprompt, i); - if (java_string != nullptr) - { - std::string string = parse_jstring(env, java_string); - slot.params.antiprompt.push_back(string); - env->DeleteLocalRef(java_string); - } - } - } - - // { - // const auto & samplers_sequence = data.find("samplers"); - // if (samplers_sequence != data.end() && samplers_sequence->is_array()) { - // std::vector sampler_names; - // for (const auto & sampler_name : *samplers_sequence) { - // if (sampler_name.is_string()) { - // sampler_names.emplace_back(sampler_name); - // } - // } - // slot.sparams.samplers_sequence = sampler_types_from_names(sampler_names, false); - // } else { - // slot.sparams.samplers_sequence = default_sparams.samplers_sequence; - // } - // } - - // { - // if (slot.ctx_sampling != nullptr) { - // llama_sampling_free(slot.ctx_sampling); - // } - // slot.ctx_sampling = llama_sampling_init(slot.sparams); - // if (slot.ctx_sampling == nullptr) { - // // for now, the only error that may happen here is invalid grammar - // send_error(task, "Failed to parse grammar", ERROR_TYPE_INVALID_REQUEST); - // return false; - // } - // llama_set_rng_seed(ctx, slot.params.seed); - // } - - slot.command = SLOT_COMMAND_LOAD_PROMPT; - slot.prompt_tokens.clear(); -} - /** * The VM calls JNI_OnLoad when the native library is loaded (for example, through `System.loadLibrary`). * `JNI_OnLoad` must return the JNI version needed by the native library. @@ -702,8 +109,6 @@ JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) // find classes c_llama_model = env->FindClass("de/kherud/llama/LlamaModel"); c_llama_iterator = env->FindClass("de/kherud/llama/LlamaModel$LlamaIterator"); - c_infer_params = env->FindClass("de/kherud/llama/InferenceParameters"); - c_model_params = env->FindClass("de/kherud/llama/ModelParameters"); c_standard_charsets = env->FindClass("java/nio/charset/StandardCharsets"); c_output = env->FindClass("de/kherud/llama/LlamaModel$Output"); c_string = env->FindClass("java/lang/String"); @@ -714,22 +119,12 @@ JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) c_iterator = env->FindClass("java/util/Iterator"); c_integer = env->FindClass("java/lang/Integer"); c_float = env->FindClass("java/lang/Float"); - c_log_level = env->FindClass("de/kherud/llama/LogLevel"); c_biconsumer = env->FindClass("java/util/function/BiConsumer"); c_llama_error = env->FindClass("de/kherud/llama/LlamaException"); c_error_oom = env->FindClass("java/lang/OutOfMemoryError"); - c_split_mode = env->FindClass("de/kherud/llama/args/GpuSplitMode"); - c_log_format = env->FindClass("de/kherud/llama/args/LogFormat"); - c_miro_stat = env->FindClass("de/kherud/llama/args/MiroStat"); - c_numa_strategy = env->FindClass("de/kherud/llama/args/NumaStrategy"); - c_pooling_type = env->FindClass("de/kherud/llama/args/PoolingType"); - c_rope_scaling = env->FindClass("de/kherud/llama/args/RopeScalingType"); - c_sampler = env->FindClass("de/kherud/llama/args/Sampler"); - - if (!(c_llama_model && c_llama_iterator && c_infer_params && c_model_params && c_standard_charsets && c_output && - c_string && c_hash_map && c_map && c_set && c_entry && c_iterator && c_integer && c_float && c_log_level && - c_biconsumer && c_llama_error && c_error_oom && c_split_mode && c_log_format && c_miro_stat && - c_numa_strategy && c_pooling_type && c_rope_scaling && c_sampler)) + + if (!(c_llama_model && c_llama_iterator && c_standard_charsets && c_output && c_string && c_hash_map && c_map && + c_set && c_entry && c_iterator && c_integer && c_float && c_biconsumer && c_llama_error && c_error_oom)) { goto error; } @@ -737,8 +132,6 @@ JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) // create references c_llama_model = (jclass)env->NewGlobalRef(c_llama_model); c_llama_iterator = (jclass)env->NewGlobalRef(c_llama_iterator); - c_infer_params = (jclass)env->NewGlobalRef(c_infer_params); - c_model_params = (jclass)env->NewGlobalRef(c_model_params); c_output = (jclass)env->NewGlobalRef(c_output); c_string = (jclass)env->NewGlobalRef(c_string); c_hash_map = (jclass)env->NewGlobalRef(c_hash_map); @@ -748,17 +141,9 @@ JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) c_iterator = (jclass)env->NewGlobalRef(c_iterator); c_integer = (jclass)env->NewGlobalRef(c_integer); c_float = (jclass)env->NewGlobalRef(c_float); - c_log_level = (jclass)env->NewGlobalRef(c_log_level); c_biconsumer = (jclass)env->NewGlobalRef(c_biconsumer); c_llama_error = (jclass)env->NewGlobalRef(c_llama_error); c_error_oom = (jclass)env->NewGlobalRef(c_error_oom); - c_split_mode = (jclass)env->NewGlobalRef(c_split_mode); - c_log_format = (jclass)env->NewGlobalRef(c_log_format); - c_miro_stat = (jclass)env->NewGlobalRef(c_miro_stat); - c_numa_strategy = (jclass)env->NewGlobalRef(c_numa_strategy); - c_pooling_type = (jclass)env->NewGlobalRef(c_pooling_type); - c_rope_scaling = (jclass)env->NewGlobalRef(c_rope_scaling); - c_sampler = (jclass)env->NewGlobalRef(c_sampler); // find constructors cc_output = env->GetMethodID(c_output, "", "(I[BLjava/util/Map;)V"); @@ -792,178 +177,25 @@ JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) // find fields f_model_pointer = env->GetFieldID(c_llama_model, "ctx", "J"); + f_utf_8 = env->GetStaticFieldID(c_standard_charsets, "UTF_8", "Ljava/nio/charset/Charset;"); f_iter_has_next = env->GetFieldID(c_llama_iterator, "hasNext", "Z"); f_iter_n_generated = env->GetFieldID(c_llama_iterator, "generatedCount", "J"); f_iter_token_index = env->GetFieldID(c_llama_iterator, "tokenIndex", "J"); - if (!(f_model_pointer && f_iter_has_next && f_iter_n_generated && f_iter_token_index)) - { - goto error; - } - - // find inference parameters fields - f_cache_prompt = env->GetFieldID(c_infer_params, "cachePrompt", "I"); - f_n_predict = env->GetFieldID(c_infer_params, "nPredict", "I"); - f_top_k = env->GetFieldID(c_infer_params, "topK", "I"); - f_top_p = env->GetFieldID(c_infer_params, "topP", "F"); - f_min_p = env->GetFieldID(c_infer_params, "minP", "F"); - f_tfs_z = env->GetFieldID(c_infer_params, "tfsZ", "F"); - f_typical_p = env->GetFieldID(c_infer_params, "typicalP", "F"); - f_temp = env->GetFieldID(c_infer_params, "temperature", "F"); - f_dynatemp_range = env->GetFieldID(c_infer_params, "dynamicTemperatureRange", "F"); - f_dynatemp_exponent = env->GetFieldID(c_infer_params, "dynamicTemperatureExponent", "F"); - f_penalty_last_n = env->GetFieldID(c_infer_params, "repeatLastN", "I"); - f_penalty_repeat = env->GetFieldID(c_infer_params, "repeatPenalty", "F"); - f_penalty_freq = env->GetFieldID(c_infer_params, "frequencyPenalty", "F"); - f_penalty_present = env->GetFieldID(c_infer_params, "presencePenalty", "F"); - f_mirostat = env->GetFieldID(c_infer_params, "mirostat", "Lde/kherud/llama/args/MiroStat;"); - f_mirostat_tau = env->GetFieldID(c_infer_params, "mirostatTau", "F"); - f_mirostat_eta = env->GetFieldID(c_infer_params, "mirostatEta", "F"); - f_penalize_nl = env->GetFieldID(c_infer_params, "penalizeNl", "Z"); - f_n_keep = env->GetFieldID(c_infer_params, "nKeep", "I"); - f_n_discard = env->GetFieldID(c_infer_params, "nDiscard", "I"); - f_infer_seed = env->GetFieldID(c_infer_params, "seed", "I"); - f_n_probs = env->GetFieldID(c_infer_params, "nProbs", "I"); - f_min_keep = env->GetFieldID(c_infer_params, "minKeep", "I"); - f_grammar = env->GetFieldID(c_infer_params, "grammar", "Ljava/lang/String;"); - f_ignore_eos = env->GetFieldID(c_infer_params, "ignoreEos", "Z"); - f_logit_bias = env->GetFieldID(c_infer_params, "logitBias", "Ljava/util/Map;"); - f_antiprompt = env->GetFieldID(c_infer_params, "stopStrings", "[Ljava/lang/String;"); - - if (!(f_cache_prompt && f_n_predict && f_top_k && f_top_p && f_min_p && f_tfs_z && f_typical_p && f_temp && - f_dynatemp_range && f_dynatemp_exponent && f_penalty_last_n && f_penalty_repeat && f_penalty_freq && - f_penalty_present && f_mirostat && f_mirostat_tau && f_mirostat_eta && f_penalize_nl && f_n_keep && - f_n_discard && f_infer_seed && f_n_probs && f_min_keep && f_grammar && f_ignore_eos && f_logit_bias && - f_antiprompt)) - { - goto error; - } - - // find model parameters fields - f_model_seed = env->GetFieldID(c_model_params, "seed", "I"); - f_model_path = env->GetFieldID(c_model_params, "modelFilePath", "Ljava/lang/String;"); - f_model_url = env->GetFieldID(c_model_params, "modelUrl", "Ljava/lang/String;"); - f_model_hf_repo = env->GetFieldID(c_model_params, "huggingFaceRepository", "Ljava/lang/String;"); - f_model_hf_file = env->GetFieldID(c_model_params, "huggingFaceFile", "Ljava/lang/String;"); - f_model_alias = env->GetFieldID(c_model_params, "modelAlias", "Ljava/lang/String;"); - f_n_ctx = env->GetFieldID(c_model_params, "nCtx", "I"); - f_rope_scaling_type = env->GetFieldID(c_model_params, "ropeScalingType", "Lde/kherud/llama/args/RopeScalingType;"); - f_rope_freq_base = env->GetFieldID(c_model_params, "ropeFreqBase", "F"); - f_rope_freq_scale = env->GetFieldID(c_model_params, "ropeFreqScale", "F"); - f_yarn_ext_factor = env->GetFieldID(c_model_params, "yarnExtFactor", "F"); - f_yarn_attn_factor = env->GetFieldID(c_model_params, "yarnAttnFactor", "F"); - f_yarn_beta_fast = env->GetFieldID(c_model_params, "yarnBetaFast", "F"); - f_yarn_beta_slow = env->GetFieldID(c_model_params, "yarnBetaSlow", "F"); - f_pooling_type = env->GetFieldID(c_model_params, "poolingType", "Lde/kherud/llama/args/PoolingType;"); - f_defrag_thold = env->GetFieldID(c_model_params, "defragmentationThreshold", "F"); - f_n_threads = env->GetFieldID(c_model_params, "nThreads", "I"); - f_grp_attn_n = env->GetFieldID(c_model_params, "groupAttnN", "I"); - f_grp_attn_w = env->GetFieldID(c_model_params, "groupAttnW", "I"); - f_n_threads_batch = env->GetFieldID(c_model_params, "nThreadsBatch", "I"); - f_n_batch = env->GetFieldID(c_model_params, "nBatch", "I"); - f_n_ubatch = env->GetFieldID(c_model_params, "nUBatch", "I"); - f_n_gpu_layers = env->GetFieldID(c_model_params, "nGpuLayers", "I"); - f_no_kv_offload = env->GetFieldID(c_model_params, "noKVOffload", "Z"); - f_split_mode = env->GetFieldID(c_model_params, "gpuSplitMode", "Lde/kherud/llama/args/GpuSplitMode;"); - f_tensor_split = env->GetFieldID(c_model_params, "tensorSplit", "[F;"); - f_main_gpu = env->GetFieldID(c_model_params, "mainGpu", "I"); - f_verbose = env->GetFieldID(c_model_params, "verbose", "Z"); - f_use_mlock = env->GetFieldID(c_model_params, "useMlock", "Z"); - f_use_mmap = env->GetFieldID(c_model_params, "useMmap", "Z"); - f_numa_strategy = env->GetFieldID(c_model_params, "numa", "Lde/kherud/llama/args/NumaStrategy;"); - f_embedding = env->GetFieldID(c_model_params, "embedding", "Z"); - f_cont_batching = env->GetFieldID(c_model_params, "continuousBatching", "Z"); - f_n_parallel = env->GetFieldID(c_model_params, "nParallel", "I"); - f_n_predict = env->GetFieldID(c_model_params, "nPredict", "I"); - f_system_prompt_file = env->GetFieldID(c_model_params, "systemPromptFile", "Ljava/lang/String;"); - f_log_format = env->GetFieldID(c_model_params, "logFormat", "Lde/kherud/llama/args/LogFormat;"); - - if (!(f_model_seed && f_model_path && f_model_url && f_model_hf_repo && f_model_hf_file && f_model_alias && - f_n_ctx && f_rope_scaling_type && f_rope_freq_base && f_rope_freq_scale && f_yarn_ext_factor && - f_yarn_attn_factor && f_yarn_beta_fast && f_yarn_beta_slow && f_pooling_type && f_defrag_thold && - f_n_threads && f_grp_attn_n && f_grp_attn_w && f_n_threads_batch && f_n_batch && f_n_ubatch && - f_n_gpu_layers && f_no_kv_offload && f_split_mode && f_tensor_split && f_main_gpu && f_verbose && - f_use_mlock && f_use_mmap && f_numa_strategy && f_embedding && f_cont_batching && f_n_parallel && - f_n_predict && f_system_prompt_file && f_log_format)) + if (!(f_model_pointer && f_utf_8 && f_iter_has_next && f_iter_n_generated && f_iter_token_index)) { goto error; } - f_utf_8 = env->GetStaticFieldID(c_standard_charsets, "UTF_8", "Ljava/nio/charset/Charset;"); - - f_log_level_debug = env->GetStaticFieldID(c_log_level, "DEBUG", "Lde/kherud/llama/LogLevel;"); - f_log_level_info = env->GetStaticFieldID(c_log_level, "INFO", "Lde/kherud/llama/LogLevel;"); - f_log_level_warn = env->GetStaticFieldID(c_log_level, "WARN", "Lde/kherud/llama/LogLevel;"); - f_log_level_error = env->GetStaticFieldID(c_log_level, "ERROR", "Lde/kherud/llama/LogLevel;"); - - f_rope_scaling_none = env->GetStaticFieldID(c_log_level, "UNSPECIFIED", "Lde/kherud/llama/args/RopeScalingType;"); - f_rope_scaling_linear = env->GetStaticFieldID(c_log_level, "LINEAR", "Lde/kherud/llama/args/RopeScalingType;"); - f_rope_scaling_yarn = env->GetStaticFieldID(c_log_level, "YARN", "Lde/kherud/llama/args/RopeScalingType;"); - - f_pooling_type_none = env->GetStaticFieldID(c_log_level, "UNSPECIFIED", "Lde/kherud/llama/args/PoolingType;"); - f_pooling_type_mean = env->GetStaticFieldID(c_log_level, "MEAN", "Lde/kherud/llama/args/PoolingType;"); - f_pooling_type_cls = env->GetStaticFieldID(c_log_level, "CLS", "Lde/kherud/llama/args/PoolingType;"); - - f_split_mode_none = env->GetStaticFieldID(c_log_level, "NONE", "Lde/kherud/llama/args/GpuSplitMode;"); - f_split_mode_layer = env->GetStaticFieldID(c_log_level, "LAYER", "Lde/kherud/llama/args/GpuSplitMode;"); - f_split_mode_row = env->GetStaticFieldID(c_log_level, "ROW", "Lde/kherud/llama/args/GpuSplitMode;"); - - f_numa_strategy_distribute = - env->GetStaticFieldID(c_log_level, "DISTRIBUTE", "Lde/kherud/llama/args/NumaStrategy;"); - f_numa_strategy_isolate = env->GetStaticFieldID(c_log_level, "ISOLATE", "Lde/kherud/llama/args/NumaStrategy;"); - f_numa_strategy_numactl = env->GetStaticFieldID(c_log_level, "NUMA_CTL", "Lde/kherud/llama/args/NumaStrategy;"); - - f_log_format_json = env->GetStaticFieldID(c_log_level, "JSON", "Lde/kherud/llama/args/LogFormat;"); - f_log_format_text = env->GetStaticFieldID(c_log_level, "TEXT", "Lde/kherud/llama/args/LogFormat;"); - - f_mirostat_v1 = env->GetStaticFieldID(c_log_level, "V1", "Lde/kherud/llama/args/MiroStat;"); - f_mirostat_v2 = env->GetStaticFieldID(c_log_level, "V2", "Lde/kherud/llama/args/MiroStat;"); + o_utf_8 = env->NewStringUTF("UTF-8"); - if (!(f_utf_8 && f_log_level_debug && f_log_level_info && f_log_level_warn && f_log_level_error && - f_rope_scaling_none && f_rope_scaling_linear && f_rope_scaling_yarn && f_pooling_type_none && - f_pooling_type_mean && f_pooling_type_cls && f_split_mode_none && f_split_mode_layer && f_split_mode_row && - f_numa_strategy_distribute && f_numa_strategy_isolate && f_numa_strategy_numactl && f_log_format_json && - f_log_format_text && f_mirostat_v1 && f_mirostat_v2)) + if (!(o_utf_8)) { goto error; } - // o_utf_8 = env->GetStaticObjectField(c_standard_charsets, f_utf_8); - o_utf_8 = env->NewStringUTF("UTF-8"); o_utf_8 = (jclass)env->NewGlobalRef(o_utf_8); - o_log_level_debug = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_log_level, f_log_level_debug)); - o_log_level_info = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_log_level, f_log_level_info)); - o_log_level_warn = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_log_level, f_log_level_warn)); - o_log_level_error = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_log_level, f_log_level_error)); - - o_rope_scaling_none = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_rope_scaling, f_rope_scaling_none)); - o_rope_scaling_linear = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_rope_scaling, f_rope_scaling_linear)); - o_rope_scaling_yarn = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_rope_scaling, f_rope_scaling_yarn)); - - o_pooling_type_none = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_pooling_type, f_pooling_type_none)); - o_pooling_type_mean = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_pooling_type, f_pooling_type_mean)); - o_pooling_type_cls = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_pooling_type, f_pooling_type_cls)); - - o_split_mode_none = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_split_mode, f_split_mode_none)); - o_split_mode_layer = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_split_mode, f_split_mode_layer)); - o_split_mode_row = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_split_mode, f_split_mode_row)); - - o_numa_strategy_distribute = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_numa_strategy, f_numa_strategy_distribute)); - o_numa_strategy_isolate = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_numa_strategy, f_numa_strategy_isolate)); - o_numa_strategy_numactl = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_numa_strategy, f_numa_strategy_numactl)); - - o_log_format_json = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_log_format, f_log_format_json)); - o_log_format_text = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_log_format, f_log_format_text)); - - o_mirostat_v1 = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_miro_stat, f_mirostat_v1)); - o_mirostat_v2 = (jobject)env->NewGlobalRef(env->GetStaticObjectField(c_miro_stat, f_mirostat_v2)); - - if (!(o_utf_8 && o_log_level_debug && o_log_level_info && o_log_level_warn && o_log_level_error)) - { - goto error; - } - if (env->ExceptionCheck()) { env->ExceptionDescribe(); @@ -996,8 +228,6 @@ JNIEXPORT void JNICALL JNI_OnUnload(JavaVM *vm, void *reserved) env->DeleteGlobalRef(c_llama_model); env->DeleteGlobalRef(c_llama_iterator); - env->DeleteGlobalRef(c_infer_params); - env->DeleteGlobalRef(c_model_params); env->DeleteGlobalRef(c_output); env->DeleteGlobalRef(c_string); env->DeleteGlobalRef(c_hash_map); @@ -1007,50 +237,23 @@ JNIEXPORT void JNICALL JNI_OnUnload(JavaVM *vm, void *reserved) env->DeleteGlobalRef(c_iterator); env->DeleteGlobalRef(c_integer); env->DeleteGlobalRef(c_float); - env->DeleteGlobalRef(c_log_level); env->DeleteGlobalRef(c_biconsumer); env->DeleteGlobalRef(c_llama_error); env->DeleteGlobalRef(c_error_oom); - env->DeleteGlobalRef(c_split_mode); - env->DeleteGlobalRef(c_log_format); - env->DeleteGlobalRef(c_miro_stat); - env->DeleteGlobalRef(c_numa_strategy); - env->DeleteGlobalRef(c_pooling_type); - env->DeleteGlobalRef(c_rope_scaling); - env->DeleteGlobalRef(c_sampler); env->DeleteGlobalRef(o_utf_8); - env->DeleteGlobalRef(o_log_level_debug); - env->DeleteGlobalRef(o_log_level_info); - env->DeleteGlobalRef(o_log_level_warn); - env->DeleteGlobalRef(o_log_level_error); - env->DeleteGlobalRef(o_rope_scaling_none); - env->DeleteGlobalRef(o_rope_scaling_linear); - env->DeleteGlobalRef(o_rope_scaling_yarn); - env->DeleteGlobalRef(o_pooling_type_none); - env->DeleteGlobalRef(o_pooling_type_mean); - env->DeleteGlobalRef(o_pooling_type_cls); - env->DeleteGlobalRef(o_split_mode_none); - env->DeleteGlobalRef(o_split_mode_layer); - env->DeleteGlobalRef(o_split_mode_row); - env->DeleteGlobalRef(o_numa_strategy_distribute); - env->DeleteGlobalRef(o_numa_strategy_isolate); - env->DeleteGlobalRef(o_numa_strategy_numactl); - env->DeleteGlobalRef(o_log_format_json); - env->DeleteGlobalRef(o_log_format_text); - env->DeleteGlobalRef(o_mirostat_v1); - env->DeleteGlobalRef(o_mirostat_v2); } -JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_loadModel(JNIEnv *env, jobject obj, jstring file_path, - jobject jparams) +JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_loadModel(JNIEnv *env, jobject obj, jstring jparams) { gpt_params params; server_params sparams; server_context ctx_server; - server_params_parse(env, jparams, sparams, params); + std::string c_params = parse_jstring(env, jparams); + json json_params = json::parse(c_params); + server_params_parse(json_params, sparams, params); if (!sparams.system_prompt.empty()) { @@ -1121,7 +324,19 @@ JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_loadModel(JNIEnv *env, jo }); } - env->SetLongField(obj, f_model_pointer, reinterpret_cast(llama)); + ctx_server.queue_tasks.on_new_task( + std::bind(&server_context::process_single_task, &ctx_server, std::placeholders::_1)); + ctx_server.queue_tasks.on_finish_multitask( + std::bind(&server_context::on_finish_multitask, &ctx_server, std::placeholders::_1)); + ctx_server.queue_tasks.on_update_slots(std::bind(&server_context::update_slots, &ctx_server)); + ctx_server.queue_results.on_multitask_update(std::bind(&server_queue::update_multitask, &ctx_server.queue_tasks, + std::placeholders::_1, std::placeholders::_2, + std::placeholders::_3)); + + std::thread t([&]() { ctx_server.queue_tasks.start_loop(); }); + t.detach(); + + env->SetLongField(obj, f_model_pointer, reinterpret_cast(&ctx_server)); } // JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_newAnswerIterator(JNIEnv *env, jobject obj, jstring prompt, @@ -1248,48 +463,38 @@ JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_loadModel(JNIEnv *env, jo // return env->NewObject(c_output, cc_output, token_with_probs.tok, jbytes, o_probabilities); // } // -// JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_getAnswer(JNIEnv *env, jobject obj, jstring prompt, -// jobject params) -//{ -// jlong llama_handle = env->GetLongField(obj, f_model_pointer); -// jllama_context *llama = reinterpret_cast(llama_handle); -// -// // auto lock = llama->lock(); -// -// llama->rewind(); -// -// llama_reset_timings(llama->ctx); -// -// setup_answering(env, llama, prompt, params); -// -// llama->loadPrompt(); -// llama->beginCompletion(); -// -// size_t stop_pos = std::string::npos; -// -// while (llama->has_next_token) -// { -// const completion_token_output token_with_probs = llama->doCompletion(); -// const std::string token_text = -// token_with_probs.tok == -1 ? "" : llama_token_to_piece(llama->ctx, token_with_probs.tok); -// -// stop_pos = llama->findStoppingStrings(llama->generated_text, token_text.size(), STOP_FULL); -// } -// -// if (stop_pos == std::string::npos) -// { -// stop_pos = llama->findStoppingStrings(llama->generated_text, 0, STOP_PARTIAL); -// } -// if (stop_pos != std::string::npos) -// { -// llama->generated_text.erase(llama->generated_text.begin() + stop_pos, llama->generated_text.end()); -// } -// -// // llama->lock().release(); -// // llama->mutex.unlock(); -// -// return parse_jbytes(env, llama->generated_text); -// } +JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_getAnswer(JNIEnv *env, jobject obj, jstring jprompt, + jstring jparams) +{ + jlong server_handle = env->GetLongField(obj, f_model_pointer); + server_context *ctx_server = reinterpret_cast(server_handle); + + std::string c_params = parse_jstring(env, jparams); + json json_params = json::parse(c_params); + json_params["prompt"] = parse_jstring(env, jprompt); + + const int id_task = ctx_server->queue_tasks.get_new_id(); + + ctx_server->queue_results.add_waiting_task_id(id_task); + + std::cout << "E" << std::endl; + + ctx_server->request_completion(id_task, -1, json_params, false, false); + + std::cout << "F" << std::endl; + + server_task_result result = ctx_server->queue_results.recv(id_task); + std::string response = result.data.get(); + + if (result.error || !result.stop) + { + env->ThrowNew(c_llama_error, response.c_str()); + return nullptr; + } + ctx_server->queue_results.remove_waiting_task_id(id_task); + + return parse_jbytes(env, response); +} // // JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_getInfill(JNIEnv *env, jobject obj, jstring prefix, // jstring suffix, jobject params) From 0225d11794e5b8e896a18f233982ca7cc7c95e9d Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 13:26:00 +0200 Subject: [PATCH 038/285] Remove log level class --- src/main/java/de/kherud/llama/LogLevel.java | 28 --------------------- 1 file changed, 28 deletions(-) delete mode 100644 src/main/java/de/kherud/llama/LogLevel.java diff --git a/src/main/java/de/kherud/llama/LogLevel.java b/src/main/java/de/kherud/llama/LogLevel.java deleted file mode 100644 index 25520f0e..00000000 --- a/src/main/java/de/kherud/llama/LogLevel.java +++ /dev/null @@ -1,28 +0,0 @@ -package de.kherud.llama; - -/** - * This enum represents the native log levels of llama.cpp. - */ -public enum LogLevel { - - DEBUG(-1), - INFO(4), - WARN(3), - ERROR(2); - - private final int code; - - LogLevel(int code) { - this.code = code; - } - - /** - * Returns the native log level code of this option - * - * @return the native code - */ - int getCode() { - return code; - } - -} From 19a1a4339e9ba706a4abd0ecb4ecb2b84dd24625 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 15:23:28 +0200 Subject: [PATCH 039/285] Add verbose output flag --- CMakeLists.txt | 8 +++++++- src/main/cpp/server.hpp | 3 --- src/main/cpp/utils.hpp | 28 ++++++++-------------------- 3 files changed, 15 insertions(+), 24 deletions(-) diff --git a/CMakeLists.txt b/CMakeLists.txt index 9bddd1c1..6e942ab1 100644 --- a/CMakeLists.txt +++ b/CMakeLists.txt @@ -5,6 +5,8 @@ project(jllama CXX) set(CMAKE_POSITION_INDEPENDENT_CODE ON) set(BUILD_SHARED_LIBS ON) +option(LLAMA_VERBOSE "llama: verbose output" OFF) + #################### llama.cpp #################### include(FetchContent) @@ -86,12 +88,16 @@ if(NOT JNI_INCLUDE_DIRS) message(FATAL_ERROR "Could not determine JNI include directories") endif() -add_library(jllama SHARED src/main/cpp/jllama.cpp src/main/cpp/server.cpp src/main/cpp/utils.cpp) +add_library(jllama SHARED src/main/cpp/jllama.cpp src/main/cpp/server.hpp src/main/cpp/utils.hpp) target_include_directories(jllama PRIVATE src/main/cpp ${JNI_INCLUDE_DIRS}) target_link_libraries(jllama PRIVATE common llama nlohmann_json ${LLAMA_EXTRA_LIBS}) target_compile_features(jllama PRIVATE cxx_std_11) +target_compile_definitions(jllama PRIVATE + SERVER_VERBOSE=$ +) + if(OS_NAME STREQUAL "Windows") set_target_properties(jllama llama PROPERTIES RUNTIME_OUTPUT_DIRECTORY_RELEASE ${JLLAMA_DIR} diff --git a/src/main/cpp/server.hpp b/src/main/cpp/server.hpp index 5d16a1e6..81c53324 100644 --- a/src/main/cpp/server.hpp +++ b/src/main/cpp/server.hpp @@ -14,7 +14,6 @@ #include #include -bool server_verbose = false; bool server_log_json = true; enum stop_type @@ -485,8 +484,6 @@ struct server_queue { LOG_VERBOSE("new task may arrive", {}); - std::cout << "hello, X" << std::endl; - while (true) { std::unique_lock lock(mutex_tasks); diff --git a/src/main/cpp/utils.hpp b/src/main/cpp/utils.hpp index 4bf1d858..636b322f 100644 --- a/src/main/cpp/utils.hpp +++ b/src/main/cpp/utils.hpp @@ -25,33 +25,21 @@ enum error_type { ERROR_TYPE_NOT_SUPPORTED, // custom error }; -extern bool server_verbose; extern bool server_log_json; #ifndef SERVER_VERBOSE #define SERVER_VERBOSE 1 #endif +#if SERVER_VERBOSE != 1 +#define LOG_VERBOSE(MSG, ...) +#else #define LOG_VERBOSE(MSG, ...) \ do \ { \ - if (server_verbose) \ - { \ - server_log("VERB", __func__, __LINE__, MSG, __VA_ARGS__); \ - } \ + server_log("VERB", __func__, __LINE__, MSG, __VA_ARGS__); \ } while (0) -//#if SERVER_VERBOSE != 1 -//#define LOG_VERBOSE(MSG, ...) -//#else -//#define LOG_VERBOSE(MSG, ...) \ -// do \ -// { \ -// if (server_verbose) \ -// { \ -// server_log("VERB", __func__, __LINE__, MSG, __VA_ARGS__); \ -// } \ -// } while (0) -//#endif +#endif #define LOG_ERROR( MSG, ...) server_log("ERR", __func__, __LINE__, MSG, __VA_ARGS__) #define LOG_WARNING(MSG, ...) server_log("WARN", __func__, __LINE__, MSG, __VA_ARGS__) @@ -477,9 +465,9 @@ static json format_final_response_oaicompat(const json & request, json result, c {"id", completion_id} }; - if (server_verbose) { - res["__verbose"] = result; - } +#if SERVER_VERBOSE + res["__verbose"] = result; +#endif if (result.contains("completion_probabilities")) { res["completion_probabilities"] = json_value(result, "completion_probabilities", json::array()); From 24ca439a53843ff3a4c3d4ce6f7ed1e60d406c1b Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 15:23:56 +0200 Subject: [PATCH 040/285] Working completion --- src/main/cpp/jllama.cpp | 53 +++++++++++++++++++---------------------- 1 file changed, 25 insertions(+), 28 deletions(-) diff --git a/src/main/cpp/jllama.cpp b/src/main/cpp/jllama.cpp index 15d41265..1f10ad26 100644 --- a/src/main/cpp/jllama.cpp +++ b/src/main/cpp/jllama.cpp @@ -249,7 +249,7 @@ JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_loadModel(JNIEnv *env, jo gpt_params params; server_params sparams; - server_context ctx_server; + server_context *ctx_server = new server_context(); std::string c_params = parse_jstring(env, jparams); json json_params = json::parse(c_params); @@ -257,7 +257,7 @@ JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_loadModel(JNIEnv *env, jo if (!sparams.system_prompt.empty()) { - ctx_server.system_prompt_set(sparams.system_prompt); + ctx_server->system_prompt_set(sparams.system_prompt); } if (params.model_alias == "unknown") @@ -280,7 +280,7 @@ JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_loadModel(JNIEnv *env, jo std::atomic state{SERVER_STATE_LOADING_MODEL}; // load the model - if (!ctx_server.load_model(params)) + if (!ctx_server->load_model(params)) { state.store(SERVER_STATE_ERROR); env->ThrowNew(c_llama_error, "could not load model from given file path"); @@ -288,18 +288,18 @@ JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_loadModel(JNIEnv *env, jo } else { - ctx_server.init(); + ctx_server->init(); state.store(SERVER_STATE_READY); } LOG_INFO("model loaded", {}); - const auto model_meta = ctx_server.model_meta(); + const auto model_meta = ctx_server->model_meta(); // if a custom chat template is not supplied, we will use the one that comes with the model (if any) if (sparams.chat_template.empty()) { - if (!ctx_server.validate_model_chat_template()) + if (!ctx_server->validate_model_chat_template()) { LOG_ERROR("The chat template that comes with this model is not yet supported, falling back to chatml. This " "may cause the model to output suboptimal responses", @@ -316,7 +316,7 @@ JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_loadModel(JNIEnv *env, jo chat.push_back({{"role", "assistant"}, {"content", "Hi there"}}); chat.push_back({{"role", "user"}, {"content", "How are you?"}}); - const std::string chat_example = format_chat(ctx_server.model, sparams.chat_template, chat); + const std::string chat_example = format_chat(ctx_server->model, sparams.chat_template, chat); LOG_INFO("chat template", { {"chat_example", chat_example}, @@ -324,19 +324,19 @@ JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_loadModel(JNIEnv *env, jo }); } - ctx_server.queue_tasks.on_new_task( - std::bind(&server_context::process_single_task, &ctx_server, std::placeholders::_1)); - ctx_server.queue_tasks.on_finish_multitask( - std::bind(&server_context::on_finish_multitask, &ctx_server, std::placeholders::_1)); - ctx_server.queue_tasks.on_update_slots(std::bind(&server_context::update_slots, &ctx_server)); - ctx_server.queue_results.on_multitask_update(std::bind(&server_queue::update_multitask, &ctx_server.queue_tasks, - std::placeholders::_1, std::placeholders::_2, - std::placeholders::_3)); + ctx_server->queue_tasks.on_new_task( + std::bind(&server_context::process_single_task, ctx_server, std::placeholders::_1)); + ctx_server->queue_tasks.on_finish_multitask( + std::bind(&server_context::on_finish_multitask, ctx_server, std::placeholders::_1)); + ctx_server->queue_tasks.on_update_slots(std::bind(&server_context::update_slots, ctx_server)); + ctx_server->queue_results.on_multitask_update(std::bind(&server_queue::update_multitask, &ctx_server->queue_tasks, + std::placeholders::_1, std::placeholders::_2, + std::placeholders::_3)); - std::thread t([&]() { ctx_server.queue_tasks.start_loop(); }); + std::thread t([ctx_server]() { ctx_server->queue_tasks.start_loop(); }); t.detach(); - env->SetLongField(obj, f_model_pointer, reinterpret_cast(&ctx_server)); + env->SetLongField(obj, f_model_pointer, reinterpret_cast(ctx_server)); } // JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_newAnswerIterator(JNIEnv *env, jobject obj, jstring prompt, @@ -474,26 +474,23 @@ JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_getAnswer(JNIEnv *e json_params["prompt"] = parse_jstring(env, jprompt); const int id_task = ctx_server->queue_tasks.get_new_id(); - ctx_server->queue_results.add_waiting_task_id(id_task); - - std::cout << "E" << std::endl; - ctx_server->request_completion(id_task, -1, json_params, false, false); - std::cout << "F" << std::endl; - server_task_result result = ctx_server->queue_results.recv(id_task); - std::string response = result.data.get(); - if (result.error || !result.stop) + if (!result.error && result.stop) { + std::string response = result.data["content"].get(); + ctx_server->queue_results.remove_waiting_task_id(id_task); + return parse_jbytes(env, response); + } + else + { + std::string response = result.data["message"].get(); env->ThrowNew(c_llama_error, response.c_str()); return nullptr; } - ctx_server->queue_results.remove_waiting_task_id(id_task); - - return parse_jbytes(env, response); } // // JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_getInfill(JNIEnv *env, jobject obj, jstring prefix, From 90041535cdb2911a86eb1d6414e4b0f4a5fb0f91 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 17:50:36 +0200 Subject: [PATCH 041/285] Fix toJsonString --- .../llama/{args => }/JsonParameters.java | 54 ++++++++++++++++--- 1 file changed, 48 insertions(+), 6 deletions(-) rename src/main/java/de/kherud/llama/{args => }/JsonParameters.java (58%) diff --git a/src/main/java/de/kherud/llama/args/JsonParameters.java b/src/main/java/de/kherud/llama/JsonParameters.java similarity index 58% rename from src/main/java/de/kherud/llama/args/JsonParameters.java rename to src/main/java/de/kherud/llama/JsonParameters.java index 35c71a0c..ff037831 100644 --- a/src/main/java/de/kherud/llama/args/JsonParameters.java +++ b/src/main/java/de/kherud/llama/JsonParameters.java @@ -1,4 +1,4 @@ -package de.kherud.llama.args; +package de.kherud.llama; import java.util.HashMap; import java.util.Map; @@ -35,16 +35,58 @@ public String toString() { return builder.toString(); } + // taken from org.json.JSONObject#quote(String, Writer) String toJsonString(String text) { if (text == null) return null; StringBuilder builder = new StringBuilder((text.length()) + 2); + + char b; + char c = 0; + String hhhh; + int i; + int len = text.length(); + builder.append('"'); - for (int i = 0; i < text.length(); i++) { - char c = text.charAt(i); - if (c == '"' || c == '\\') { - builder.append('\\'); + for (i = 0; i < len; i += 1) { + b = c; + c = text.charAt(i); + switch (c) { + case '\\': + case '"': + builder.append('\\'); + builder.append(c); + break; + case '/': + if (b == '<') { + builder.append('\\'); + } + builder.append(c); + break; + case '\b': + builder.append("\\b"); + break; + case '\t': + builder.append("\\t"); + break; + case '\n': + builder.append("\\n"); + break; + case '\f': + builder.append("\\f"); + break; + case '\r': + builder.append("\\r"); + break; + default: + if (c < ' ' || (c >= '\u0080' && c < '\u00a0') || (c >= '\u2000' && c < '\u2100')) { + builder.append("\\u"); + hhhh = Integer.toHexString(c); + builder.append("0000", 0, 4 - hhhh.length()); + builder.append(hhhh); + } else { + builder.append(c); + } } - builder.append(c); } builder.append('"'); return builder.toString(); From b91e5339022dcde9c59e74349548c798b64b7d72 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 18:33:03 +0200 Subject: [PATCH 042/285] Add encode, decode, delete calls --- src/main/cpp/jllama.cpp | 190 ++++++++++------------------------------ 1 file changed, 46 insertions(+), 144 deletions(-) diff --git a/src/main/cpp/jllama.cpp b/src/main/cpp/jllama.cpp index 1f10ad26..1f4721cb 100644 --- a/src/main/cpp/jllama.cpp +++ b/src/main/cpp/jllama.cpp @@ -492,147 +492,49 @@ JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_getAnswer(JNIEnv *e return nullptr; } } -// -// JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_getInfill(JNIEnv *env, jobject obj, jstring prefix, -// jstring suffix, jobject params) -//{ -// jlong llama_handle = env->GetLongField(obj, f_model_pointer); -// jllama_context *llama = reinterpret_cast(llama_handle); -// -// // auto lock = llama->lock(); -// -// llama->rewind(); -// -// llama_reset_timings(llama->ctx); -// -// setup_infilling(env, llama, prefix, suffix, params); -// -// llama->loadInfill(); -// llama->beginCompletion(); -// -// size_t stop_pos = std::string::npos; -// -// while (llama->has_next_token) -// { -// const completion_token_output token_with_probs = llama->doCompletion(); -// const std::string token_text = -// token_with_probs.tok == -1 ? "" : llama_token_to_piece(llama->ctx, token_with_probs.tok); -// -// stop_pos = llama->findStoppingStrings(llama->generated_text, token_text.size(), STOP_FULL); -// } -// -// if (stop_pos == std::string::npos) -// { -// stop_pos = llama->findStoppingStrings(llama->generated_text, 0, STOP_PARTIAL); -// } -// if (stop_pos != std::string::npos) -// { -// llama->generated_text.erase(llama->generated_text.begin() + stop_pos, llama->generated_text.end()); -// } -// -// // llama->lock().release(); -// // llama->mutex.unlock(); -// -// return parse_jbytes(env, llama->generated_text); -// } -// -// JNIEXPORT jfloatArray JNICALL Java_de_kherud_llama_LlamaModel_embed(JNIEnv *env, jobject obj, jstring java_prompt) -//{ -// jlong llama_handle = env->GetLongField(obj, f_model_pointer); -// jllama_context *llama = reinterpret_cast(llama_handle); -// -// // auto lock = llama->lock(); -// -// llama->rewind(); -// llama_reset_timings(llama->ctx); -// llama->prompt = parse_jstring(env, java_prompt); -// llama->params.n_predict = 0; -// llama->loadPrompt(); -// llama->beginCompletion(); -// llama->doCompletion(); -// -// static const int n_embd = llama_n_embd(llama->model); -// const float *data = llama_get_embeddings(llama->ctx); -// std::vector embedding(data, data + n_embd); -// -// jfloatArray java_embedding = env->NewFloatArray(embedding.size()); -// if (java_embedding == nullptr) -// { -// env->ThrowNew(c_error_oom, "could not allocate embedding"); -// return nullptr; -// } -// -// env->SetFloatArrayRegion(java_embedding, 0, embedding.size(), reinterpret_cast(embedding.data())); -// -// return java_embedding; -// } -// -// JNIEXPORT jintArray JNICALL Java_de_kherud_llama_LlamaModel_encode(JNIEnv *env, jobject obj, jstring jprompt) -//{ -// jlong llama_handle = env->GetLongField(obj, f_model_pointer); -// jllama_context *llama = reinterpret_cast(llama_handle); -// -// // auto lock = llama->lock(); -// -// std::string prompt = parse_jstring(env, jprompt); -// std::vector tokens = llama->tokenize(prompt, false); -// -// jintArray java_tokens = env->NewIntArray(tokens.size()); -// if (java_tokens == nullptr) -// { -// env->ThrowNew(c_error_oom, "could not allocate tokens"); -// return nullptr; -// } -// -// env->SetIntArrayRegion(java_tokens, 0, tokens.size(), reinterpret_cast(tokens.data())); -// -// // lock.release(); -// return java_tokens; -// } -// -// JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_decodeBytes(JNIEnv *env, jobject obj, -// jintArray java_tokens) -//{ -// jlong llama_handle = env->GetLongField(obj, f_model_pointer); -// jllama_context *llama = reinterpret_cast(llama_handle); -// -// // auto lock = llama->lock(); -// -// jsize length = env->GetArrayLength(java_tokens); -// jint *elements = env->GetIntArrayElements(java_tokens, nullptr); -// std::vector tokens(elements, elements + length); -// std::string text = tokens_to_str(llama->ctx, tokens.cbegin(), tokens.cend()); -// -// env->ReleaseIntArrayElements(java_tokens, elements, 0); -// -// // lock.release(); -// return parse_jbytes(env, text); -// } -// -// JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_setLogger(JNIEnv *env, jclass clazz, jobject callback) -//{ -// env->GetJavaVM(&g_vm); -// -// if (g_log_callback != nullptr) -// { -// env->DeleteGlobalRef(g_log_callback); -// } -// -// if (callback == nullptr) -// { -// llama_log_set(nullptr, nullptr); -// } -// else -// { -// g_log_callback = env->NewGlobalRef(callback); -// llama_log_set(jllama_log_callback, nullptr); -// } -// } -// -// JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_delete(JNIEnv *env, jobject obj) -//{ -// jlong llama_handle = env->GetLongField(obj, f_model_pointer); -// jllama_context *llama = reinterpret_cast(llama_handle); -// delete llama; -// } + +JNIEXPORT jintArray JNICALL Java_de_kherud_llama_LlamaModel_encode(JNIEnv *env, jobject obj, jstring jprompt) +{ + jlong server_handle = env->GetLongField(obj, f_model_pointer); + server_context *ctx_server = reinterpret_cast(server_handle); + + const std::string c_prompt = parse_jstring(env, jprompt); + std::vector tokens = ctx_server->tokenize(c_prompt, false); + + jintArray java_tokens = env->NewIntArray(tokens.size()); + if (java_tokens == nullptr) + { + env->ThrowNew(c_error_oom, "could not allocate token memory"); + return nullptr; + } + + env->SetIntArrayRegion(java_tokens, 0, tokens.size(), reinterpret_cast(tokens.data())); + + return java_tokens; +} + +JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_decodeBytes(JNIEnv *env, jobject obj, + jintArray java_tokens) +{ + jlong server_handle = env->GetLongField(obj, f_model_pointer); + server_context *ctx_server = reinterpret_cast(server_handle); + + jsize length = env->GetArrayLength(java_tokens); + jint *elements = env->GetIntArrayElements(java_tokens, nullptr); + std::vector tokens(elements, elements + length); + std::string text = tokens_to_str(ctx_server->ctx, tokens.cbegin(), tokens.cend()); + + env->ReleaseIntArrayElements(java_tokens, elements, 0); + + return parse_jbytes(env, text); +} + +JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_delete(JNIEnv *env, jobject obj) +{ + jlong server_handle = env->GetLongField(obj, f_model_pointer); + server_context *ctx_server = reinterpret_cast(server_handle); + ctx_server->queue_tasks.terminate(); + // maybe we should keep track how many models were loaded before freeing the backend + llama_backend_free(); + delete ctx_server; +} From 892b61e1e9f16875b0f4536b59bff510dbf21f29 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 18:33:52 +0200 Subject: [PATCH 043/285] Add embed endpoint and infill option --- src/main/cpp/jllama.cpp | 227 ++++++++++++++++------------------------ 1 file changed, 88 insertions(+), 139 deletions(-) diff --git a/src/main/cpp/jllama.cpp b/src/main/cpp/jllama.cpp index 1f4721cb..fc9958de 100644 --- a/src/main/cpp/jllama.cpp +++ b/src/main/cpp/jllama.cpp @@ -49,11 +49,9 @@ static jmethodID m_biconsumer_accept = 0; // fields static jfieldID f_model_pointer = 0; +static jfieldID f_task_id = 0; static jfieldID f_utf_8 = 0; -// iterator static jfieldID f_iter_has_next = 0; -static jfieldID f_iter_n_generated = 0; -static jfieldID f_iter_token_index = 0; // objects static jobject o_utf_8 = 0; @@ -146,7 +144,7 @@ JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) c_error_oom = (jclass)env->NewGlobalRef(c_error_oom); // find constructors - cc_output = env->GetMethodID(c_output, "", "(I[BLjava/util/Map;)V"); + cc_output = env->GetMethodID(c_output, "", "([BLjava/util/Map;Z)V"); cc_hash_map = env->GetMethodID(c_hash_map, "", "()V"); cc_integer = env->GetMethodID(c_integer, "", "(I)V"); cc_float = env->GetMethodID(c_float, "", "(F)V"); @@ -177,12 +175,11 @@ JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) // find fields f_model_pointer = env->GetFieldID(c_llama_model, "ctx", "J"); + f_task_id = env->GetFieldID(c_llama_iterator, "taskId", "I"); f_utf_8 = env->GetStaticFieldID(c_standard_charsets, "UTF_8", "Ljava/nio/charset/Charset;"); f_iter_has_next = env->GetFieldID(c_llama_iterator, "hasNext", "Z"); - f_iter_n_generated = env->GetFieldID(c_llama_iterator, "generatedCount", "J"); - f_iter_token_index = env->GetFieldID(c_llama_iterator, "tokenIndex", "J"); - if (!(f_model_pointer && f_utf_8 && f_iter_has_next && f_iter_n_generated && f_iter_token_index)) + if (!(f_model_pointer && f_task_id && f_utf_8 && f_iter_has_next)) { goto error; } @@ -339,158 +336,110 @@ JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_loadModel(JNIEnv *env, jo env->SetLongField(obj, f_model_pointer, reinterpret_cast(ctx_server)); } -// JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_newAnswerIterator(JNIEnv *env, jobject obj, jstring prompt, -// jobject params) -//{ -// jlong llama_handle = env->GetLongField(obj, f_model_pointer); -// jllama_context *llama = reinterpret_cast(llama_handle); -// -// // auto lock = llama->lock(); -// -// llama->rewind(); -// -// llama_reset_timings(llama->ctx); -// -// setup_answering(env, llama, prompt, params); -// -// llama->loadPrompt(); -// llama->beginCompletion(); -// } -// -// JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_newInfillIterator(JNIEnv *env, jobject obj, jstring prefix, -// jstring suffix, jobject params) -//{ -// jlong llama_handle = env->GetLongField(obj, f_model_pointer); -// jllama_context *llama = reinterpret_cast(llama_handle); -// -// // auto lock = llama->lock(); -// -// llama->rewind(); -// -// llama_reset_timings(llama->ctx); -// -// setup_infilling(env, llama, prefix, suffix, params); -// -// llama->loadInfill(); -// llama->beginCompletion(); -// } -// -// JNIEXPORT jobject JNICALL Java_de_kherud_llama_LlamaModel_getNext(JNIEnv *env, jobject obj, jobject iter) -//{ -// jlong llama_handle = env->GetLongField(obj, f_model_pointer); -// jllama_context *llama = reinterpret_cast(llama_handle); -// -// size_t sent_count = env->GetLongField(iter, f_iter_n_generated); -// size_t sent_token_probs_index = env->GetLongField(iter, f_iter_token_index); -// -// completion_token_output token_with_probs; -// while (llama->has_next_token) -// { -// token_with_probs = llama->doCompletion(); -// if (token_with_probs.tok >= 0 && llama->multibyte_pending <= 0) -// { -// break; -// } -// } -// const std::string token_text = llama_token_to_piece(llama->ctx, token_with_probs.tok); -// -// size_t pos = std::min(sent_count, llama->generated_text.size()); -// -// const std::string str_test = llama->generated_text.substr(pos); -// bool is_stop_full = false; -// size_t stop_pos = llama->findStoppingStrings(str_test, token_text.size(), STOP_FULL); -// if (stop_pos != std::string::npos) -// { -// is_stop_full = true; -// llama->generated_text.erase(llama->generated_text.begin() + pos + stop_pos, llama->generated_text.end()); -// pos = std::min(sent_count, llama->generated_text.size()); -// } -// else -// { -// is_stop_full = false; -// stop_pos = llama->findStoppingStrings(str_test, token_text.size(), STOP_PARTIAL); -// } -// -// std::string to_send; -// if (stop_pos == std::string::npos || -// // Send rest of the text if we are at the end of the generation -// (!llama->has_next_token && !is_stop_full && stop_pos > 0)) -// { -// to_send = llama->generated_text.substr(pos, std::string::npos); -// -// sent_count += to_send.size(); -// env->SetLongField(iter, f_iter_n_generated, sent_count); -// -// std::vector probs_output = {}; -// -// if (llama->params.sparams.n_probs > 0) -// { -// const std::vector to_send_toks = -// llama_tokenize(llama->ctx, to_send, false, llama->tokenize_special); -// size_t probs_pos = std::min(sent_token_probs_index, llama->generated_token_probs.size()); -// size_t probs_stop_pos = -// std::min(sent_token_probs_index + to_send_toks.size(), llama->generated_token_probs.size()); -// if (probs_pos < probs_stop_pos) -// { -// probs_output = -// std::vector(llama->generated_token_probs.begin() + probs_pos, -// llama->generated_token_probs.begin() + probs_stop_pos); -// } -// sent_token_probs_index = probs_stop_pos; -// env->SetLongField(iter, f_iter_token_index, sent_token_probs_index); -// } -// } -// else -// { -// to_send = ""; -// } -// -// if (!llama->has_next_token) -// { -// env->SetBooleanField(iter, f_iter_has_next, false); -// // llama.mutex.unlock(); -// // lock.release(); -// } -// -// jobject o_probabilities = env->NewObject(c_hash_map, cc_hash_map); -// for (const auto &tp : token_with_probs.probs) -// { -// jobject jtoken = env->NewObject(c_integer, cc_integer, tp.tok); -// jobject jprob = env->NewObject(c_float, cc_float, tp.prob); -// env->CallObjectMethod(o_probabilities, m_map_put, jtoken, jprob); -// } -// jbyteArray jbytes = parse_jbytes(env, to_send); -// return env->NewObject(c_output, cc_output, token_with_probs.tok, jbytes, o_probabilities); -// } -// -JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_getAnswer(JNIEnv *env, jobject obj, jstring jprompt, - jstring jparams) +JNIEXPORT jint JNICALL Java_de_kherud_llama_LlamaModel_requestCompletion(JNIEnv *env, jobject obj, jstring jparams) { jlong server_handle = env->GetLongField(obj, f_model_pointer); server_context *ctx_server = reinterpret_cast(server_handle); std::string c_params = parse_jstring(env, jparams); json json_params = json::parse(c_params); - json_params["prompt"] = parse_jstring(env, jprompt); + const bool infill = json_params.contains("input_prefix") || json_params.contains("input_suffix"); const int id_task = ctx_server->queue_tasks.get_new_id(); ctx_server->queue_results.add_waiting_task_id(id_task); - ctx_server->request_completion(id_task, -1, json_params, false, false); + ctx_server->request_completion(id_task, -1, json_params, infill, false); + + return id_task; +} + +JNIEXPORT jobject JNICALL Java_de_kherud_llama_LlamaModel_receiveCompletion(JNIEnv *env, jobject obj, jint id_task) +{ + jlong server_handle = env->GetLongField(obj, f_model_pointer); + server_context *ctx_server = reinterpret_cast(server_handle); server_task_result result = ctx_server->queue_results.recv(id_task); - if (!result.error && result.stop) + LOG_VERBOSE("data stream", {{"to_send", result.data}}); + + if (result.error) { - std::string response = result.data["content"].get(); - ctx_server->queue_results.remove_waiting_task_id(id_task); - return parse_jbytes(env, response); + std::string response = result.data["message"].get(); + env->ThrowNew(c_llama_error, response.c_str()); + return nullptr; } else + { + std::string response = result.data["content"].get(); + if (result.stop) + { + ctx_server->queue_results.remove_waiting_task_id(id_task); + } + + jobject o_probabilities = env->NewObject(c_hash_map, cc_hash_map); + if (result.data.contains("completion_probabilities")) + { + auto completion_probabilities = result.data["completion_probabilities"]; + for (const auto &entry : completion_probabilities) + { + auto probs = entry["probs"]; + for (const auto &tp : probs) + { + std::string tok_str = tp["tok_str"]; + jstring jtok_str = env->NewStringUTF(tok_str.c_str()); + float prob = tp["prob"]; + jobject jprob = env->NewObject(c_float, cc_float, prob); + env->CallObjectMethod(o_probabilities, m_map_put, jtok_str, jprob); + env->DeleteLocalRef(jtok_str); + env->DeleteLocalRef(jprob); + } + } + } + + jbyteArray jbytes = parse_jbytes(env, response); + return env->NewObject(c_output, cc_output, jbytes, o_probabilities, result.stop); + } +} + +JNIEXPORT jfloatArray JNICALL Java_de_kherud_llama_LlamaModel_embed(JNIEnv *env, jobject obj, jstring jprompt) +{ + jlong server_handle = env->GetLongField(obj, f_model_pointer); + server_context *ctx_server = reinterpret_cast(server_handle); + + if (!ctx_server->params.embedding) { + env->ThrowNew(c_llama_error, "model was not loaded with embedding support (see ModelParameters#setEmbedding(boolean))"); + return nullptr; + } + + const std::string prompt = parse_jstring(env, jprompt); + + const int id_task = ctx_server->queue_tasks.get_new_id(); + ctx_server->queue_results.add_waiting_task_id(id_task); + ctx_server->request_completion(id_task, -1, {{"prompt", prompt}}, false, true); + + server_task_result result = ctx_server->queue_results.recv(id_task); + ctx_server->queue_results.remove_waiting_task_id(id_task); + if (result.error) { std::string response = result.data["message"].get(); env->ThrowNew(c_llama_error, response.c_str()); return nullptr; } + else + { + std::cout << result.data << std::endl; + std::vector embedding = result.data["embedding"].get>(); + + jfloatArray j_embedding = env->NewFloatArray(embedding.size()); + if (j_embedding == nullptr) + { + env->ThrowNew(c_error_oom, "could not allocate embedding"); + return nullptr; + } + + env->SetFloatArrayRegion(j_embedding, 0, embedding.size(), reinterpret_cast(embedding.data())); + + return j_embedding; + } } JNIEXPORT jintArray JNICALL Java_de_kherud_llama_LlamaModel_encode(JNIEnv *env, jobject obj, jstring jprompt) From eaa827d8898727cb101aa8f33af1fe76fbf7de60 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 18:34:23 +0200 Subject: [PATCH 044/285] Simplify JNI api --- src/main/cpp/jllama.h | 93 ------------ src/main/java/de/kherud/llama/LlamaModel.java | 133 ++++-------------- 2 files changed, 25 insertions(+), 201 deletions(-) delete mode 100644 src/main/cpp/jllama.h diff --git a/src/main/cpp/jllama.h b/src/main/cpp/jllama.h deleted file mode 100644 index f599c836..00000000 --- a/src/main/cpp/jllama.h +++ /dev/null @@ -1,93 +0,0 @@ -/* DO NOT EDIT THIS FILE - it is machine generated */ -#include -/* Header for class de_kherud_llama_LlamaModel */ - -#ifndef _Included_de_kherud_llama_LlamaModel -#define _Included_de_kherud_llama_LlamaModel -#ifdef __cplusplus -extern "C" { -#endif -/* - * Class: de_kherud_llama_LlamaModel - * Method: embed - * Signature: (Ljava/lang/String;)[F - */ -JNIEXPORT jfloatArray JNICALL Java_de_kherud_llama_LlamaModel_embed - (JNIEnv *, jobject, jstring); - -/* - * Class: de_kherud_llama_LlamaModel - * Method: encode - * Signature: (Ljava/lang/String;)[I - */ -JNIEXPORT jintArray JNICALL Java_de_kherud_llama_LlamaModel_encode - (JNIEnv *, jobject, jstring); - -/* - * Class: de_kherud_llama_LlamaModel - * Method: loadModel - * Signature: (Ljava/lang/String;)V - */ -JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_loadModel - (JNIEnv *, jobject, jstring); - -/* - * Class: de_kherud_llama_LlamaModel - * Method: newAnswerIterator - * Signature: (Ljava/lang/String;Ljava/lang/String;)V - */ -JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_newAnswerIterator - (JNIEnv *, jobject, jstring, jstring); - -/* - * Class: de_kherud_llama_LlamaModel - * Method: newInfillIterator - * Signature: (Ljava/lang/String;Ljava/lang/String;Ljava/lang/String;)V - */ -JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_newInfillIterator - (JNIEnv *, jobject, jstring, jstring, jstring); - -/* - * Class: de_kherud_llama_LlamaModel - * Method: getNext - * Signature: (Lde/kherud/llama/LlamaModel/LlamaIterator;)Lde/kherud/llama/LlamaModel/Output; - */ -JNIEXPORT jobject JNICALL Java_de_kherud_llama_LlamaModel_getNext - (JNIEnv *, jobject, jobject); - -/* - * Class: de_kherud_llama_LlamaModel - * Method: getAnswer - * Signature: (Ljava/lang/String;Ljava/lang/String;)[B - */ -JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_getAnswer - (JNIEnv *, jobject, jstring, jstring); - -/* - * Class: de_kherud_llama_LlamaModel - * Method: getInfill - * Signature: (Ljava/lang/String;Ljava/lang/String;Ljava/lang/String;)[B - */ -JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_getInfill - (JNIEnv *, jobject, jstring, jstring, jstring); - -/* - * Class: de_kherud_llama_LlamaModel - * Method: decodeBytes - * Signature: ([I)[B - */ -JNIEXPORT jbyteArray JNICALL Java_de_kherud_llama_LlamaModel_decodeBytes - (JNIEnv *, jobject, jintArray); - -/* - * Class: de_kherud_llama_LlamaModel - * Method: delete - * Signature: ()V - */ -JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_delete - (JNIEnv *, jobject); - -#ifdef __cplusplus -} -#endif -#endif diff --git a/src/main/java/de/kherud/llama/LlamaModel.java b/src/main/java/de/kherud/llama/LlamaModel.java index 3e8c3cf6..79705648 100644 --- a/src/main/java/de/kherud/llama/LlamaModel.java +++ b/src/main/java/de/kherud/llama/LlamaModel.java @@ -8,9 +8,6 @@ import org.jetbrains.annotations.NotNull; -import de.kherud.llama.args.InferenceParameters; -import de.kherud.llama.args.ModelParameters; - /** * This class is a wrapper around the llama.cpp functionality. * Upon being created, it natively allocates memory for the model context. @@ -18,8 +15,8 @@ *

* The main functionality of this class is: *

Streaming answers (and probabilities) via {@link #generate(String)}
Creating whole responses to prompts via {@link #complete(String)}
Streaming answers (and probabilities) via {@link #generate(InferenceParameters)}
Creating whole responses to prompts via {@link #complete(InferenceParameters)}
Creating embeddings via {@link #embed(String)} (make sure to configure {@link ModelParameters#setEmbedding(boolean)}
Accessing the tokenizer via {@link #encode(String)} and {@link #decode(int[])}

@@ -48,98 +45,27 @@ public LlamaModel(ModelParameters parameters) { loadModel(parameters.toString()); } - /** - * Generate and return a whole answer with default parameters. Note, that the prompt isn't preprocessed in any - * way, nothing like "User: ", "###Instruction", etc. is added. - * - * @param prompt the LLM prompt - * @return an LLM response - */ - public String complete(String prompt) { - return complete(prompt, new InferenceParameters()); - } - /** * Generate and return a whole answer with custom parameters. Note, that the prompt isn't preprocessed in any * way, nothing like "User: ", "###Instruction", etc. is added. * - * @param prompt the LLM prompt - * @return an LLM response - */ - public String complete(String prompt, InferenceParameters parameters) { - byte[] bytes = getAnswer(prompt, parameters.toString()); - return new String(bytes, StandardCharsets.UTF_8); - } - - /** - * Infill a whole answer with default parameters. Note, that the prompt isn't preprocessed in any - * way. Nothing like "User: ", "###Instruction", etc. is added. - * - * @param prefix the prefix prompt of the completion to infill - * @param suffix the suffix prompt of the completion to infill - * @return an LLM response - */ - public String complete(String prefix, String suffix) { - return complete(prefix, suffix, new InferenceParameters()); - } - - /** - * Infill a whole answer with custom parameters. Note, that the prompt isn't preprocessed in any - * way. Nothing like "User: ", "###Instruction", etc. is added. - * - * @param prefix the prefix prompt of the completion to infill - * @param suffix the suffix prompt of the completion to infill * @return an LLM response */ - public String complete(String prefix, String suffix, InferenceParameters parameters) { - byte[] bytes = getInfill(prefix, suffix, parameters.toString()); - return new String(bytes, StandardCharsets.UTF_8); - } - - /** - * Generate and stream outputs with default inference parameters. Note, that the prompt isn't preprocessed in any - * way, nothing like "User: ", "###Instruction", etc. is added. - * - * @param prompt the LLM prompt - * @return iterable LLM outputs - */ - public Iterable generate(String prompt) { - return generate(prompt, new InferenceParameters()); + public String complete(InferenceParameters parameters) { + parameters.setStream(false); + int taskId = requestCompletion(parameters.toString()); + Output output = receiveCompletion(taskId); + return output.text; } /** * Generate and stream outputs with custom inference parameters. Note, that the prompt isn't preprocessed in any * way, nothing like "User: ", "###Instruction", etc. is added. * - * @param prompt the LLM prompt - * @return iterable LLM outputs - */ - public Iterable generate(String prompt, InferenceParameters parameters) { - return () -> new LlamaIterator(prompt, parameters); - } - - /** - * Infill and stream outputs with default inference parameters. Note, that the prompt isn't preprocessed in any - * way, nothing like "User: ", "###Instruction", etc. is added. - * - * @param prefix the prefix prompt of the completion to infill - * @param suffix the suffix prompt of the completion to infill * @return iterable LLM outputs */ - public Iterable generate(String prefix, String suffix) { - return generate(prefix, suffix, new InferenceParameters()); - } - - /** - * Infill and stream outputs with custom inference parameters. Note, that the prompt isn't preprocessed in any - * way, nothing like "User: ", "###Instruction", etc. is added. - * - * @param prefix the prefix prompt of the completion to infill - * @param suffix the suffix prompt of the completion to infill - * @return iterable LLM outputs - */ - public Iterable generate(String prefix, String suffix, InferenceParameters parameters) { - return () -> new LlamaIterator(prefix, suffix, parameters); + public Iterable generate(InferenceParameters parameters) { + return () -> new LlamaIterator(parameters); } /** @@ -185,32 +111,27 @@ public void close() { // don't overload native methods since the C++ function names get nasty private native void loadModel(String parameters) throws LlamaException; - private native void newAnswerIterator(String prompt, String parameters); - private native void newInfillIterator(String prefix, String suffix, String parameters); - private native Output getNext(LlamaIterator iterator); - private native byte[] getAnswer(String prompt, String parameters); - private native byte[] getInfill(String prefix, String suffix, String parameters); + private native int requestCompletion(String params) throws LlamaException; + private native Output receiveCompletion(int taskId) throws LlamaException; private native byte[] decodeBytes(int[] tokens); private native void delete(); /** - * A generated output of the LLM. Note that you have to configure {@link InferenceParameters#setNPredict(int)} + * A generated output of the LLM. Note that you have to configure {@link InferenceParameters#setNProbs(int)} * in order for probabilities to be returned. - * For multibyte outputs (unicode characters like emojis) only the last generated token and its probabilities - * are returned. */ public static final class Output { - public final int token; @NotNull public final String text; @NotNull - public final Map probabilities; + public final Map probabilities; + private final boolean stop; - private Output(int token, byte[] generated, @NotNull Map probabilities) { - this.token = token; + private Output(byte[] generated, @NotNull Map probabilities, boolean stop) { this.text = new String(generated, StandardCharsets.UTF_8); this.probabilities = probabilities; + this.stop = stop; } @Override @@ -220,23 +141,17 @@ public String toString() { } - // fields are modified by native code and thus should not be final - @SuppressWarnings("FieldMayBeFinal") private final class LlamaIterator implements Iterator { + private final int taskId; + @Native + @SuppressWarnings("FieldMayBeFinal") private boolean hasNext = true; - @Native - private long generatedCount = 0; - @Native - private long tokenIndex = 0; - - private LlamaIterator(String prompt, InferenceParameters parameters) { - newAnswerIterator(prompt, parameters.toString()); - } - private LlamaIterator(String prefix, String suffix, InferenceParameters parameters) { - newInfillIterator(prefix, suffix, parameters.toString()); + private LlamaIterator(InferenceParameters parameters) { + parameters.setStream(true); + taskId = requestCompletion(parameters.toString()); } @Override @@ -249,7 +164,9 @@ public Output next() { if (!hasNext) { throw new NoSuchElementException(); } - return getNext(this); + Output output = receiveCompletion(taskId); + hasNext = !output.stop; + return output; } } From 5104d4b2db8c698ea1eedef8d7963b80a530a1b2 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 18:34:54 +0200 Subject: [PATCH 045/285] Add inference prompt parameters --- .../llama/{args => }/InferenceParameters.java | 47 +++++++++++++++++-- 1 file changed, 43 insertions(+), 4 deletions(-) rename src/main/java/de/kherud/llama/{args => }/InferenceParameters.java (87%) diff --git a/src/main/java/de/kherud/llama/args/InferenceParameters.java b/src/main/java/de/kherud/llama/InferenceParameters.java similarity index 87% rename from src/main/java/de/kherud/llama/args/InferenceParameters.java rename to src/main/java/de/kherud/llama/InferenceParameters.java index cf946078..f4933cca 100644 --- a/src/main/java/de/kherud/llama/args/InferenceParameters.java +++ b/src/main/java/de/kherud/llama/InferenceParameters.java @@ -1,15 +1,19 @@ -package de.kherud.llama.args; +package de.kherud.llama; import java.util.Map; -import de.kherud.llama.LlamaModel; +import de.kherud.llama.args.MiroStat; +import de.kherud.llama.args.Sampler; /** - * Parameters used throughout inference of a {@link LlamaModel}, e.g., {@link LlamaModel#generate(String)} and - * {@link LlamaModel#complete(String)}. + * Parameters used throughout inference of a {@link LlamaModel}, e.g., {@link LlamaModel#generate(InferenceParameters)} and + * {@link LlamaModel#complete(InferenceParameters)}. */ public final class InferenceParameters extends JsonParameters { + private static final String PARAM_PROMPT = "prompt"; + private static final String PARAM_INPUT_PREFIX = "input_prefix"; + private static final String PARAM_INPUT_SUFFIX = "input_suffix"; private static final String PARAM_CACHE_PROMPT = "cache_prompt"; private static final String PARAM_N_PREDICT = "n_predict"; private static final String PARAM_TOP_K = "top_k"; @@ -38,6 +42,36 @@ public final class InferenceParameters extends JsonParameters { private static final String PARAM_LOGIT_BIAS = "logit_bias"; private static final String PARAM_STOP = "stop"; private static final String PARAM_SAMPLERS = "samplers"; + private static final String PARAM_STREAM = "stream"; + + public InferenceParameters(String prompt) { + // we always need a prompt + setPrompt(prompt); + } + + /** + * Set the prompt to start generation with (default: empty) + */ + public InferenceParameters setPrompt(String prompt) { + parameters.put(PARAM_PROMPT, toJsonString(prompt)); + return this; + } + + /** + * Set a prefix for infilling (default: empty) + */ + public InferenceParameters setInputPrefix(String inputPrefix) { + parameters.put(PARAM_INPUT_PREFIX, toJsonString(inputPrefix)); + return this; + } + + /** + * Set a suffix for infilling (default: empty) + */ + public InferenceParameters setInputSuffix(String inputSuffix) { + parameters.put(PARAM_INPUT_SUFFIX, toJsonString(inputSuffix)); + return this; + } /** * Whether to remember the prompt to avoid reprocessing it @@ -315,4 +349,9 @@ public InferenceParameters setSamplers(Sampler... samplers) { } return this; } + + InferenceParameters setStream(boolean stream) { + parameters.put(PARAM_STREAM, String.valueOf(stream)); + return this; + } } From c6b96ffa4044cba6d7e3f51f076b573f3630a671 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 18:54:03 +0200 Subject: [PATCH 046/285] Update integration tests --- pom.xml | 84 ------------------- .../java/de/kherud/llama/LlamaModelIT.java | 57 +++++++------ 2 files changed, 28 insertions(+), 113 deletions(-) diff --git a/pom.xml b/pom.xml index 00b304a9..244a307f 100644 --- a/pom.xml +++ b/pom.xml @@ -48,9 +48,6 @@ 4.13.1 3.2.3 UTF-8 - ${project.basedir}/models - mistral-7b-instruct-v0.2.Q2_K.gguf - https://huggingface.co/TheBloke/Mistral-7B-Instruct-v0.2-GGUF/resolve/main/${integration.test.model} @@ -81,87 +78,6 @@ - - - org.codehaus.mojo - exec-maven-plugin - 3.0.0 - - test - - - - - - org.apache.maven.plugins - maven-surefire-plugin - ${test.plugin.version} - - - - - - - - org.apache.maven.plugins - maven-failsafe-plugin - ${test.plugin.version} - - - - model.home - ${integration.test.model} - ${model.home} - - - - - - integration-test - verify - - - - - - org.apache.maven.plugins - maven-antrun-plugin - 3.0.0 - - - Download the integration test model if it doesn't exist - pre-integration-test - - - - - - - - - - - - - - - - - - - - - - - - - - - run - - - - diff --git a/src/test/java/de/kherud/llama/LlamaModelIT.java b/src/test/java/de/kherud/llama/LlamaModelIT.java index 7207bebd..beedac43 100644 --- a/src/test/java/de/kherud/llama/LlamaModelIT.java +++ b/src/test/java/de/kherud/llama/LlamaModelIT.java @@ -12,45 +12,41 @@ public class LlamaModelIT { private static final String prefix = "def remove_non_ascii(s: str) -> str:\n \"\"\" "; private static final String suffix = "\n return result\n"; - private static String logOutput = ""; private static final int nPredict = 10; private static LlamaModel model; @BeforeClass public static void setup() { - LlamaModel.setLogger((level, msg) -> logOutput += msg); - ModelParameters params = new ModelParameters() - .setNGpuLayers(43) - .setEmbedding(true); - model = new LlamaModel(ModelResolver.getPathToITModel(), params); + model = new LlamaModel( + new ModelParameters() + .setModelFilePath("models/mistral-7b-instruct-v0.2.Q2_K.gguf") + .setModelUrl("https://huggingface.co/TheBloke/Mistral-7B-Instruct-v0.2-GGUF/resolve/main/mistral-7b-instruct-v0.2.Q2_K.gguf") + .setNGpuLayers(43) + .setEmbedding(true) + ); } @AfterClass public static void tearDown() { - if(model != null) { + if (model != null) { model.close(); } } - @Test - public void testLogOutput() { - Assert.assertFalse(logOutput.isEmpty()); - } - @Test public void testGenerateAnswer() { Map logitBias = new HashMap<>(); logitBias.put(2, 2.0f); - InferenceParameters params = new InferenceParameters() + InferenceParameters params = new InferenceParameters(prefix) .setTemperature(0.95f) - .setAntiPrompt("\"\"\"") + .setStopStrings("\"\"\"") .setNPredict(nPredict) .setLogitBias(logitBias) .setSeed(42); int generated = 0; - for (LlamaModel.Output ignored : model.generate(prefix, params)) { + for (LlamaModel.Output ignored : model.generate(params)) { generated++; } Assert.assertTrue(generated > 0 && generated <= nPredict); @@ -60,15 +56,17 @@ public void testGenerateAnswer() { public void testGenerateInfill() { Map logitBias = new HashMap<>(); logitBias.put(2, 2.0f); - InferenceParameters params = new InferenceParameters() + InferenceParameters params = new InferenceParameters("") + .setInputPrefix(prefix) + .setInputSuffix(suffix) .setTemperature(0.95f) - .setAntiPrompt("\"\"\"") + .setStopStrings("\"\"\"") .setNPredict(nPredict) .setLogitBias(logitBias) .setSeed(42); int generated = 0; - for (LlamaModel.Output ignored : model.generate(prefix, suffix, params)) { + for (LlamaModel.Output ignored : model.generate(params)) { generated++; } Assert.assertTrue(generated > 0 && generated <= nPredict); @@ -76,11 +74,11 @@ public void testGenerateInfill() { @Test public void testGenerateGrammar() { - InferenceParameters params = new InferenceParameters() + InferenceParameters params = new InferenceParameters("") .setGrammar("root ::= (\"a\" | \"b\")+") .setNPredict(nPredict); StringBuilder sb = new StringBuilder(); - for (LlamaModel.Output output : model.generate("", params)) { + for (LlamaModel.Output output : model.generate(params)) { sb.append(output); } String output = sb.toString(); @@ -94,14 +92,14 @@ public void testGenerateGrammar() { public void testCompleteAnswer() { Map logitBias = new HashMap<>(); logitBias.put(2, 2.0f); - InferenceParameters params = new InferenceParameters() + InferenceParameters params = new InferenceParameters(prefix) .setTemperature(0.95f) - .setAntiPrompt("\"\"\"") + .setStopStrings("\"\"\"") .setNPredict(nPredict) .setLogitBias(logitBias) .setSeed(42); - String output = model.complete(prefix, params); + String output = model.complete(params); Assert.assertFalse(output.isEmpty()); } @@ -109,23 +107,25 @@ public void testCompleteAnswer() { public void testCompleteInfillCustom() { Map logitBias = new HashMap<>(); logitBias.put(2, 2.0f); - InferenceParameters params = new InferenceParameters() + InferenceParameters params = new InferenceParameters("") + .setInputPrefix(prefix) + .setInputSuffix(suffix) .setTemperature(0.95f) - .setAntiPrompt("\"\"\"") + .setStopStrings("\"\"\"") .setNPredict(nPredict) .setLogitBias(logitBias) .setSeed(42); - String output = model.complete(prefix, suffix, params); + String output = model.complete(params); Assert.assertFalse(output.isEmpty()); } @Test public void testCompleteGrammar() { - InferenceParameters params = new InferenceParameters() + InferenceParameters params = new InferenceParameters("") .setGrammar("root ::= (\"a\" | \"b\")+") .setNPredict(nPredict); - String output = model.complete("", params); + String output = model.complete(params); Assert.assertTrue(output.matches("[ab]+")); int generated = model.encode(output).length; Assert.assertTrue(generated > 0 && generated <= nPredict); @@ -145,5 +145,4 @@ public void testTokenization() { // the llama tokenizer adds a space before the prompt Assert.assertEquals(" " + prompt, decoded); } - } From 661ed2da36ec6f3db6463bb4b0bde169fb7ba550 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 18:54:31 +0200 Subject: [PATCH 047/285] Minor ModelParameters fix --- .../de/kherud/llama/{args => }/ModelParameters.java | 10 ++++++---- 1 file changed, 6 insertions(+), 4 deletions(-) rename src/main/java/de/kherud/llama/{args => }/ModelParameters.java (98%) diff --git a/src/main/java/de/kherud/llama/args/ModelParameters.java b/src/main/java/de/kherud/llama/ModelParameters.java similarity index 98% rename from src/main/java/de/kherud/llama/args/ModelParameters.java rename to src/main/java/de/kherud/llama/ModelParameters.java index 3c4948bb..10609925 100644 --- a/src/main/java/de/kherud/llama/args/ModelParameters.java +++ b/src/main/java/de/kherud/llama/ModelParameters.java @@ -1,8 +1,11 @@ -package de.kherud.llama.args; +package de.kherud.llama; import java.util.Map; -import de.kherud.llama.LlamaModel; +import de.kherud.llama.args.GpuSplitMode; +import de.kherud.llama.args.NumaStrategy; +import de.kherud.llama.args.PoolingType; +import de.kherud.llama.args.RopeScalingType; /*** * Parameters used for initializing a {@link LlamaModel}. @@ -49,7 +52,6 @@ public final class ModelParameters extends JsonParameters { private static final String PARAM_MODEL_URL = "model_url"; private static final String PARAM_HF_REPO = "hf_repo"; private static final String PARAM_HF_FILE = "hf_file"; - private static final String PARAM_ANTIPROMPT = "antiprompt"; private static final String PARAM_LOGDIR = "logdir"; private static final String PARAM_LOOKUP_CACHE_STATIC = "lookup_cache_static"; private static final String PARAM_LOOKUP_CACHE_DYNAMIC = "lookup_cache_dynamic"; @@ -496,7 +498,7 @@ public ModelParameters setLoraBase(String loraBase) { } /** - * Whether to only get sentence embeddings + * Whether to load model with embedding support */ public ModelParameters setEmbedding(boolean embedding) { parameters.put(PARAM_EMBEDDING, String.valueOf(embedding)); From c1a19541747ade9b0418c543db5fb4547032db90 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 18:54:40 +0200 Subject: [PATCH 048/285] Minor verbose logging fix --- src/main/cpp/utils.hpp | 10 +++------- 1 file changed, 3 insertions(+), 7 deletions(-) diff --git a/src/main/cpp/utils.hpp b/src/main/cpp/utils.hpp index 636b322f..3f122d1b 100644 --- a/src/main/cpp/utils.hpp +++ b/src/main/cpp/utils.hpp @@ -27,18 +27,14 @@ enum error_type { extern bool server_log_json; -#ifndef SERVER_VERBOSE -#define SERVER_VERBOSE 1 -#endif - -#if SERVER_VERBOSE != 1 -#define LOG_VERBOSE(MSG, ...) -#else +#if SERVER_VERBOSE #define LOG_VERBOSE(MSG, ...) \ do \ { \ server_log("VERB", __func__, __LINE__, MSG, __VA_ARGS__); \ } while (0) +#else +#define LOG_VERBOSE(MSG, ...) #endif #define LOG_ERROR( MSG, ...) server_log("ERR", __func__, __LINE__, MSG, __VA_ARGS__) From 32540b2a6ebddd9fde1215f7aa6025826b728b51 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 18:54:48 +0200 Subject: [PATCH 049/285] Update examples --- .../java/de/kherud/llama/ModelResolver.java | 40 ------------------- src/test/java/examples/GrammarExample.java | 15 +++---- src/test/java/examples/InfillExample.java | 14 ++++--- src/test/java/examples/MainExample.java | 27 +++++-------- 4 files changed, 27 insertions(+), 69 deletions(-) delete mode 100644 src/test/java/de/kherud/llama/ModelResolver.java diff --git a/src/test/java/de/kherud/llama/ModelResolver.java b/src/test/java/de/kherud/llama/ModelResolver.java deleted file mode 100644 index 3b80a7e5..00000000 --- a/src/test/java/de/kherud/llama/ModelResolver.java +++ /dev/null @@ -1,40 +0,0 @@ -package de.kherud.llama; - -import java.io.File; -import java.nio.file.Paths; - - -/** - * An enum which enables us to resolve the model home from system parameters and full model paths. - */ -public enum ModelResolver { - MODEL_HOME("model.home", "Please pass the system property \"%s\" to the test. " - + "This should represent the location on local disk where your models are located. " - + "If you are running this via maven, please run with a -Dmodel.home=/path/to/model/dir. " - + "Make sure that the directory that you pass exists." ), - INTEGRATION_TEST_MODEL_NAME("integration.test.model", "The system property \"%s\" is not set. If you are running this from an IDE, please set it. If you are running this from Maven, this should be set automatically and there is something strange going on." ); - final String systemPropertyName; - final String errorMessage; - ModelResolver(String systemPropertyName, String errorMessage) { - this.systemPropertyName = systemPropertyName; - this.errorMessage = errorMessage; - } - - public String resolve() { - String ret = System.getProperty(systemPropertyName); - if(ret == null) { - if(new File("models").exists()) { - return "models"; - } - throw new IllegalArgumentException(String.format(errorMessage, systemPropertyName)); - } - return ret; - } - - public static String getPathToModel(String modelName) { - return Paths.get(MODEL_HOME.resolve(), modelName).toString(); - } - public static String getPathToITModel() { - return getPathToModel(INTEGRATION_TEST_MODEL_NAME.resolve()); - } -} diff --git a/src/test/java/examples/GrammarExample.java b/src/test/java/examples/GrammarExample.java index 810fe142..d782cf54 100644 --- a/src/test/java/examples/GrammarExample.java +++ b/src/test/java/examples/GrammarExample.java @@ -1,7 +1,6 @@ package examples; -import de.kherud.llama.ModelResolver; -import java.util.HashMap; +import de.kherud.llama.ModelParameters; import de.kherud.llama.InferenceParameters; import de.kherud.llama.LlamaModel; @@ -12,11 +11,13 @@ public static void main(String... args) { String grammar = "root ::= (expr \"=\" term \"\\n\")+\n" + "expr ::= term ([-+*/] term)*\n" + "term ::= [0-9]"; - InferenceParameters params = new InferenceParameters().setGrammar(grammar); - String modelName = System.getProperty("model.name"); - String modelPath = ModelResolver.getPathToModel(modelName); - try (LlamaModel model = new LlamaModel(modelPath)) { - for (LlamaModel.Output output : model.generate("", params)) { + ModelParameters modelParams = new ModelParameters() + .setModelFilePath("models/mistral-7b-instruct-v0.2.Q2_K.gguf") + .setModelUrl("https://huggingface.co/TheBloke/Mistral-7B-Instruct-v0.2-GGUF/resolve/main/mistral-7b-instruct-v0.2.Q2_K.gguf"); + InferenceParameters inferParams = new InferenceParameters("") + .setGrammar(grammar); + try (LlamaModel model = new LlamaModel(modelParams)) { + for (LlamaModel.Output output : model.generate(inferParams)) { System.out.print(output); } } diff --git a/src/test/java/examples/InfillExample.java b/src/test/java/examples/InfillExample.java index 754b81bc..765ccf6b 100644 --- a/src/test/java/examples/InfillExample.java +++ b/src/test/java/examples/InfillExample.java @@ -1,23 +1,25 @@ package examples; +import de.kherud.llama.InferenceParameters; import de.kherud.llama.LlamaModel; import de.kherud.llama.ModelParameters; -import de.kherud.llama.ModelResolver; public class InfillExample { public static void main(String... args) { - LlamaModel.setLogger((level, message) -> System.out.print(message)); ModelParameters modelParams = new ModelParameters() + .setModelFilePath("models/codellama-7b.Q2_K.gguf") + .setModelUrl("https://huggingface.co/TheBloke/CodeLlama-7B-GGUF/resolve/main/codellama-7b.Q2_K.gguf") .setNGpuLayers(43); String prefix = "def remove_non_ascii(s: str) -> str:\n \"\"\" "; String suffix = "\n return result\n"; - String modelName = System.getProperty("model.name"); - String modelPath = ModelResolver.getPathToModel(modelName); - try (LlamaModel model = new LlamaModel(modelPath, modelParams)) { + try (LlamaModel model = new LlamaModel(modelParams)) { System.out.print(prefix); - for (LlamaModel.Output output : model.generate(prefix, suffix)) { + InferenceParameters inferParams = new InferenceParameters("") + .setInputPrefix(prefix) + .setInputSuffix(suffix); + for (LlamaModel.Output output : model.generate(inferParams)) { System.out.print(output); } System.out.print(suffix); diff --git a/src/test/java/examples/MainExample.java b/src/test/java/examples/MainExample.java index 88b357a2..55e1738a 100644 --- a/src/test/java/examples/MainExample.java +++ b/src/test/java/examples/MainExample.java @@ -1,6 +1,5 @@ package examples; -import de.kherud.llama.ModelResolver; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; @@ -9,29 +8,23 @@ import de.kherud.llama.InferenceParameters; import de.kherud.llama.LlamaModel; import de.kherud.llama.ModelParameters; +import de.kherud.llama.args.MiroStat; +@SuppressWarnings("InfiniteLoopStatement") public class MainExample { public static void main(String... args) throws IOException { - LlamaModel.setLogger((level, message) -> System.out.print(message)); ModelParameters modelParams = new ModelParameters() + .setModelFilePath("models/mistral-7b-instruct-v0.2.Q2_K.gguf") + .setModelUrl("https://huggingface.co/TheBloke/Mistral-7B-Instruct-v0.2-GGUF/resolve/main/mistral-7b-instruct-v0.2.Q2_K.gguf") .setNGpuLayers(43); - InferenceParameters inferParams = new InferenceParameters() - .setTemperature(0.7f) - .setPenalizeNl(true) -// .setNProbs(10) - .setMirostat(InferenceParameters.MiroStat.V2) - .setAntiPrompt("User:"); - String modelName = System.getProperty("model.name"); - String modelPath = ModelResolver.getPathToModel(modelName); String system = "This is a conversation between User and Llama, a friendly chatbot.\n" + "Llama is helpful, kind, honest, good at writing, and never fails to answer any " + "requests immediately and with precision.\n\n" + "User: Hello Llama\n" + "Llama: Hello. How may I help you today?"; - ; BufferedReader reader = new BufferedReader(new InputStreamReader(System.in, StandardCharsets.UTF_8)); - try (LlamaModel model = new LlamaModel(modelPath, modelParams)) { + try (LlamaModel model = new LlamaModel(modelParams)) { System.out.print(system); String prompt = system; while (true) { @@ -41,10 +34,12 @@ public static void main(String... args) throws IOException { prompt += input; System.out.print("Llama: "); prompt += "\nLlama: "; -// String answer = model.complete(prompt, inferParams); -// System.out.print(answer); -// prompt += answer; - for (LlamaModel.Output output : model.generate(prompt, inferParams)) { + InferenceParameters inferParams = new InferenceParameters(prompt) + .setTemperature(0.7f) + .setPenalizeNl(true) + .setMiroStat(MiroStat.V2) + .setStopStrings("User:"); + for (LlamaModel.Output output : model.generate(inferParams)) { System.out.print(output); prompt += output; } From 2d8e1c185571318da16cf1479780a8501edaf5c3 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 18:56:33 +0200 Subject: [PATCH 050/285] Fix CI workflow setup java version --- .github/workflows/ci.yml | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/.github/workflows/ci.yml b/.github/workflows/ci.yml index aa13951c..a6bca4c0 100644 --- a/.github/workflows/ci.yml +++ b/.github/workflows/ci.yml @@ -21,7 +21,7 @@ jobs: shell: bash # cmake should figure out OS and ARCH automatically when running build.sh run: .github/build.sh - - uses: actions/setup-java@4 + - uses: actions/setup-java@v4 with: distribution: 'zulu' java-version: '11' From fb6e6e3083fd4ff1963822ef86c05c548c58bedd Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 19:09:34 +0200 Subject: [PATCH 051/285] Some readme updates --- README.md | 130 +++++++++++++++++++++++++----------------------------- 1 file changed, 60 insertions(+), 70 deletions(-) diff --git a/README.md b/README.md index da8094f9..ece5b045 100644 --- a/README.md +++ b/README.md @@ -16,16 +16,15 @@ Access this library via Maven: de.kherud llama - 2.3.5 + 3.0.0 ``` -There are multiple [examples](src/test/java/examples). Make sure to set `model.home` and `model.name` to run them: +There are multiple [examples](src/test/java/examples): ```bash -mvn exec:java -Dexec.mainClass="examples.MainExample" -Dmodel.home="/path/to/models" -Dmodel.name="codellama-13b.Q5_K_M.gguf" +mvn exec:java -Dexec.mainClass="examples.MainExample" ``` -Note: if your model is in the `models` directory, then you can ommit the `-Dmodel.home` property. You can also run some integration tests, which will automatically download a model to the `models` directory: @@ -90,6 +89,34 @@ This includes: If you then compile your own JAR from this directory, you are ready to go. Otherwise, if you still want to use the library as a Maven dependency, see below how to set the necessary paths in order for Java to find your compiled libraries. +### Custom llama.cpp Setup (GPU acceleration) + +This repository provides default support for CPU based inference. You can compile `llama.cpp` any way you want, however. +In order to use your self-compiled library, set either of the [JVM options](https://www.jetbrains.com/help/idea/tuning-the-ide.html#configure-jvm-options): + +- `de.kherud.llama.lib.path`, for example `-Dde.kherud.llama.lib.path=/directory/containing/lib` +- `java.library.path`, for example `-Djava.library.path=/directory/containing/lib` + +This repository uses [`System#mapLibraryName`](https://docs.oracle.com/javase%2F7%2Fdocs%2Fapi%2F%2F/java/lang/System.html) to determine the name of the shared library for you platform. +If for any reason your library has a different name, you can set it with + +- `de.kherud.llama.lib.name`, for example `-Dde.kherud.llama.lib.name=myname.so` + +For compiling `llama.cpp`, refer to the official [readme](https://github.com/ggerganov/llama.cpp#build) for details. +The library can be built with the `llama.cpp` project: + +```shell +mkdir build +cd build +cmake .. -DBUILD_SHARED_LIBS=ON # add any other arguments for your backend +cmake --build . --config Release +``` + +Look for the shared library in `build`. + +> [!IMPORTANT] +> If you are running MacOS with Metal, you have to put the file `ggml-metal.metal` from `build/bin` in the same directory as the shared library. + ### Importing in Android You can use this library in Android project. @@ -144,34 +171,6 @@ android { keep class de.kherud.llama.** { *; } ``` -### Custom llama.cpp Setup (GPU acceleration) - -This repository provides default support for CPU based inference. You can compile `llama.cpp` any way you want, however. -In order to use your self-compiled library, set either of the [JVM options](https://www.jetbrains.com/help/idea/tuning-the-ide.html#configure-jvm-options): - -- `de.kherud.llama.lib.path`, for example `-Dde.kherud.llama.lib.path=/directory/containing/lib` -- `java.library.path`, for example `-Djava.library.path=/directory/containing/lib` - -This repository uses [`System#mapLibraryName`](https://docs.oracle.com/javase%2F7%2Fdocs%2Fapi%2F%2F/java/lang/System.html) to determine the name of the shared library for you platform. -If for any reason your library has a different name, you can set it with - -- `de.kherud.llama.lib.name`, for example `-Dde.kherud.llama.lib.name=myname.so` - -For compiling `llama.cpp`, refer to the official [readme](https://github.com/ggerganov/llama.cpp#build) for details. -The library can be built with the `llama.cpp` project: - -```shell -mkdir build -cd build -cmake .. -DBUILD_SHARED_LIBS=ON # add any other arguments for your backend -cmake --build . --config Release -``` - -Look for the shared library in `build`. - -> [!IMPORTANT] -> If you are running MacOS with Metal, you have to put the file `ggml-metal.metal` from `build/bin` in the same directory as the shared library. - ## Documentation ### Example @@ -182,21 +181,15 @@ This is a short example on how to use this library: public class Example { public static void main(String... args) throws IOException { - LlamaModel.setLogger((level, message) -> System.out.print(message)); ModelParameters modelParams = new ModelParameters() + .setModelFilePath("/path/to/model.gguf") .setNGpuLayers(43); - InferenceParameters inferParams = new InferenceParameters() - .setTemperature(0.7f) - .setPenalizeNl(true) - .setMirostat(InferenceParameters.MiroStat.V2) - .setAntiPrompt("\n"); - String modelPath = "/run/media/konstantin/Seagate/models/llama2/llama-2-13b-chat/ggml-model-q4_0.gguf"; String system = "This is a conversation between User and Llama, a friendly chatbot.\n" + "Llama is helpful, kind, honest, good at writing, and never fails to answer any " + "requests immediately and with precision.\n"; BufferedReader reader = new BufferedReader(new InputStreamReader(System.in, StandardCharsets.UTF_8)); - try (LlamaModel model = new LlamaModel(modelPath, modelParams)) { + try (LlamaModel model = new LlamaModel(modelParams)) { System.out.print(system); String prompt = system; while (true) { @@ -206,7 +199,12 @@ public class Example { prompt += input; System.out.print("Llama: "); prompt += "\nLlama: "; - for (String output : model.generate(prompt, inferParams)) { + InferenceParameters inferParams = new InferenceParameters(prompt) + .setTemperature(0.7f) + .setPenalizeNl(true) + .setMirostat(InferenceParameters.MiroStat.V2) + .setAntiPrompt("\n"); + for (String output : model.generate(inferParams)) { System.out.print(output); prompt += output; } @@ -225,13 +223,15 @@ model to your prompt in order to extend the context. If there is repeated conten cache this, to improve performance. ```java -try (LlamaModel model = new LlamaModel("/path/to/gguf-model")) { +ModelParameters modelParams = new ModelParameters().setModelFilePath("/path/to/model.gguf"); +InferenceParameters inferParams = new InferenceParameters("Tell me a joke."); +try (LlamaModel model = new LlamaModel(modelParams)) { // Stream a response and access more information about each output. - for (String output : model.generate("Tell me a joke.")) { + for (String output : model.generate(inferParams)) { System.out.print(output); } // Calculate a whole response before returning it. - String response = model.complete("Tell me another one"); + String response = model.complete(inferParams); // Returns the hidden representation of the context + prompt. float[] embedding = model.embed("Embed this"); } @@ -243,39 +243,29 @@ try (LlamaModel model = new LlamaModel("/path/to/gguf-model")) { > freed when the model is no longer needed. This isn't strictly required, but avoids memory leaks if you use different > models throughout the lifecycle of your application. -#### Infilling +### Infilling -You can simply pass `prefix` and `suffix` to `generate()` or `complete()`. +You can simply set `InferenceParameters#setInputPrefix(String)` and `InferenceParameters#setInputSuffix(String)`. ### Model/Inference Configuration There are two sets of parameters you can configure, `ModelParameters` and `InferenceParameters`. Both provide builder -classes to ease configuration. All non-specified options have sensible defaults. +classes to ease configuration. `ModelParameters` are once needed for loading a model, `InferenceParameters` are needed +for every inference task. All non-specified options have sensible defaults. ```java ModelParameters modelParams = new ModelParameters() - .setLoraAdapter("/path/to/lora/adapter") - .setLoraBase("/path/to/lora/base"); -InferenceParameters inferParams = new InferenceParameters() - .setGrammar(new File("/path/to/grammar.gbnf")) + .setModelFilePath("/path/to/model.gguf") + .setLoraAdapter("/path/to/lora/adapter") + .setLoraBase("/path/to/lora/base"); +String grammar = """ + root ::= (expr "=" term "\\n")+ + expr ::= term ([-+*/] term)* + term ::= [0-9]"""; +InferenceParameters inferParams = new InferenceParameters("") + .setGrammar(grammar) .setTemperature(0.8); -LlamaModel model = new LlamaModel("/path/to/model.bin", modelParams); -model.generate(prompt, inferParams) -``` - -### Logging - -Both Java and C++ logging can be configured via the static method `LlamaModel.setLogger`: - -```java -// The method accepts a BiConsumer. -LlamaModel.setLogger((level, message) -> System.out.println(level.name() + ": " + message)); -// To completely silence any output, pass a no-op. -LlamaModel.setLogger((level, message) -> {}); - -// Similarly, a progress callback can be set (only the C++ side will call this). -// I think this is only used to report progress loading the model with a value of 0-1. -// It is thus state specific and can be done via the parameters. -new ModelParameters() - .setProgressCallback(progress -> System.out.println("progress: " + progress)); +try (LlamaModel model = new LlamaModel(modelParams)) { + model.generate(inferParams); +} ``` From d0f5412a2f109841c322d2501655b6086ee292e6 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 21:57:51 +0200 Subject: [PATCH 052/285] Fix infer params off by one error --- src/main/java/de/kherud/llama/InferenceParameters.java | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/src/main/java/de/kherud/llama/InferenceParameters.java b/src/main/java/de/kherud/llama/InferenceParameters.java index f4933cca..937a909e 100644 --- a/src/main/java/de/kherud/llama/InferenceParameters.java +++ b/src/main/java/de/kherud/llama/InferenceParameters.java @@ -289,7 +289,7 @@ public InferenceParameters setLogitBias(Map logitBias) { .append(", ") .append(value) .append("]"); - if (i++ < logitBias.size()) { + if (i++ < logitBias.size() - 1) { builder.append(", "); } } From 441a2d0c47ee979c6ba101b6cdcec62ef29f0616 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 21:58:19 +0200 Subject: [PATCH 053/285] Add option to disable logging --- src/main/cpp/jllama.cpp | 6 ++++++ src/main/java/de/kherud/llama/ModelParameters.java | 12 +++++++++++- 2 files changed, 17 insertions(+), 1 deletion(-) diff --git a/src/main/cpp/jllama.cpp b/src/main/cpp/jllama.cpp index fc9958de..64076ff5 100644 --- a/src/main/cpp/jllama.cpp +++ b/src/main/cpp/jllama.cpp @@ -252,6 +252,12 @@ JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_loadModel(JNIEnv *env, jo json json_params = json::parse(c_params); server_params_parse(json_params, sparams, params); + if (json_value(json_params, "disable_log", false)) { + log_disable(); + } else { + log_enable(); + } + if (!sparams.system_prompt.empty()) { ctx_server->system_prompt_set(sparams.system_prompt); diff --git a/src/main/java/de/kherud/llama/ModelParameters.java b/src/main/java/de/kherud/llama/ModelParameters.java index 10609925..0df5b809 100644 --- a/src/main/java/de/kherud/llama/ModelParameters.java +++ b/src/main/java/de/kherud/llama/ModelParameters.java @@ -53,6 +53,7 @@ public final class ModelParameters extends JsonParameters { private static final String PARAM_HF_REPO = "hf_repo"; private static final String PARAM_HF_FILE = "hf_file"; private static final String PARAM_LOGDIR = "logdir"; + private static final String PARAM_LOG_DISABLE = "disable_log"; private static final String PARAM_LOOKUP_CACHE_STATIC = "lookup_cache_static"; private static final String PARAM_LOOKUP_CACHE_DYNAMIC = "lookup_cache_dynamic"; private static final String PARAM_LORA_ADAPTER = "lora_adapter"; @@ -416,7 +417,8 @@ public ModelParameters setModelAlias(String modelAlias) { } /** - * Set a URL to download a model from (default: unused) + * Set a URL to download a model from (default: unused). + * Note, that this requires the library to be built with CURL (-DLLAMA_CURL=ON). */ public ModelParameters setModelUrl(String modelUrl) { parameters.put(PARAM_MODEL_URL, toJsonString(modelUrl)); @@ -448,6 +450,14 @@ public ModelParameters setLogDirectory(String logdir) { return this; } + /** + * Set whether to disable logging + */ + public ModelParameters setDisableLog(boolean logDisable) { + parameters.put(PARAM_LOG_DISABLE, String.valueOf(logDisable)); + return this; + } + /** * Set path to static lookup cache to use for lookup decoding (not updated by generation) */ From 836bb88b3ec4766049d0c410fb76e0b039c86e49 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 21:58:38 +0200 Subject: [PATCH 054/285] Re-add failsafe / surefire plugins --- pom.xml | 28 +++++++++++++++++++ .../java/de/kherud/llama/LlamaModelIT.java | 14 ++++++---- 2 files changed, 36 insertions(+), 6 deletions(-) diff --git a/pom.xml b/pom.xml index 244a307f..e0fdc69f 100644 --- a/pom.xml +++ b/pom.xml @@ -78,6 +78,34 @@ + + + + org.apache.maven.plugins + maven-surefire-plugin + ${test.plugin.version} + + + + + + + + org.apache.maven.plugins + maven-failsafe-plugin + ${test.plugin.version} + + + + + + + integration-test + verify + + + + diff --git a/src/test/java/de/kherud/llama/LlamaModelIT.java b/src/test/java/de/kherud/llama/LlamaModelIT.java index beedac43..014bbcab 100644 --- a/src/test/java/de/kherud/llama/LlamaModelIT.java +++ b/src/test/java/de/kherud/llama/LlamaModelIT.java @@ -22,6 +22,8 @@ public static void setup() { new ModelParameters() .setModelFilePath("models/mistral-7b-instruct-v0.2.Q2_K.gguf") .setModelUrl("https://huggingface.co/TheBloke/Mistral-7B-Instruct-v0.2-GGUF/resolve/main/mistral-7b-instruct-v0.2.Q2_K.gguf") + // we need to disable logging since it causes problems with the maven failsafe plugin + .setDisableLog(true) .setNGpuLayers(43) .setEmbedding(true) ); @@ -42,14 +44,14 @@ public void testGenerateAnswer() { .setTemperature(0.95f) .setStopStrings("\"\"\"") .setNPredict(nPredict) - .setLogitBias(logitBias) - .setSeed(42); + .setLogitBias(logitBias); int generated = 0; for (LlamaModel.Output ignored : model.generate(params)) { generated++; } - Assert.assertTrue(generated > 0 && generated <= nPredict); + // todo: currently, after generating nPredict tokens, there is an additional empty output + Assert.assertTrue(generated > 0 && generated <= nPredict + 1); } @Test @@ -69,7 +71,7 @@ public void testGenerateInfill() { for (LlamaModel.Output ignored : model.generate(params)) { generated++; } - Assert.assertTrue(generated > 0 && generated <= nPredict); + Assert.assertTrue(generated > 0 && generated <= nPredict + 1); } @Test @@ -85,7 +87,7 @@ public void testGenerateGrammar() { Assert.assertTrue(output.matches("[ab]+")); int generated = model.encode(output).length; - Assert.assertTrue(generated > 0 && generated <= nPredict); + Assert.assertTrue(generated > 0 && generated <= nPredict + 1); } @Test @@ -128,7 +130,7 @@ public void testCompleteGrammar() { String output = model.complete(params); Assert.assertTrue(output.matches("[ab]+")); int generated = model.encode(output).length; - Assert.assertTrue(generated > 0 && generated <= nPredict); + Assert.assertTrue(generated > 0 && generated <= nPredict + 1); } @Test From 13d2505dbcf310aee8e1319bacd51be8934b7cf7 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 21:59:16 +0200 Subject: [PATCH 055/285] Add release workflow build with curl --- .github/workflows/release.yaml | 64 ++++++++++++++++------------------ 1 file changed, 31 insertions(+), 33 deletions(-) diff --git a/.github/workflows/release.yaml b/.github/workflows/release.yaml index 96e528f5..aef31655 100644 --- a/.github/workflows/release.yaml +++ b/.github/workflows/release.yaml @@ -7,7 +7,7 @@ on: required: false default: 'no' release: - types: [created] + types: [ created ] jobs: @@ -38,7 +38,7 @@ jobs: - name: Build libraries shell: bash run: | - .github/dockcross/${{ matrix.target.image }} .github/build.sh "-DOS_NAME=${{ matrix.target.os }} -DOS_ARCH=${{ matrix.target.arch }}" + .github/dockcross/${{ matrix.target.image }} .github/build.sh "-DOS_NAME=${{ matrix.target.os }} -DOS_ARCH=${{ matrix.target.arch }}" -DLLAMA_CURL=ON - name: Upload artifacts uses: actions/upload-artifact@v3 with: @@ -68,7 +68,7 @@ jobs: - name: Build libraries shell: bash run: | - .github/build.sh ${{ matrix.target.cmake }} -DOS_NAME=${{ matrix.target.os }} -DOS_ARCH=${{ matrix.target.arch }} + .github/build.sh ${{ matrix.target.cmake }} -DOS_NAME=${{ matrix.target.os }} -DOS_ARCH=${{ matrix.target.arch }} -DLLAMA_CURL=ON - name: Upload artifacts uses: actions/upload-artifact@v3 with: @@ -88,12 +88,11 @@ jobs: arch: x86_64, cmake: '-G "Visual Studio 17 2022" -A "x64"' } - # todo: This currently doesn't work. I'm not sure why. - # - { - # os: Windows, - # arch: aarch64, - # cmake: '-G "Visual Studio 17 2022" -A "ARM64"' - # } + - { + os: Windows, + arch: aarch64, + cmake: '-G "Visual Studio 17 2022" -A "ARM64"' + } - { os: Windows, arch: x86, @@ -109,7 +108,7 @@ jobs: - name: Build libraries shell: cmd run: | - .github\build.bat ${{ matrix.target.cmake }} -DOS_NAME=${{ matrix.target.os }} -DOS_ARCH=${{ matrix.target.arch }} + .github\build.bat ${{ matrix.target.cmake }} -DOS_NAME=${{ matrix.target.os }} -DOS_ARCH=${{ matrix.target.arch }} -DLLAMA_CURL=ON - name: Upload artifacts uses: actions/upload-artifact@v3 with: @@ -133,28 +132,27 @@ jobs: java-version: '11' - name: Run tests shell: bash - run: mvn verify -Dmodel.home=target - + run: mvn verify + + + test-macos: + name: Test Mac + needs: build-macos-native + runs-on: macos-latest + steps: + - uses: actions/checkout@v4 + - uses: actions/download-artifact@v3 + with: + name: artifacts + path: ${{ github.workspace }}/src/main/resources/de/kherud/llama/ + - uses: actions/setup-java@v4 + with: + distribution: 'zulu' + java-version: '11' + - name: Run tests + shell: bash + run: mvn verify - # todo: also currently doesn't work -# test-macos: -# name: Test Mac -# needs: build-macos-native -# runs-on: macos-latest -# steps: -# - uses: actions/checkout@v4 -# - uses: actions/download-artifact@v3 -# with: -# name: artifacts -# path: ${{ github.workspace }}/src/main/resources/de/kherud/llama/ -# - uses: actions/setup-java@v4 -# with: -# distribution: 'zulu' -# java-version: '11' -# - name: Run tests -# shell: bash -# run: mvn verify -Dmodel.home=target - test-windows: name: Test Windows @@ -172,12 +170,12 @@ jobs: java-version: '11' - name: Run tests shell: cmd - run: mvn verify -Dmodel.home=target + run: mvn verify publish: if: ${{ github.event_name != 'workflow_dispatch' || github.event.inputs.build_only == 'no' }} - needs: [test-linux,build-macos-native,test-windows] + needs: [ test-linux,build-macos-native,test-windows ] runs-on: ubuntu-latest steps: - uses: actions/checkout@v4 From 881261ee88ebe873d4e3cd91f00185117592de89 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 22:00:43 +0200 Subject: [PATCH 056/285] Add ci workflow build with curl --- .github/workflows/ci.yml | 8 ++++---- 1 file changed, 4 insertions(+), 4 deletions(-) diff --git a/.github/workflows/ci.yml b/.github/workflows/ci.yml index a6bca4c0..d6dd74f1 100644 --- a/.github/workflows/ci.yml +++ b/.github/workflows/ci.yml @@ -20,14 +20,14 @@ jobs: - name: Build libraries shell: bash # cmake should figure out OS and ARCH automatically when running build.sh - run: .github/build.sh + run: .github/build.sh -DLLAMA_CURL=ON - uses: actions/setup-java@v4 with: distribution: 'zulu' java-version: '11' - name: Run tests shell: bash - run: mvn verify -Dmodel.home=target + run: mvn verify build-and-test-windows: name: windows-latest @@ -36,11 +36,11 @@ jobs: - uses: actions/checkout@v4 - name: Build libraries shell: cmd - run: .github\build.bat + run: .github\build.bat -DLLAMA_CURL=ON - uses: actions/setup-java@v4 with: distribution: 'zulu' java-version: '11' - name: Run tests shell: cmd - run: mvn verify -Dmodel.home=target + run: mvn verify From ffb738fc97eda6c64b9b8f1fd341d7bfcdd21d05 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Fri, 5 Apr 2024 22:04:07 +0200 Subject: [PATCH 057/285] Reformat code and optimize imports --- .../de/kherud/llama/InferenceParameters.java | 3 +- .../java/de/kherud/llama/JsonParameters.java | 3 +- .../java/de/kherud/llama/LlamaException.java | 2 +- .../java/de/kherud/llama/LlamaLoader.java | 28 +- src/main/java/de/kherud/llama/LlamaModel.java | 11 +- src/main/java/de/kherud/llama/OSInfo.java | 426 +++++++++--------- .../java/de/kherud/llama/ProcessRunner.java | 2 +- .../de/kherud/llama/args/GpuSplitMode.java | 1 - .../java/de/kherud/llama/args/LogFormat.java | 1 - .../java/de/kherud/llama/args/MiroStat.java | 1 - .../de/kherud/llama/args/NumaStrategy.java | 1 - .../de/kherud/llama/args/PoolingType.java | 1 - .../java/de/kherud/llama/args/Sampler.java | 1 - 13 files changed, 253 insertions(+), 228 deletions(-) diff --git a/src/main/java/de/kherud/llama/InferenceParameters.java b/src/main/java/de/kherud/llama/InferenceParameters.java index 937a909e..d6e9afe4 100644 --- a/src/main/java/de/kherud/llama/InferenceParameters.java +++ b/src/main/java/de/kherud/llama/InferenceParameters.java @@ -6,7 +6,8 @@ import de.kherud.llama.args.Sampler; /** - * Parameters used throughout inference of a {@link LlamaModel}, e.g., {@link LlamaModel#generate(InferenceParameters)} and + * Parameters used throughout inference of a {@link LlamaModel}, e.g., {@link LlamaModel#generate(InferenceParameters)} + * and * {@link LlamaModel#complete(InferenceParameters)}. */ public final class InferenceParameters extends JsonParameters { diff --git a/src/main/java/de/kherud/llama/JsonParameters.java b/src/main/java/de/kherud/llama/JsonParameters.java index ff037831..e9916976 100644 --- a/src/main/java/de/kherud/llama/JsonParameters.java +++ b/src/main/java/de/kherud/llama/JsonParameters.java @@ -83,7 +83,8 @@ String toJsonString(String text) { hhhh = Integer.toHexString(c); builder.append("0000", 0, 4 - hhhh.length()); builder.append(hhhh); - } else { + } + else { builder.append(c); } } diff --git a/src/main/java/de/kherud/llama/LlamaException.java b/src/main/java/de/kherud/llama/LlamaException.java index c2b5762c..84d4ee7c 100644 --- a/src/main/java/de/kherud/llama/LlamaException.java +++ b/src/main/java/de/kherud/llama/LlamaException.java @@ -1,6 +1,6 @@ package de.kherud.llama; -public class LlamaException extends RuntimeException { +class LlamaException extends RuntimeException { public LlamaException(String message) { super(message); diff --git a/src/main/java/de/kherud/llama/LlamaLoader.java b/src/main/java/de/kherud/llama/LlamaLoader.java index 5c09646e..5aa84001 100644 --- a/src/main/java/de/kherud/llama/LlamaLoader.java +++ b/src/main/java/de/kherud/llama/LlamaLoader.java @@ -73,7 +73,8 @@ static synchronized void initialize() throws UnsatisfiedLinkError { private static void cleanup() { try (Stream dirList = Files.list(getTempDir().toPath())) { dirList.filter(LlamaLoader::shouldCleanPath).forEach(LlamaLoader::cleanPath); - } catch (IOException e) { + } + catch (IOException e) { System.err.println("Failed to open directory: " + e.getMessage()); } } @@ -86,7 +87,8 @@ private static boolean shouldCleanPath(Path path) { private static void cleanPath(Path path) { try { Files.delete(path); - } catch (Exception e) { + } + catch (Exception e) { System.err.println("Failed to delete old native lib: " + e.getMessage()); } } @@ -105,7 +107,8 @@ private static void loadNativeLibrary(String name) { Path path = Paths.get(nativeLibPath, nativeLibName); if (loadNativeLibrary(path)) { return; - } else { + } + else { triedPaths.add(nativeLibPath); } } @@ -116,12 +119,12 @@ private static void loadNativeLibrary(String name) { // if java-llama.cpp is added as code source System.loadLibrary(name); return; - } catch (UnsatisfiedLinkError e) { + } + catch (UnsatisfiedLinkError e) { triedPaths.add("Directly from .apk/lib"); } } - // Load the os-dependent library from the jar file nativeLibPath = getNativeResourcePath(); if (hasNativeLib(nativeLibPath, nativeLibName)) { @@ -130,7 +133,8 @@ private static void loadNativeLibrary(String name) { // Try extracting the library from jar if (extractAndLoadLibraryFile(nativeLibPath, nativeLibName, tempFolder)) { return; - } else { + } + else { triedPaths.add(nativeLibPath); } } @@ -144,7 +148,8 @@ private static void loadNativeLibrary(String name) { Path path = Paths.get(ldPath, nativeLibName); if (loadNativeLibrary(path)) { return; - } else { + } + else { triedPaths.add(ldPath); } } @@ -173,7 +178,8 @@ private static boolean loadNativeLibrary(Path path) { try { System.load(absolutePath); return true; - } catch (UnsatisfiedLinkError e) { + } + catch (UnsatisfiedLinkError e) { System.err.println(e.getMessage()); System.err.println("Failed to load native library: " + absolutePath + ". osinfo: " + OSInfo.getNativeLibFolderPathForCurrentOS()); return false; @@ -193,7 +199,8 @@ private static Path extractFile(String sourceDirectory, String fileName, String return null; } Files.copy(reader, extractedFilePath, StandardCopyOption.REPLACE_EXISTING); - } finally { + } + finally { // Delete the extracted lib file on JVM exit. extractedFilePath.toFile().deleteOnExit(); } @@ -213,7 +220,8 @@ private static Path extractFile(String sourceDirectory, String fileName, String System.out.println("Extracted '" + fileName + "' to '" + extractedFilePath + "'"); return extractedFilePath; - } catch (IOException e) { + } + catch (IOException e) { System.err.println(e.getMessage()); return null; } diff --git a/src/main/java/de/kherud/llama/LlamaModel.java b/src/main/java/de/kherud/llama/LlamaModel.java index 79705648..b74c99e5 100644 --- a/src/main/java/de/kherud/llama/LlamaModel.java +++ b/src/main/java/de/kherud/llama/LlamaModel.java @@ -74,7 +74,8 @@ public Iterable generate(InferenceParameters parameters) { * * @param prompt the string to embed * @return an embedding float array - * @throws IllegalStateException if embedding mode was not activated (see {@link ModelParameters#setEmbedding(boolean)}) + * @throws IllegalStateException if embedding mode was not activated (see + * {@link ModelParameters#setEmbedding(boolean)}) */ public native float[] embed(String prompt); @@ -92,7 +93,7 @@ public Iterable generate(InferenceParameters parameters) { * @param tokens an array of tokens * @return the token ids decoded to a string */ - public String decode(int[] tokens) { + public String decode(int[] tokens) { byte[] bytes = decodeBytes(tokens); return new String(bytes, StandardCharsets.UTF_8); } @@ -111,9 +112,13 @@ public void close() { // don't overload native methods since the C++ function names get nasty private native void loadModel(String parameters) throws LlamaException; + private native int requestCompletion(String params) throws LlamaException; + private native Output receiveCompletion(int taskId) throws LlamaException; + private native byte[] decodeBytes(int[] tokens); + private native void delete(); /** @@ -138,7 +143,6 @@ private Output(byte[] generated, @NotNull Map probabilities, bool public String toString() { return text; } - } private final class LlamaIterator implements Iterator { @@ -169,5 +173,4 @@ public Output next() { return output; } } - } diff --git a/src/main/java/de/kherud/llama/OSInfo.java b/src/main/java/de/kherud/llama/OSInfo.java index 740bdca5..a62861bf 100644 --- a/src/main/java/de/kherud/llama/OSInfo.java +++ b/src/main/java/de/kherud/llama/OSInfo.java @@ -31,234 +31,252 @@ */ @SuppressWarnings("UseOfSystemOutOrSystemErr") class OSInfo { - private static final ProcessRunner processRunner = new ProcessRunner(); - private static final HashMap archMapping = new HashMap<>(); + public static final String X86 = "x86"; + public static final String X86_64 = "x86_64"; + public static final String IA64_32 = "ia64_32"; + public static final String IA64 = "ia64"; + public static final String PPC = "ppc"; + public static final String PPC64 = "ppc64"; + private static final ProcessRunner processRunner = new ProcessRunner(); + private static final HashMap archMapping = new HashMap<>(); - public static final String X86 = "x86"; - public static final String X86_64 = "x86_64"; - public static final String IA64_32 = "ia64_32"; - public static final String IA64 = "ia64"; - public static final String PPC = "ppc"; - public static final String PPC64 = "ppc64"; + static { + // x86 mappings + archMapping.put(X86, X86); + archMapping.put("i386", X86); + archMapping.put("i486", X86); + archMapping.put("i586", X86); + archMapping.put("i686", X86); + archMapping.put("pentium", X86); - static { - // x86 mappings - archMapping.put(X86, X86); - archMapping.put("i386", X86); - archMapping.put("i486", X86); - archMapping.put("i586", X86); - archMapping.put("i686", X86); - archMapping.put("pentium", X86); + // x86_64 mappings + archMapping.put(X86_64, X86_64); + archMapping.put("amd64", X86_64); + archMapping.put("em64t", X86_64); + archMapping.put("universal", X86_64); // Needed for openjdk7 in Mac - // x86_64 mappings - archMapping.put(X86_64, X86_64); - archMapping.put("amd64", X86_64); - archMapping.put("em64t", X86_64); - archMapping.put("universal", X86_64); // Needed for openjdk7 in Mac + // Itanium 64-bit mappings + archMapping.put(IA64, IA64); + archMapping.put("ia64w", IA64); - // Itanium 64-bit mappings - archMapping.put(IA64, IA64); - archMapping.put("ia64w", IA64); + // Itanium 32-bit mappings, usually an HP-UX construct + archMapping.put(IA64_32, IA64_32); + archMapping.put("ia64n", IA64_32); - // Itanium 32-bit mappings, usually an HP-UX construct - archMapping.put(IA64_32, IA64_32); - archMapping.put("ia64n", IA64_32); + // PowerPC mappings + archMapping.put(PPC, PPC); + archMapping.put("power", PPC); + archMapping.put("powerpc", PPC); + archMapping.put("power_pc", PPC); + archMapping.put("power_rs", PPC); - // PowerPC mappings - archMapping.put(PPC, PPC); - archMapping.put("power", PPC); - archMapping.put("powerpc", PPC); - archMapping.put("power_pc", PPC); - archMapping.put("power_rs", PPC); + // TODO: PowerPC 64bit mappings + archMapping.put(PPC64, PPC64); + archMapping.put("power64", PPC64); + archMapping.put("powerpc64", PPC64); + archMapping.put("power_pc64", PPC64); + archMapping.put("power_rs64", PPC64); + archMapping.put("ppc64el", PPC64); + archMapping.put("ppc64le", PPC64); + } - // TODO: PowerPC 64bit mappings - archMapping.put(PPC64, PPC64); - archMapping.put("power64", PPC64); - archMapping.put("powerpc64", PPC64); - archMapping.put("power_pc64", PPC64); - archMapping.put("power_rs64", PPC64); - archMapping.put("ppc64el", PPC64); - archMapping.put("ppc64le", PPC64); - } + public static void main(String[] args) { + if (args.length >= 1) { + if ("--os".equals(args[0])) { + System.out.print(getOSName()); + return; + } + else if ("--arch".equals(args[0])) { + System.out.print(getArchName()); + return; + } + } - public static void main(String[] args) { - if (args.length >= 1) { - if ("--os".equals(args[0])) { - System.out.print(getOSName()); - return; - } else if ("--arch".equals(args[0])) { - System.out.print(getArchName()); - return; - } - } + System.out.print(getNativeLibFolderPathForCurrentOS()); + } - System.out.print(getNativeLibFolderPathForCurrentOS()); - } + static String getNativeLibFolderPathForCurrentOS() { + return getOSName() + "/" + getArchName(); + } - static String getNativeLibFolderPathForCurrentOS() { - return getOSName() + "/" + getArchName(); - } + static String getOSName() { + return translateOSNameToFolderName(System.getProperty("os.name")); + } - static String getOSName() { - return translateOSNameToFolderName(System.getProperty("os.name")); - } + static boolean isAndroid() { + return isAndroidRuntime() || isAndroidTermux(); + } - static boolean isAndroid() { - return isAndroidRuntime() || isAndroidTermux(); - } + static boolean isAndroidRuntime() { + return System.getProperty("java.runtime.name", "").toLowerCase().contains("android"); + } - static boolean isAndroidRuntime() { - return System.getProperty("java.runtime.name", "").toLowerCase().contains("android"); - } + static boolean isAndroidTermux() { + try { + return processRunner.runAndWaitFor("uname -o").toLowerCase().contains("android"); + } + catch (Exception ignored) { + return false; + } + } - static boolean isAndroidTermux() { - try { - return processRunner.runAndWaitFor("uname -o").toLowerCase().contains("android"); - } catch (Exception ignored) { - return false; - } - } + static boolean isMusl() { + Path mapFilesDir = Paths.get("/proc/self/map_files"); + try (Stream dirStream = Files.list(mapFilesDir)) { + return dirStream + .map( + path -> { + try { + return path.toRealPath().toString(); + } + catch (IOException e) { + return ""; + } + }) + .anyMatch(s -> s.toLowerCase().contains("musl")); + } + catch (Exception ignored) { + // fall back to checking for alpine linux in the event we're using an older kernel which + // may not fail the above check + return isAlpineLinux(); + } + } - static boolean isMusl() { - Path mapFilesDir = Paths.get("/proc/self/map_files"); - try (Stream dirStream = Files.list(mapFilesDir)) { - return dirStream - .map( - path -> { - try { - return path.toRealPath().toString(); - } catch (IOException e) { - return ""; - } - }) - .anyMatch(s -> s.toLowerCase().contains("musl")); - } catch (Exception ignored) { - // fall back to checking for alpine linux in the event we're using an older kernel which - // may not fail the above check - return isAlpineLinux(); - } - } + static boolean isAlpineLinux() { + try (Stream osLines = Files.lines(Paths.get("/etc/os-release"))) { + return osLines.anyMatch(l -> l.startsWith("ID") && l.contains("alpine")); + } + catch (Exception ignored2) { + } + return false; + } - static boolean isAlpineLinux() { - try (Stream osLines = Files.lines(Paths.get("/etc/os-release"))) { - return osLines.anyMatch(l -> l.startsWith("ID") && l.contains("alpine")); - } catch (Exception ignored2) { - } - return false; - } + static String getHardwareName() { + try { + return processRunner.runAndWaitFor("uname -m"); + } + catch (Throwable e) { + System.err.println("Error while running uname -m: " + e.getMessage()); + return "unknown"; + } + } - static String getHardwareName() { - try { - return processRunner.runAndWaitFor("uname -m"); - } catch (Throwable e) { - System.err.println("Error while running uname -m: " + e.getMessage()); - return "unknown"; - } - } + static String resolveArmArchType() { + if (System.getProperty("os.name").contains("Linux")) { + String armType = getHardwareName(); + // armType (uname -m) can be armv5t, armv5te, armv5tej, armv5tejl, armv6, armv7, armv7l, + // aarch64, i686 - static String resolveArmArchType() { - if (System.getProperty("os.name").contains("Linux")) { - String armType = getHardwareName(); - // armType (uname -m) can be armv5t, armv5te, armv5tej, armv5tejl, armv6, armv7, armv7l, - // aarch64, i686 + // for Android, we fold everything that is not aarch64 into arm + if (isAndroid()) { + if (armType.startsWith("aarch64")) { + // Use arm64 + return "aarch64"; + } + else { + return "arm"; + } + } - // for Android, we fold everything that is not aarch64 into arm - if (isAndroid()) { - if (armType.startsWith("aarch64")) { - // Use arm64 - return "aarch64"; - } else { - return "arm"; - } - } + if (armType.startsWith("armv6")) { + // Raspberry PI + return "armv6"; + } + else if (armType.startsWith("armv7")) { + // Generic + return "armv7"; + } + else if (armType.startsWith("armv5")) { + // Use armv5, soft-float ABI + return "arm"; + } + else if (armType.startsWith("aarch64")) { + // Use arm64 + return "aarch64"; + } - if (armType.startsWith("armv6")) { - // Raspberry PI - return "armv6"; - } else if (armType.startsWith("armv7")) { - // Generic - return "armv7"; - } else if (armType.startsWith("armv5")) { - // Use armv5, soft-float ABI - return "arm"; - } else if (armType.startsWith("aarch64")) { - // Use arm64 - return "aarch64"; - } + // Java 1.8 introduces a system property to determine armel or armhf + // http://bugs.java.com/bugdatabase/view_bug.do?bug_id=8005545 + String abi = System.getProperty("sun.arch.abi"); + if (abi != null && abi.startsWith("gnueabihf")) { + return "armv7"; + } - // Java 1.8 introduces a system property to determine armel or armhf - // http://bugs.java.com/bugdatabase/view_bug.do?bug_id=8005545 - String abi = System.getProperty("sun.arch.abi"); - if (abi != null && abi.startsWith("gnueabihf")) { - return "armv7"; - } + // For java7, we still need to run some shell commands to determine ABI of JVM + String javaHome = System.getProperty("java.home"); + try { + // determine if first JVM found uses ARM hard-float ABI + int exitCode = Runtime.getRuntime().exec("which readelf").waitFor(); + if (exitCode == 0) { + String[] cmdarray = { + "/bin/sh", + "-c", + "find '" + + javaHome + + "' -name 'libjvm.so' | head -1 | xargs readelf -A | " + + "grep 'Tag_ABI_VFP_args: VFP registers'" + }; + exitCode = Runtime.getRuntime().exec(cmdarray).waitFor(); + if (exitCode == 0) { + return "armv7"; + } + } + else { + System.err.println( + "WARNING! readelf not found. Cannot check if running on an armhf system, armel architecture will be presumed."); + } + } + catch (IOException | InterruptedException e) { + // ignored: fall back to "arm" arch (soft-float ABI) + } + } + // Use armv5, soft-float ABI + return "arm"; + } - // For java7, we still need to run some shell commands to determine ABI of JVM - String javaHome = System.getProperty("java.home"); - try { - // determine if first JVM found uses ARM hard-float ABI - int exitCode = Runtime.getRuntime().exec("which readelf").waitFor(); - if (exitCode == 0) { - String[] cmdarray = { - "/bin/sh", - "-c", - "find '" - + javaHome - + "' -name 'libjvm.so' | head -1 | xargs readelf -A | " - + "grep 'Tag_ABI_VFP_args: VFP registers'" - }; - exitCode = Runtime.getRuntime().exec(cmdarray).waitFor(); - if (exitCode == 0) { - return "armv7"; - } - } else { - System.err.println( - "WARNING! readelf not found. Cannot check if running on an armhf system, armel architecture will be presumed."); - } - } catch (IOException | InterruptedException e) { - // ignored: fall back to "arm" arch (soft-float ABI) - } - } - // Use armv5, soft-float ABI - return "arm"; - } + static String getArchName() { + String override = System.getProperty("de.kherud.llama.osinfo.architecture"); + if (override != null) { + return override; + } - static String getArchName() { - String override = System.getProperty("de.kherud.llama.osinfo.architecture"); - if (override != null) { - return override; - } + String osArch = System.getProperty("os.arch"); - String osArch = System.getProperty("os.arch"); + if (osArch.startsWith("arm")) { + osArch = resolveArmArchType(); + } + else { + String lc = osArch.toLowerCase(Locale.US); + if (archMapping.containsKey(lc)) return archMapping.get(lc); + } + return translateArchNameToFolderName(osArch); + } - if (osArch.startsWith("arm")) { - osArch = resolveArmArchType(); - } else { - String lc = osArch.toLowerCase(Locale.US); - if (archMapping.containsKey(lc)) return archMapping.get(lc); - } - return translateArchNameToFolderName(osArch); - } + static String translateOSNameToFolderName(String osName) { + if (osName.contains("Windows")) { + return "Windows"; + } + else if (osName.contains("Mac") || osName.contains("Darwin")) { + return "Mac"; + } + else if (osName.contains("AIX")) { + return "AIX"; + } + else if (isMusl()) { + return "Linux-Musl"; + } + else if (isAndroid()) { + return "Linux-Android"; + } + else if (osName.contains("Linux")) { + return "Linux"; + } + else { + return osName.replaceAll("\\W", ""); + } + } - static String translateOSNameToFolderName(String osName) { - if (osName.contains("Windows")) { - return "Windows"; - } else if (osName.contains("Mac") || osName.contains("Darwin")) { - return "Mac"; - } else if (osName.contains("AIX")) { - return "AIX"; - } else if (isMusl()) { - return "Linux-Musl"; - } else if (isAndroid()) { - return "Linux-Android"; - } else if (osName.contains("Linux")) { - return "Linux"; - } else { - return osName.replaceAll("\\W", ""); - } - } - - static String translateArchNameToFolderName(String archName) { - return archName.replaceAll("\\W", ""); - } + static String translateArchNameToFolderName(String archName) { + return archName.replaceAll("\\W", ""); + } } diff --git a/src/main/java/de/kherud/llama/ProcessRunner.java b/src/main/java/de/kherud/llama/ProcessRunner.java index 6a1fd8dd..24e63498 100644 --- a/src/main/java/de/kherud/llama/ProcessRunner.java +++ b/src/main/java/de/kherud/llama/ProcessRunner.java @@ -21,7 +21,7 @@ String runAndWaitFor(String command, long timeout, TimeUnit unit) return getProcessOutput(p); } - static String getProcessOutput(Process process) throws IOException { + private static String getProcessOutput(Process process) throws IOException { try (InputStream in = process.getInputStream()) { int readLen; ByteArrayOutputStream b = new ByteArrayOutputStream(); diff --git a/src/main/java/de/kherud/llama/args/GpuSplitMode.java b/src/main/java/de/kherud/llama/args/GpuSplitMode.java index 1a4b7b9c..0c0cd934 100644 --- a/src/main/java/de/kherud/llama/args/GpuSplitMode.java +++ b/src/main/java/de/kherud/llama/args/GpuSplitMode.java @@ -5,5 +5,4 @@ public enum GpuSplitMode { NONE, LAYER, ROW - } diff --git a/src/main/java/de/kherud/llama/args/LogFormat.java b/src/main/java/de/kherud/llama/args/LogFormat.java index 3fba6a1c..f0e76492 100644 --- a/src/main/java/de/kherud/llama/args/LogFormat.java +++ b/src/main/java/de/kherud/llama/args/LogFormat.java @@ -5,5 +5,4 @@ public enum LogFormat { NONE, JSON, TEXT - } diff --git a/src/main/java/de/kherud/llama/args/MiroStat.java b/src/main/java/de/kherud/llama/args/MiroStat.java index 5f8a8ce7..5268d9bc 100644 --- a/src/main/java/de/kherud/llama/args/MiroStat.java +++ b/src/main/java/de/kherud/llama/args/MiroStat.java @@ -5,5 +5,4 @@ public enum MiroStat { DISABLED, V1, V2 - } diff --git a/src/main/java/de/kherud/llama/args/NumaStrategy.java b/src/main/java/de/kherud/llama/args/NumaStrategy.java index 32bd7131..35b24e19 100644 --- a/src/main/java/de/kherud/llama/args/NumaStrategy.java +++ b/src/main/java/de/kherud/llama/args/NumaStrategy.java @@ -7,5 +7,4 @@ public enum NumaStrategy { ISOLATE, NUMA_CTL, MIRROR - } diff --git a/src/main/java/de/kherud/llama/args/PoolingType.java b/src/main/java/de/kherud/llama/args/PoolingType.java index 066e86e2..e9b441d4 100644 --- a/src/main/java/de/kherud/llama/args/PoolingType.java +++ b/src/main/java/de/kherud/llama/args/PoolingType.java @@ -5,5 +5,4 @@ public enum PoolingType { UNSPECIFIED, MEAN, CLS - } diff --git a/src/main/java/de/kherud/llama/args/Sampler.java b/src/main/java/de/kherud/llama/args/Sampler.java index 6f031d64..0864e91b 100644 --- a/src/main/java/de/kherud/llama/args/Sampler.java +++ b/src/main/java/de/kherud/llama/args/Sampler.java @@ -8,5 +8,4 @@ public enum Sampler { TOP_P, MIN_P, TEMPERATURE - } From e5131b49373b13dd3e35a64b34cd186de740e1b1 Mon Sep 17 00:00:00 2001 From: Konstantin Herud @@ -137,22 +136,6 @@ - - org.apache.maven.plugins - maven-failsafe-plugin - ${test.plugin.version} - - true - - - - org.apache.maven.plugins - maven-antrun-plugin - 3.0.0 - - true - - From 4882848ed00a00c75766d3d47146bdc01ea95ca4 Mon Sep 17 00:00:00 2001 From: Hugo Visser Date: Wed, 10 Apr 2024 17:36:20 +0200 Subject: [PATCH 097/285] Correct import for nlohmann/json --- src/main/cpp/jllama.cpp | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/src/main/cpp/jllama.cpp b/src/main/cpp/jllama.cpp index eaacb91a..1d09dc80 100644 --- a/src/main/cpp/jllama.cpp +++ b/src/main/cpp/jllama.cpp @@ -1,6 +1,6 @@ #include "jllama.h" -#include "json.hpp" +#include "nlohmann/json.hpp" #include "llama.h" #include "server.hpp" #include "utils.hpp" From 03eb515af677f0fd1580143d8599cb57413d5a17 Mon Sep 17 00:00:00 2001 From: Konstantin Herud Date: Sat, 13 Apr 2024 22:55:40 +0200 Subject: [PATCH 098/285] fix some static analysis warnings --- src/main/cpp/jllama.cpp | 220 ++++++++++++++++++++++------------------ src/main/cpp/server.hpp | 4 +- 2 files changed, 121 insertions(+), 103 deletions(-) diff --git a/src/main/cpp/jllama.cpp b/src/main/cpp/jllama.cpp index eaacb91a..6f76afbe 100644 --- a/src/main/cpp/jllama.cpp +++ b/src/main/cpp/jllama.cpp @@ -3,67 +3,88 @@ #include "json.hpp" #include "llama.h" #include "server.hpp" -#include "utils.hpp" + +#include +#include +#include // We store some references to Java classes and their fields/methods here to speed up things for later and to fail // early on if anything can't be found. This happens when the JVM loads the shared library (see `JNI_OnLoad`). // The references remain valid throughout the whole life of the shared library, on `JNI_OnUnload` they are released. -JavaVM *g_vm = nullptr; +namespace +{ +// JavaVM *g_vm = nullptr; // classes -static jclass c_llama_model = 0; -static jclass c_llama_iterator = 0; -static jclass c_standard_charsets = 0; -static jclass c_output = 0; -static jclass c_string = 0; -static jclass c_hash_map = 0; -static jclass c_map = 0; -static jclass c_set = 0; -static jclass c_entry = 0; -static jclass c_iterator = 0; -static jclass c_integer = 0; -static jclass c_float = 0; -static jclass c_biconsumer = 0; -static jclass c_llama_error = 0; -static jclass c_error_oom = 0; +jclass c_llama_model = nullptr; +jclass c_llama_iterator = nullptr; +jclass c_standard_charsets = nullptr; +jclass c_output = nullptr; +jclass c_string = nullptr; +jclass c_hash_map = nullptr; +jclass c_map = nullptr; +jclass c_set = nullptr; +jclass c_entry = nullptr; +jclass c_iterator = nullptr; +jclass c_integer = nullptr; +jclass c_float = nullptr; +jclass c_biconsumer = nullptr; +jclass c_llama_error = nullptr; +jclass c_error_oom = nullptr; // constructors -static jmethodID cc_output = 0; -static jmethodID cc_hash_map = 0; -static jmethodID cc_integer = 0; -static jmethodID cc_float = 0; +jmethodID cc_output = nullptr; +jmethodID cc_hash_map = nullptr; +jmethodID cc_integer = nullptr; +jmethodID cc_float = nullptr; // methods -static jmethodID m_get_bytes = 0; -static jmethodID m_entry_set = 0; -static jmethodID m_set_iterator = 0; -static jmethodID m_iterator_has_next = 0; -static jmethodID m_iterator_next = 0; -static jmethodID m_entry_key = 0; -static jmethodID m_entry_value = 0; -static jmethodID m_map_put = 0; -static jmethodID m_int_value = 0; -static jmethodID m_float_value = 0; -static jmethodID m_biconsumer_accept = 0; +jmethodID m_get_bytes = nullptr; +jmethodID m_entry_set = nullptr; +jmethodID m_set_iterator = nullptr; +jmethodID m_iterator_has_next = nullptr; +jmethodID m_iterator_next = nullptr; +jmethodID m_entry_key = nullptr; +jmethodID m_entry_value = nullptr; +jmethodID m_map_put = nullptr; +jmethodID m_int_value = nullptr; +jmethodID m_float_value = nullptr; +jmethodID m_biconsumer_accept = nullptr; // fields -static jfieldID f_model_pointer = 0; -static jfieldID f_task_id = 0; -static jfieldID f_utf_8 = 0; -static jfieldID f_iter_has_next = 0; +jfieldID f_model_pointer = nullptr; +jfieldID f_task_id = nullptr; +jfieldID f_utf_8 = nullptr; +jfieldID f_iter_has_next = nullptr; // objects -static jobject o_utf_8 = 0; +jobject o_utf_8 = nullptr; + +/** + * Safely cast the size of a container to a Java array size + */ +template jsize cast_jsize(const T &container) +{ + static_assert(std::is_integral::value, "Container must have an integral size type."); + + auto size = container.size(); + if (size > static_cast::type>(std::numeric_limits::max())) + { + throw std::runtime_error("Container size exceeds maximum size for a Java array"); + } + + return static_cast(size); +} /** * Convert a Java string to a std::string */ -static std::string parse_jstring(JNIEnv *env, jstring java_string) +std::string parse_jstring(JNIEnv *env, jstring java_string) { - const jbyteArray string_bytes = (jbyteArray)env->CallObjectMethod(java_string, m_get_bytes, o_utf_8); + auto *const string_bytes = (jbyteArray)env->CallObjectMethod(java_string, m_get_bytes, o_utf_8); - size_t length = (size_t)env->GetArrayLength(string_bytes); + auto length = (size_t)env->GetArrayLength(string_bytes); jbyte *byte_elements = env->GetByteArrayElements(string_bytes, nullptr); std::string string = std::string((char *)byte_elements, length); @@ -79,13 +100,14 @@ static std::string parse_jstring(JNIEnv *env, jstring java_string) * but we directly send the bytes and do the conversion in Java. Unfortunately, there isn't a nice/standardized way to * do this conversion in C++ */ -static jbyteArray parse_jbytes(JNIEnv *env, std::string string) +jbyteArray parse_jbytes(JNIEnv *env, const std::string &string) { - jsize len = string.size(); - jbyteArray bytes = env->NewByteArray(len); - env->SetByteArrayRegion(bytes, 0, len, reinterpret_cast(string.c_str())); + jsize length = cast_jsize(string); + jbyteArray bytes = env->NewByteArray(length); + env->SetByteArrayRegion(bytes, 0, length, reinterpret_cast(string.c_str())); return bytes; } +} // namespace /** * The VM calls JNI_OnLoad when the native library is loaded (for example, through `System.loadLibrary`). @@ -95,9 +117,9 @@ static jbyteArray parse_jbytes(JNIEnv *env, std::string string) * only requires JNI version `JNI_VERSION_1_1`. If the VM does not recognize the version number returned by `JNI_OnLoad`, the VM will unload the library and act as if the library was never loaded. */ -JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) +JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, __attribute__((unused)) void *reserved) { - JNIEnv *env = 0; + JNIEnv *env = nullptr; if (JNI_OK != vm->GetEnv((void **)&env, JNI_VERSION_1_1)) { @@ -216,12 +238,14 @@ JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) * Note that `JNI_OnLoad` and `JNI_OnUnload` are two functions optionally supplied by JNI libraries, not exported from * the VM. */ -JNIEXPORT void JNICALL JNI_OnUnload(JavaVM *vm, void *reserved) +JNIEXPORT void JNICALL JNI_OnUnload(JavaVM *vm, __attribute__((unused)) void *reserved) { - JNIEnv *env = 0; + JNIEnv *env = nullptr; if (JNI_OK != vm->GetEnv((void **)&env, JNI_VERSION_1_1)) + { return; + } env->DeleteGlobalRef(c_llama_model); env->DeleteGlobalRef(c_llama_iterator); @@ -246,7 +270,7 @@ JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_loadModel(JNIEnv *env, jo gpt_params params; server_params sparams; - server_context *ctx_server = new server_context(); + auto *ctx_server = new server_context(); std::string c_params = parse_jstring(env, jparams); json json_params = json::parse(c_params); @@ -292,11 +316,9 @@ JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_loadModel(JNIEnv *env, jo env->ThrowNew(c_llama_error, "could not load model from given file path"); return; } - else - { - ctx_server->init(); - state.store(SERVER_STATE_READY); - } + + ctx_server->init(); + state.store(SERVER_STATE_READY); LOG_INFO("model loaded", {}); @@ -348,7 +370,7 @@ JNIEXPORT void JNICALL Java_de_kherud_llama_LlamaModel_loadModel(JNIEnv *env, jo JNIEXPORT jint JNICALL Java_de_kherud_llama_LlamaModel_requestCompletion(JNIEnv *env, jobject obj, jstring jparams) { jlong server_handle = env->GetLongField(obj, f_model_pointer); - server_context *ctx_server = reinterpret_cast(server_handle); + auto *ctx_server = reinterpret_cast(server_handle); // NOLINT(*-no-int-to-ptr) std::string c_params = parse_jstring(env, jparams); json json_params = json::parse(c_params); @@ -364,55 +386,52 @@ JNIEXPORT jint JNICALL Java_de_kherud_llama_LlamaModel_requestCompletion(JNIEnv JNIEXPORT jobject JNICALL Java_de_kherud_llama_LlamaModel_receiveCompletion(JNIEnv *env, jobject obj, jint id_task) { jlong server_handle = env->GetLongField(obj, f_model_pointer); - server_context *ctx_server = reinterpret_cast(server_handle); + auto *ctx_server = reinterpret_cast(server_handle); // NOLINT(*-no-int-to-ptr) server_task_result result = ctx_server->queue_results.recv(id_task); - LOG_VERBOSE("data stream", {{"to_send", result.data}}); - if (result.error) { std::string response = result.data["message"].get(); + ctx_server->queue_results.remove_waiting_task_id(id_task); env->ThrowNew(c_llama_error, response.c_str()); return nullptr; } - else + + std::string response = result.data["content"].get(); + if (result.stop) { - std::string response = result.data["content"].get(); - if (result.stop) - { - ctx_server->queue_results.remove_waiting_task_id(id_task); - } + ctx_server->queue_results.remove_waiting_task_id(id_task); + } - jobject o_probabilities = env->NewObject(c_hash_map, cc_hash_map); - if (result.data.contains("completion_probabilities")) + jobject o_probabilities = env->NewObject(c_hash_map, cc_hash_map); + if (result.data.contains("completion_probabilities")) + { + auto completion_probabilities = result.data["completion_probabilities"]; + for (const auto &entry : completion_probabilities) { - auto completion_probabilities = result.data["completion_probabilities"]; - for (const auto &entry : completion_probabilities) + auto probs = entry["probs"]; + for (const auto &tp : probs) { - auto probs = entry["probs"]; - for (const auto &tp : probs) - { - std::string tok_str = tp["tok_str"]; - jstring jtok_str = env->NewStringUTF(tok_str.c_str()); - float prob = tp["prob"]; - jobject jprob = env->NewObject(c_float, cc_float, prob); - env->CallObjectMethod(o_probabilities, m_map_put, jtok_str, jprob); - env->DeleteLocalRef(jtok_str); - env->DeleteLocalRef(jprob); - } + std::string tok_str = tp["tok_str"]; + jstring jtok_str = env->NewStringUTF(tok_str.c_str()); + float prob = tp["prob"]; + jobject jprob = env->NewObject(c_float, cc_float, prob); + env->CallObjectMethod(o_probabilities, m_map_put, jtok_str, jprob); + env->DeleteLocalRef(jtok_str); + env->DeleteLocalRef(jprob); } } - - jbyteArray jbytes = parse_jbytes(env, response); - return env->NewObject(c_output, cc_output, jbytes, o_probabilities, result.stop); } + + jbyteArray jbytes = parse_jbytes(env, response); + return env->NewObject(c_output, cc_output, jbytes, o_probabilities, result.stop); } JNIEXPORT jfloatArray JNICALL Java_de_kherud_llama_LlamaModel_embed(JNIEnv *env, jobject obj, jstring jprompt) { jlong server_handle = env->GetLongField(obj, f_model_pointer); - server_context *ctx_server = reinterpret_cast(server_handle); + auto *ctx_server = reinterpret_cast(server_handle); // NOLINT(*-no-int-to-ptr) if (!ctx_server->params.embedding) { @@ -435,40 +454,39 @@ JNIEXPORT jfloatArray JNICALL Java_de_kherud_llama_LlamaModel_embed(JNIEnv *env, env->ThrowNew(c_llama_error, response.c_str()); return nullptr; } - else - { - std::cout << result.data << std::endl; - std::vector embedding = result.data["embedding"].get>(); - - jfloatArray j_embedding = env->NewFloatArray(embedding.size()); - if (j_embedding == nullptr) - { - env->ThrowNew(c_error_oom, "could not allocate embedding"); - return nullptr; - } - env->SetFloatArrayRegion(j_embedding, 0, embedding.size(), reinterpret_cast(embedding.data())); + std::vector embedding = result.data["embedding"].get>(); + jsize embedding_size = cast_jsize(embedding); - return j_embedding; + jfloatArray j_embedding = env->NewFloatArray(embedding_size); + if (j_embedding == nullptr) + { + env->ThrowNew(c_error_oom, "could not allocate embedding"); + return nullptr; } + + env->SetFloatArrayRegion(j_embedding, 0, embedding_size, reinterpret_cast(embedding.data())); + + return j_embedding; } JNIEXPORT jintArray JNICALL Java_de_kherud_llama_LlamaModel_encode(JNIEnv *env, jobject obj, jstring jprompt) { jlong server_handle = env->GetLongField(obj, f_model_pointer); - server_context *ctx_server = reinterpret_cast(server_handle); + auto *ctx_server = reinterpret_cast(server_handle); // NOLINT(*-no-int-to-ptr) const std::string c_prompt = parse_jstring(env, jprompt); std::vector