Stars
Supercharge Your LLM with the Fastest KV Cache Layer
The code and data for GrammarGPT.
Unified Efficient Fine-Tuning of 100+ LLMs & VLMs (ACL 2024)
Official code for ReLoRA from the paper Stack More Layers Differently: High-Rank Training Through Low-Rank Updates
[ACL 2023] This is the code repo for our ACL'23 paper "Augmentation-Adapted Retriever Improves Generalization of Language Models as Generic Plug-In".
超长文本分类(大于1000字);文档级/篇章级文本分类;主要是解决长距离依赖问题
The official GitHub page for the survey paper "A Survey on Evaluation of Large Language Models".
整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。
An open platform for training, serving, and evaluating large language models. Release repo for Vicuna and Chatbot Arena.
ChatGPT 中文调教指南。各种场景使用指南。学习怎么让它听你的话。
Langchain-Chatchat(原Langchain-ChatGLM)基于 Langchain 与 ChatGLM, Qwen 与 Llama 等语言模型的 RAG 与 Agent 应用 | Langchain-Chatchat (formerly langchain-ChatGLM), local knowledge based LLM (like ChatGLM, Qwen and…
PyTorch分类网络:Python训练_测试_模型转换 && Windows_LibTorch_C++部署
精选 OpenAI 的 [ChatGPT](https://chat.openai.com) 资源清单, 跟随最新资源并添加中文相关Work
使用Bert,ERNIE,进行中文文本分类
CCL 2023 电信网络诈骗案件分类评测baseline
中文LLaMA&Alpaca大语言模型+本地CPU/GPU训练部署 (Chinese LLaMA & Alpaca LLMs)
大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP
异常文本处理,移除异常空格、换行,英文标点符号替换成中文标点,去除乱码,全角字符转半角等
MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
Punctuation Restoration using Transformer Models for High-and Low-Resource Languages