智能图像信息抽取系统

基于Qwen2.5-VL大模型的智能图像信息抽取系统，可以自动从图片中提取关键信息并以结构化的方式输出。

功能特点

支持多种文档类型的信息抽取
基于Qwen2.5-VL大模型的视觉语言理解能力
使用LoRA技术进行高效微调
提供友好的Web界面
支持批量处理和实时预览

环境要求

Python 3.8+
CUDA 11.7+
PyTorch 2.0+
Transformers 4.36+

快速开始

1. 安装

# 克隆项目
git clone https://github.com/yourusername/kie_qwen25vl.git
cd kie_qwen25vl

# 安装依赖
pip install -r requirements.txt

2. 数据准备

将训练数据放置在 data/train/ 目录下。

3. 模型训练

python src/train.py

4. 启动Web服务

python src/app.py

访问 http://localhost:7860 即可使用Web界面。

Web界面预览

系统提供了直观的Web操作界面，支持图片上传、实时预测和结果展示。

配置说明

在 configs/kie_config.py 中可以配置以下参数：

模型配置

model_name: 基础模型路径
max_seq_length: 最大序列长度
load_in_4bit: 是否使用4bit量化

LoRA配置

lora_r: LoRA rank
lora_alpha: LoRA alpha
lora_dropout: LoRA dropout

训练配置

learning_rate: 学习率
batch_size: 批次大小
num_epochs: 训练轮数
warmup_steps: 预热步数

路径配置

train_data_path: 训练数据路径
eval_data_path: 评估数据路径
model_save_path: 模型保存路径

开发计划

许可证

本项目采用 MIT 许可证。详见 LICENSE 文件。

联系方式

如有问题或建议，欢迎提交 Issue 或 Pull Request。

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
src		src
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

智能图像信息抽取系统

功能特点

环境要求

快速开始

1. 安装

2. 数据准备

3. 模型训练

4. 启动Web服务

Web界面预览

配置说明

模型配置

LoRA配置

训练配置

路径配置

开发计划

许可证

联系方式

About

Uh oh!

Releases

Packages

Uh oh!

Languages

wp931120/qwenvl2.5_kie

Folders and files

Latest commit

History

Repository files navigation

智能图像信息抽取系统

功能特点

环境要求

快速开始

1. 安装

2. 数据准备

3. 模型训练

4. 启动Web服务

Web界面预览

配置说明

模型配置

LoRA配置

训练配置

路径配置

开发计划

许可证

联系方式

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages