PDF Chat Assistant 📚🤖

Streamlit-приложение для интерактивного обсуждения PDF-документов с помощью LLM через RAG (Retrieval-Augmented Generation) и OpenRouter API.

🎯 Возможности

Загрузка PDF файлов - поддержка drag-and-drop интерфейса
Извлечение текста - автоматическая обработка PDF документов
Векторный поиск - создание эмбеддингов через Course API
Интеллектуальный чат - ответы на вопросы на основе содержимого PDF
Множественные LLM модели - выбор между GPT-3.5, Claude 3, DeepSeek и другими
RAG система - контекстно-зависимые ответы с цитированием источников

🚀 Быстрый старт

Установка зависимостей

# Установка Python пакетов
uv add streamlit PyPDF2 requests scikit-learn numpy openai langchain langchain-community langchain-openai tiktoken chromadb faiss-cpu

# Или через pip
pip install streamlit PyPDF2 requests scikit-learn numpy openai langchain langchain-community langchain-openai tiktoken chromadb faiss-cpu

Настройка переменных окружения

Создайте файл .env со следующими ключами:

OPENROUTER_API_KEY=your_openrouter_api_key_here
COURSE_API_KEY=your_course_api_key_here

Запуск приложения

streamlit run app.py --server.port 5000

Приложение будет доступно по адресу: http://localhost:5000

📁 Структура проекта

├── app.py                 # Главный файл Streamlit приложения
├── pdf_processor.py       # Обработка и извлечение текста из PDF
├── vector_store.py        # Векторное хранилище и поиск
├── openrouter_client.py   # Клиент для OpenRouter API
├── utils.py              # Вспомогательные функции
├── utils2.py             # Course API интеграция
├── README.md             # Документация проекта
└── .streamlit/
    └── config.toml       # Конфигурация Streamlit

🔧 Архитектура системы

1. Обработка PDF (pdf_processor.py)

Извлечение текста с помощью PyPDF2
Разбиение на фрагменты по 1000 символов с перекрытием 200 символов
Очистка и нормализация текста

2. Векторное хранилище (vector_store.py)

Создание эмбеддингов через Course API
Использование косинусного сходства для поиска
Хранение векторов в памяти с NumPy

3. LLM интеграция (openrouter_client.py)

Поддержка множественных моделей через OpenRouter
Создание контекстных промптов с найденными фрагментами
Управление токенами и ограничениями API

4. Пользовательский интерфейс (app.py)

Streamlit интерфейс с drag-and-drop загрузкой
История чата и управление сессиями
Отображение статистики и отладочной информации

🛠️ Конфигурация

Streamlit настройки (.streamlit/config.toml)

[server]
headless = true
address = "0.0.0.0"
port = 5000

Поддерживаемые LLM модели (13 моделей)

OpenAI: GPT-4o, GPT-4o Mini, GPT-4 Turbo, GPT-3.5 Turbo
Anthropic: Claude 3.5 Sonnet, Claude 3 Opus, Claude 3 Haiku
Google: Gemini Pro 1.5, Gemini Flash 1.5
Meta: Llama 3.1 405B, Llama 3.1 70B
Mistral: Mixtral 8x7B
Qwen: Qwen 2.5 72B

📊 Рабочий процесс

Загрузка PDF → Пользователь загружает документ
Извлечение текста → PyPDF2 обрабатывает файл
Создание фрагментов → Текст разбивается на части
Векторизация → Course API создает эмбеддинги
Индексация → Векторы сохраняются для поиска
Запрос пользователя → Вопрос обрабатывается
Поиск контекста → Находятся релевантные фрагменты
Генерация ответа → LLM создает ответ на основе контекста

🔒 Безопасность

API ключи хранятся в переменных окружения
Валидация размера файлов (максимум 200 МБ)
Обработка ошибок и исключений
Безопасная очистка временных файлов

🐛 Отладка

В интерфейсе отображается отладочная информация:

Количество обработанных фрагментов
Статус векторного хранилища
Найденные релевантные фрагменты
Размер контекста для LLM

📝 Лицензия

Apache License Version 2.0

🤝 Вклад в проект

Форкните репозиторий
Создайте ветку для функции (git checkout -b feature/AmazingFeature)
Зафиксируйте изменения (git commit -m 'Add some AmazingFeature')
Отправьте в ветку (git push origin feature/AmazingFeature)
Откройте Pull Request

📧 Поддержка

При возникновении проблем создайте issue в репозитории GitHub.

Создано с ❤️ для удобного изучения документов с помощью ИИ

Name		Name	Last commit message	Last commit date
Latest commit History 44 Commits
.streamlit		.streamlit
attached_assets		attached_assets
.gitignore		.gitignore
.replit		.replit
LICENSE.txt		LICENSE.txt
README.md		README.md
app.py		app.py
openrouter_client.py		openrouter_client.py
pdf_processor.py		pdf_processor.py
pyproject.toml		pyproject.toml
topic_extractor.py		topic_extractor.py
utils.py		utils.py
utils2.py		utils2.py
uv.lock		uv.lock
vector_store.py		vector_store.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

PDF Chat Assistant 📚🤖

🎯 Возможности

🚀 Быстрый старт

Установка зависимостей

Настройка переменных окружения

Запуск приложения

📁 Структура проекта

🔧 Архитектура системы

1. Обработка PDF (pdf_processor.py)

2. Векторное хранилище (vector_store.py)

3. LLM интеграция (openrouter_client.py)

4. Пользовательский интерфейс (app.py)

🛠️ Конфигурация

Streamlit настройки (.streamlit/config.toml)

Поддерживаемые LLM модели (13 моделей)

📊 Рабочий процесс

🔒 Безопасность

🐛 Отладка

📝 Лицензия

🤝 Вклад в проект

📧 Поддержка

About

Uh oh!

Releases

Packages

Languages

License

PavelGld/PDFInteract

Folders and files

Latest commit

History

Repository files navigation

PDF Chat Assistant 📚🤖

🎯 Возможности

🚀 Быстрый старт

Установка зависимостей

Настройка переменных окружения

Запуск приложения

📁 Структура проекта

🔧 Архитектура системы

1. Обработка PDF (pdf_processor.py)

2. Векторное хранилище (vector_store.py)

3. LLM интеграция (openrouter_client.py)

4. Пользовательский интерфейс (app.py)

🛠️ Конфигурация

Streamlit настройки (.streamlit/config.toml)

Поддерживаемые LLM модели (13 моделей)

📊 Рабочий процесс

🔒 Безопасность

🐛 Отладка

📝 Лицензия

🤝 Вклад в проект

📧 Поддержка

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages