Thanks to visit codestin.com
Credit goes to github.com

Skip to content
View DanilaAniva's full-sized avatar

Block or report DanilaAniva

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Please don't include any personal information such as legal names or email addresses. Maximum 250 characters, markdown supported. This note will be visible to only you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
DanilaAniva/README.md

💫 About Me:

Увлеченный дата-сайентист (ML\DS)

Привет! Меня зовут Данила 👋
🌇 Живу в Москве
🔥 Занимаюсь машинным обучением и аналитикой данных. Активно принимаю участие в различных проектах по CV, NLP и Audio


👉 Забавный факт: "Не оценивать результаты генеративки глазами, а проводить Human Evaluation"

Интересные проекты:


YAPPY Searcher — мгновенный интеллектуальный поиск по коротким видео

📝 Кратко:
У тебя есть база роликов — решение индексирует текст, звук и изображения в каждом видео и позволяет искать по ним по обычному текстовому запросу.

💡 Описание:
Приложение для поиска нужных видео по тексту, аудио и содержимому изображений. Backend реализован на Flask. Для поиска похожих видео используется Jina-CLIP-v1 — нейросеть, преобразующая визуальный и текстовый контент в общее векторное пространство, что обеспечивает релевантный семантический поиск даже по абстрактным запросам. EasyOCR извлекает текстовые элементы непосредственно с кадров видео, повышая полноту индексации. Распознавание речи из аудиодорожек реализовано через Nvidia NeMo (FastConformer Hybrid Large), что позволяет учитывать звуковую дорожку при поиске. Интерфейс реализован с поддержкой автодополнения и мультиязычных запросов.

🛠️ Технологии:
EasyOCR (OCR), Nvidia NeMo (FastConformer Hybrid Large) (ASR), Flask (Backend), Jina-CLIP-v1 (Embedder)

Код на GitHub


DiaBERT ASR Backend — автоматизация учёта времени через голосовые команды

📝 Кратко:
Человек диктует голосом, что и когда делал — система превращает это в структурированный отчёт по задачам и времени.

💡 Описание:
Сервис, преобразующий аудиозаписи в структурированные отчёты о задачах и временных интервалах. Ядро построено на FastAPI для высокой скорости работы. Для автоматического распознавания речи применяется Whisper-large-v3-turbo — современная модель ASR с поддержкой нескольких языков и устойчивостью к шуму. Далее, полученный текст обрабатывается LLM Vikhr-Nemo-12B, которая извлекает и маркирует временные промежутки, действия и задачи в формате JSON. Благодаря этому можно вести трекинг задач и экспортировать отчёты в DOCX одним кликом.

🛠️ Технологии:
FastAPI (Backend), Whisper-large-v3-turbo (ASR), Vikhr-Nemo-12B (LLM), DOCX экспорт

Код на GitHub


AI-med-service — универсальная платформа для анализа медицинских изображений

📝 Кратко:
Врачи могут загружать медицинские снимки — сервис автоматически выделяет органы, выявляет патологии и классифицирует заболевания с помощью нейросетей.

💡 Описание:
Агрегатор сервисов ИИ для диагностики по рентгеновским снимкам. Backend построен на Flask. Для сегментации и классификации используются кастомные U-NET и U-NET++ — у моделей используется энкодеры EfficientNet с DiceBCELoss, AdamW в качестве optimizer и LearningRateWarmup + ReduceLROnPlateau в качестве scheduler. Настроено логгирование метрик в wandb. Были протестированы разные подходы и при обучении получена лучшая метрика на датасете COVID-QU-Ex (33,920 chest X-ray). Обучение проходило на Nvidia V100. В систему встроена поддержка DICOM-формата для удобства врачей. Также реализован Autoencoder для отслеживания и обработки ошибок при загрузке невалидных изображений. Пользовательский интерфейс включает историю инференсов, личный кабинет и разграничение прав доступа.

🛠️ Технологии:
Flask (Backend), U-NET, U-NET++ (CV/Segmentation), Autoencoder (Validation), DICOM support

Код на GitHub


ASR Summarizer — суммаризация длинных аудиофайлов с помощью нейросетей

📝 Кратко:
Берёт длинную аудиозапись (например, подкаст) и выдаёт краткое содержательное резюме по основным темам и событиям.

💡 Описание:
Приложение для автоматического выделения ключевых смыслов, событий и тем из аудиозаписей. В основе — цепочка ASR и LLM: сначала аудиофайл преобразуется в текст с помощью модели распознавания речи, затем крупная языковая модель строит краткое содержательное описание. Это снижает время на ручной анализ встреч и звонков.

🛠️ Технологии:
Whisper/ASR (Speech-to-Text), LLM (Summarization)


ASR-NeMo-Comparison — сравнение и выбор ASR-моделей для задач распознавания речи

📝 Кратко:
Сравнивает разные модели распознавания речи на реальных видео — помогает выбрать лучший инструмент под задачу.

💡 Описание:
Набор ноутбуков для анализа производительности ASR-моделей Nvidia NeMo на видеоконтенте. Каждая модель тестируется на реальных роликах, сравнивается точность и устойчивость к разным шумам и акцентам, визуализируются результаты для быстрой оценки применимости под конкретный сценарий.

🛠️ Технологии:
Jupyter Notebooks, Nvidia NeMo (ASR), Python, Pandas, Matplotlib, etc

Код на GitHub


MLPractice — практические ноутбуки по ML и Data Science

📝 Кратко:
Коллекция практических задач по машинному обучению — от классических моделей до экспериментов с современными нейросетями.

💡 Описание:
Сборник ноутбуков с задачами по машинному обучению.

🛠️ Технологии:
Jupyter Notebooks, Python, Scikit-learn, PyTorch, Pandas, Matplotlib, etc

Код на GitHub

Связаться со мной:

🍊 Обязательно пиши в ТГ, если хочешь что-то спросить, предложить или просто пообщаться - [@LichPlease](https://t.me/LichPlease)

Языки и библиотеки:

docker flask hadoop postgresql python pytorch scikit_learn

Pinned Loading

  1. AI-med-service AI-med-service Public

    Forked from VadimKirillov/AI-med-service

    Медицинский сервис с функциями сегментации, классификации по изображениям с использованием U-NET, U-NET++

    Jupyter Notebook

  2. YAPPY_searcher_SDVIG_deploy YAPPY_searcher_SDVIG_deploy Public

    Forked from VadimKirillov/YAPPY_searcher_SDVIG_deploy

    Поисковой видео-движок в виде веб-приложения с использованием EasyOCR (OCR), Jina-Clip-v1 (Поиск по видео-контенту), NeMo (ASR), Flask (Веб-интерфейс)

    Python

  3. ASR-NeMo-Comparison ASR-NeMo-Comparison Public

    Ноутбуки для ASR (Automatic Speech Recognition). Показываю, как можно доставать текст из аудиодорожки видеороликов, а также сравниваю различные Open-Source модели для распознавания речи.

    Jupyter Notebook

  4. DiabertASRBackend DiabertASRBackend Public

    This repository contains a structured implementation of a FASTAPI application for speech recognition and audio analysis, using Whisper and LLM Vikrh-12B-Nemo

    Python 1