Thanks to visit codestin.com
Credit goes to github.com

Skip to content

XnneHangLab/XnneHangLab

Repository files navigation

魔女の实验室

uv ruff Gitmoji PyTorch FunASRStreamlit

English Documentation

魔女の实验室

文档网站(等等噢) · bilibili视频教程(再等等噢)

功能 · 演示 · 本地部署 fastapi&cli · 配置


它为什么诞生

我对它的期望是一个满足我日常音频所需的完整的工作流,主要有:

做视频: 视频字幕生成 -> 视频字幕速度调节和编辑 -> 字幕内嵌或者导出

啃生肉提高日语水平 b站视频下载 -> 视频字幕生成 -> 视频字幕翻译

tts/sts 数据集制作: 音频字幕生成 -> 自动裁剪音频 -> 响度匹配 -> 降噪 -> 字幕再次生成

tts/sts 微调和语音生成: 可能会把以前玩过的 Bert-ViTS2 集成进来,同样,也是做视频用。

为什么叫魔女の实验室

我在写这个项目的时经常想到伊蕾娜她小时候认真学习魔法的样子。

我大概也是以那种心态在写这个项目吧。不知道后面能不能直接把这个当毕设了。

功能

由于我总是忘记之后要什么,所以做了一个 To-Do-List 来提醒自己。分短期和长期任务,长期任务也可以作为 RoadMap。

使用方法类似于 Downkyi, 致力于从视频下载到音频处理以及字幕生成一条龙服务。

fastapi&cli

你也可以把该项目作为后端, 它使用 FastAPI 提供了部分功能, 具体参考 fastapi 文档。

该项目也正在开发 cli 工具, 目前支持音频识别和语音活动检测, 具体参考 cli 文档。

写前端后端混合让我感到稀碎和结构混乱, 反而 cli 有助于理解项目结构? 简单说就是更爽.

演示

从我的网站访问: fast.xnnehang.top

如果你发现网站不在线,那么可能是节假日我在家打游戏把它关了 =-=.

我用 frp 和 一个外国的服务器把该项目部署到了我家的台式机并且可以通过网站访问。你可以在这里轻度体验。

下面是一些截图。

audio-recognize

image-20250509114721029

实验性:

vtuber_window

vtuber_pet_mode

VtuberLab 的内容正在开发中。目前已经兼容 Open-LLM-VTuber 的前端。

具体内容和更新参见: vtuber.md

本地部署

参见 deploy.md

配置

參見 settings.md

RoadMap

  • SenseVoice with TimeStamp 模型选项支持
  • 视频识别模块
  • yutto-uiya 的移重构 bilibili 视频下载 new package

最近 all in vtuberlab 了。

  • 给散乱的关于 VTuber 功能的 configs 做一个配置页面。
  • 番茄钟定时功能。让 VTuber 提醒我休息一下。
  • 接入 Gemini API.
  • 重构 Sentence_Divider, 仅当积攒了一定数量的字符后才会开始发送 tts 请求。
  • 在 Tool Call 的时候让模型回复一些东西来作为消息,而不是一直等待。

引用的仓库

如何参与到开发:

详细参见: CONTRIBUTING.md

非常欢迎各位以任何形式的贡献,包括, bug 反馈,使用体验优化,第三方库和模型更新提醒,合理有益的功能需求等等。

About

不会聊天的字幕提取器不是一个好 B 站下载器~

Topics

Resources

License

Contributing

Stars

Watchers

Forks

Packages

No packages published

Contributors 2

  •  
  •