Thanks to visit codestin.com
Credit goes to github.com

Skip to content
/ YSG Public

采集E站数千画廊数十万页 使用 [有漏喂11] 各种漏 【YOLOV11】及其之后版本 以及 【RTDETR】 等各种detr 后续变种版本 训练的文字目标检测模型

License

Notifications You must be signed in to change notification settings

lhj5426/YSG

Repository files navigation

YSG

我的频道

淫叔馆TG频道 https://t.me/yinshuguan

image

使用Hitomi-Downloader 手动采集E站每天更新的画廊

image

黑白同人志3万3千多页 其余全部是画师CG全彩图片 我主要看全彩CG着重训练的也是全彩CG图

以及少量 survivemore生存社PPT视频 文字区域切片 为了可以兼容硬字幕提取

少量动漫双语字幕图片文字区域切片 为了硬字幕提取 横向文字图片数据

少量dlsite 上的 ASMR音声商品宣传介绍图图片 为了数据的多样性

使用 X-AnyLabeling

排除各种现有OCR技术无法识别的拟声词 (我都看机翻了我还在乎你拟声词吗?)

为本模型专门魔改的专用工具

https://github.com/lhj5426/X-AnyLabeling

模型已上传到 https://huggingface.co/YSGforMTL/YSGYoloDetector

视频演示

bandicam.2025-04-17.14-43-31-235.mp4

BallonsTranslator 原来的CTD

bandicam.2025-04-17.14-22-20-564.mp4

BallonsTranslator 现在的我训练的YSGyolo

bandicam.2025-04-17.14-26-34-787.mp4

ImageTrans 原来自然场景检测

bandicam.2025-04-17.14-28-46-536.mp4

ImageTrans 现在我训练的yolo

bandicam.2025-04-17.14-29-19-059.mp4

看着不那么闹心了 现在就算是跑上千页的 手动修正也不会那么累了

有的精度高的时候根本就不需要手动修正

一个人没日没夜精确标注9个月

5个标签 balloon qipao fangkuai changfangtiao kuangwai

总计22万2千3百80张图片 97.3G数据集 有零有整的 标吐了 实在是不想再标了

dopus_2025年04月06日04点45分31秒958

dopus_2025年04月06日04点47分18秒052

dopus_2025年04月06日04点48分04秒875

在A100 64G显卡上进行训练

image

image

WGestures_2025年04月13日20点52分11秒491

WGestures_2025年04月10日15点46分15秒321

专门为 ImageTrans 训练的 图片文字检测模型

另外 本模型也已实装在

开源的【有UI的】漫画软件上

BallonsTranslator https://github.com/dmMaze/BallonsTranslator

manga-translator-ui https://github.com/hgmzhn/manga-translator-ui

Saber-Translator https://github.com/MashiroSaber03/Saber-Translator

感谢大佬支持并实装

2025年05月

最近在解决的问题

因为我本身不懂代码 就是看漫画不爽总要在翻译的时候先去处理一下拟声词

所以打算自己训练一个模型去干掉拟声词减少每次喂给AI翻译之前都要删半天拟声词的窘境

所以大树底下好乘凉 直接在大佬的开发的软件的基础上上训练一个自己的识别模型就好了

但是当模型训练好之后 遇到了新的问题

image

那就是和ocr不兼容

我的模型一共有 6个标签 balloon qipao fangkuai changfangtiao kuangwai other

唯独 qipao 是一次框选多行

这就导致 有时候 多行文本OCR 会O不全

image

只有一条文字 一个矩形 才可以进行OCR识别

现在正则调整数据的所有气泡为一条一个矩形

这样就不会出现OCR不了 或者OCR不全的问题了

正在解决中......

2025年06月13日

为了兼容OCR 重新微调原有数据 qipao标签也拆分成一字一框 的新模型 预览

这个模型目前可就是ImageTrans专属了 ImageTrans 可以在OCR完之后选择是否合并

而其他的软件目前没有这个自由度选择

image

bandicam.2025-06-13.17-19-04-791.mp4
bandicam.2025-06-13.17-20-05-771.mp4

数据还在调整中......

2025年12月07日16点07分22秒

初步支持了旋转检测 本来现在都GEMINI3.0 大香蕉2.0了 说实话已经没有什么动力去搞这东西了 但是一看价格 嘛 好贵 囊中羞涩的我 又有动力了 穷使我进步 色使我努力

bandicam.2025-12-07.16-05-13-223.mp4

2025年08月09日16点28分31秒

不同类型标签的实时推理效果

bandicam.2025-08-09.15-25-55-557-00.01.21.002-00.03.11.602.mp4
bandicam.2025-08-09.15-36-01-127-00.00.24.118-00.02.26.904.mp4
bandicam.2025-08-09.15-53-53-105-00.00.00.000-00.01.48.945.mp4
bandicam.2025-08-09.16-00-22-977-00.01.11.892-00.03.17.782.mp4

感谢以下

图片翻译器 https://github.com/xulihang/ImageTrans-docs

数据标注工具 https://github.com/CVHub520/X-AnyLabeling

本子下载器 https://github.com/KurtBestor/Hitomi-Downloader

低画质图片数据来源 https://hitomi.la/

ultralytics (YOLOV11) https://github.com/ultralytics/ultralytics

Quick input 使得鼠标可以像素级精确移动 https://github.com/ChiyukiGana/Quickinput

obs-studio https://github.com/obsproject/obs-studio

X-AnyLabeling不能显示当前页面标签数量 用OBS采集显示器实现一个伪标签数量显示功能 好能直观的知道当前页面上有多少个标签 image

LiveSplit 一个游戏速通计时器 用于记录每一本标注的时间和每天花费在标注上的总时间 https://livesplit.org

About

采集E站数千画廊数十万页 使用 [有漏喂11] 各种漏 【YOLOV11】及其之后版本 以及 【RTDETR】 等各种detr 后续变种版本 训练的文字目标检测模型

Topics

Resources

License

Code of conduct

Security policy

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published