我的频道
淫叔馆TG频道 https://t.me/yinshuguan
使用Hitomi-Downloader 手动采集E站每天更新的画廊
黑白同人志3万3千多页 其余全部是画师CG全彩图片 我主要看全彩CG着重训练的也是全彩CG图
以及少量 survivemore生存社PPT视频 文字区域切片 为了可以兼容硬字幕提取
少量动漫双语字幕图片文字区域切片 为了硬字幕提取 横向文字图片数据
少量dlsite 上的 ASMR音声商品宣传介绍图图片 为了数据的多样性
排除各种现有OCR技术无法识别的拟声词 (我都看机翻了我还在乎你拟声词吗?)
为本模型专门魔改的专用工具
https://github.com/lhj5426/X-AnyLabeling
模型已上传到 https://huggingface.co/YSGforMTL/YSGYoloDetector
视频演示
bandicam.2025-04-17.14-43-31-235.mp4
BallonsTranslator 原来的CTD
bandicam.2025-04-17.14-22-20-564.mp4
BallonsTranslator 现在的我训练的YSGyolo
bandicam.2025-04-17.14-26-34-787.mp4
ImageTrans 原来自然场景检测
bandicam.2025-04-17.14-28-46-536.mp4
ImageTrans 现在我训练的yolo
bandicam.2025-04-17.14-29-19-059.mp4
看着不那么闹心了 现在就算是跑上千页的 手动修正也不会那么累了
有的精度高的时候根本就不需要手动修正
一个人没日没夜精确标注9个月
5个标签 balloon qipao fangkuai changfangtiao kuangwai
总计22万2千3百80张图片 97.3G数据集 有零有整的 标吐了 实在是不想再标了
在A100 64G显卡上进行训练
专门为 ImageTrans 训练的 图片文字检测模型
另外 本模型也已实装在
开源的【有UI的】漫画软件上
BallonsTranslator https://github.com/dmMaze/BallonsTranslator
manga-translator-ui https://github.com/hgmzhn/manga-translator-ui
Saber-Translator https://github.com/MashiroSaber03/Saber-Translator
感谢大佬支持并实装
2025年05月
最近在解决的问题
因为我本身不懂代码 就是看漫画不爽总要在翻译的时候先去处理一下拟声词
所以打算自己训练一个模型去干掉拟声词减少每次喂给AI翻译之前都要删半天拟声词的窘境
所以大树底下好乘凉 直接在大佬的开发的软件的基础上上训练一个自己的识别模型就好了
但是当模型训练好之后 遇到了新的问题
那就是和ocr不兼容
我的模型一共有 6个标签 balloon qipao fangkuai changfangtiao kuangwai other
唯独 qipao 是一次框选多行
这就导致 有时候 多行文本OCR 会O不全
只有一条文字 一个矩形 才可以进行OCR识别
现在正则调整数据的所有气泡为一条一个矩形
这样就不会出现OCR不了 或者OCR不全的问题了
正在解决中......
2025年06月13日
为了兼容OCR 重新微调原有数据 qipao标签也拆分成一字一框 的新模型 预览
这个模型目前可就是ImageTrans专属了 ImageTrans 可以在OCR完之后选择是否合并
而其他的软件目前没有这个自由度选择
bandicam.2025-06-13.17-19-04-791.mp4
bandicam.2025-06-13.17-20-05-771.mp4
数据还在调整中......
2025年12月07日16点07分22秒
初步支持了旋转检测 本来现在都GEMINI3.0 大香蕉2.0了 说实话已经没有什么动力去搞这东西了 但是一看价格 嘛 好贵 囊中羞涩的我 又有动力了 穷使我进步 色使我努力
bandicam.2025-12-07.16-05-13-223.mp4
2025年08月09日16点28分31秒
不同类型标签的实时推理效果
bandicam.2025-08-09.15-25-55-557-00.01.21.002-00.03.11.602.mp4
bandicam.2025-08-09.15-36-01-127-00.00.24.118-00.02.26.904.mp4
bandicam.2025-08-09.15-53-53-105-00.00.00.000-00.01.48.945.mp4
bandicam.2025-08-09.16-00-22-977-00.01.11.892-00.03.17.782.mp4
图片翻译器 https://github.com/xulihang/ImageTrans-docs
数据标注工具 https://github.com/CVHub520/X-AnyLabeling
本子下载器 https://github.com/KurtBestor/Hitomi-Downloader
低画质图片数据来源 https://hitomi.la/
ultralytics (YOLOV11) https://github.com/ultralytics/ultralytics
Quick input 使得鼠标可以像素级精确移动 https://github.com/ChiyukiGana/Quickinput
obs-studio https://github.com/obsproject/obs-studio
X-AnyLabeling不能显示当前页面标签数量
用OBS采集显示器实现一个伪标签数量显示功能
好能直观的知道当前页面上有多少个标签
LiveSplit 一个游戏速通计时器 用于记录每一本标注的时间和每天花费在标注上的总时间 https://livesplit.org