📄 OCR Automation Tool with Python

このプロジェクトは、Webページ上のドキュメントから画面キャプチャを行い、OCR（光学文字認識）でテキストを抽出する自動化ツールです。

使用している外部ライブラリとライセンスについて

このプロジェクトでは以下の外部ライブラリを使用しています。
各ライブラリのライセンス条件はそれぞれの公式リポジトリをご確認ください。

OpenCV (Apache License 2.0)
https://opencv.org/license/
NumPy (BSD License)
https://numpy.org/license.html
Pillow (HPND License)
https://python-pillow.org/
pyautogui (BSD License)
https://github.com/asweigart/pyautogui/blob/master/LICENSE
pytesseract (Apache License 2.0)
https://github.com/madmaze/pytesseract/blob/master/LICENSE
pynput (Apache License 2.0)
https://github.com/moses-palmer/pynput/blob/master/LICENSE

✅ 主な機能

Microsoft Edge で指定URLを自動で開く
マウスクリックでキャプチャ範囲を指定
ページ番号を自動入力してページ遷移
白文字や光る文字に対応した画像前処理
Tesseract OCR によるテキスト抽出
結果を output.txt に保存

🧰 必要環境

Windows OS（ImageGrab と pyautogui のため）
Python 3.7 以上
Tesseract OCR（別途インストールが必要）

📦 インストール手順

1. Python パッケージのインストール

PowerShell またはターミナルで以下を実行：

pip install opencv-python numpy pillow pyautogui pytesseract pynput

2. Tesseract OCR のインストール（Windows）

以下のコマンドで Tesseract をインストール：

winget install --id tesseract-ocr.tesseract -e

インストール後、Python スクリプト内で以下のようにパスを設定してください：

pytesseract.pytesseract.tesseract_cmd = r"C:\\Program Files\\Tesseract-OCR\\tesseract.exe"

日本語対応の場合、公式からテザラクトの日本語データをc:program/tessarctocr/tessdate/にお入れ願います。

🚀 使い方

スクリプトを実行：

python textheist.py

指示に従って以下を入力：
- URLとページ範囲（例：https://example.com 2 44）
- キャプチャ範囲の左上・右下をクリック
- ページ番号入力欄をクリック
自動でページを切り替えながらOCRを実行し、結果を output.txt に保存します。

⚠️ 注意点（OCR精度について）

黒板風背景(茶色枠に緑の背景)に、緑色に縁(ふち)取られた白い文字と黄色い文字のみを対象にしています。
OCRの精度は そこそこ です。
特に日本語や光る文字などは誤認識されることがあります。
手動での誤字修正が前提 となります。

📄 ライセンス

MIT License

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
textheist.py		textheist.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

📄 OCR Automation Tool with Python

使用している外部ライブラリとライセンスについて

✅ 主な機能

🧰 必要環境

📦 インストール手順

1. Python パッケージのインストール

2. Tesseract OCR のインストール（Windows）

日本語対応の場合、公式からテザラクトの日本語データをc:program/tessarctocr/tessdate/にお入れ願います。

🚀 使い方

⚠️ 注意点（OCR精度について）

📄 ライセンス

About

Uh oh!

Releases

Packages

Languages

License

Tomarun029831/TextHeist

Folders and files

Latest commit

History

Repository files navigation

📄 OCR Automation Tool with Python

使用している外部ライブラリとライセンスについて

✅ 主な機能

🧰 必要環境

📦 インストール手順

1. Python パッケージのインストール

2. Tesseract OCR のインストール（Windows）

日本語対応の場合、公式からテザラクトの日本語データをc:program/tessarctocr/tessdate/にお入れ願います。

🚀 使い方

⚠️ 注意点（OCR精度について）

📄 ライセンス

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages