このプロジェクトは、Webページ上のドキュメントから画面キャプチャを行い、OCR(光学文字認識)でテキストを抽出する自動化ツールです。
このプロジェクトでは以下の外部ライブラリを使用しています。
各ライブラリのライセンス条件はそれぞれの公式リポジトリをご確認ください。
-
OpenCV (Apache License 2.0)
https://opencv.org/license/ -
NumPy (BSD License)
https://numpy.org/license.html -
Pillow (HPND License)
https://python-pillow.org/ -
pyautogui (BSD License)
https://github.com/asweigart/pyautogui/blob/master/LICENSE -
pytesseract (Apache License 2.0)
https://github.com/madmaze/pytesseract/blob/master/LICENSE -
pynput (Apache License 2.0)
https://github.com/moses-palmer/pynput/blob/master/LICENSE
- Microsoft Edge で指定URLを自動で開く
- マウスクリックでキャプチャ範囲を指定
- ページ番号を自動入力してページ遷移
- 白文字や光る文字に対応した画像前処理
- Tesseract OCR によるテキスト抽出
- 結果を
output.txtに保存
- Windows OS(
ImageGrabとpyautoguiのため) - Python 3.7 以上
- Tesseract OCR(別途インストールが必要)
PowerShell またはターミナルで以下を実行:
pip install opencv-python numpy pillow pyautogui pytesseract pynput以下のコマンドで Tesseract をインストール:
winget install --id tesseract-ocr.tesseract -eインストール後、Python スクリプト内で以下のようにパスを設定してください:
pytesseract.pytesseract.tesseract_cmd = r"C:\\Program Files\\Tesseract-OCR\\tesseract.exe"- スクリプトを実行:
python textheist.py-
指示に従って以下を入力:
- URLとページ範囲(例:
https://example.com 2 44) - キャプチャ範囲の左上・右下をクリック
- ページ番号入力欄をクリック
- URLとページ範囲(例:
-
自動でページを切り替えながらOCRを実行し、結果を
output.txtに保存します。
- 黒板風背景(茶色枠に緑の背景)に、緑色に縁(ふち)取られた白い文字と黄色い文字のみを対象にしています。
- OCRの精度は そこそこ です。
- 特に日本語や光る文字などは誤認識されることがあります。
- 手動での誤字修正が前提 となります。
MIT License