Thanks to visit codestin.com
Credit goes to github.com

Skip to content

Tomarun029831/TextHeist

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 

Repository files navigation


📄 OCR Automation Tool with Python

このプロジェクトは、Webページ上のドキュメントから画面キャプチャを行い、OCR(光学文字認識)でテキストを抽出する自動化ツールです。


使用している外部ライブラリとライセンスについて

このプロジェクトでは以下の外部ライブラリを使用しています。
各ライブラリのライセンス条件はそれぞれの公式リポジトリをご確認ください。


✅ 主な機能

  • Microsoft Edge で指定URLを自動で開く
  • マウスクリックでキャプチャ範囲を指定
  • ページ番号を自動入力してページ遷移
  • 白文字や光る文字に対応した画像前処理
  • Tesseract OCR によるテキスト抽出
  • 結果を output.txt に保存

🧰 必要環境

  • Windows OS(ImageGrabpyautogui のため)
  • Python 3.7 以上
  • Tesseract OCR(別途インストールが必要)

📦 インストール手順

1. Python パッケージのインストール

PowerShell またはターミナルで以下を実行:

pip install opencv-python numpy pillow pyautogui pytesseract pynput

2. Tesseract OCR のインストール(Windows)

以下のコマンドで Tesseract をインストール:

winget install --id tesseract-ocr.tesseract -e

インストール後、Python スクリプト内で以下のようにパスを設定してください:

pytesseract.pytesseract.tesseract_cmd = r"C:\\Program Files\\Tesseract-OCR\\tesseract.exe"

日本語対応の場合、公式からテザラクトの日本語データをc:program/tessarctocr/tessdate/にお入れ願います。

🚀 使い方

  1. スクリプトを実行:
python textheist.py
  1. 指示に従って以下を入力:

    • URLとページ範囲(例:https://example.com 2 44
    • キャプチャ範囲の左上・右下をクリック
    • ページ番号入力欄をクリック
  2. 自動でページを切り替えながらOCRを実行し、結果を output.txt に保存します。


⚠️ 注意点(OCR精度について)

  • 黒板風背景(茶色枠に緑の背景)に、緑色に縁(ふち)取られた白い文字と黄色い文字のみを対象にしています。
  • OCRの精度は そこそこ です。
  • 特に日本語や光る文字などは誤認識されることがあります。
  • 手動での誤字修正が前提 となります。

📄 ライセンス

MIT License

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages