Codestin Search App

PDF Parsing for RAG — Convert to Markdown & JSON, Fast, Local, No GPU

OpenDataLoader PDF converts PDFs into LLM-ready Markdown and JSON with accurate reading order, table extraction, and bounding boxes — all running locally on your machine. Why developers choose OpenDataLoader:

Deterministic — Same input always produces same output (no LLM hallucinations)

Fast — Process 100+ pages per second on CPU

Private — 100% local, zero data transmission

Accurate — Bounding boxes for every element, correct multi-column reading order

Requirements

Python >= 3.10
Java 11 or newer available on the system PATH

Installation

pip install -U langchain-opendataloader-pdf

Quick start

from langchain_opendataloader_pdf import OpenDataLoaderPDFLoader

loader = OpenDataLoaderPDFLoader(
    file_path=["path/to/document.pdf", "path/to/folder"], 
    format="text"
)
documents = loader.load()

for doc in documents:
    print(doc.metadata, doc.page_content[:80])

Parameters

Parameter	Type	Default	Description
`file_path`	`str \| List[str]`	—	(Required) PDF file path(s) or directories
`format`	`str`	`"text"`	Output format: `"text"`, `"markdown"`, `"json"`, `"html"`
`split_pages`	`bool`	`True`	Split into separate Documents per page
`quiet`	`bool`	`False`	Suppress console logging
`password`	`str`	`None`	Password for encrypted PDFs
`use_struct_tree`	`bool`	`False`	Use PDF structure tree (tagged PDFs)
`table_method`	`str`	`"default"`	`"default"` (border-based) or `"cluster"` (border + clustering)
`reading_order`	`str`	`"xycut"`	`"xycut"` or `"off"`
`keep_line_breaks`	`bool`	`False`	Preserve original line breaks
`image_output`	`str`	`"off"`	`"off"`, `"embedded"` (Base64), or `"external"`
`image_format`	`str`	`"png"`	`"png"` or `"jpeg"`
`content_safety_off`	`List[str]`	`None`	Disable safety filters: `"hidden-text"`, `"off-page"`, `"tiny"`, `"hidden-ocg"`, `"all"`
`replace_invalid_chars`	`str`	`None`	Replacement for invalid characters

Additional Resources

Edit this page on GitHub or file an issue.

Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

Popular Providers

Integrations by component

OpenDataLoader PDF

Requirements

Installation

Quick start

Parameters

Additional Resources

Popular Providers

Integrations by component

​Requirements

​Installation

​Quick start

​Parameters

​Additional Resources

Requirements

Installation

Quick start

Parameters

Additional Resources