Adobe Hackathon – PDF Outline Extractor (Offline)

This project extracts structured outlines like Title, H1, H2, H3 from PDF files using an ML model trained offline — as part of Adobe Hackathon Round 1A.

What We’ve Done So Far

Extracted font and layout-based features using PyMuPDF
Converted JSON ground truth + PDFs into a dataset (CSV)
Trained an XGBoost classifier using TF-IDF vectorized features
Evaluated using precision/recall metrics
Saved model, vectorizer, and encoder
Configured everything to run in Docker (offline)

How to Run (Docker)

Step 1: Build Docker image

docker build --platform linux/amd64 -t adobe-headings:v1 .

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
ground_truth		ground_truth
input		input
output		output
src		src
train		train
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Adobe Hackathon – PDF Outline Extractor (Offline)

What We’ve Done So Far

How to Run (Docker)

Step 1: Build Docker image

About

Uh oh!

Releases

Packages

Contributors 2

Languages

Doinggithub14/Adobe-round-1a-Div

Folders and files

Latest commit

History

Repository files navigation

Adobe Hackathon – PDF Outline Extractor (Offline)

What We’ve Done So Far

How to Run (Docker)

Step 1: Build Docker image

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages