Fixtures voor documentextractie

PDF- en TXT-fixtures voor layoutanalyse, OCR-achtige extractie, beveiligde documenten en tekstnormalisatie.

Waarom deze workflow belangrijk is

  • Mix schone PDF's, scans, beveiligde bestanden en corrupte documenten in dezelfde suite.
  • Koppel PDF-cases aan TXT-fixtures voor fallback naar platte tekst en normalisatie.
  • Gebruik het extractiepack voor herhaalbare parser-, OCR- en veldmapping-setup.

Aanbevolen packs

Fixturepack voor documentextractie

Pack met echte PDF- en TXT-fixtures voor extractie, layoutanalyse, OCR-validatie, beveiligde documenten en corrupte bestanden.

document_extraction_fixture_pack.zip · 18.9 KB

Image Extraction Fixture Pack

Bundle of real PNG, JPEG, TIFF, and scan-style PDF fixtures for OCR, scan ingestion, and document-photo extraction workflows.

image_extraction_fixture_pack.zip · 382.3 KB

Fixture Matrices

Fixturematrix voor PDF-extractie

Gebruik de PDF-matrix om te kiezen tussen tekstrijke, vaste-layout-, form-achtige of corrupte fixtures.

TXT-fixturematrix voor encoding

Kies TXT-fixtures voor basistests, encodingdetectie, regeleinden, lange regels en tekstvalidatie.

Aanbevolen fixtures

Filename Format Size Actions
pdf_invoice_layout_sample.pdf PDF 774 B
pdf_scan_like_image_sample.pdf PDF 3.7 KB
pdf_ocr_noise_sample.pdf PDF 7.9 KB
pdf_multi_column_report_sample.pdf PDF 3.3 KB
pdf_password_protected_sample.pdf PDF 3.2 KB
txt_utf8_multilingual_sample.txt TXT 94 B
txt_utf16le_sample.txt TXT 176 B