Fixturepack voor documentextractie

Pack met echte PDF- en TXT-fixtures voor extractie, layoutanalyse, OCR-validatie, beveiligde documenten en corrupte bestanden.

Download het pack

document_extraction_fixture_pack.zip · 18.9 KB

Beste voor

  • Veldextractie en layoutanalyse op schone PDF's, scans en beveiligde documenten.
  • Tekstextractie en encodingvalidatie met UTF-8-, UTF-16- en minimale TXT-bestanden.
  • Herhaalbare setup voor OCR, parsers en document-QA.

Inbegrepen fixtures

Filename Format Size Download
pdf_invoice_layout_sample.pdf PDF 774 B Download
pdf_form_like_sample.pdf PDF 773 B Download
pdf_scan_like_image_sample.pdf PDF 3.7 KB Download
pdf_ocr_noise_sample.pdf PDF 7.9 KB Download
pdf_multi_column_report_sample.pdf PDF 3.3 KB Download
pdf_password_protected_sample.pdf PDF 3.2 KB Download
pdf_truncated_edge_case_sample.pdf PDF 701 B Download
txt_utf8_multilingual_sample.txt TXT 94 B Download
txt_utf16le_sample.txt TXT 176 B Download
txt_minimal_readme_sample.txt TXT 100 B Download

Fixture Matrix

Gebruik de samengestelde PDF-matrix om vanuit dit pack naar de exacte onderliggende losse fixturevarianten te gaan.

Open primaire bibliotheek

Dit pack is gekoppeld aan de PDF-voorbeeldbibliotheek en werkt het best samen met downloads van individuele fixtures.

Open PDF-bibliotheek