Fixtures voor documentextractie

PDF- en TXT-fixtures voor layoutanalyse, OCR-achtige extractie, beveiligde documenten en tekstnormalisatie.

3 Waarom deze workflow belangrijk is
7 Files
Use workflow pages to move from a job to the exact fixtures, packs, and supporting references.
Waarom deze workflow belangrijk is

About This Workflow

  • Mix schone PDF's, scans, beveiligde bestanden en corrupte documenten in dezelfde suite.
  • Koppel PDF-cases aan TXT-fixtures voor fallback naar platte tekst en normalisatie.
  • Gebruik het extractiepack voor herhaalbare parser-, OCR- en veldmapping-setup.
Aanbevolen packs

Fixture Packs

Fixturepack voor documentextractie

Pack met echte PDF- en TXT-fixtures voor extractie, layoutanalyse, OCR-validatie, beveiligde documenten en corrupte bestanden.

document_extraction_fixture_pack.zip · 18.9 KB

Image Extraction Fixture Pack

Bundle of real PNG, JPEG, TIFF, and scan-style PDF fixtures for OCR, scan ingestion, and document-photo extraction workflows.

image_extraction_fixture_pack.zip · 382.3 KB

Fixturematrices

Fixture Matrices

Fixturematrix voor PDF-extractie

Gebruik de PDF-matrix om te kiezen tussen tekstrijke, vaste-layout-, form-achtige of corrupte fixtures.

TXT-fixturematrix voor encoding

Kies TXT-fixtures voor basistests, encodingdetectie, regeleinden, lange regels en tekstvalidatie.

Aanbevolen fixtures

Files

Filename Format Size Actions
pdf_invoice_layout_sample.pdf
.pdf SHA256 45c10f35ba18...
PDF 774 B
pdf_scan_like_image_sample.pdf
.pdf SHA256 22a2cb26d64c...
PDF 3.7 KB
pdf_ocr_noise_sample.pdf
.pdf SHA256 19097c94fe1a...
PDF 7.9 KB
pdf_multi_column_report_sample.pdf
.pdf SHA256 6c5d36e07e3d...
PDF 3.3 KB
pdf_password_protected_sample.pdf
.pdf SHA256 37f22291ff8b...
PDF 3.2 KB
txt_utf8_multilingual_sample.txt
.txt SHA256 1e219cd0bddf...
TXT 94 B
txt_utf16le_sample.txt
.txt SHA256 9033cba7c418...
TXT 176 B
Gerelateerde strategische pagina's

Related Guides