Fixtures voor documentextractie
PDF- en TXT-fixtures voor layoutanalyse, OCR-achtige extractie, beveiligde documenten en tekstnormalisatie.
Waarom deze workflow belangrijk is
- Mix schone PDF's, scans, beveiligde bestanden en corrupte documenten in dezelfde suite.
- Koppel PDF-cases aan TXT-fixtures voor fallback naar platte tekst en normalisatie.
- Gebruik het extractiepack voor herhaalbare parser-, OCR- en veldmapping-setup.
Aanbevolen packs
Fixturepack voor documentextractie
Pack met echte PDF- en TXT-fixtures voor extractie, layoutanalyse, OCR-validatie, beveiligde documenten en corrupte bestanden.
document_extraction_fixture_pack.zip · 18.9 KB
Image Extraction Fixture Pack
Bundle of real PNG, JPEG, TIFF, and scan-style PDF fixtures for OCR, scan ingestion, and document-photo extraction workflows.
image_extraction_fixture_pack.zip · 382.3 KB
Fixture Matrices
Fixturematrix voor PDF-extractie
Gebruik de PDF-matrix om te kiezen tussen tekstrijke, vaste-layout-, form-achtige of corrupte fixtures.
TXT-fixturematrix voor encoding
Kies TXT-fixtures voor basistests, encodingdetectie, regeleinden, lange regels en tekstvalidatie.
Aanbevolen fixtures
| Filename | Format | Size | Actions |
|---|---|---|---|
| pdf_invoice_layout_sample.pdf | 774 B | ||
| pdf_scan_like_image_sample.pdf | 3.7 KB | ||
| pdf_ocr_noise_sample.pdf | 7.9 KB | ||
| pdf_multi_column_report_sample.pdf | 3.3 KB | ||
| pdf_password_protected_sample.pdf | 3.2 KB | ||
| txt_utf8_multilingual_sample.txt | TXT | 94 B | |
| txt_utf16le_sample.txt | TXT | 176 B |
Gerelateerde strategische pagina's
Best Format Guides
Use-Case Recommendations
How to Convert
Comparisons