Fixture per estrazione documenti

Fixture PDF e TXT per analisi del layout, estrazione tipo OCR, gestione documenti protetti e normalizzazione testo.

Why This Workflow Matters

  • Mescola PDF puliti, scansioni, file protetti e documenti corrotti nella stessa suite.
  • Abbina i casi PDF alle fixture TXT per fallback plain text e normalizzazione.
  • Usa il pack di estrazione per setup ripetibili di parser, OCR e mapping campi.

Recommended Packs

Pack di fixture per estrazione documenti

Pack di fixture PDF e TXT reali per estrazione, analisi layout, validazione OCR, documenti protetti e file corrotti.

document_extraction_fixture_pack.zip · 18.9 KB

Image Extraction Fixture Pack

Bundle of real PNG, JPEG, TIFF, and scan-style PDF fixtures for OCR, scan ingestion, and document-photo extraction workflows.

image_extraction_fixture_pack.zip · 382.3 KB

Matrici di fixture

Matrice di fixture per estrazione PDF

Usa la matrice PDF per scegliere tra fixture ricche di testo, a layout fisso, tipo form o corrotte.

Matrice di fixture TXT per encoding

Scegli fixture TXT per test base, rilevamento encoding, fine riga, stress su linee lunghe e validazione testo.

Suggested Fixtures

Nome file Formato Dimensione Azioni
pdf_invoice_layout_sample.pdf PDF 774 B
pdf_scan_like_image_sample.pdf PDF 3.7 KB
pdf_ocr_noise_sample.pdf PDF 7.9 KB
pdf_multi_column_report_sample.pdf PDF 3.3 KB
pdf_password_protected_sample.pdf PDF 3.2 KB
txt_utf8_multilingual_sample.txt TXT 94 B
txt_utf16le_sample.txt TXT 176 B