Fixtures pour l'extraction de documents

Fixtures PDF et TXT pour l'analyse de mise en page, l'extraction de type OCR, la gestion des documents proteges et la normalisation de texte.

Pourquoi ce flux de travail compte

  • Melangez PDF propres, pages de type scan, fichiers proteges et documents endommages dans une seule suite.
  • Associez les cas d'extraction PDF aux fixtures TXT pour valider le repli en texte brut et la normalisation.
  • Utilisez le pack d'extraction pour des configurations reproductibles de parser, OCR et mappage de champs.

Packs recommandes

Pack de fixtures pour l'extraction de documents

Pack de fixtures PDF et TXT reelles pour l'extraction, l'analyse de mise en page, la validation de type OCR, la gestion des documents proteges et des fichiers endommages.

document_extraction_fixture_pack.zip · 18.9 KB

Pack de fixtures pour extraction d images

Pack de fixtures PNG, JPEG, TIFF, PDF et TXT reelles pour OCR, extraction de texte et capture documentaire.

image_extraction_fixture_pack.zip · 382.3 KB

Matrices de fixtures

Matrice de fixtures pour l'extraction PDF

Utilisez la matrice PDF pour choisir entre des fixtures riches en texte, a mise en page fixe, de type formulaire ou endommages dans des pipelines d'apercu et d'extraction.

Matrice de fixtures TXT pour l'encodage

Choisissez des fixtures TXT pour des tests basiques, la detection d'encodage, la gestion des sauts de ligne, le stress sur lignes longues et la validation de texte.

Fixtures suggeres

Nom du fichier Format Taille Actions
pdf_invoice_layout_sample.pdf PDF 774 B
pdf_scan_like_image_sample.pdf PDF 3.7 KB
pdf_ocr_noise_sample.pdf PDF 7.9 KB
pdf_multi_column_report_sample.pdf PDF 3.3 KB
pdf_password_protected_sample.pdf PDF 3.2 KB
txt_utf8_multilingual_sample.txt TXT 94 B
txt_utf16le_sample.txt TXT 176 B