Fixtures pour l'extraction de documents
Fixtures PDF et TXT pour l'analyse de mise en page, l'extraction de type OCR, la gestion des documents proteges et la normalisation de texte.
Pourquoi ce flux de travail compte
- Melangez PDF propres, pages de type scan, fichiers proteges et documents endommages dans une seule suite.
- Associez les cas d'extraction PDF aux fixtures TXT pour valider le repli en texte brut et la normalisation.
- Utilisez le pack d'extraction pour des configurations reproductibles de parser, OCR et mappage de champs.
Packs recommandes
Pack de fixtures pour l'extraction de documents
Pack de fixtures PDF et TXT reelles pour l'extraction, l'analyse de mise en page, la validation de type OCR, la gestion des documents proteges et des fichiers endommages.
document_extraction_fixture_pack.zip · 18.9 KB
Pack de fixtures pour extraction d images
Pack de fixtures PNG, JPEG, TIFF, PDF et TXT reelles pour OCR, extraction de texte et capture documentaire.
image_extraction_fixture_pack.zip · 382.3 KB
Matrices de fixtures
Matrice de fixtures pour l'extraction PDF
Utilisez la matrice PDF pour choisir entre des fixtures riches en texte, a mise en page fixe, de type formulaire ou endommages dans des pipelines d'apercu et d'extraction.
Matrice de fixtures TXT pour l'encodage
Choisissez des fixtures TXT pour des tests basiques, la detection d'encodage, la gestion des sauts de ligne, le stress sur lignes longues et la validation de texte.
Fixtures suggeres
| Nom du fichier | Format | Taille | Actions |
|---|---|---|---|
| pdf_invoice_layout_sample.pdf | 774 B | ||
| pdf_scan_like_image_sample.pdf | 3.7 KB | ||
| pdf_ocr_noise_sample.pdf | 7.9 KB | ||
| pdf_multi_column_report_sample.pdf | 3.3 KB | ||
| pdf_password_protected_sample.pdf | 3.2 KB | ||
| txt_utf8_multilingual_sample.txt | TXT | 94 B | |
| txt_utf16le_sample.txt | TXT | 176 B |
Pages de strategie liees
Guides du meilleur format
Recommandations par cas d'usage
Comment convertir
Comparaisons