Rendre les PDF scannés consultables : guide des bonnes pratiques OCR (précision et taille)
Blog

Rendre les PDF scannés consultables : guide des bonnes pratiques OCR (précision et taille)

Transformer des PDF/numérisations basés sur des images en texte consultable et copiable — prétraitement, choix de langue, reconnaissance de tableaux, formats d’export et compression.

Français

Beaucoup de PDF sont en réalité des images : photos de documents papier, scans d’imprimés ou PDF composés d’images. Le texte n’y est ni sélectionnable, ni consultable, ni copiable. Il faut de l’OCR (Reconnaissance Optique de Caractères) pour reconnaître les caractères dans l’image et les convertir en vrai texte.

Avez‑vous vraiment besoin d’OCR ?

  • Ouvrez le PDF dans votre navigateur/lecteur et essayez de sélectionner le texte : si vous pouvez surligner des mots, c’est un « PDF texte ». Si la sélection se fait par blocs ou ne fonctionne pas, c’est probablement un « PDF image/numérisation ».
  • Si le « texte » reste très net en zoomant mais n’est pas modifiable, il s’agit peut‑être de formes vectorielles et non de texte. Vous pouvez tout de même lancer l’OCR pour le rendre éditable/consultable.

Démarrage en un clic : OCR en ligne

Pour la voie la plus simple, utilisez :

OCR (rendre le PDF consultable)

Quel format de sortie choisir ?

  • Conserver la mise en page, besoin de recherche/copie : choisissez « PDF consultable » (calque texte sur l’image d’origine).
  • Besoin d’édition poussée : PDF vers Word ou PDF vers Texte.

Étapes clés pour améliorer la précision de l’OCR

1) Prétraitement : orientation, ordre, bruit

Avant la reconnaissance, nettoyez les pages pour augmenter nettement la précision :

  • Orientation/ordre : Organiser les pages PDF pour faire pivoter en lot les pages horizontales, réordonner par glisser‑déposer et supprimer les pages blanches/publicitaires.

  • Noir & blanc/Niveaux de gris (idéal pour les documents texte monochromes) : Noir & blanc / Niveaux de gris améliore le contraste et réduit le bruit coloré, ce qui aide l’OCR et la compression.

  • Rastériser (si du vectoriel/CAD complexe perturbe l’OCR) : Rastériser le PDF vectoriel convertit le vectoriel complexe en bitmap pour réduire les interférences.

Résolution & netteté

  • Recommandation : ~300 DPI pour des documents majoritairement texte ; pour petites polices/mauvaise qualité d’impression, montez à 400–600 DPI.
  • Évitez la sur‑compression/le flou : trop de bruit/flou engendre des erreurs de reconnaissance.

2) Langues & mise en page

  • Faites correspondre la/les langue(s) d’OCR au contenu (fr/en/zh/ja/ko/zh‑Hant, etc.). Pour du multilingue, sélectionnez toutes les langues utiles.
  • Les mises en page complexes (multi‑colonnes, tableaux, notes, vertical) réduisent la précision ; envisagez de zoner la page et de reconnaître séparément, ou d’exporter vers Word pour retouche manuelle.

3) Choisir le bon format de sortie

  • PDF consultable : idéal pour archivage/recherche/annotations ; aspect identique à l’original mais consultable/copiable.
  • Word : idéal pour une édition poussée ; les mises en page complexes peuvent demander une relecture manuelle.
  • Texte brut : le plus léger ; parfait pour un post‑traitement, sans mise en page.

Parcours types

Scans texte (contrats/supports/rapports)

  1. Organiser les pages : Organiser → pivoter/réordonner/supprimer les blanches.
  2. Optionnel : Noir & blanc/Gris pour la clarté : Noir & blanc / Gris.
  3. OCR : OCR (choisissez les bonnes langues).
  4. Fichier trop gros ? Utilisez : Compresser PDF.

Documents mixtes (texte + images, couleur)

  1. Corriger d’abord orientation/ordre ; évitez un N&B trop agressif pour préserver les détails des images.
  2. Lancer l’OCR ; si la taille compte, compressez ensuite (privilégiez « fort/MRC » pour les documents couleur).

Contenu CAD/vectoriel qui perturbe l’OCR

  1. Rastériser : Rastériser
  2. Optionnel : N&B pour plus de contraste
  3. Relancer l’OCR

FAQ

Q : Trop d’erreurs de reconnaissance ?

R : Améliorez la netteté/le contraste de la source ; vérifiez le choix des langues ; essayez N&B/Gris pour atténuer le bruit ; pour multi‑colonnes/tableaux, exportez vers Word et corrigez manuellement.

Q : Reconnaissance des tableaux médiocre ?

R : Pour des tableaux complexes, essayez PDF vers Excel pour extraire des données structurées, ou corrigez les tableaux à la main après OCR.

Q : Fichier trop volumineux pour l’envoi ?

R : Après OCR, utilisez Compresser PDF. Pour du texte monochrome, passez d’abord en N&B puis compressez : la taille chute souvent fortement.

Q : Document sensible — l’OCR en ligne est‑il sûr ?

R : Préférez un traitement local ou des services fiables. Avant de partager, « exportez uniquement les pages nécessaires » ou créez une copie aplanie via une impression virtuelle.

Q : PDF restreint (édition/copier) — comment faire l’OCR ?

R : Si vous êtes autorisé, commencez par Déverrouiller le PDF pour retirer les restrictions, puis lancez l’OCR.

Conseils pratiques

  • Ordre recommandé : « organiser → OCR → compresser », pour éviter de reconnaître des pages de mauvaise qualité.
  • Pour du chinois/anglais mêlé, activez les deux langues pour mieux reconnaître.
  • Si l’orientation varie beaucoup, pivotez d’abord en lot ; un ordre correct aide la recherche et la structuration.
  • Pour des scans provenant de multiples sources, utilisez Organiser pour unifier l’ordre avant l’OCR ; combinez avec N&B et Compression pour équilibrer lisibilité et taille.

Liens rapides outils