स्कैन किए PDF को खोजने योग्य बनाएं: OCR बेस्ट‑प्रैक्टिस गाइड (सटीकता और आकार)

कई PDF वास्तव में "इमेज" होते हैं — जैसे काग़ज़ी दस्तावेज़ की मोबाइल फोटो, प्रिंट का स्कैन, या इमेज से बने PDF। ऐसे फाइलों में टेक्स्ट न चयन होता है, न खोज/कॉपी। इमेज के अक्षरों को असली टेक्स्ट में बदलने के लिए OCR (Optical Character Recognition) ज़रूरी है।

क्या वाकई आपको OCR चाहिए?

ब्राउज़र/रीडर में PDF खोलकर टेक्स्ट सिलेक्ट करें: यदि शब्द‑शब्द सिलेक्ट होता है, तो वह ‘टेक्स्ट‑PDF’ है। ब्लॉक‑सेलेक्शन हो या न हो, तो ‘इमेज/स्कैन‑PDF’ है।
ज़ूम पर टेक्स्ट तेज़ दिखे पर एडिट न हो, तो वह वेक्टर शेप हो सकता है। फिर भी OCR से उसे एडिट/सर्च योग्य बनाया जा सकता है।

एक‑क्लिक शुरुआत: ऑनलाइन OCR

सबसे सरल तरीका:

OCR (PDF को सर्चेबल बनाएं)

कौन सा आउटपुट चुनें?

लेआउट बनाए रखते हुए सिर्फ खोज/कॉपी चाहिए: “सर्चेबल PDF” चुनें (टेक्स्ट लेयर मूल पेज इमेज पर)।
डीप एडिट चाहिए: PDF → Word या PDF → टेक्स्ट।

सटीकता बढ़ाने के मुख्य कदम

1) प्री‑प्रोसेसिंग: दिशा, क्रम, नॉइज़

पहचान से पहले पेज सँवारें — सटीकता काफ़ी बढ़ती है:

दिशा/क्रम: PDF पेज ऑर्गनाइज़ से साइड‑वे पेज बैच‑रोटेट, ड्रैग‑ड्रॉप से रीऑर्डर, ब्लैंक/ऐड पेज हटाएँ।
ब्लैक‑एंड‑व्हाइट/ग्रेस्केल (टेक्स्ट डॉक के लिए): ब्लैक‑एंड‑व्हाइट / ग्रेस्केल कॉन्ट्रास्ट बढ़ाता, रंगी शोर घटाता — OCR और बाद के कंप्रेशन में मदद।
रास्टराइज़ (कम्प्लेक्स वेक्टर/CAD से बाधा): वेक्टर रास्टराइज़ से वेक्टर को बिटमैप बनाकर हस्तक्षेप घटाएँ।

रेज़ोल्यूशन और क्लैरिटी

सिफ़ारिश: टेक्स्ट‑डॉक के लिए ~300 DPI; छोटे फ़ॉन्ट/लो‑क्वालिटी प्रिंट पर 400–600 DPI।
ओवर‑कंप्रेशन/ब्लर से बचें: ज़्यादा नॉइज़/ब्लर गलत पहचान बढ़ाता है।

2) भाषाएँ और लेआउट

OCR भाषा(एँ) कंटेंट के अनुसार चुनें (hi/en/zh/ja/ko/zh‑Hant आदि)। मिक्स्ड कंटेंट में सभी प्रासंगिक भाषाएँ चुनें।
मल्टी‑कॉलम, टेबल, फ़ुटनोट, वर्टिकल टेक्स्ट जैसे लेआउट सटीकता घटाते हैं; ज़ोनिंग कर अलग‑अलग पहचानें, या Word में निर्यात कर मैनुअल सुधार करें।

3) आउटपुट फ़ॉर्मेट चुनें

सर्चेबल PDF: आर्काइव/सर्च/एनोटेशन के लिए बेस्ट; लुक वही, टेक्स्ट सर्च/कॉपी योग्य।
Word: डीप एडिट के लिए, पर कॉम्प्लेक्स लेआउट में मैनुअल करेक्शन पड़ सकता है।
प्लेन टेक्स्ट: सबसे हल्का; आगे प्रोसेसिंग आसान, पर लेआउट नहीं।

आम वर्कफ़्लो

टेक्स्ट स्कैन (कॉन्ट्रैक्ट/हैंडआउट/रिपोर्ट)

पेज ऑर्गनाइज़: ऑर्गनाइज़ → रोटेट/रीऑर्डर/ब्लैंक हटाएँ।
क्लैरिटी हेतु वैकल्पिक B/W/ग्रे: B/W / ग्रे।
OCR: OCR (सही भाषा चुनें)।
फ़ाइल बड़ी है? उपयोग करें: PDF कंप्रेस।

टेक्स्ट+इमेज मिक्स (कलर पेज)

पहले दिशा/क्रम ठीक करें; इमेज‑डीटेल बचाने को आक्रामक B/W से बचें।
सीधे OCR; साइज मायने रखे तो बाद में कंप्रेस (कलर डॉक के लिए “स्ट्रॉन्ग/MRC” बेहतर)।

CAD/वेक्टर से दिक्कत

रास्टराइज़: रास्टराइज़
ज़रूरत हो तो B/W से कॉन्ट्रास्ट बढ़ाएँ
फिर OCR करें

प्रश्नोत्तर

प्र: बहुत मिस‑रीकॉग्निशन?

उ: सोर्स क्लैरिटी/कॉन्ट्रास्ट बढ़ाएँ; भाषा चयन जाँचें; B/W/ग्रे आज़माएँ; मल्टी‑कॉलम/टेबल में Word निर्यात कर मैनुअल प्रूफ।

प्र: टेबल पहचान कमजोर?

उ: जटिल टेबल के लिए PDF → Excel से स्ट्रक्चर्ड एक्सट्रैक्शन करें, या OCR बाद मैनुअल सुधार।

प्र: फ़ाइल बहुत बड़ी?

उ: OCR के बाद PDF कंप्रेशन । मोनो टेक्स्ट में पहले B/W फिर कंप्रेस — साइज काफ़ी घटता है।

प्र: संवेदनशील डॉक — ऑनलाइन OCR सुरक्षित?

उ: लोकल प्रोसेसिंग/विश्वसनीय सेवा चुनें। शेयर से पहले “सिर्फ आवश्यक पेज” निर्यात करें या वर्चुअल प्रिंट से फ्लैट कॉपी बनाएं।

प्र: PDF एडिट/कॉपी‑प्रतिबंधित — OCR कैसे?

उ: वैध अनुमति हो तो पहले PDF अनलॉक करें, फिर OCR।

उपयोगी टिप्स

क्रम: “ऑर्गनाइज़ → OCR → कंप्रेस”。
hi/en मिक्स में दोनों भाषाएँ ऑन करें।
कई पेज की दिशा गड़बड़ हो तो पहले बैच‑रोटेट; सही क्रम सर्च/सेक्शनिंग आसान करता है।
“मल्टी‑सोर्स मर्ज” में ऑर्गनाइज़ से क्रम एक‑सा करें; ज़रूरत पर B/W और कंप्रेस से क्लैरिटी‑साइज बैलेंस करें।