कई PDF वास्तव में "इमेज" होते हैं — जैसे काग़ज़ी दस्तावेज़ की मोबाइल फोटो, प्रिंट का स्कैन, या इमेज से बने PDF। ऐसे फाइलों में टेक्स्ट न चयन होता है, न खोज/कॉपी। इमेज के अक्षरों को असली टेक्स्ट में बदलने के लिए OCR (Optical Character Recognition) ज़रूरी है।
क्या वाकई आपको OCR चाहिए?
- ब्राउज़र/रीडर में PDF खोलकर टेक्स्ट सिलेक्ट करें: यदि शब्द‑शब्द सिलेक्ट होता है, तो वह ‘टेक्स्ट‑PDF’ है। ब्लॉक‑सेलेक्शन हो या न हो, तो ‘इमेज/स्कैन‑PDF’ है।
- ज़ूम पर टेक्स्ट तेज़ दिखे पर एडिट न हो, तो वह वेक्टर शेप हो सकता है। फिर भी OCR से उसे एडिट/सर्च योग्य बनाया जा सकता है।
एक‑क्लिक शुरुआत: ऑनलाइन OCR
सबसे सरल तरीका:
OCR (PDF को सर्चेबल बनाएं)कौन सा आउटपुट चुनें?
- लेआउट बनाए रखते हुए सिर्फ खोज/कॉपी चाहिए: “सर्चेबल PDF” चुनें (टेक्स्ट लेयर मूल पेज इमेज पर)।
- डीप एडिट चाहिए: PDF → Word या PDF → टेक्स्ट।
सटीकता बढ़ाने के मुख्य कदम
1) प्री‑प्रोसेसिंग: दिशा, क्रम, नॉइज़
पहचान से पहले पेज सँवारें — सटीकता काफ़ी बढ़ती है:
-
दिशा/क्रम: PDF पेज ऑर्गनाइज़ से साइड‑वे पेज बैच‑रोटेट, ड्रैग‑ड्रॉप से रीऑर्डर, ब्लैंक/ऐड पेज हटाएँ।
-
ब्लैक‑एंड‑व्हाइट/ग्रेस्केल (टेक्स्ट डॉक के लिए): ब्लैक‑एंड‑व्हाइट / ग्रेस्केल कॉन्ट्रास्ट बढ़ाता, रंगी शोर घटाता — OCR और बाद के कंप्रेशन में मदद।
-
रास्टराइज़ (कम्प्लेक्स वेक्टर/CAD से बाधा): वेक्टर रास्टराइज़ से वेक्टर को बिटमैप बनाकर हस्तक्षेप घटाएँ।
रेज़ोल्यूशन और क्लैरिटी
- सिफ़ारिश: टेक्स्ट‑डॉक के लिए ~300 DPI; छोटे फ़ॉन्ट/लो‑क्वालिटी प्रिंट पर 400–600 DPI।
- ओवर‑कंप्रेशन/ब्लर से बचें: ज़्यादा नॉइज़/ब्लर गलत पहचान बढ़ाता है।
2) भाषाएँ और लेआउट
- OCR भाषा(एँ) कंटेंट के अनुसार चुनें (hi/en/zh/ja/ko/zh‑Hant आदि)। मिक्स्ड कंटेंट में सभी प्रासंगिक भाषाएँ चुनें।
- मल्टी‑कॉलम, टेबल, फ़ुटनोट, वर्टिकल टेक्स्ट जैसे लेआउट सटीकता घटाते हैं; ज़ोनिंग कर अलग‑अलग पहचानें, या Word में निर्यात कर मैनुअल सुधार करें।
3) आउटपुट फ़ॉर्मेट चुनें
- सर्चेबल PDF: आर्काइव/सर्च/एनोटेशन के लिए बेस्ट; लुक वही, टेक्स्ट सर्च/कॉपी योग्य।
- Word: डीप एडिट के लिए, पर कॉम्प्लेक्स लेआउट में मैनुअल करेक्शन पड़ सकता है।
- प्लेन टेक्स्ट: सबसे हल्का; आगे प्रोसेसिंग आसान, पर लेआउट नहीं।
आम वर्कफ़्लो
टेक्स्ट स्कैन (कॉन्ट्रैक्ट/हैंडआउट/रिपोर्ट)
- पेज ऑर्गनाइज़: ऑर्गनाइज़ → रोटेट/रीऑर्डर/ब्लैंक हटाएँ।
- क्लैरिटी हेतु वैकल्पिक B/W/ग्रे: B/W / ग्रे।
- OCR: OCR (सही भाषा चुनें)।
- फ़ाइल बड़ी है? उपयोग करें: PDF कंप्रेस।
टेक्स्ट+इमेज मिक्स (कलर पेज)
- पहले दिशा/क्रम ठीक करें; इमेज‑डीटेल बचाने को आक्रामक B/W से बचें।
- सीधे OCR; साइज मायने रखे तो बाद में कंप्रेस (कलर डॉक के लिए “स्ट्रॉन्ग/MRC” बेहतर)।
CAD/वेक्टर से दिक्कत
- रास्टराइज़: रास्टराइज़
- ज़रूरत हो तो B/W से कॉन्ट्रास्ट बढ़ाएँ
- फिर OCR करें
प्रश्नोत्तर
प्र: बहुत मिस‑रीकॉग्निशन?
उ: सोर्स क्लैरिटी/कॉन्ट्रास्ट बढ़ाएँ; भाषा चयन जाँचें; B/W/ग्रे आज़माएँ; मल्टी‑कॉलम/टेबल में Word निर्यात कर मैनुअल प्रूफ।
प्र: टेबल पहचान कमजोर?
उ: जटिल टेबल के लिए PDF → Excel से स्ट्रक्चर्ड एक्सट्रैक्शन करें, या OCR बाद मैनुअल सुधार।
प्र: फ़ाइल बहुत बड़ी?
उ: OCR के बाद PDF कंप्रेशन । मोनो टेक्स्ट में पहले B/W फिर कंप्रेस — साइज काफ़ी घटता है।
प्र: संवेदनशील डॉक — ऑनलाइन OCR सुरक्षित?
उ: लोकल प्रोसेसिंग/विश्वसनीय सेवा चुनें। शेयर से पहले “सिर्फ आवश्यक पेज” निर्यात करें या वर्चुअल प्रिंट से फ्लैट कॉपी बनाएं।
प्र: PDF एडिट/कॉपी‑प्रतिबंधित — OCR कैसे?
उ: वैध अनुमति हो तो पहले PDF अनलॉक करें, फिर OCR।
उपयोगी टिप्स
- क्रम: “ऑर्गनाइज़ → OCR → कंप्रेस”。
- hi/en मिक्स में दोनों भाषाएँ ऑन करें।
- कई पेज की दिशा गड़बड़ हो तो पहले बैच‑रोटेट; सही क्रम सर्च/सेक्शनिंग आसान करता है।
- “मल्टी‑सोर्स मर्ज” में ऑर्गनाइज़ से क्रम एक‑सा करें; ज़रूरत पर B/W और कंप्रेस से क्लैरिटी‑साइज बैलेंस करें।
टूल्स फास्ट लिंक
OCR
स्कैन को सर्चेबल बनाएं; मल्टी‑लैंग सपोर्ट।
PDF → Word
डीप एडिट हेतु एडिटेबल डॉक में एक्सपोर्ट।
PDF → टेक्स्ट
सबसे हल्का प्लेन‑टेक्स्ट एक्सट्रैक्शन।
B/W / ग्रे
कॉन्ट्रास्ट बढ़ाएँ, नॉइज़ घटाएँ — OCR में मदद।
वेक्टर रास्टराइज़
कम्प्लेक्स वेक्टर/CAD को बिटमैप में बदलें।
PDF कंप्रेस
रीडेबिलिटी रखते हुए साइज घटाएँ।