PDF-и сканшуда ба Word-и таҳриршаванда: роҳнамои пурра (OCR + тарҳ)
Блог

PDF-и сканшуда ба Word-и таҳриршаванда: роҳнамои пурра (OCR + тарҳ)

PDF-и скан/аксро ба Word-и таҳриршаванда табдил диҳед: санҷиши OCR дар 10 сония, омодасозӣ ва роҳҳалҳои зуд.

Тоҷикӣ

Агар “PDF таҳрир намешавад”, бисёр вақт он танҳо тасвир аст (скан/акс) бе қабати матн. Барои гирифтани Word-и таҳриршаванда: саҳифаҳоро танзим кунед → OCR-ро ҳангоми лозим фаъол кунед → ба Word содир кунед ва қисмҳои муҳимро санҷед.

10 сония: OCR лозим аст?

  • Матн интихоб мешавад ва Ctrl+F калимаҳоро меёбад: одатан OCR лозим нест — рост ба Word табдил диҳед.
  • Матн интихоб намешавад (ё танҳо блокӣ) ва Ctrl+F ҳеҷ чиз намеёбад: эҳтимол скан/“image PDF” — OCR-ро фаъол кунед.
  • Истисно: баъзе PDF‑ҳо “матн”-ро ҳамчун вектор доранд (равшан, аммо ҷустуҷӯ намешавад). Дар ин ҳолат ҳам OCR кӯмак мекунад.

Тартиби тавсияшуда

Repair (ихтиёрӣ) → Organize → Crop → B/W (ихтиёрӣ) → OCR/Word → Compress (дар охир).

Ислоҳи PDF Танзими саҳифаҳо Буридани PDF (Crop) Сиёҳ/сафед / хокистарӣ PDF ба Word

Ҳадафи дурустро интихоб кунед: “editable” ё “searchable”?

ҲадафНатиҷаи беҳтаринАсбоби тавсияшуда
Таҳрири ҷумла/параграф, тағйири тарҳWord (.docx)PDF ба Word
Нигоҳ доштани намуди аслӣ, аммо ҷустуҷӯшаванда/нусхабардорSearchable PDF (text layer)OCR (Searchable PDF)
Танҳо матн лозим (ҷустуҷӯ/AI)Plain textPDF ба матн

Ин гайд “PDF-и сканшуда → Word-и таҳриршаванда”-ро мукаммал мекунад, то хатогиҳои OCR ва кори такрорӣ кам шавад.

Раванди тавсияшуда: PDF-и сканшуда → Word

Аввал тозагӣ, баъд фишурдан

Агар аввал Compress кунед, дақиқии OCR аксар вақт паст мешавад. Compress-ро ба охир гузоред.

Пеш аз табдил: файлеро барои OCR қулай кунед

  • DPI кофӣ: 300 DPI тавсия мешавад; аз 150 DPI поён хатогӣ зиёд мешавад.
  • Кам кардани каҷӣ (skew): агар саҳифа хеле каҷ бошад (масалан > 5°), шинохти хат/сутун вайрон мешавад.
  • Аз соя/инъикос дурӣ ҷӯед: барои аксҳои телефон glare ва соя OCR‑ро бад мекунад.
  • Сканер беҳтар: агар имкон бошад, flatbed scanner устувортар аст.

Манбаи тоза аз ҳар гуна танзим беҳтар аст

Агар PDF-и аслӣ (на screenshot) ё скани DPI баланд дошта бошед, аз ҳамон оғоз кунед.

Қадам 0 (ихтиёрӣ): агар файл мушкил бошад Repair кунед

Repair лозим аст, агар:

  • “corrupted / can’t be read”
  • upload/conversion зуд‑зуд ноком шавад
  • саҳифаҳо пурра намоиш дода нашаванд
Ислоҳи PDF

Қадам 1: гардиш (rotate) ва тартиби саҳифаҳо

Танзими саҳифаҳо
  • саҳифаҳои каҷ/ба паҳлӯро гардонед
  • саҳифаҳои холӣ/зиёдатиро хориҷ кунед
  • тартибро дуруст кунед

Қадам 2 (хеле муҳим): буридани канор/замина

Буридани PDF (Crop)

Crop аксаран:

  • дақиқии OCR‑ро зиёд мекунад
  • тарҳи Word‑ро устувортар месозад
  • noise‑ро кам мекунад

Қадам 3 (вобаста ба ҳуҷҷат): сиёҳ/сафед ё хокистарӣ барои контраст

Сиёҳ/сафед / хокистарӣ

Барои ҳуҷҷатҳои матнӣ (шартнома, қайд, расид) ва сканҳои контрасти паст муфид аст.

Қадам 4: ба Word табдил диҳед (OCR‑ро ҳангоми лозим фаъол кунед)

PDF ба Word

Маслиҳати амалӣ:

  • барои скан/акс: OCR фаъол, забони дуруст(ҳо) интихоб кунед
  • пас аз табдил: 2–3 параграф + рақамҳои муҳим (маблағ/сана/ID)‑ро санҷед

Забони OCR‑ро дуруст интихоб кунед

Забони нодуруст сабаби асосии хатогиҳост. Забони ҳуҷҷатро (ё чанд забон, агар омехта бошад) интихоб кунед.

Хатоҳои маъмул ва роҳҳалҳои боэътимод

1) Хатои OCR зиёд: забон ва сифати манбаъ

Сабабҳои маъмул:

  • забони OCR нодуруст
  • манбаъ норавшан, соя/инъикос
  • канор/замина бурида нашудааст

Кӯшиш кунед: Буридан → (агар лозим) Сиёҳ/сафед → OCR‑ро бо забони дуруст дубора иҷро кунед.

2) Ҷадвалҳо дар Word “мепошанд”: мақсадро ҷудо кунед

Барои ҷадвалҳо аксаран беҳтар:

PDF ба Excel

Агар танҳо матн лозим бошад:

PDF ба матн

3) Иҷозат: unlock танҳо бо иҷозат

Кушодани PDF

Муҳим

Unlock‑ро танҳо бо иҷозат истифода баред (дастрасии иҷозатдор / пароли маълум). Ин восита паролҳои номаълумро “шикан” намекунад.

Комбои хуб: дар Word таҳрир кунед, ҳамчун PDF супоред

  1. PDF ба Word → (таҳрир) → Word ба PDF
  2. Агар лозим бошад:

FAQ

Чаро баъд аз OCR ҳам хатогиҳо мемонанд?

Одатан 3 сабаб:

  1. Забон нодуруст
  2. Сифати манбаъ паст (норавшан/соя/инъикос)
  3. Омодасозӣ нест: Crop + Сиёҳ/сафед

Ҷадвал дар Word вайрон шуд. Чӣ кор кунам?

Барои ҳуҷҷатҳои ҷадвалдор:

PDF ба Excel

Нормалӣ аст, ки тарҳи Word аз асл фарқ кунад?

Бале. PDF-и сканшуда → Word “recognize + reflow” аст, бинобар ин тарҳи мураккаб 100% такрор намешавад. Аввал copy/search/edit, баъд қисмҳои муҳимро дастӣ ислоҳ кунед.

Рӯйхати санҷиши зуд

  • маблағ/сана/ID/рақамҳои шартнома
  • ҷадвалҳо ҷойиваз шуданд (Excel истифода баред)
  • header/footer/рақами саҳифа намерасад
  • хат/бандҳо гум шудаанд (дар аксҳо маъмул)

Асбобҳои вобаста