ओसीआर

मुक्त ज्ञानकोश विकिपीडिया से
नेविगेशन पर जाएँ खोज पर जाएँ
चित्र:OCR-block-diagram.jpg
छपी हुई सामग्री को टेक्स्ट में बदलने की पूरी प्रक्रिया का ब्लॉक-आरेख

हस्तलिखित, टाइप किये हुए या प्रिन्ट किये हुए पाठ (टेक्स्ट) की छबि का कम्प्यूटर द्वारा पढ़े जाने योग्य टेक्स्ट रूप में परिवर्तन ओसीआर (प्रकाश द्वारा वर्णों की पहचान/Optical charecter recognition) कहलाती है। आजकल यह छबि-प्रसंस्करण पर आधारित कम्प्यूटर प्रोग्रामों द्वारा आसानी से सम्भव हो गया है किन्तु इसे यांत्रिक तरीकों से भी करना सम्भव है।

वस्तुत: यह पैटर्न की पहचान, कृत्रिम बुद्धि और मशीनी-दृष्टि (machine vision) के क्षेत्र में अनुसंधान का एक क्षेत्र है। पहले ओसीआर प्रोग्रामों को प्रशिक्षित करना पड़ता था किन्तु अब बहुत से 'बुद्धिमान' प्रोग्राम भी बना दिये गये हैं जो अधिकांश फांटों को बहुत अधिक शुद्धता के साथ पहचान लेते हैं।

उपयोग

ओसीआर का मुख्य उपयोग प्रिन्ट की गयी पुस्तकों के पृष्टों के स्कैन छबियों को लेकर उससे 'टेक्स्ट' में बदलना है। टेक्स्ट में बदलने से कई लाभ हैं-

  • टेक्स्ट फाइल का आकार (साइज) इमेज फाइल से बहुत कम होता है।
  • टेक्स्ट में खोजना (सर्च करना) एवं अन्य प्रसंस्करण बहुत आसान हैं, जैसे उसका अनुवाद करना, उस टेक्स्ट की लिपि बदलना, उस टेक्स्ट को ध्वनि में बदलना, तथा उस टेक्स्ट से अन्य सूचनाएँ निकाल पाना आदि।
  • गाड़ियों के नम्बर प्लेट की स्वचालित पहचान
  • प्रिन्ट रूप में मौजूद इलेक्ट्रॉनिक दस्तावेजों की छबियों को खोजने लायक बनाना (जैसी गूगल पुस्तकें)

प्रमुख ओसीआर प्रोग्राम

निःशुल्क ओसीआर

गूगल ओसीआर, GOCR, SimpleOCR, TopOCR, FreeOCR आदि।

देवनागरी ओसीआर

इन्हें भी देखें

बाहरी कड़ियाँ