ओसीआर
हस्तलिखित, टाइप किये हुए या प्रिन्ट किये हुए पाठ (टेक्स्ट) की छबि का कम्प्यूटर द्वारा पढ़े जाने योग्य टेक्स्ट रूप में परिवर्तन ओसीआर (प्रकाश द्वारा वर्णों की पहचान/Optical charecter recognition) कहलाती है। आजकल यह छबि-प्रसंस्करण पर आधारित कम्प्यूटर प्रोग्रामों द्वारा आसानी से सम्भव हो गया है किन्तु इसे यांत्रिक तरीकों से भी करना सम्भव है।
वस्तुत: यह पैटर्न की पहचान, कृत्रिम बुद्धि और मशीनी-दृष्टि (machine vision) के क्षेत्र में अनुसंधान का एक क्षेत्र है। पहले ओसीआर प्रोग्रामों को प्रशिक्षित करना पड़ता था किन्तु अब बहुत से 'बुद्धिमान' प्रोग्राम भी बना दिये गये हैं जो अधिकांश फांटों को बहुत अधिक शुद्धता के साथ पहचान लेते हैं।
उपयोग
ओसीआर का मुख्य उपयोग प्रिन्ट की गयी पुस्तकों के पृष्टों के स्कैन छबियों को लेकर उससे 'टेक्स्ट' में बदलना है। टेक्स्ट में बदलने से कई लाभ हैं-
- टेक्स्ट फाइल का आकार (साइज) इमेज फाइल से बहुत कम होता है।
- टेक्स्ट में खोजना (सर्च करना) एवं अन्य प्रसंस्करण बहुत आसान हैं, जैसे उसका अनुवाद करना, उस टेक्स्ट की लिपि बदलना, उस टेक्स्ट को ध्वनि में बदलना, तथा उस टेक्स्ट से अन्य सूचनाएँ निकाल पाना आदि।
- गाड़ियों के नम्बर प्लेट की स्वचालित पहचान
- प्रिन्ट रूप में मौजूद इलेक्ट्रॉनिक दस्तावेजों की छबियों को खोजने लायक बनाना (जैसी गूगल पुस्तकें)
प्रमुख ओसीआर प्रोग्राम
निःशुल्क ओसीआर
गूगल ओसीआर, GOCR, SimpleOCR, TopOCR, FreeOCR आदि।
देवनागरी ओसीआर
- गूगल ओसीआर - यह सभी भारतीय भाषाओं के विकिस्रोतों पर सुविधाजनक रूप में उपलब्ध कराया गया है।
- टेसरैक्ट-ओसीआर (निःशुल्क, मुक्तस्रोत)
- संस्कृत ओसीआर
इन्हें भी देखें
बाहरी कड़ियाँ
- टेसरैक्ट ओसीआर - मुक्तस्रोत ओसीआर जिसमें देवनागरी सहित अन्य लिपियों की पहचान की सुविधा है।
- 14 Free OCR – Convert JPG / PDF To Editable Texts
- ई-अक्षरायन - देवनागरी, तमिल, मलयालम, कन्नड आदि लिपियों के लिए ओसीआर
- How to OCR Documents for Free in Google Drive
- Convert PDF and photo files to text (in Google Drive using Google OCR)
- परिचित (ओसीआर) - भारतीय भाषाओं के लिए मुक्तस्रोत ओसीआर निर्माण की परियोजना
- Indian Language Technologies - Devanagari OCR Resources
- Deep Learning based Text Recognition (OCR) using Tesseract and OpenCV (2018)
- TDIL का वेब आधारित ओसीआर
- Recognition of Printed Devnagari. Characters With Regular Expression
- White Paper: OCR Softwares for Indian languages
- Indian script character recognition: a surveyसाँचा:category handlerसाँचा:main otherसाँचा:main other[dead link]
- Integrating Knowledge Sources in Devanagari Text Recognition System Veena Bansal and R. M. K. Sinha
- A Survey of Indian Script OCR Systems
- Text - Image Separation in Devanagari Documents