< संगणक डॉट इन्फो >: ओसीआर तंत्राच्या प्रतिक्षेत मराठी

तंत्रज्ञानाचे संदर्भ येतात तेव्हा इंग्रजी भाषा ही इंजिनाच्या ठिकाणी असते, आणि जगातल्या इतर भाषांचे डबे इंग्रजी इंजिनाच्या मागे किंवा त्याचे अनुकरण करीत धावत असतात. ओसीआर अर्थात 'ऑप्टीकल कॅरॅक्टर रेकग्नीशन' हे असंच एक संगणकीय तंत्रज्ञान. जगात आज Abby आणि Nuance ह्या दोन कंपन्या ह्या तंत्रज्ञानाशी संबंधित सॉफ्टवेअर पुरविणार्‍या आघाडीच्या कंपन्या आहेत. ह्या कंपन्यांनी आपल्या कामाचा भाग म्हणून जगभरातील विविध भाषांचा संगणकीय अभ्यास केला आहे. त्यात कोरियन, जपानी. चिनी भाषेपासून ते रशियन आणि सोमाली भाषेपर्यंत एकूण १८६ भाषा आहेत. ह्या १८६ भाषांमध्ये आज तरी आपल्या मराठी भाषेचा समावेश नाही. ओसीआरचे तंत्र आणि मराठीच्या नात्याची अधिक माहिती घेण्यापूर्वी हे ओसीआर प्रकरण नेमकं काय आहे हे प्रथम समजून घेऊ.

'ओसीआर ' म्हणजे 'ऑप्टीकल कॅरॅक्टर रेकग्नीशन'. हे तिन्ही शब्द महत्वाचे आणि तेवढेच अर्थपूर्णही. आपल्याकडे चष्म्याच्या दुकानांच्या नावात 'ऑप्टीशियन्स ' हा शब्द सर्रास दिसतो. त्याच अर्थाची छटा पहिल्या 'ऑप्टीकल' ह्या शब्दात आहे. इंग्रजीत Optic ह्या शब्दाचा अर्थ शब्दकोशाने relating to eye or vision असा दिला आहे. भाषेमध्ये eye or vision हे शब्द लिपी अथवा अक्षरांच्या संदर्भात येणार हे उघड आहे. ओसीआर मधला पुढला शब्द कॅरॅक्टर (अक्षर) हाही त्याला पुष्टी देतो. भाषेतले अक्षर डोळ्याला दिसणे (वा भासणे) याच्याशी Optical Character हे दोन शब्द थेट संबंधित आहेत. त्याच्या पुढे 'रेकग्नीशन' हा शब्द आहे. अक्षर डोळ्याला भासणं आणि त्याचे रेकग्नीशन म्हणजे ओळखणं हे सारं इथे संगणकीय तंत्राच्या संदर्भात आलं आहे. माणसाच्या डोळ्याशी वा त्याला दिसण्याशी त्याचा संबंध नाही.

आजकाल स्कॅनर्स घरोघर येऊ लागलेत. स्कॅनरमध्ये पुस्तकाचे एखादे पान घातले की स्कॅनरचे डोळे ते पान पाहतात व त्याची प्रतिमा आपल्या संगणकाच्या पडद्यावर आणून ठेवतात. एक प्रकारे स्कॅनर त्या पुस्तकाच्या पानाचे छायाचित्रच घेत असतो. हे छायाचित्र घेताना त्या पुस्तकाच्या पानावरील मजकूर कोणत्या भाषेत आहे याच्याशी स्कॅनरला देणे-घेणे नसते. स्कॅनरच्या दृष्टीने मजकूर किंवा त्यातले प्रत्येक अक्षर हा चित्राचा एक भाग असतो. स्कॅनरने पुस्तकाच्या पानाची व त्यावरच्या मजकूराची जी प्रतिमा घेतली त्यातला एखादा शब्द वेगळा काढण्याची वा बदलण्याची सोय नसते. कारण सारा मजकूर मिळून एक संपूर्ण चित्र आपल्या स्क्रीनवर आलेले असते. ओसीआर तंत्रज्ञानाची एन्ट्री ह्या टप्प्यावर होते.

स्कॅन केलेल्या पानावर केवळ चित्र म्हणून दिसणारा जो मजकूर असतो त्यातले प्रत्येक अक्षर ओळखून त्याचे रूपांतर अक्षरात (टायपात किंवा फाँटमध्ये) करण्याचे काम ओसीआर तंत्रज्ञान करते. म्हणूनच त्याला ऑप्टीकल कॅरॅक्टर रेकग्नीशन असे म्हंटले जाते. हे अधिक स्पष्ट करण्यासाठी आपण एक साधे उदाहरण घेऊ. समजा राम गणेश गडकरी यांच्या एकच प्याला ह्या नाटकाचे एक पान आहे. त्यावर सिंधू आणि सुधाकर यांचे मराठी लिपीतील संवाद छापलेले आहेत. नाटकाच्या पुस्तकाची छपाई तीस वर्षांपूर्वी झाल्याने संगणकाच्या फाँटमध्ये ते संवाद उपलब्ध नाहीत. मराठी भाषेत जर ओसीआर तंत्राची सोय असती तर काय होऊ शकले असते पहाः एकच प्याला चे ते पान प्रथम स्कॅन करण्यांत आले असते. स्कॅनिंग केल्यानंतर जी प्रतिमा मिळाली असती त्या प्रतिमेतील शब्द व अक्षरांचे रूपांतर मराठी टायपात (फाँटमध्ये) केले गेले असते. तीस वर्षांपूर्वी राहून गेलेली एखादी प्रुफरिडींगची चूक दुरूस्त करून त्या पानावरचा तो शब्द पुन्हा बिनचूक टाईप करता आला असता. त्या पानावरचा एखादा परिच्छेद वेगळा काढणं शक्य झालं असतं. पानावरील मांडणी बदलता आली असती. मूळ पानावरचा टाईप वाचायला लहान आहे असं वाटल्यानंतर तो मोठा करता आला असता. त्याही पेक्षा नाटकातला एखादा संदर्भ शोधण्यासाठी अभ्यासकांना आणि विद्यार्थ्यांना 'सर्च ' ची सुविधा उपलब्ध झाली असती.

इंग्रजीसाठीचं प्रगत ओसीआर तंत्र

इंग्रजीसाठी उपलब्ध असलेलं ओसीआर तंत्र आज अतिशय प्रगत आहे. स्कॅन करून ओसीआर केलेल्या इंग्रजी मजकूरातील अचूकता आज ९५ टक्क्यांहून अधिक असते. संगणक जेव्हा मजकूर ओसीआर करतो आणि अक्षर ओळखतो तेव्हा इंग्रजीत अनेक ठिकाणी संगणकाची कसोटी लागते. इंग्रजीतला लोअर केस मधलं एल (l) हे अक्षर आकड्यातल्या एक (1) सारखं आहे. शब्दातलं अक्षर हे एल आहे की एक आकडा आहे हे ओळखण्याइतका आजचा संगणक बुद्धीमान आहे. अगदी बारीक अक्षर ओसीआर करताना इंग्रजी h च्या जागी n येण्याने चूक होऊ शकते. ओसीआर मधील अशा चुकांचे प्रमाण आज १ किंवा २ टक्के इतकेच उरले आहे. इंग्रजी ओसीआर मध्ये इतकी प्रगती झाल्याने जुने इंग्रजी ग्रंथ अतिशय झपाट्याने ओसीआर होत आहेत व इंटरनेटवरही सर्च सुविधेसह येत आहेत. ज्या १ किंवा २ टक्के चुका इंग्रजी ओसीआर मधून सुटतात त्या सुधारण्यासाठी इंग्रजीचे प्रगत शब्दकोश व दुरूस्त्या कोश उपलब्ध असल्याने इंग्रजीत गेली काही वर्षे ओसीआर तंत्र चांगले स्थिरावले आहे. आपल्या मराठीच्या नशिबात मात्र आज २०१० मध्येही अजून ते स्थिरावणं आलेलं नाही.

मराठी ओसीआर ची स्थिती

संस्कृत, मराठी आणि हिंदी ह्या भाषांतील सर्व अक्षरे (काही अपवाद वगळता) बहुतांशी सारखी आहेत. एखादं 'ळ' अक्षर वेगळं काढून तिन्ही भाषांसाठी देवनागरी ही एकच लिपी सामायिक ठेवणं तांत्रिक दृष्ट्या सामान्यतः सोयीचं जातं. मराठीतला ओसीआर अडकून पडला आणि हिंदीसाठी किंवा देवनागरी साठी मात्र तो तयार झाला तरी तांत्रिक उसनवारी करून मराठीतलं ओसीआरचं काम होणं शक्य आहे. मात्र मराठी आणि हिंदी दोन्हींसाठी किंवा एकूण देवनागरीसाठी वापरण्यास सोयीचे व स्वीकारार्ह असे ओसीआर सॉफ्टवेअर आज तरी शोधूनही सापडत नाही. जगात आणि भारतातल्या विविध विद्यापीठांमध्ये अनेक संशोधक आणि तंत्रज्ञ त्यासाठी सातत्याने प्रयत्न करीत आहेत. भारत सरकारच्या अधिपत्याखालील सीडॅकनेही त्यासाठी महत्वपूर्ण काम केले आहे. मराठीसाठी सीडॅकने चित्रांकन नावाचे एक ओसीआर सॉफ्टवेअर आणले आहे. मात्र आजही त्यातल्या बिनचूकपणाच्या मर्यादांमुळे त्याचा वापर वाढलेला दिसत नाही.

मराठीतली जोडाक्षरे, काना-मात्रा, रफार-वेलांट्या, पाय मोडणे, अनुस्वार-चंद्र, र्‍हस्व-दीर्घ वगैरे ओसीआर तंत्रज्ञानापुढील अवघड आव्हाने आहेत. मूळात आत्ता आत्ता कुठे आपण फाँटच्या गोंधळाचा दोन दशकांचा प्रवास करून युनिकोडच्या स्थानकात उतरत आहोत. युनिकोडच्या नव्या गावाचं पाणी आपल्या दैनिक वृत्तपत्रांना अगदी अलिकडे पचू लागलय. काही जण तर अजून त्यासाठी धडपडताहेत. अशा स्थितीत, ओसीआर आणि युनिकोड यांचा मेळ बसून ते इंग्रजीप्रमाणे ९५ टक्क्यांपर्यंत प्रगत होण्यासाठी कदाचित आणखी काही महिने वाट पहावी लागण्याची शक्यता आहे.

मराठी ओसीआर च्या मार्गातील संभाव्य अडचणी

ओसीआर चे तंत्र मुख्यत्वे जुने मराठी ग्रंथ व कागदपत्रांच्या डिजिटायझेशनसाठी वापरले जाणार आहे. असं समजूया की येत्या काही महिन्यांत मराठी ओसीआरचे एक उत्तम सॉफ्टवेअर आपल्या हाती आले व त्यातील बिनचूकपणा हा ९० टक्क्यांच्या आसपास साध्य झाला आहे. तरीही, इतर काही अडचणी मराठी ओसीआर च्या मार्गात येण्याची शक्यता आहे. त्यातली एक महत्वाची अडचण म्हणजे पूर्वी मुद्रणासाठी विशेषतः हँड कंपोजिंगमध्ये वापरला गेलेला टाईप. मराठी मुद्रणात पूर्वी वापरून वापरून झिजलेला टाईप पुन्हा पुन्हा वापरणे हे नेहमीचे होते. वाचकांनाही तेव्हा तसा झिजलेला टाईप वाचताना अडचण येत नसे. पण तशा टाईपात छापली गेलेली पुस्तके वा कागदपत्रे ही ओसीआर तंत्रासमोर एक मोठे आव्हान ठरणार आहेत. इंग्रजीत जोडाक्षरे नाहीत. प्रत्येक अक्षर हे स्वतंत्र आहे. त्यामुळे ओसीआर साठी ते खूपच सुकर ठरले. एच (h) आणि एन (n) किंवा e,o, Q, c सारखी इंग्रजी अक्षरे आकारांनी एकमेकांशी साधर्म्य राखणारी असली तरी ती एकमेकांत जोडलेली वा अर्धी नाहीत. तसेच इंग्रजीत अक्षराच्या वर रेघ नाही. मराठीत ही गुंतागुंत एकीकडे आहे, तर दुसरीकडे झिजलेला टाईप. यामुळे मराठीत ओसीआरमध्ये अनेक प्रमाद दिसून येतील व बिनचूकपणाचे प्रमाण खाली येईल. 'र' सारख्या अक्षराची खाली येणारी शेपटी झिजलेली असेल तर तो अर्धा 'ग' होईल. किंवा ध, भ किंवा थ मधील वरचे गोळे झिजले असतील तर अनुक्रमे ते घ, म आणि य होतील. स अक्षराच्या पोटातील आडवी रेघ झिजली असेल तर स चा रा होईल. झिजलेल्या टाईपात छापला गेलेला मजकूर हा ओसीआरसाठी एक आव्हान ठरेल यात शंका नाही.

मराठी ओसीआर आणि राज्य सरकार

मराठी ओसीआर साठी चांगले सॉफ्टवेअर उपलब्ध होणे ही राज्य सरकारचीही गरज असणार यात शंका नाही. कारण १९६० किंवा तत्पूर्वीपासूनची गॅझेटसची पाने जर सर्चेबल करावयाची असतील तर ओसीआरला पर्याय नाही. ओसीआर उपलब्ध झाल्यास कितीतरी कागदपत्रे पुन्हा टाईप करावी न लागता केवळ स्कॅन करून उपलब्ध होऊ शकतील. ओसीआरसाठीचे संशोधन आय.आय.टी. तसेच केंद्र सरकारच्या सीडॅक व तत्सम संस्थांमध्ये चाललेले असले तरी तेथे सर्व भारतीय भाषांचा विचार केला जात असतो. मराठी ही त्यातील एक भाषा असते. राज्य सरकारने मराठी ओसीआर साठी तातडीने एक अभ्यास गट नेमणे व त्या अभ्यास गटाला संशोधनासाठी व ओसीआर विकासासाठी साधनसामुग्री उपलब्ध करून देणे अत्यावश्यक आहे. महाराष्ट्रात आज अनेक ठिकाणी संगणकविषयक उच्च शिक्षण देणार्‍या संस्था आहेत. त्यांनीही मराठी युनिकोड व ओसीआर चा अभ्यास करणारे सेल स्थापन करावयास हवेत. मराठी हस्ताक्षराचे ओसीआर करण्याच्या विषयात मराठी कॅलिग्राफीसाठी प्रसिद्ध असलेले कै. र.कृ. जोशी यांचेही महत्वाचे योगदान आहे. आजच्या घडीला अमेरिकेत न्युयॉर्कच्या बफेलो विद्यापीठात देवनागरी ओसीआर साठी सातत्याने संशोधन करणारे एक स्वतंत्र केंद्र (Center of Excellence for Document Analysis and Recognition (CEDAR) आहे. त्याची माहिती जिज्ञासूंना http://www.cedar.buffalo.edu/script/Doverview.html ह्या संकेतस्थळावरून घेता येईल. भारताबाहेर देवनागरी ओसीआरसाठी काम करणार्‍या बफेलो विद्यापीठासारख्या इतरही काही संस्था व व्यक्ती आहेत. महाराष्ट्र सरकारने व मराठीशी संबंधित महामंडळांनी ह्या सर्वांशी सतत संपर्कात असायला हवे.

जगात ३० कोटी लोकांना ओसीआरची प्रतिक्षा

आजमितीस हिंदी, मराठी, संस्कृत ह्या तीन मुख्य भाषांशी संबंधित जगातले ३० कोटी लोक देवनागरी ओसीआरची प्रतिक्षा करीत आहेत. हिंदी हा त्यातला सर्वांत मोठा घटक असला तरी मराठी ही जगातील १५ व्या क्रमांकाची भाषा आहे. महाराष्ट्र हा जगातल्या कितीतरी देशांच्या तोडीचा आहे. सुवर्ण महोत्सवी वर्षांत पदार्पण करणार्‍या महाराष्ट्राकडूनही जगातले हे ३० कोटी लोक अपेक्षा ठेवून आहेत. मराठी व देवनागरी ओसीआर साठी आपले योगदान देणे हे महाराष्ट्रानेही आपले एक कर्तव्य मानायला हवे.

< संगणक डॉट इन्फो >

पेज

२१ फेब्रु, २०११

ओसीआर तंत्राच्या प्रतिक्षेत मराठी

कोणत्याही टिप्पण्‍या नाहीत:

टिप्पणी पोस्ट करा