भारतीय भाषाओं के लिए प्रौद्योगिकी

जुलाई 21, 2018

भारतीय भाषाओं के लिए प्रौद्योगिकी

भारतीय भाषाओं के लिए प्रौद्योगिकी

भाषा प्रौद्योगिकी क्या है?
भाषा प्रौद्योगिकी कंप्यूटर प्रणालियों पर शोध करती है जो बोलने वाली और लिखित मानव भाषाओं को समझती और/या सिंथेसाइज करती है। इस क्षेत्र में संवाद संसाधन (मान्यता, समझ और सिंथेसिस), जानकारी निष्कर्षण, हस्तलेख की पहचान, मशीनी अनुवाद, टेक्स्ट संक्षिप्तीकरण और भाषा उत्पत्ति शामिल हैं।

कंप्यूटर आधारित (कंप्यूटेशनल) भाषा विज्ञान क्या है?
कंप्यूटर आधारित भाषा विज्ञान (सीएल) कंप्यूटर विज्ञान और भाषा विज्ञान के बीच एक ऐसा विषय है जिसका संबंध मानव भाषा संकाय के कंप्यूटर आधारित पहलुओं के साथ है। यह संज्ञानात्मक विज्ञान से संबंधित है और कृत्रिम बौद्धिकता (AI) के क्षेत्र साथ उपरिशायी होता है जो कंप्यूटर विज्ञान की एक ऐसी शाखा है जो मानव अनुभूति के कंप्यूटर आधारित मॉडलों को अपना लक्ष्य बनाती है।
प्राकृतिक भाषा इंटरफेस उपयोगकर्ताओं को जर्मन, अंग्रेजी या किसी अन्य मानव भाषा में कंप्यूटर के साथ संवाद करने में सक्षम बनाता है। इन इंटरफेसों के कुछ एप्लिकेशन हैं डेटाबेस संबंधी प्रश्न, टेक्स्ट से जानकारी की पुनर्प्राप्ति और तथाकथित विशेषज्ञ प्रणालियां।
कंप्यूटर आधारित भाषाविदों ने ऐसी सॉफ्टवेयर प्रणालियां तैयार की हैं जो मानव अनुवादकों के काम को सरल बना सकते हैं और स्पष्ट रूप से उनकी उत्पादकता में सुधार कर सकते हैं। हालांकि मानव भाषा का सफल अनुकरण करने के बावजूद निकट भविष्य में पर्याप्तता की उम्मीद नहीं की जा सकती है, कंप्यूटर आधारित भाषाविदों ने कई तात्कालिक अनुसंधान लक्ष्य बनाया है जिसमें उन सिस्टमों की डिजाइन, प्राप्ति और रखरखाव शामिल है जो रोजमर्रा के कार्य को आसान बनाते हैं जैसे कि वर्ड प्रोसेसिंग प्रोग्रामों के लिए ग्रामर चेकर।
कंप्यूटर आधारित भाषाविद मानव भाषा संकाय के अनुकरणीय पहलुओं वाले औपचारिक मॉडलों विकसित करते हैं और उन्हें कंप्यूटर प्रोग्राम के रूप में प्रयोग में लाते हैं। ये प्रोग्राम मूल्यांकन और आगे सिद्धांतों के विकास का आधार बनते हैं। भाषाई सिद्धांतों के अलावा संज्ञानात्मक मनोविज्ञान के निष्कर्ष भाषाई सक्षमता का अनुकरण करने में एक महत्वपूर्ण भूमिका निभाते हैं।

अनेक भाषाओं और लिपियों का प्रयोग करने वाले प्रपत्रों में एनकोडिंग संबंधी समस्याओं से निबटने के लिए सर्वोत्तम विधि क्या है?
HTML प्रपत्रों में एनकोडिंग संबंधी समस्याओं से निबटने की सर्वोत्तम विधि आपके सभी पृष्ठों को UTF-8 में तैयार करना है। UTF-8 भाषाओं की सबसे बड़ी रेंज के वर्णों को निरूपित कर सकता है। ब्राउज़र प्रपत्र में शामिल पृष्ठ के अनुसार प्रपत्र के डेटा को उसी एनकोडिंग में वापस भेज देते हैं जिससे कि उपयोगकर्ता अपनी आवश्यकता के अनुसार जिस भाषा और लिपि में चाहे, डेटा की प्रविष्टि कर सके।
ब्राउज़र को यह बताना महत्वपूर्ण है कि प्रपत्र का पृष्ठ UTF-8 में है। अपने पृष्ठ की एनकोडिंग के बारे में ब्राउज़र को बताने के कई तरीके हैं। यह किसी भी मामले में महत्वपूर्ण है, लेकिन पृष्ठ में US-ASCII के बाहर कोई भी वर्ण अपने आप शामिल नहीं होता है, लेकिन आपके उपयोगकर्ता अन्य अक्षरों को टाइप कर सकते हैं।
उस लिपि के लिए यह एक अच्छा विचार हो सकता है जो प्रपत्र के डेटा को यह जांच करने के लिए प्राप्त करता है कि वापस किया गया डेटा वास्तव में UTF-8 का उपयोग करता है (कुछ गलत हो जाने के मामले में जैसे कि उपयोगकर्ता ने एनकोडिंग को बदल दिया हो)। इसकी जांच इसलिए संभव है क्योंकि UTF-8 में एक बहुत ही विशिष्ट बाइट-पैटर्न है जो किसी भी अन्य एनकोडिंग में नहीं देखा जाता है। अगर गैर UTF-8 डेटा प्राप्त होता है तो एक त्रुटि संदेश वापस भेजा जाना चाहिए।

स्थानीयकरण

सॉफ्टवेयर स्थानीयकरण क्या है?
सॉफ्टवेयर स्थानीयकरण एक लक्षित बाजार की भाषाई, सांस्कृतिक और तकनीकी आवश्यकताओं के लिए एक सॉफ्टवेयर उत्पाद को अपनाने की प्रक्रिया है। यह प्रक्रिया श्रम-उन्मुख है और इसमें विकास टीमों से अक्सर काफी समय की आवश्यकता होती है।

अंतरराष्ट्रीयकरण क्या है?
अंतरराष्ट्रीयकरण की परिभाषाओं में भिन्नता है। यह W3C अंतरराष्ट्रीयकरण गतिविधि सामग्री के साथ उपयोग के लिए एक उच्च-स्तरीय कार्यकारी परिभाषा है। कुछ लोग उसी अवधारणा को देखने के लिए अन्य शब्दों जैसे कि 'वैश्वीकरण' का उपयोग करते हैं।
अंतरराष्ट्रीयकरण एक ऐसे उत्पाद, एप्लिकेशन या दस्तावेज सामग्री की डिजाइन और निर्माण है जो लक्षित व्यक्तियों के लिए आसान स्थानीयकरण को सक्षम बनाता है जिनमें संस्कृति, क्षेत्र या भाषा के मामले में भिन्नता होती है। अंतरराष्ट्रीयकरण को अक्सर "i18n" लिखा जाता है जहां 18 अंग्रेजी दुनिया में 'i' और 'n' के बीच अक्षरों की संख्या है।

किसी भी उत्पाद का स्थानीयकरण क्यों करें?
स्थानीयकरण या L10N किसी उत्पाद या सामग्री को एक विशिष्ट स्थान के लिए अपनाने की प्रक्रिया है। अनुवाद उन कई सेवाओं में से एक है जिससे स्थानीयकरण प्रक्रिया पूरी होती है। इसलिए अनुवाद के अलावा स्थानीयकरण प्रक्रिया में लक्षित बाजारों के लिए ग्राफिक्स को अनुकूलित करना, अनुवादित टेक्स्ट को फिट करने के लिए सामग्री के लेआउट को बदलना, स्थानीय मुद्राओं में रूपांतरित करना, तिथियों, पतों, और फोन नंबरों के लिए उपयुक्त प्रारूप का इस्तेमाल करना, स्थानीय नियमों का पालन करना और अन्य शामिल है। इसका लक्ष्य एक ऐसा उत्पाद प्रदान करना है जो लक्षित बाजार के लिए निर्मित होने का स्वरूप और एहसास दे सके जिससे स्थानीय संवेदनशीलताओं को समाप्त या कम से कम किया जा सके।

ऐसे XML दस्तावेज़ प्रकार बनाने के लिए क्या दिशानिर्देश हैं जिसे स्थानीयकृत करना आसान हो?
W3C IT कार्यकारी समूह इन दिशानिर्देशों को तैयार करने का काम कर रहा है। दिशानिर्देशों के कुछ मुख्य पहलू निम्नलिखित हैं:
नुवाद योग्य डेटा के लिए विशेषताओं का उपयोग करने से बचें।
पने तत्वों की भाषा को निर्दिष्ट करने के लिए एक तरीका बताएँ और इसके लिए xml:lang का उपयोग करें।
स सामग्री को परिसीमित करने के लिए विशिष्ट तत्व बताएं जो एक बाहरी स्रोत से आता है (जैसे कि किसी संसाधन फ़ाइल से प्राप्त संदेश या प्रांप्ट)।
नुवाद योग्य के तत्वों के लिए आईडी की एक प्रणाली प्रदान करें।
पने तत्वों का नामकरण करते समय यह विचार करें कि उनका उद्देश्य क्या है, ना कि आप उनकी सामग्री की रेंडरिंग की कल्पना कैसे करते हैं। उदाहरण के लिए: अगर किसी टेक्स्ट रन पर जोर देने के लिए एक तत्व का उपयोग किया जाता है तो इसे <emph> बताएँ ना कि <बोल्ड> ।

क्या निर्देशों के स्थानीयकरण का एक मानक सेट है?
हाँ और नहीं। एक ऐसा मानक है जिसे अंतरराष्ट्रीयकरण टैग सेट (ITS) कहा जाता है जो एक W3C सिफारिश है। जबकि ITC स्थानीयकरण निर्देशों के लिए एक सटीक मानक नहीं है, इसकी कुछ सुविधाएं इसमें आपकी मदद कर सकती हैं। ITS का इस्तेमाल किसी भी XML दस्तावेज में एक नामस्थान के रूप में किया जा सकता है।

क्या आपके पास सामग्री के संदर्भ की समीक्षा के लिए सर्वोत्तम प्रथाओं पर कोई जानकारी है?
स्थानीयकृत सामग्री के संदर्भ की समीक्षा स्थानीयकरण की प्रक्रिया में एक महत्वपूर्ण कदम है। सामान्य रूप में स्थानीयकरणकर्ताओं को उतनी अधिक से अधिक जानकारी प्रदान की जानी चाहिए जो यथोचित रूप से संभव है और समीक्षकों को अपने अंतिम संदर्भ में सभी सामग्रियों को देखने में सक्षम होना चाहिए। अगर सभी संदर्भ प्रदान करना संभव नहीं हो तो आपको हर उस चीज का एक विवरण देना चाहिए जो उपलब्ध नहीं है जिससे कि स्थानीयकरणकर्ता और समीक्षक अपने काम को बेहतर ढंग से समझ सकें।

स्थानीयकरण परीक्षण क्या है?
एक एप्लिकेशन को स्थानीयकृत करने के बाद बाजार में जारी करने से पहले इसका परीक्षण अवश्य किया जाना चाहिए। जबकि कुछ लोगों को चिंता हो सकती है कि परीक्षण के कारण उत्पाद को बाजार में लाने में अधिक समय लगता है, यह उल्लेखनीय है कि किसी समस्या को सही करने की लागत समय के साथ नाटकीय रूप से बढ़ जाती है। स्थानीयकरण और भाषाई परीक्षण के बीच एक मामूली लेकिन महत्वपूर्ण अंतर है। यहां सरल परिभाषाएं दी गयी हैं:
स्थानीयकरण परीक्षण सही कार्यक्षमता, उपस्थिति और स्थानीयकृत उत्पाद की पूर्णता पर ध्यान केंद्रित करता है।
भाषाई परीक्षण यह सुनिश्चित करने का ख्याल रखता है कि सही भाषा के नियमों का इस्तेमाल किया जा रहा है और यह सही संदर्भ के भाषाई उपयोग पर ध्यान केंद्रित करता है।

परीक्षण को अक्सर केवल स्थानीय कृत सॉफ्टवेयर के लिए ही आवश्यक माना गया है। लेकिन, वास्तव में यह सुनिश्चित करने के लिए सभी स्थानीय कृत सामग्री का परीक्षण किया जाना चाहिए कि यह सही है। चाहे स्थानीय कृत सामग्री एशियाई लोगों के लिए उपयुक्त सॉफ्टवेयर संस्करण को संचालित करता है या चाहे यह एक ऐसे बॉक्स के किनारे दिखाई देता है जिसमें कंपनी का उत्पाद शामिल है या यह एक ऑनलाइन विज्ञापन है, यह कंपनी का प्रतिनिधित्व करता है और इसे मूल सामग्री के समान ही महत्वपूर्ण समझा जाना चाहिए।
स्थानीयकरण परीक्षण मुख्य रूप से उपयोगकर्ता इंटरफ़ेस पर ध्यान केंद्रित करता है, लेकिन यह इससे अधिक दूर तक जाता है, वास्तव में स्थानीयकरण प्रक्रिया सॉफ्टवेयर में गंभीर कार्य क्षमता संबंधी समस्याएं पैदा कर सकता है। इस तरह की समस्याएं सिस्टम के कुछ रूप्भेदों के अत्यधिक-अनुवाद के कारण उत्पन्न हो सकती हैं जो लक्षित उपयोगकर्ता के लिए अदृश्य होता है और इनका अनुवाद नहीं किया जाना चाहिए, या संशोधित कार्यशीलता जिसे स्थानीय बाजार की अपेक्षाओं को पूरा करने के लिए कभी-कभी उत्पाद में कार्यान्वित किया जाना आवश्यक होता है। लेटर विजार्ड और स्पेल चेकर इसके विशिष्ट उदाहरण हो सकते हैं।
स्थानीयकरण परीक्षण के लिए ऐसे परिवेश पर इंस्टॉल किये गए उत्पाद के स्रोत एवं लक्ष्य भाषा दोनों की आवश्यकता होती है जिसे एक आम उपयोगकर्ता इस्तेमाल करता है। इसलिए ऑपरेटिंग सिस्टम, भाषा, क्षेत्रीय सेटिंग्स तथा अन्य के सही संस्करण पर ध्यान दिया जाना चाहिए। इस परीक्षण के लिए प्रयुक्त बिल्ड्स को उत्पाद विकास के प्रारंभिक चरण में कार्यात्मकता स्थानीयकरण प्रारंभ के संदर्भ में भी मेल खाना चाहिए जहां सभी सुविधाएं अभी तक क्रियान्वित नहीं की गई हैं, और बेमेल स्थानीयकृत एवं अंग्रेजी बिल्ड्स अपेक्षित कार्यात्मकता परीक्षण की संगतता नहीं प्रदान कर सकते हैं।

सॉफ्टवेयर स्थानीयकरण पारंपरिक दस्तावेज़ अनुवाद से कैसे भिन्न होता है?
सॉफ्टवेयर स्थानीयकरण किसी सॉफ्टवेयर या वेब उत्पाद का अनुवाद और अनुकूलन है जिसमें सॉफ्टवेयर तथा सभी संबंधित उत्पादों का दस्तावेजीकरण शामिल है। परंपरागत अनुवाद आम तौर पर एक ऐसी गतिविधि है जो स्रोत दस्तावेज़ को अंतिम रूप दिए जाने के बाद पूरी की जाती है। दूसरी ओर सॉफ्टवेयर स्थानीयकरण प्रोजेक्ट अक्सर स्रोत उत्पाद के विकास के समानांतर चलता है ताकि सभी भाषा संस्करणों का एक साथ प्रेषण सक्षम किया जा सके। अनुवाद स्थानीयकरण प्रोजेक्ट की केवल एक गतिविधि है, इसमें अन्य कार्य भी शामिल होते हैं जैसे प्रोजेक्ट प्रबंधन, सॉफ्टवेयर इंजीनियरिंग, टेस्टिंग और डेस्कटॉप पब्लिशिंग।

मानक सॉफ्टवेयर स्थानीयकरण प्रक्रिया क्या है?
एक ऐसा सॉफ्टवेयर उत्पाद जिसे अच्छी तरह से स्थानीयकृत किया गया है उसमें लक्षित बाजार के लिए मूल रूप से लिखे और बनाए गए उत्पाद का स्वरूप और एहसास मिलता है। यहां सिर्फ कुछ ऐसे बिंदु दिए गए हैं जिनके साथ-साथ भाषा पर एक सॉफ्टवेयर उत्पाद या वेबसाइट को प्रभावशाली ढंग से स्थानीयकृत करने के क्रम में विचार किया जाना चाहिए: इकाइयों को मापना, नंबर का प्रारूप, पते का प्रारूप, समय और तिथि का प्रारूप (लंबा और छोटा), कागज का आकार, फॉन्ट, डिफॉल्ट फॉन्ट चयन, केस का अंतर, अक्षरों का सेट, छंटाई, शब्द को अलग करना और हाइफन का प्रयोग करना, स्थानीय नियम, कॉपीराइट के मामले, डेटा संरक्षण, भुगतान की विधि, मुद्रा रूपांतरण और कर (टैक्स)।

मानक

इस्की (ISCII) क्या है?
भारतीय मानक ब्यूरो ने सभी कंप्यूटर और संचार मीडिया में इस्तेमाल के लिए एक मानक तैयार किया है जिसे ISCII (सूचना के आदान-प्रदान के लिए भारतीय लिपि कोड) के रूप में जाना जाता है जो 7 या 8 बिट के अक्षरों का उपयोग की अनुमति देता है। एक 8 बिट के परिवेश में निचले 128 अक्षर वही हैं जो IS10315:1982 (ISO 646 IRV) में परिभाषित हैं। सूचना के आदान-प्रदान के लिए 7 बिट कोडित अक्षरों के सेट को ASCII वर्ण सेट के रूप में भी जाना जाता है। शीर्ष 128 अक्षर प्राचीन ब्राह्मी लिपि पर आधारित सभी भारतीय लिपियों का समर्थन करते हैं। एक 7 बिट के परिवेश में ISCII कोड सेट के आमंत्रण के लिए नियंत्रण कोड SI एसआई का इस्तेमाल किया जा सकता है और ASCII कोड सेट के पुनःचयन के लिए नियंत्रण कोड SO का इस्तेमाल किया जा सकता है।
भारत में 22 आधिकारिक रूप से मान्यता प्राप्त भाषाएं हैं। परसो-अरबी लिपियों के अलावा, भारतीय भाषाओं के लिए इस्तेमाल होने वाली अन्य सभी 10 लिपियों की उत्पत्ति प्राचीन ब्राह्मी लिपि से हुई है और इनकी एक आम फोनेटिक संरचना है जिसे एक आम वर्ण सेट संभव होता है। भारतीय लिपि के विभिन्न फॉन्ट और प्रदर्शन की विशेषताओं के चयन के लिए एक विशेषता प्रणाली उपलब्ध करायी गई है। एक विस्तार प्रणाली ISCII कोड के साथ अन्य वर्णों के उपयोग की अनुमति देती है। ISCII कोड तालिका ब्राह्मी आधारित भारतीय लिपियों में आवश्यक सभी वर्णों का एक सुपरसेट है। सुविधा के लिए, आधिकारिक लिपि देवनागरी की वर्णमाला का मानक में इस्तेमाल किया गया है। भारतीय मानक ब्यूरो द्वारा जारी मानक संख्या IS1319:1991 सूचना के परस्पर आदान-प्रदान के लिए नवीनतम भारतीय मानक है और भारतीय भाषाओं में आईटी उत्पादों के विकास में इसे व्यापक रूप से इस्तेमाल किया जा रहा है।

ACII लिपि कोड क्या है?
सूचना के आदान-प्रदान के लिए अक्षरात्मक संहिता (जिसका उच्चारण "Ae-Kee के रूप में किया जाता है)। यह एक 8-बिट कोड है जिसमें निचले आधे भाग में ASCII वर्ण सेट हैं। ऊपरी आधे भाग में ACII वर्ण हैं। PC-ACII लिपि कोड ACII लिपि कोड का संस्करण है जहां अक्षरों को IBM PC के अनुकूलन के लिए ऊपरी आधे भाग में विभाजित किया गया है। यह विभाजन लाइन खींचने वाले अक्षरों को बनाए रखने के लिए आवश्यक है जो वर्ण सेट ऊपरी-आधे भाग के बीच में स्थित हैं।

यूनिकोड (UNICODE) क्या है?
यूनिकोड स्टैंडर्ड एक 16-बिट का भंडारण एनकोडिंग मानक है जिसका इस्तेमाल उद्योग द्वारा अंतरराष्ट्रीय स्तर पर बहुभाषी सॉफ्टवेयर के विकास के लिए किया जा रहा है। यूनिकोड मानक एक सार्वभौमिक अक्षर एनकोडिंग मानक है जिसका इस्तेमाल कंप्यूटर प्रोसेसिंग के लिए टेक्स्ट के निरूपण में किया जाता है। यूनिकोड मानक दुनिया की लिखित भाषाओं के लिए इस्तेमाल किये जाने वाले सभी अक्षरों की एनकोडिंग की क्षमता प्रदान करता है। यूनिकोड मानक अक्षरों और उनके उपयोग के बारे में जानकारी प्रदान करते हैं। यूनिकोड मानक प्रत्येक अक्षर को एक विलक्षण संख्यात्मक मान और नाम असाइन करता है। यूनिकोड मानक और ISO10646 मानक UTF-16 नामक एक विस्तार प्रणाली प्रदान करता है जो अधिक से अधिक दस लाख एनकोडिंग की अनुमति देता है।

अक्षर एनकोडिंग के लिए यूनिकोड की नीति क्या है?
यूनिकोड कंसोर्शियम ने अक्षर एनकोडिंग के स्थायित्व के संदर्भ में कुछ विशेष नीतियां निर्धारित की हैं जिनके द्वारा किसी भी अक्षर को मिटाया नहीं जा सकता है या अक्षर के नाम में कोई परिवर्तन नहीं किया जा सकता है, केवल व्याख्या को अपडेट करना ही संभव है
1। एक बार किसी अक्षर की एनकोडिंग कर लिए जाने के बाद इसे हटाया या स्थानांतरित नहीं किया जाएगा।
2। एक बार किसी अक्षर की एनकोडिंग कर लिए जाने के बाद उसके अक्षर नाम को नहीं बदला जाएगा।
3। एक बार किसी अक्षर की एनकोडिंग कर लिए जाने के बाद इसकी कैनोनिकल संयोजी श्रेणी और लेखवाचन (कैननीकल हो या अनुकूलता) को उस तरीके से बदला नहीं जाएगा जो सामान्यकरण को प्रभावित करे।
4। एक बार जब किसी अक्षर की एनकोडिंग हो जाने के बाद भी इसके गुणों को अभी भी बदला जाना बाकी रहता है लेकिन उस तरीके से नहीं जिससे कि अक्षर की बुनियादी पहचान में बदलाव हो जाए।
5। यूनिकोड वर्ण डेटाबेस में कुछ गुण संबंधी मानों की संरचना बदली नहीं जाएगी।

यूनिकोड और ISCII कोड के बीच बुनियादी अंतर क्या है?
यूनिकोड एक 16 बिट के एनकोडिंग का इस्तेमाल करता है जो 65000 से अधिक वर्णों (65536)। के लिए कोड बिंदु प्रदान करता है। यूनिकोड मानक प्रत्येक वर्ण को एक विलक्षण संख्यात्मक मान और नाम असाइन करता है। यूनिकोड मानक दुनिया की लिखित भाषाओं के लिए इस्तेमाल किए जाने वाले सभी वर्णों को एनकोड करने की क्षमता प्रदान करता है। ISCII 8 बिट कोड का इस्तेमाल करता है जो 7 बिट ASCII कोड का एक विस्तार है जिसमें 10 भारतीय लिपियों के लिए आवश्यक बुनियादी वर्णमाला शामिल है जो ब्राह्मी लिपि से उत्पन्न हुआ है। भारत में 22 आधिकारिक रूप से मान्यता प्राप्त भाषाएं हैं। फारसी-अरबी लिपियों के अलावा, भारतीय भाषाओं के लिए प्रयुक्त अन्य सभी 10 लिपियां प्राचीन ब्राह्मी लिपि से विकसित हुई हैं और उनकी एक आम फोनेटिक संरचना है जिससे एक आम वर्ण सेट बनाना सेट संभव हुआ है। ISCII कोड तालिका ब्राह्मी आधारित भारतीय लिपियों में आवश्यक सभी वर्णों का एक सुपर सेट है। सुविधा के लिए आधिकारिक लिपि देवनागरी की वर्णमाला का प्रयोग मानक में किया गया है ।

क्या ISO/IEC 10646 और यूनिकोड एक सामान चीजें हैं?
नहीं। हालांकि वर्ण कोड और एनकोडिंग रूप यूनिकोड और ISO / IEC 10,646 के बीच समकालिक (सिंक्रनाइज़) हैं, यूनिकोड मानक कार्यान्वयन पर अतिरिक्त प्रतिबंध लगाता है ताकि यह सुनिश्चित किया जा सके कि ये सभी प्लेटफार्मों और एप्लीकेशनों पर वर्णों के साथ एक सामान आचरण करते हैं। यह दिशा में यह कार्यात्मक वर्ण विनिर्देशों, वर्ण डेटा, लघुगणक और पर्याप्त पृष्ठभूमि सामग्री के एक व्यापक सेट की आपूर्ति करता है जो ISO/IEC 10646 में मौजूद नहीं है।

W3C भारत कार्यालय की क्या भूमिका क्या है?
W3C भारत कार्यालय भारत में W3C गतिविधियों का शीर्ष निकाय है और यह हितधारकों एवं W3C कंसोर्शियम के बीच द्विपक्षीय दिशात्मक संचार के लिए एकल विंडो विंडो के रूप में कार्य करेगा। W3C भारत कार्यालय W3C मानकों को बढ़ावा देता है और उनका प्रसार करता है। यह हितधारकों के परामर्श के माध्यम से विशिष्ट मानकों के लिए राष्ट्रीय सिफारिशें उत्पन्न करता है। अधिक जानकारी के लिए, कृपया देखें http://www.w3cindia.in/

WCAG 2।0 मानक क्या है?
The Web Content Accessibility Guidelines (WCAG) 2.0 documents explain how to make Web content accessible to people with disabilities. Web "content" generally refers to the information in a Web page or Web application, including text, images, forms, sounds, and such. For further information, Please refer http://www.w3.org/TR/WCAG20/

इंस्क्रिप्ट कीबोर्ड लेआउट क्या है?
इंस्क्रिप्ट (इंडियन स्क्रिप्ट) कंप्यूटर पर इंडिक टेक्स्ट की प्रविष्टि के लिए एक स्पर्श टाइपिंग कीबोर्ड लेआउट योजना है। यह कीबोर्ड लेआउट इंडिक कम्प्यूटिंग के लिए भारत सरकार द्वारा मानकीकृत है। इंस्क्रिप्ट में सभी भारतीय लिपियों के लिए आम लेआउट मौजूद है। भारतीय भाषाओं और सभी दस भारतीय लिपियों में डेटा प्रविष्टि के लिए, डिफ़ॉल्ट विकल्प INSCRIPT (इंस्क्रिप्ट) (इंडियन स्क्रिप्ट) है। यह लेआउट मानक 101 कीबोर्ड का उपयोग करता है। इस ओवरले किसी भी वर्तमान अंग्रेजी कीबोर्ड पर फिट बैठता है। वर्णों की मैपिंग ऐसी है कि यह सभी भारतीय भाषाओं (बाएं से दाएं लिखी जाने वाली) के लिए एक समान रहता है। ऐसा इस तथ्य के कारण है कि भारतीय भाषाओं का मूल वर्ण सेट एक समान है। इंस्क्रिप्ट कीबोर्ड अब विंडोज (2000, XP, विस्टा), लिनक्स (Linux) और मैकिंतोश (Macintosh) सहित सभी नए ऑपरेटिंग सिस्टम में सन्निहित रहता है।

टूल्स एवं तकनीकें

ओपन टाइप फ़ॉन्ट्स क्या है?
ओपन टाइप माइक्रोसॉफ्ट कार्पोरेशन का एक पंजीकृत ट्रेडमार्क है। व्यापक उपलब्धता और टाइपोग्राफिक लचीलापन के साथ-साथ दुनिया की सभी लेखन प्रणालियों के विविध व्यवहार से निपटने के प्रावधानॉन के कारण ओपन टाइप फ़ॉन्ट आज आम तौर पर प्रमुख कंप्यूटर प्लेटफार्मों पर इस्तेमाल किया जा रहा है। ओपन टाइप समर्थन तीन प्रकार के होते हैं: बुनियादी ओपन टाइप समर्थन (फ़ॉन्ट किसी भी अन्य फ़ॉन्ट की तरह काम करते हैं); यूनिकोड का समर्थन (विस्तारित भाषा वर्ण सेट तक पहुंच); और ओपन टाइप लेआउट समर्थन (उन्नत टाइपोग्राफिक सुविधाओं के लिए समर्थन)। कुछ ऑपरेटिंग सिस्टम (या ऑपरेटिंग सिस्टम के विस्तार) इनमें से एक या एक से अधिक के लिए समर्थन प्रदान कर सकते हैं लेकिन यूनिकोड और लेआउट सुविधाओं के समर्थन के लिए यह आवश्यक है कि यह कार्यशीलता प्रदान करने के लिए एक एप्लिकेशन प्रोग्राम किया जाए। OTF और OFF तकनीकी रूप से पर्याय हैं।

ट्रू टाइप फ़ॉन्ट्स क्या है?
ट्रूटाइप एक आउटलाइन फ़ॉन्ट मानक है जिसे मूल रूप से 1980 के दशक के उत्तरार्ध में एप्पल कंप्यूटर द्वारा एडोब के पोस्टस्क्रिप्ट में इस्तेमाल किए जाने वाले टाइप 1 फ़ॉन्ट्स के एक प्रतियोगी के रूप में विकसित किया गया था। ट्रूटाइप ने फॉन्ट डेवलपरों को इसके लिए एक उच्च स्तरीय नियंत्रण प्रदान किया कि उनके फॉन्ट विशेष पिक्सलों के दाएं नीचे, विभिन्न आकारों में कैसे प्रदर्शित किए जाते हैं (आजकल इस्तेमाल की जा रही व्यापक भिन्नता वाली रेंडरिंग तकनीकों के साथ पिक्सल स्तरीय नियंत्रण अब निश्चित नहीं रह गया है)।

डायनामिक फॉन्ट क्या हैं?
डायनामिक फोंट पारदर्शी रूप से ग्राहक पक्ष पर विंडोज ट्रूटाइप फॉन्ट्स वितरित करने के लिए इस्तेमाल की जाने वाली तकनीक है। यदि उपयोगकर्ता के पास भारतीय भाषाओं में पृष्ठों को देखने की सुविधा उपलब्ध है तो फ़ॉन्ट ग्राहक को EOT तथा PFR प्रारूप में दिया जा सकता है।

जब मैंने एक रंगीन पृष्ठभूमि में डायनामिक फ़ॉन्ट का उपयोग किया, टेक्स्ट के आसपास का रंग पृष्ठभूमि के बाकी हिस्सों के रंग से अलग था जो केवल एक नेटस्केप ब्राउज़र में होता है।
कम्युनिकेटर 4।04 और पहले के संस्करणों के साथ लगभग 256 प्रणालियों में एक स्पष्ट रूप से घोषित पृष्ठभूमि रंग के साथ टेक्स्ट प्रदर्शित करने में परेशानी होती है। इस समस्या को कम्युनिकेटर और नेविगेटर के संस्करण 4।05 में ठीक कर लिया गया है। नेटस्केप के साथ यह जांच कर देख लें कि आपके सिस्टम के लिए सॉफ्टवेयर का एक अपडेट किया गया संस्करण उपलब्ध है या नहीं। आपको यह भी देखने की इच्छा हो सकती है कि क्या आप अपने डिस्प्ले एडाप्टर को 16 बिट रंग (65,336 रंगों) या इससे अधिक पर सेट कर सकते हैं। अपने पृष्ठों की रचना करते समय 256 रंग प्रणालियों पर सर्वोत्तम परिणामों के लिए हम निम्नलिखित नामित पृष्ठभूमि रंगों में से किसी एक का उपयोग करने की सिफारिश करते हैं: एक्वा, काला, नीला, स्यान, फूहड़, भूरा, हरा, लाइम, मैजेंटा, गहरा लाल, नेवी, जैतून, बैंगनी, लाल, चांदी, चैती, सफेद, पीला, आप आरजीबी के समकक्ष का उपयोग कर सकते हैं जैसे कि: # 000000 (काला), # FF0000 (लाल), # 00FF00 (हरा), # 0000FF (नीला), # FFFF00 (पीला), आदि।

उन ब्राउज़रों के लिए अपने डायनामिक फॉन्ट दस्तावेजों के साथ में क्या कर सकता हूँ जो डायनामिक फॉन्ट्स का समर्थन नहीं करते हैं?
आप फ़ॉन्ट फेस (FONT FACE) टैग और कैस्केडिंग स्टाइल शीट (CSS) में वैकल्पिक फ़ॉन्ट्स निर्दिष्ट कर सकते हैं। आप उन फॉन्ट्स का इस्तेमाल कर सकते हैं जो ज्यादातर ऑपरेटिंग सिस्टम में आसानी से उपलब्ध हैं। सबसे आम फ़ॉन्ट हैं: विंडोज मैक यूनिक्स (XWindows) सैंस सेरिफ़ एरिअल हेलवेटिका हेलवेटिका सेरिफ़ टाइम्स न्यू रोमन टाइम्स टाइम्स फिक्सड पिच कूरियर न्यू कूरियर कूरियर इन फ़ॉन्ट फेस (FONT FACE), उदाहरण के लिए, आप वैकल्पिक फ़ॉन्ट घोषणा इस प्रकार करेंगे: यदि पहला फ़ॉन्ट उपलब्ध नहीं है तो दूसरा फ़ॉन्ट उपयोग किया जाता है, और इसी प्रकार। जहाँ तक हम जानते हैं, जो वैकल्पिक फ़ॉन्ट्स आप सूचीबद्ध कर सकते हैं उसकी संख्या की कोई सीमा नहीं है। तीन से अधिक संभवतः व्यावहारिक नहीं है। कैस्केडिंग स्टाइल शीट्स के लिए एक सीएसएस (CSS) फ़ॉन्ट परिवार टैग में वैकल्पिक फ़ॉन्ट निर्दिष्ट करने पर सलाह के लिए अपने HTML संपादक के दस्तावेजों को ध्यान से देखें।

अनुसंधान क्षेत्र

मशीनी अनुवाद क्या है?
मशीन अनुवाद को "स्वचालित अनुवाद" या सीधे तौर पर अनुवाद सॉफ्टवेयर कहा जाता है। मशीनी अनुवाद सॉफ्टवेयर प्रत्येक भाषा की व्याकरण संबंधी संरचना को ध्यान में रखते हुए और स्रोत भाषा (अनुवाद किया जाने वाला टेक्स्ट) की व्याकरण संबंधी संरचना को लक्ष्य भाषा (अनुवादित टेक्स्ट) में स्थानांतरित करने के नियमों का उपयोग करते हुए एक प्राकृतिक भाषा के टेक्स्ट का दूसरी प्राकृतिक भाषा में अनुवाद करता है। मशीनी अनुवाद कानूनी या साहित्यिक रचना जैसे भारी मांग वाले एप्लिकेशनों के लिए मानव अनुवादक की जगह नहीं ले सकता है ना ही इसकी अपेक्षा की जाती है। कई कंपनियां जो खुद को MT प्रदाताओं के रूप में प्रस्तुत करती हैं, वे वास्तव में "शब्द से शब्द" अनुवाद को बेच रही हैं। यह सुनिश्चित कर लें कि आपको क्या प्राप्त हो रहा है इसकी जानकारी आपको है और उन्नयन पथ तथा एकीकरण के बारे में अधिक से अधिक सवाल पूछें।

HWR क्या है?
हस्तलिपि पहचान (HWR) वह सॉफ्टवेयर प्रक्रिया है जिसके द्वारा हस्तलिखित अक्षरों का विश्लेषण किया जाता है और उन्हें कंप्यूटर टेक्स्ट अक्षरों के रूप में प्रदर्शित किया जाता है।

शब्द से शब्द अनुवाद क्या है?
शब्द से शब्द अनुवाद में उस प्रत्येक शब्द या वाक्यांश का अनुवाद किया जाता है जो इसकी समझ में नहीं आता है, लेकिन यह व्याकरण को ध्यान में नहीं रखता है। शब्द से शब्द अनुवादक आम तौर पर स्वचालित या मशीनी अनुवादकों की तरह प्रभावशाली नहीं होते हैं, लेकिन फिर भी काफी उपयोगी हो सकते हैं, उदाहरण के लिए अनुवाद सहायता के रूप में।

मैं अपने कंप्यूटर से पत्रों और अन्य कागजी दस्तावेजों का अनुवाद कैसे कर सकता हूं?
आप ऑप्टिकल कैरेक्टर रिकॉग्निशन (ओसीआर) सॉफ्टवेयर का इस्तेमाल कर इसे स्कैन कर सकते हैं और उसके बाद इसका अनुवाद करने के लिए एक अनुवाद प्रोग्राम का उपयोग कर सकते हैं। आपको विशेष ओसीआर सॉफ्टवेयर की आवश्यकता हो सकती है जिसे स्रोत भाषा को पहचानने के लिए डिज़ाइन किया गया है। आप इसे अपने कंप्यूटर में फिर से टाइप भी कर सकते हैं, हालांकि यह उस स्थिति में अव्यावहारिक हो सकता है जब आप भाषा के साथ परिचित नहीं हैं या आपके पास उपयुक्त उपकरण नहीं है जैसे कि बहुभाषी शब्द संसाधन सॉफ्टवेयर, विशेष कीबोर्ड, आदि।

मैं अनुवाद सॉफ्टवेयर से अनुवाद की कैसी गुणवत्ता की उम्मीद कर सकता हूं?
यह अन्य कारकों के अलावा अनुवाद प्रोग्राम, अनुवाद के प्रकार, अनुवाद किए जाने वाले दस्तावेज़ के व्याकरण, एक विशेषता शब्दकोश या शब्दावली का उपयोग जैसे कई कारकों पर निर्भर करता है। अनुवाद प्रोग्राम के इंजन की गुणवत्ता और इसके शब्दकोश का आकार आम तौर पर सबसे महत्वपूर्ण कारक है। आम तौर पर आप ड्राफ्ट-गुणवत्ता के अनुवादों की उम्मीद कर सकते हैं: परिणाम को आसानी से समझा जा सकता है, लेकिन व्यावसायिक उपयोग के लिए संपादन और सुधार की आवश्यकता होगी। इसके अलावा कानूनी या साहित्यिक रचना जैसे अधिक मांग वाले या मिशन संबंधी महत्वपूर्ण एप्लिकेशनों के लिए एक पेशेवर अनुवादक या फर्म का इस्तेमाल किया जाना चाहिए।

क्या मैं वेब पृष्ठों और ई-मेल का अनुवाद कर सकता हूं?
हाँ! हमारे द्वारा बेचे जाने वाले कई प्रोग्राम आपको वेब पेजों और/या ई-मेल का सीधे अनुवाद करने में सक्षम बनाते हैं। अन्य प्रोग्रामों के मामले में आपको जानकारी का अनुवाद करने से पहले इसे अनुवाद प्रोग्राम में कट और पेस्ट करने की आवश्यकता होती है।

ओसीआर (OCR) क्या है?
ऑप्टिकल कैरेक्टर रिकॉग्निशन (ओसीआर) मुद्रित सामग्रियों को टेक्स्ट या वर्ड प्रोसेसिंग फाइलों में परिवर्तित करने की एक प्रक्रिया है ताकि इन्हें आसानी से संपादित और भंडारित किया जा सके।

ओसीआर (OCR) के लिए सबसे अच्छा स्कैनिंग रिजोल्यूशन क्या है?
अधिकांश ओसीआर इंजन 300 डीपीआई छवियों के लिए अनुकूलित हैं। वास्तविक 300 dpi ऑप्टिकल रिजोल्यूशन में स्कैन करना बहुत ही महत्वपूर्ण है। एक कम रिजोल्यूशन पर स्कैनिंग करना और उसके बाद डीपीआई को बढाने के लिए स्कैनर सॉफ़्टवेयर का उपयोग करना ओसीआर के लिए कोई काम का नहीं है। उन मामलों में जहां किसी छवि पर वर्णों का फ़ॉन्ट आकार बहुत छोटा (4 या उससे कम का प्वाइंट साइज) होता है, 400 डीपीआई पर छवियों की स्कैनिंग वर्ण की पहचान में सुधार कर सकता है। इसके लिए फिर से एक स्कैनर की आवश्यकता होती है जो वास्तविक 400 डीपीआई ऑप्टिकल रिजोल्यूशन का समर्थन करता है।

प्रपत्र-आधारित ओसीआर और फुल-टेक्स्ट ओसीआर के बीच क्या अंतर है?
एक आम तौर के प्रपत्र में एक संरचित पृष्ठ लेआउट होता है जिसमें दोनों स्थिर और परिवर्तनीय दोनों तरह की जानकारी होती है। यदि प्रपत्र पर परिवर्तनीय जानकारी को मशीन मुद्रित अक्षरों का उपयोग कर भरा जाता है तो प्रपत्र एक प्रपत्र-आधारित ओसीआर का उम्मीदवार होता है। यदि प्रत्येक पृष्ठ जिसका आप ओसीआर करना चाहते हैं, हमेशा एक ही प्रारूप (यानी, हर पृष्ठ पर टेक्स्ट का लेआउट एक ही होता है) हो तो आप एक क्षेत्र "टेम्पलेट" बना सकते हैं जिसे ओसीआर उस डेटा को निकाल सके जिसकी आपको तलाश है। फुल-टेक्स्ट ओसीआर का मतलब सिर्फ यह है कि आप पहले की जोनिंग के बिना सम्पूर्ण पृष्ठ का ओसीआर करना चाहते हैं। भाव में सम्पूर्ण पृष्ठ को एक एकल क्षेत्र के सूप में समझा जाता है। हालांकि ऐसे मामले भी हैं जब फुल टेक्स्ट परिवेश में भी जोनिंग बहुत उपयोगी होता है।

(साभार- Technology Development for Indian Languages
http://tdil.meity.gov.in/Research_Effort.aspx )

यह ब्लॉग खोजें

राजभाषामानस Rajbhashamanas

भारतीय भाषाओं के लिए प्रौद्योगिकी

टिप्पणियाँ

एक टिप्पणी भेजें

लोकप्रिय पोस्ट

अनुवादिनी

“उच्चारण और भाषा का संबंध”