কুইক লিঙ্ক : মুজিব বর্ষ | করোনা ভাইরাসের প্রাদুর্ভাব | প্রিয় স্টোর

ইউনিকোড ও মাতৃভাষার ডিজিটাইজেশন

কালের কণ্ঠ এম. মেসবাহউদ্দিন সরকার প্রকাশিত: ১২ মার্চ ২০২২, ১০:৩৮

সমগ্র বিশ্বেই ইংরেজি ভাষায় টাইপ করার ক্ষেত্রে ইংরেজি কি-বোর্ড লে-আউট ব্যবহার করা হয়। ফলে স্থান-কাল-পাত্রভেদে অনায়াসে ইংরেজিতে টাইপ করা ও লেখা ডকুমেন্ট পড়া যায় সহজে; কিন্তু ইংরেজি ছাড়াও পৃথিবীতে অসংখ্য ভাষা আছে। যুক্তরাষ্ট্রভিত্তিক গবেষণা প্রতিষ্ঠান অ্যানথোলগের গবেষণা অনুসারে বর্তমানে পৃথিবীতে ভাষার সংখ্যা প্রায় সাত হাজার। যদিও আগামী শতকে এসব ভাষার অর্ধেকের মৃত্যু ঘটবে এবং এই মুহূর্তে বিশ্বের ৪৭৩টি ভাষা হারিয়ে যাওয়ার তালিকায় আছে। ইংরেজি ভাষার আগ্রাসনের কারণেই এই সংকট। তাদের মতে, যেসব ভাষার লিপি কম্পিউটার রিডেবল নয়, সেসব ভাষাই দ্রুত হারিয়ে যাবে।


গুটেনবার্গের মুদ্রণযন্ত্রের সিসারূপ ভাষা থেকে বর্তমান তথ্য-প্রযুক্তির ভাষারূপ বিশ্লেষণ করলে দেখা যায়, পৃথিবীতে টিকে থাকবে সেই সব ভাষা, যেগুলো প্রযুক্তিবান্ধব। যেসব ভাষার লিখিত রূপ নেই, সেই ভাষাগুলোর বেশির ভাগই এরই মধ্যে পৃথিবী থেকে হারিয়ে গেছে। তাই ভাষাকে প্রযুক্তি উপযোগী করা না গেলে ভাষার সংকোচন ঠেকিয়ে রাখা কষ্টকর হবে। কিন্তু একেক দেশের ভাষার অক্ষর ও সাংকেতিক চিহ্ন আলাদা; যদিও কিছু সাংকেতিক চিহ্ন পৃথিবীব্যাপী একই রকম। এগুলোকে বলা হয় ইমোজি। বিশ্বব্যাপী অগণিত ইমোজি, ভাষালিপি ও সাংকেতিক চিহ্ন আধুনিক কম্পিউটার বা ডিজিটাল ডিভাইসের বোধগম্য করা এবং আঞ্চলিক মাতৃভাষার মাধ্যমে ওই অঞ্চলের মানুষের সঙ্গে তথ্যের আদান-প্রদান করার বিশ্বস্বীকৃত ও সর্বজনীন পদ্ধতি হলো ইউনিকোড।


ইউনিকোড তৈরির আগ পর্যন্ত উদ্ভাবিত আলফানিউমেরিক কোডগুলোতে খুবই অল্পসংখ্যক বর্ণ বা চিহ্ন প্রকাশ করা যেত। আবার কম্পিউটারের আদিকাল থেকে এখন পর্যন্ত প্রচলিত আসকি কোডে ১২৮টি বা ২৫৬টি বর্ণের কোডিং ব্যবস্থা আছে, যা মূলত ইংরেজি ভাষায় ব্যবহৃত সর্বোচ্চ ২৫৬টি বর্ণ ও চিহ্নকে বোঝানোর জন্যই তৈরি করা। অর্থাৎ বোঝা যাচ্ছে যে বিশ্বের বেশির ভাগ ভাষাই আসকি বা অন্যান্য কোড দ্বারা প্রকাশ করা সম্ভব হয় না। আসকি কোডের সব সীমাবদ্ধতাকে দূর করে প্রস্তুত করা হয়েছে ইউনিকোড। এই কোড পৃথিবীর প্রতিটি ভাষার প্রতিটি অক্ষরের জন্য একটি একক সংখ্যা/নম্বর বরাদ্দ/প্রদান করে, সেটা যে প্ল্যাটফর্মের জন্যই হোক, যে প্রগ্রামের জন্যই হোক, আর যে ভাষার জন্যই হোক। এটি ১৬ বিট বা ২ বাইট নিয়ে গঠিত এবং এই কোডের সাহায্যে বর্তমানে ৬৫৫৩৬ (=২১৬)টি অদ্বিতীয় চিহ্নকে নির্দিষ্ট করা যায়। প্রচলিত ভাষার চিহ্ন ছাড়াও যতি বা বিরাম চিহ্ন, অক্ষর সংলগ্ন চিহ্ন (যেমন—বাংলায় হসন্ত), সংগীতশাস্ত্রে ব্যবহৃত চিহ্ন, সাধারণ ও উচ্চতর গণিতের সঙ্গে সম্পর্কিত চিহ্ন, প্রকৌশলগত চিহ্নসহ নানা ধরনের চিহ্নকে প্রকাশ করতে পারে।

সম্পূর্ণ আর্টিকেলটি পড়ুন

প্রতিদিন ৩৫০০+ সংবাদ পড়ুন প্রিয়-তে

আরও