নমুনা থেকেই ‘কণ্ঠস্বর নকল করে’ মাইক্রোসফটের এআই মডেল

বিডি নিউজ ২৪ প্রকাশিত: ১১ জানুয়ারি ২০২৩, ১৫:৫০

নিজেদের সর্বশেষ গবেষণায় নতুন এক ধরনের এআই মডেল দেখিয়েছে মাইক্রোসফট। এটি তিন সেকেন্ডের অডিও নমুনা থেকেও কারও কণ্ঠস্বর হুবহু নকল করতে পারে।


এআই মডেলটির নাম ‘ভাল-ই’। এটি মাইক্রোসফটের ‘টেক্সট-টু-স্পিচ’ ফিচারে ব্যবহার করা যাবে বলে প্রযুক্তিবিষয়ক সাইট আর্স টেকনিকা উল্লেখ করেছে প্রতিবেদনে।


এটি কেবল গলাই মেলায় না, বরং বক্তার আবেগপূর্ণ কণ্ঠস্বর এমনকি কোনো রুমের একক ধ্বনিও মিলিয়ে ফেলতে পারে। 


ভবিষ্যতে কাস্টমাইজ করা বা উচ্চমানের ‘টেক্সট-টু-স্পিচ’ অ্যাপ্লিকেশনে এটি ব্যবহারের সম্ভাবনা থাকলেও, ডিপফেইকের মতোই এতে অপব্যবহারের ঝুঁকিও রয়েছে।


‘ভাল-ই’কে মাইক্রোসফট আখ্যা দিয়েছে একটি ‘নিউরাল কোডেক ল্যাংগুয়েজ মডেল’ হিসেবে। মেটার এআই চালিত ‘কম্প্রেশন নিউরাল নেট এনকোডেক’ থেকে পাওয়া ‘টেক্সট ইনপুট’ ও বক্তার কাছ থেকে পাওয়া স্বল্পদৈর্ঘ্য নমুনা থেকে এটি অডিও তৈরি করে বলে প্রতিবেদনে উল্লেখ করেছে প্রযুক্তিবিষয়ক সাইট এনগ্যাজেট।


এক গবেষণা পত্রে গবেষকরা ব্যাখ্যা করেন, তারা কীভাবে মেটার ‘লিব্রিলাইট’ নামের অডিও লাইব্রেরিতে থাকা সাত হাজারের বেশি বক্তার ৬০ হাজার ঘন্টা দীর্ঘ ইংরেজি ভাষায় দেওয়া বক্তব্যের মাধ্যমে ভাল-ই’কে প্রশিক্ষণ দিয়েছেন।

সম্পূর্ণ আর্টিকেলটি পড়ুন

প্রতিদিন ৩৫০০+ সংবাদ পড়ুন প্রিয়-তে

এই সম্পর্কিত

আরও