নমুনা থেকেই ‘কণ্ঠস্বর নকল করে’ মাইক্রোসফটের এআই মডেল

বিডি নিউজ ২৪ প্রকাশিত: ১১ জানুয়ারি ২০২৩, ১৫:৫০

নিজেদের সর্বশেষ গবেষণায় নতুন এক ধরনের এআই মডেল দেখিয়েছে মাইক্রোসফট। এটি তিন সেকেন্ডের অডিও নমুনা থেকেও কারও কণ্ঠস্বর হুবহু নকল করতে পারে।

এআই মডেলটির নাম ‘ভাল-ই’। এটি মাইক্রোসফটের ‘টেক্সট-টু-স্পিচ’ ফিচারে ব্যবহার করা যাবে বলে প্রযুক্তিবিষয়ক সাইট আর্স টেকনিকা উল্লেখ করেছে প্রতিবেদনে।

এটি কেবল গলাই মেলায় না, বরং বক্তার আবেগপূর্ণ কণ্ঠস্বর এমনকি কোনো রুমের একক ধ্বনিও মিলিয়ে ফেলতে পারে।

ভবিষ্যতে কাস্টমাইজ করা বা উচ্চমানের ‘টেক্সট-টু-স্পিচ’ অ্যাপ্লিকেশনে এটি ব্যবহারের সম্ভাবনা থাকলেও, ডিপফেইকের মতোই এতে অপব্যবহারের ঝুঁকিও রয়েছে।

‘ভাল-ই’কে মাইক্রোসফট আখ্যা দিয়েছে একটি ‘নিউরাল কোডেক ল্যাংগুয়েজ মডেল’ হিসেবে। মেটার এআই চালিত ‘কম্প্রেশন নিউরাল নেট এনকোডেক’ থেকে পাওয়া ‘টেক্সট ইনপুট’ ও বক্তার কাছ থেকে পাওয়া স্বল্পদৈর্ঘ্য নমুনা থেকে এটি অডিও তৈরি করে বলে প্রতিবেদনে উল্লেখ করেছে প্রযুক্তিবিষয়ক সাইট এনগ্যাজেট।

এক গবেষণা পত্রে গবেষকরা ব্যাখ্যা করেন, তারা কীভাবে মেটার ‘লিব্রিলাইট’ নামের অডিও লাইব্রেরিতে থাকা সাত হাজারের বেশি বক্তার ৬০ হাজার ঘন্টা দীর্ঘ ইংরেজি ভাষায় দেওয়া বক্তব্যের মাধ্যমে ভাল-ই’কে প্রশিক্ষণ দিয়েছেন।

সম্পূর্ণ আর্টিকেলটি পড়ুন

নমুনা থেকেই ‘কণ্ঠস্বর নকল করে’ মাইক্রোসফটের এআই মডেল

প্রতিদিন ৩৫০০+ সংবাদ পড়ুন প্রিয়-তে

এই সম্পর্কিত

রুশ হ্যাকারদের কাছে মাইক্রোসফটের গোপন সোর্স কোড

উইন্ডোজ ১১ তে নতুন যেসব সুবিধা যোগ হচ্ছে

কোপাইলট প্রো আনল মাইক্রোসফট

স্বল্প সময়ের জন্য অ্যাপলকে টপকে গিয়েছিল মাইক্রোসফট

ইউরোপে গ্রাহকদের ব্যক্তিগত ডেটা সংরক্ষণ করবে মাইক্রোসফট

আরও

ফেসবুকে কেউ আপনাকে ব্লক করেছে কিনা বুঝবেন যেভাবে

হোয়াটসঅ্যাপ চ্যাটে কী লিখবেন তা বলে দেবে এআই