You have reached your daily news limit

Please log in to continue


নমুনা থেকেই ‘কণ্ঠস্বর নকল করে’ মাইক্রোসফটের এআই মডেল

নিজেদের সর্বশেষ গবেষণায় নতুন এক ধরনের এআই মডেল দেখিয়েছে মাইক্রোসফট। এটি তিন সেকেন্ডের অডিও নমুনা থেকেও কারও কণ্ঠস্বর হুবহু নকল করতে পারে।

এআই মডেলটির নাম ‘ভাল-ই’। এটি মাইক্রোসফটের ‘টেক্সট-টু-স্পিচ’ ফিচারে ব্যবহার করা যাবে বলে প্রযুক্তিবিষয়ক সাইট আর্স টেকনিকা উল্লেখ করেছে প্রতিবেদনে।

এটি কেবল গলাই মেলায় না, বরং বক্তার আবেগপূর্ণ কণ্ঠস্বর এমনকি কোনো রুমের একক ধ্বনিও মিলিয়ে ফেলতে পারে। 

ভবিষ্যতে কাস্টমাইজ করা বা উচ্চমানের ‘টেক্সট-টু-স্পিচ’ অ্যাপ্লিকেশনে এটি ব্যবহারের সম্ভাবনা থাকলেও, ডিপফেইকের মতোই এতে অপব্যবহারের ঝুঁকিও রয়েছে।

‘ভাল-ই’কে মাইক্রোসফট আখ্যা দিয়েছে একটি ‘নিউরাল কোডেক ল্যাংগুয়েজ মডেল’ হিসেবে। মেটার এআই চালিত ‘কম্প্রেশন নিউরাল নেট এনকোডেক’ থেকে পাওয়া ‘টেক্সট ইনপুট’ ও বক্তার কাছ থেকে পাওয়া স্বল্পদৈর্ঘ্য নমুনা থেকে এটি অডিও তৈরি করে বলে প্রতিবেদনে উল্লেখ করেছে প্রযুক্তিবিষয়ক সাইট এনগ্যাজেট।

এক গবেষণা পত্রে গবেষকরা ব্যাখ্যা করেন, তারা কীভাবে মেটার ‘লিব্রিলাইট’ নামের অডিও লাইব্রেরিতে থাকা সাত হাজারের বেশি বক্তার ৬০ হাজার ঘন্টা দীর্ঘ ইংরেজি ভাষায় দেওয়া বক্তব্যের মাধ্যমে ভাল-ই’কে প্রশিক্ষণ দিয়েছেন।

সম্পূর্ণ আর্টিকেলটি পড়ুন