You have reached your daily news limit

Please log in to continue


ডিপফেক কি সত্যিই দুশ্চিন্তার কারণ

ইদানীং ডিপফেক এআই প্রযুক্তি ব্যবহার করে অনেক অপ্রীতিকর ছবি ও ভিডিও ইন্টারনেট দুনিয়ায় ছড়িয়ে দেওয়া হচ্ছে, যা বেশকিছু ব্যক্তি ও প্রতিষ্ঠানের সম্মানহানির কারণ হয়ে দাঁড়িয়েছে। ডিপফেক (Deepfake) হলো একটি ডিজিটালি তৈরি করা মিডিয়া ফাইল, যেমন-একটি ছবি, ভিডিও বা অডিও রেকর্ডিং, যা দেখতে আসল বলে মনে হলেও আসলে এটি কৃত্রিম বুদ্ধিমত্তা (এআই) ব্যবহার করে তৈরি এবং যার কোনো সত্যতা নেই। ডিপফেক সফটওয়্যারগুলো খুবই ইন্টারেস্টিংভাবে কাজ করে।

সফটওয়্যারগুলো এতটাই উন্নত যে, কোনো ব্যবহারকারী দুই ভিন্ন ব্যক্তির ছবি সফটওয়্যারটিকে দিয়ে যদি বলে যে, আমাকে একটি ছবি তৈরি করে দাও, যেখানে দেখা যাবে এ দুজন ব্যক্তি নিজেদের মধ্যে হাত মেলাচ্ছে, তাহলে কিছুক্ষণের মধ্যেই সফটওয়্যারটি এত নিখুঁত একটি ছবি তৈরি করে দেবে, যেটা থেকে বোঝার কোনো উপায়ই থাকবে না যে, এ ঘটনাটি কখনোই ঘটেনি।

ডিপফেক শব্দটি প্রথম ২০১৭ সালের শেষের দিকে একজন Reddit ব্যবহারকারীর মাধ্যমে অনলাইন জগতে প্রবর্তিত হয়েছিল। এটির মূল উদ্দেশ্য হলো একটি চিত্র বা ভিডিওতে একজন ব্যক্তির সাদৃশ্য অন্য ব্যক্তির সঙ্গে অদল-বদল করান।

এখন দেখা যাক ডিপফেক প্রযুক্তি কীভাবে কাজ করে। প্রথমে, এতে কৃত্রিম বুদ্ধিমত্তা বা এর বৃহৎ ভাষা মডেলগুলোকে প্রশিক্ষণ করার কাজটি করা হয়। বৃহৎ ভাষা মডেলগুলোকে লার্জ ল্যাঙ্গুয়েজ মডেলও বলা হয়, যা জেনেরেটিভ কৃত্রিম বুদ্ধিমত্তার আলগোরিদমিক একক। এখানে যে কৃত্রিম বুদ্ধিমত্তা কৌশলগুলো ব্যবহার করা হয়ে থাকে, তাকে ডিপ লার্নিং মডেল বলা হয়। এ মডেলটি সাধারণত এক বা একাধিক নিউরাল নেটওয়ার্ক ব্যবহার করে, যার লক্ষ্য হলো হাজার হাজার মানব বস্তুর ছবি এবং ভিডিওর মাধ্যমে প্রশিক্ষিত হওয়া বা শিক্ষাগ্রহণ করা। এখানে বলে রাখা ভালো, অনলাইন জগতে বিশেষ করে সোশ্যাল মিডিয়ায় আমরা যেসব ছবি বা ভিডিও পোস্ট করে থাকি সেখান থেকে আমাদের চেহারা, কণ্ঠস্বর, গতিবিধি, এবং আমাদের কনটেন্টকে এ মডেলগুলোর জন্য প্রশিক্ষণ ডেটা হিসাবে ব্যবহার করা হয়। এ ডেটা থেকে শিক্ষাগ্রহণই পরে অনেক নতুন নতুন মিডিয়ার আবির্ভাব ঘটায়, যেগুলো দেখতে আমাদের মতো, কণ্ঠস্বর শুনতে আমাদের মতো; কিন্তু মূলত এগুলো কৃত্রিম মিডিয়া, যেগুলোর সঙ্গে আসল ব্যক্তির কোনো সম্পর্ক নেই। এ কৃত্রিম বুদ্ধিমত্তা মডেলগুলো মানুষের মুখের নড়াচড়া, অভিব্যক্তি এবং ভয়েস প্যাটার্ন বা সংশ্লেষণ-বিশ্লেষণের মাধ্যমে হুবহু নকল করতে শিক্ষাগ্রহণ করে থাকে। ভয়েস সংশ্লেষণ বা কণ্ঠস্বরের ধরন বলতে একজন ব্যক্তির কথা বলার অনন্য ধরনকে বোঝায়। প্রত্যেক ব্যক্তির কথা বলার ছন্দ, স্বর, গতি এবং বিরতির মতো বৈশিষ্ট্যগুলো অন্যের থেকে আলাদা। কৃত্রিম বুদ্ধিমত্তার মাধ্যমে এ আলাদা বৈশিষ্ট্যগুলোকে চিহ্নিত করা যায় এবং সেগুলো অনুকরণ করে নির্দিষ্ট ব্যক্তির কণ্ঠস্বরে কোনো বক্তব্যও তৈরি করা সম্ভব।

দ্বিতীয় কার্যকলাপটি মানুষের চেহারার পরিবর্তন বা ফেস সোয়াপিং বা মুখাবয়ব বিকৃতিকরণের সঙ্গে সম্পর্কিত। এ কার্যকলাপটিও কৃত্রিম বুদ্ধিমত্তা মডেলকে প্রশিক্ষণের মাধ্যমে সম্পন্ন করতে হয়। এ প্রশিক্ষিত ডিপফেকের কৃত্রিম বুদ্ধিমত্তা মডেলটি একটি ভিডিও বা ছবিতে মানুষের মুখের বদলে অন্য একটি বা যে কোনো কিছুর সমন্বয় দিয়ে প্রতিস্থাপন করতে পারে। কৃত্রিম বুদ্ধিমত্তা মডেলটি মানুষের মুখের বৈশিষ্ট্য, ত্বকের রং, টোন এবং আলোর সঙ্গে সামঞ্জস্যতা রাখতে প্রশিক্ষিত হয়, যাতে মুখ অদলবদলের ঘটনাটি নির্বিঘ্ন এবং পরিচ্ছন্ন হয়। যেমন-কোনো ডিপফেক ভিডিও তৈরি করার সময় নকল বক্তব্যের ওপর ভিত্তি করে মুখের কোনো অভিব্যক্তি বা অনুভূতির মিল রাখতে হলে এ মডেলগুলো তাদের প্রশিক্ষণ থেকে প্রাপ্ত জ্ঞানকে কাজে লাগায়। এরপর, এ কৃত্রিম বুদ্ধিমত্তাটি মুখের নড়াচড়া বা মুভমেন্ট সেটআপের জন্য কাজ শুরু করে, যাতে নকল মুখ স্বাভাবিকভাবে নড়াচড়া করে, অভিব্যক্তি ও মাথার নড়াচড়া এবং এমনকি সূক্ষ্ম পেশির টান মূল ভিডিওর সঙ্গে গতির সমন্বয় করে থাকে।

সম্পূর্ণ আর্টিকেলটি পড়ুন