-68f7ebaa39de2-6903ee942e8e5.jpg) 
                    
                    ডিপফেক কি সত্যিই দুশ্চিন্তার কারণ
ইদানীং ডিপফেক এআই প্রযুক্তি ব্যবহার করে অনেক অপ্রীতিকর ছবি ও ভিডিও ইন্টারনেট দুনিয়ায় ছড়িয়ে দেওয়া হচ্ছে, যা বেশকিছু ব্যক্তি ও প্রতিষ্ঠানের সম্মানহানির কারণ হয়ে দাঁড়িয়েছে। ডিপফেক (Deepfake) হলো একটি ডিজিটালি তৈরি করা মিডিয়া ফাইল, যেমন-একটি ছবি, ভিডিও বা অডিও রেকর্ডিং, যা দেখতে আসল বলে মনে হলেও আসলে এটি কৃত্রিম বুদ্ধিমত্তা (এআই) ব্যবহার করে তৈরি এবং যার কোনো সত্যতা নেই। ডিপফেক সফটওয়্যারগুলো খুবই ইন্টারেস্টিংভাবে কাজ করে।
সফটওয়্যারগুলো এতটাই উন্নত যে, কোনো ব্যবহারকারী দুই ভিন্ন ব্যক্তির ছবি সফটওয়্যারটিকে দিয়ে যদি বলে যে, আমাকে একটি ছবি তৈরি করে দাও, যেখানে দেখা যাবে এ দুজন ব্যক্তি নিজেদের মধ্যে হাত মেলাচ্ছে, তাহলে কিছুক্ষণের মধ্যেই সফটওয়্যারটি এত নিখুঁত একটি ছবি তৈরি করে দেবে, যেটা থেকে বোঝার কোনো উপায়ই থাকবে না যে, এ ঘটনাটি কখনোই ঘটেনি।
ডিপফেক শব্দটি প্রথম ২০১৭ সালের শেষের দিকে একজন Reddit ব্যবহারকারীর মাধ্যমে অনলাইন জগতে প্রবর্তিত হয়েছিল। এটির মূল উদ্দেশ্য হলো একটি চিত্র বা ভিডিওতে একজন ব্যক্তির সাদৃশ্য অন্য ব্যক্তির সঙ্গে অদল-বদল করান।
এখন দেখা যাক ডিপফেক প্রযুক্তি কীভাবে কাজ করে। প্রথমে, এতে কৃত্রিম বুদ্ধিমত্তা বা এর বৃহৎ ভাষা মডেলগুলোকে প্রশিক্ষণ করার কাজটি করা হয়। বৃহৎ ভাষা মডেলগুলোকে লার্জ ল্যাঙ্গুয়েজ মডেলও বলা হয়, যা জেনেরেটিভ কৃত্রিম বুদ্ধিমত্তার আলগোরিদমিক একক। এখানে যে কৃত্রিম বুদ্ধিমত্তা কৌশলগুলো ব্যবহার করা হয়ে থাকে, তাকে ডিপ লার্নিং মডেল বলা হয়। এ মডেলটি সাধারণত এক বা একাধিক নিউরাল নেটওয়ার্ক ব্যবহার করে, যার লক্ষ্য হলো হাজার হাজার মানব বস্তুর ছবি এবং ভিডিওর মাধ্যমে প্রশিক্ষিত হওয়া বা শিক্ষাগ্রহণ করা। এখানে বলে রাখা ভালো, অনলাইন জগতে বিশেষ করে সোশ্যাল মিডিয়ায় আমরা যেসব ছবি বা ভিডিও পোস্ট করে থাকি সেখান থেকে আমাদের চেহারা, কণ্ঠস্বর, গতিবিধি, এবং আমাদের কনটেন্টকে এ মডেলগুলোর জন্য প্রশিক্ষণ ডেটা হিসাবে ব্যবহার করা হয়। এ ডেটা থেকে শিক্ষাগ্রহণই পরে অনেক নতুন নতুন মিডিয়ার আবির্ভাব ঘটায়, যেগুলো দেখতে আমাদের মতো, কণ্ঠস্বর শুনতে আমাদের মতো; কিন্তু মূলত এগুলো কৃত্রিম মিডিয়া, যেগুলোর সঙ্গে আসল ব্যক্তির কোনো সম্পর্ক নেই। এ কৃত্রিম বুদ্ধিমত্তা মডেলগুলো মানুষের মুখের নড়াচড়া, অভিব্যক্তি এবং ভয়েস প্যাটার্ন বা সংশ্লেষণ-বিশ্লেষণের মাধ্যমে হুবহু নকল করতে শিক্ষাগ্রহণ করে থাকে। ভয়েস সংশ্লেষণ বা কণ্ঠস্বরের ধরন বলতে একজন ব্যক্তির কথা বলার অনন্য ধরনকে বোঝায়। প্রত্যেক ব্যক্তির কথা বলার ছন্দ, স্বর, গতি এবং বিরতির মতো বৈশিষ্ট্যগুলো অন্যের থেকে আলাদা। কৃত্রিম বুদ্ধিমত্তার মাধ্যমে এ আলাদা বৈশিষ্ট্যগুলোকে চিহ্নিত করা যায় এবং সেগুলো অনুকরণ করে নির্দিষ্ট ব্যক্তির কণ্ঠস্বরে কোনো বক্তব্যও তৈরি করা সম্ভব।
দ্বিতীয় কার্যকলাপটি মানুষের চেহারার পরিবর্তন বা ফেস সোয়াপিং বা মুখাবয়ব বিকৃতিকরণের সঙ্গে সম্পর্কিত। এ কার্যকলাপটিও কৃত্রিম বুদ্ধিমত্তা মডেলকে প্রশিক্ষণের মাধ্যমে সম্পন্ন করতে হয়। এ প্রশিক্ষিত ডিপফেকের কৃত্রিম বুদ্ধিমত্তা মডেলটি একটি ভিডিও বা ছবিতে মানুষের মুখের বদলে অন্য একটি বা যে কোনো কিছুর সমন্বয় দিয়ে প্রতিস্থাপন করতে পারে। কৃত্রিম বুদ্ধিমত্তা মডেলটি মানুষের মুখের বৈশিষ্ট্য, ত্বকের রং, টোন এবং আলোর সঙ্গে সামঞ্জস্যতা রাখতে প্রশিক্ষিত হয়, যাতে মুখ অদলবদলের ঘটনাটি নির্বিঘ্ন এবং পরিচ্ছন্ন হয়। যেমন-কোনো ডিপফেক ভিডিও তৈরি করার সময় নকল বক্তব্যের ওপর ভিত্তি করে মুখের কোনো অভিব্যক্তি বা অনুভূতির মিল রাখতে হলে এ মডেলগুলো তাদের প্রশিক্ষণ থেকে প্রাপ্ত জ্ঞানকে কাজে লাগায়। এরপর, এ কৃত্রিম বুদ্ধিমত্তাটি মুখের নড়াচড়া বা মুভমেন্ট সেটআপের জন্য কাজ শুরু করে, যাতে নকল মুখ স্বাভাবিকভাবে নড়াচড়া করে, অভিব্যক্তি ও মাথার নড়াচড়া এবং এমনকি সূক্ষ্ম পেশির টান মূল ভিডিওর সঙ্গে গতির সমন্বয় করে থাকে।
 
                    
                 
                    
                 
                    
                 
                    
                 
                    
                 
                    
                 
                    
                -68f7ebaa39de2-6903ee942e8e5.jpg)