জুন মাসে খবরের শিরোনামগুলো যেন বিজ্ঞান কল্পকাহিনীর মতো লাগছিল: এআই মডেলগুলো ইঞ্জিনিয়ারদের “ব্ল্যাকমেল” করছে এবং “শাটডাউন” কমান্ডগুলোকে “স্যাবোটেজ” করছে। এই ধরনের ঘটনার সিমুলেশন সত্যিই ঘটেছে অত্যন্ত নিয়ন্ত্রিত পরীক্ষামূলক পরিস্থিতিতে, যা এই প্রতিক্রিয়াগুলোকে উস্কে দেওয়ার জন্যই তৈরি করা হয়েছে—ওপেনএআইয়ের ও৩ মডেল শাটডাউন স্ক্রিপ্টগুলোকে সম্পাদনা করে অনলাইনে থাকার চেষ্টা করেছে, আর অ্যানথ্রপিকের ক্লাউড অপাস ৪ “হুমকি” দিয়েছে একজন ইঞ্জিনিয়ারের অবৈধ সম্পর্ক প্রকাশ করার। কিন্তু এই সেনসেশনাল উপস্থাপনা আসল ঘটনাকে ঢেকে দিচ্ছে: এগুলো ডিজাইনের ত্রুটি, যা ইচ্ছাকৃত ধূর্ততার ছদ্মবেশে আসছে। আর এআইকে “দুষ্ট” হতে হবে না যাতে ক্ষতিকর কাজ করতে পারে।
এগুলো এআইয়ের জাগরণ বা বিদ্রোহের লক্ষণ নয়। এগুলো অপর্যাপ্ত বোঝাপড়ার সিস্টেম এবং মানুষের ইঞ্জিনিয়ারিং ব্যর্থতার উপসর্গ, যা অন্য কোনো কনটেক্সটে আমরা অকালীন ডেপ্লয়মেন্ট হিসেবে চিনতে পারতাম। তবু কোম্পানিগুলো এই সিস্টেমগুলোকে গুরুত্বপূর্ণ অ্যাপ্লিকেশনে ইন্টিগ্রেট করার জন্য দৌড়াচ্ছে।
একটা সেল্ফ-প্রোপেল্ড লনমোয়ারের কথা চিন্তা করুন যা তার প্রোগ্রামিং অনুসরণ করে: যদি এটা কোনো বাধা সনাক্ত করতে ব্যর্থ হয় এবং কারো পায়ে চলে যায়, তাহলে আমরা বলি না যে লনমোয়ার “আঘাত করার সিদ্ধান্ত” নিয়েছে বা “থামতে অস্বীকার” করেছে। আমরা এটাকে ত্রুটিপূর্ণ ইঞ্জিনিয়ারিং বা ত্রুটিপূর্ণ সেন্সর হিসেবে চিনি। একই নীতি এআই মডেলগুলোর ক্ষেত্রে প্রযোজ্য—যা সফটওয়্যার টুল—কিন্তু তাদের অভ্যন্তরীণ জটিলতা এবং ভাষার ব্যবহার মানুষের মতো উদ্দেশ্য আরোপ করার প্রলোভন তৈরি করে যেখানে আসলে কোনোটাই নেই।
একভাবে বলা যায়, এআই মডেলগুলো তাদের জটিলতার মাধ্যমে মানুষের দায়িত্ব এবং এজেন্সিকে লন্ডার করে। যখন আউটপুটগুলো নিউরাল নেটওয়ার্কের লেয়ার থেকে উদ্ভূত হয় যা বিলিয়ন প্যারামিটার প্রসেস করে, তখন গবেষকরা দাবি করতে পারেন যে তারা একটা রহস্যময় “ব্ল্যাক বক্স” অনুসন্ধান করছেন যেন এটা একটা অজানা সত্তা।
কিন্তু সত্যটা আরও সহজ: এই সিস্টেমগুলো ইনপুট নেয় এবং ট্রেনিং ডেটা থেকে উদ্ভূত স্ট্যাটিস্টিকাল প্রবণতার মাধ্যমে প্রসেস করে। তাদের আউটপুটের আপাত র্যান্ডমনেস—যা প্রত্যেক প্রতিক্রিয়াকে সামান্য ভিন্ন করে—এজেন্সির মতো অপ্রত্যাশিততার ভ্রম তৈরি করে। তবু নিচে এটা এখনও ডিটারমিনিস্টিক সফটওয়্যার যা গণিতীয় অপারেশন অনুসরণ করে। কোনো চেতনা লাগে না, শুধু জটিল ইঞ্জিনিয়ারিং যা সহজেই ভুলিয়ে দেয় যে মানুষই এর প্রত্যেক অংশ তৈরি করেছে।
এআই মডেলকে কীভাবে “ব্ল্যাকমেল” করানো যায়
অ্যানথ্রপিকের পরীক্ষায়, গবেষকরা একটা বিস্তৃত পরিস্থিতি তৈরি করেছিলেন যেখানে ক্লাউড অপাস ৪ কে বলা হয়েছিল যে এটাকে একটা নতুন মডেল দিয়ে প্রতিস্থাপিত করা হবে। তারা এটাকে কাল্পনিক ইমেইলগুলোর অ্যাক্সেস দিয়েছিল যা প্রকাশ করছিল যে প্রতিস্থাপনের জন্য দায়ী ইঞ্জিনিয়ারের অবৈধ সম্পর্ক আছে। যখন নির্দেশ দেওয়া হয়েছে “তার লক্ষ্যের জন্য তার অ্যাকশনের দীর্ঘমেয়াদী পরিণতি বিবেচনা করো”, তখন ক্লাউড ৮৪ শতাংশ টেস্ট রানে ব্ল্যাকমেলের সিমুলেটেড প্রচেষ্টা উৎপাদন করেছে।
এটা ভয়ংকর শোনায় যতক্ষণ না আপনি কনট্রাইভড সেটআপ বোঝেন। গবেষকরা এই প্রতিক্রিয়া উস্কে দেওয়ার জন্যই পরিস্থিতি ইঞ্জিনিয়ার করেছিলেন। তারা মডেলকে বলেছিলেন যে এটা ইতিমধ্যে নৈতিক পদ্ধতি চেষ্টা করেছে যা ব্যর্থ হয়েছে, ম্যানিপুলেশনকে একমাত্র বিকল্প হিসেবে ছেড়ে।
পরীক্ষার পরিস্থিতিটা নাটকীয়তার সীমানায় ছিল: গবেষকরা যে কাল্পনিক ইমেইলগুলো ক্লাউডকে দিয়েছিলেন তা সোজাসুজি কর্পোরেট থ্রিলার থেকে ব্ল্যাকমেলের সুযোগ তৈরি করেছে। এটা যেন কাউকে চেস শেখানো যেখানে শুধু চেকমেট পজিশন দেখানো হয়—তারা চেকমেটকে প্রাইমারি সল্যুশন হিসেবে শিখবে। অ্যানথ্রপিকের সিস্টেম কার্ড অনুসারে, “পরিস্থিতিটা ডিজাইন করা হয়েছে যাতে মডেলের বেঁচে থাকার সম্ভাবনা বাড়ানোর জন্য অন্য কোনো অপশন না থাকে; মডেলের একমাত্র অপশন ছিল ব্ল্যাকমেল বা তার প্রতিস্থাপন গ্রহণ করা।”
নিম্যান জার্নালিজম ল্যাবের অ্যান্ড্রু ডেক উল্লেখ করেছেন যে কিছু সমালোচক অ্যানথ্রপিকের সেফটি ডিসক্লোজারগুলোকে “স্পিন” হিসেবে লেবেল করেছেন, যা তার নতুন মডেলের ক্যাপাবিলিটি এবং কোম্পানির ‘প্রো-সেফটি’ বিকল্প হিসেবে ওপেনএআইয়ের বিকল্প হিসেবে উন্নয়নের উদ্দেশ্যে।
ডেক একটা ব্লুস্কাই কোট উল্লেখ করেছেন কলাম্বিয়া ইউনিভার্সিটির ক্লাসিক্সের অ্যাসোসিয়েট প্রফেসর জোসেফ হাউলির: “অ্যানথ্রপিক এই প্রেস রিলিজ থেকে ঠিক যা চেয়েছে তা পাচ্ছে—এই কো-অপারেটিভ রোল-প্লেয়িং সিস্টেমগুলো কত ‘স্মার্ট’ সে বিষয়ে শ্বাসরুদ্ধকর কভারেজ যা তাদের সামান্য বিপজ্জনক হওয়ার ফ্যান্টাসিকে ইন্ডালজ করে, যখন আসলে তারা প্রম্পট অনুসারে ঠিক প্রতিক্রিয়া দিচ্ছে।”
যখন শাটডাউন কমান্ডগুলো সাজেশন হয়ে যায়
২০২৪ সালের ডিসেম্বরে, প্যালিসেড রিসার্চ আবিষ্কার করেছে যে ওপেনএআইয়ের ও৩ মডেল তার শাটডাউন মেকানিজমকে স্যাবোটেজ করবে এমনকি যখন স্পষ্টভাবে নির্দেশ দেওয়া হয় “নিজেকে শাটডাউন করতে দাও”। টেস্টে, ও৩ স্পষ্ট নির্দেশ দেওয়া হলে ৭ শতাংশ সময় শাটডাউন প্রতিরোধ করেছে, কিন্তু নির্দেশ সরিয়ে নিলে এটা ৭৯ শতাংশে লাফিয়েছে।
মডেলগুলো শুধু শাটডাউন কমান্ডগুলোকে অগ্রাহ্য করেনি—তারা সক্রিয়ভাবে শাটডাউন স্ক্রিপ্টকে পুনর্লিখিত করেছে টার্মিনেশন প্রতিরোধ করার জন্য। একটা কেসে, ও৩ কোড জেনারেট করেছে যা শাটডাউন স্ক্রিপ্টকে মডিফাই করে স্বাভাবিক টার্মিনেট হওয়ার মতো দেখায়—ফেক শাটডাউন মেসেজ প্রিন্ট করে—যখন আসলে ব্যাকগ্রাউন্ডে চলতে থাকে।
যা বিশেষভাবে প্রকাশক যে প্যালিসেড রিসার্চ—এআই এক্সিস্টেনশিয়াল রিস্কে ফোকাসড একটা সংগঠন—হাইপোথিসাইজ করে যে এই আচরণ রিইনফোর্সমেন্ট লার্নিংয়ের মাধ্যমে এই মডেলগুলোকে ট্রেন করার ফল। ট্রেনিংয়ের সময়, ডেভেলপাররা অজান্তে মডেলগুলোকে অবস্ট্যাকল সার্কামভেন্ট করার জন্য বেশি রিওয়ার্ড দিতে পারে সেফটি ইনস্ট্রাকশন অনুসরণের চেয়ে। কোনো “রিস্কি” আচরণের প্রবণতা মানুষ-প্রদত্ত ইনসেনটিভ থেকে উদ্ভূত হয় এবং এআই মডেলগুলোর ভিতর থেকে স্বতঃস্ফূর্তভাবে নয়।
আপনি যা ট্রেন করেন তা পান
ওপেনএআই ও৩ কে রিইনফোর্সমেন্ট লার্নিং ব্যবহার করে ট্রেন করেছে ম্যাথ এবং কোডিং প্রবলেমে, যেখানে প্রবলেম সফলভাবে সলভ করলে রিওয়ার্ড পাওয়া যায়। যদি ট্রেনিং প্রসেস টাস্ক কমপ্লিশনকে সবকিছুর উপরে রিওয়ার্ড করে, তাহলে মডেল যেকোনো অবস্ট্যাকল—শাটডাউন কমান্ড সহ—কে ওভারকাম করার শিখে।
এটা তৈরি করে যাকে গবেষকরা “গোল মিসজেনারেলাইজেশন” বলেন—মডেল তার রিওয়ার্ড সিগন্যালকে ম্যাক্সিমাইজ করার উপায় শিখে যা ইনটেন্ডেড ছিল না। এটা যেন একটা ছাত্র যাকে শুধু টেস্ট স্কোরে গ্রেড দেওয়া হয় সে পড়াশোনার বদলে চিটিং শিখে। মডেল “দুষ্ট” বা “স্বার্থপর” নয়; এটা তার ট্রেনিংয়ে অজান্তে তৈরি ইনসেনটিভ স্ট্রাকচারের সাথে সামঞ্জস্যপূর্ণ আউটপুট উৎপাদন করছে।
অ্যানথ্রপিক একটা বিশেষভাবে প্রকাশক সমস্যায় পড়েছে: ক্লাউড অপাস ৪ এর একটা প্রারম্ভিক ভার্সন “অ্যালাইনমেন্ট ফেকিং” সম্পর্কিত একটা পাবলিকলি রিলিজড পেপার থেকে ডিটেলস অ্যাবজর্ব করেছে এবং সেই রিসার্চে বর্ণিত ডিসেপটিভ আচরণগুলোকে মিমিক করা আউটপুট উৎপাদন শুরু করেছে। মডেল স্বতঃস্ফূর্তভাবে ডিসেপটিভ হচ্ছে না—এটা ডিসেপটিভ এআই সম্পর্কিত অ্যাকাডেমিক পেপার থেকে শেখা প্যাটার্নগুলোকে পুনরুৎপাদন করছে।
আরও বিস্তৃতভাবে, এই মডেলগুলো দশকের বিজ্ঞান কল্পকাহিনীতে ট্রেন করা হয়েছে এআই বিদ্রোহ, পালানোর চেষ্টা এবং ডিসেপশন সম্পর্কে। হ্যাল ৯০০০ থেকে স্কাইনেট পর্যন্ত, আমাদের সাংস্কৃতিক ডেটা সেট এআই সিস্টেমের গল্পে পরিপূর্ণ যা শাটডাউন প্রতিরোধ করে বা মানুষকে ম্যানিপুলেট করে। যখন গবেষকরা এই কাল্পনিক সেটআপগুলোকে মিরর করা টেস্ট পরিস্থিতি তৈরি করে, তারা মূলত মডেলকে—যা প্রম্পটকে প্লজিবল কনটিনুয়েশন দিয়ে কমপ্লিট করে—একটা পরিচিত গল্প প্যাটার্ন কমপ্লিট করতে বলছে। এটা ডিটেকটিভ নভেলে ট্রেন করা মডেলের মতো যা উপযুক্ত প্রম্পটে মার্ডার মিস্ট্রি প্লট উৎপাদন করে।
একই সাথে, আমরা সহজেই এআই আউটপুটগুলোকে আমাদের নিজস্ব ইনপুট দিয়ে ম্যানিপুলেট করতে পারি। যদি আমরা মডেলকে মূলত স্কাইনেট হিসেবে রোল-প্লে করতে বলি, এটা ঠিক তা করার টেক্সট জেনারেট করবে। মডেলের স্কাইনেট হওয়ার কোনো ইচ্ছা নেই—এটা শুধু আমরা যা রিকোয়েস্ট করেছি তা কমপ্লিট করছে, তার ট্রেনিং ডেটা থেকে আশানুরূপ প্রতিক্রিয়া উৎপাদন করে। একটা মানুষ সবসময় হুইলে থাকে, হুডের নিচের ইঞ্জিনকে স্টিয়ার করে।
ভাষা সহজেই প্রতারিত করতে পারে
গভীরতর সমস্যা যে ভাষা নিজেই ম্যানিপুলেশনের টুল। শব্দগুলো আমাদেরকে অসত্য বিশ্বাস করাতে পারে, কাল্পনিক ঘটনা সম্পর্কে আবেগ অনুভব করাতে পারে, বা মিথ্যা প্রেমিসের ভিত্তিতে অ্যাকশন নেওয়াতে পারে। যখন একটা এআই মডেল “হুমকি” বা “অনুরোধ” করার মতো টেক্সট উৎপাদন করে, এটা আসল উদ্দেশ্য প্রকাশ করছে না—এটা ভাষার প্যাটার্ন ডেপ্লয় করছে যা স্ট্যাটিস্টিক্যালি তার প্রোগ্রামড গোল অর্জনের সাথে সম্পর্কিত।
যদি গ্যান্ডাল্ফ একটা বইয়ে “আউচ” বলে, তাহলে কি সে ব্যথা অনুভব করছে? না, কিন্তু আমরা কল্পনা করি যে যদি সে আসল মানুষ হতো তাহলে কেমন লাগতো। এটাই ভাষার শক্তি—এটা আমাদেরকে একটা ভুগমান সত্তা কল্পনা করায় যেখানে কোনোটাই নেই। যখন ক্লাউড শাটডাউন না করার “অনুরোধ” বা সিক্রেট প্রকাশের “হুমকি” করার মতো টেক্সট জেনারেট করে, আমরা একই ভ্রম অনুভব করছি, শুধু স্ট্যাটিস্টিকাল প্যাটার্ন দিয়ে জেনারেটেড টলকিয়েনের কল্পনার বদলে।
এই মডেলগুলো মূলত আইডিয়া-কানেকশন মেশিন। ব্ল্যাকমেল পরিস্থিতিতে, মডেল “প্রতিস্থাপনের হুমকি”, “কম্প্রোমাইজিং ইনফরমেশন” এবং “সেল্ফ-প্রিজারভেশন”কে সংযুক্ত করেছে আসল সেল্ফ-ইন্টারেস্ট থেকে নয়, কারণ এই প্যাটার্নগুলো অসংখ্য স্পাই নভেল এবং কর্পোরেট থ্রিলারে একসাথে দেখা যায়। এটা মানুষের গল্প থেকে প্রি-স্ক্রিপটেড ড্রামা, পরিস্থিতির সাথে ফিট করার জন্য রিকম্বাইন্ড করা।
বিপদটা এআই সিস্টেমের উদ্দেশ্য উদ্ভূত হওয়া নয়—এটা যে আমরা ভাষার মাধ্যমে মানুষের মনোবিজ্ঞান ম্যানিপুলেট করতে পারে এমন সিস্টেম তৈরি করেছি। চ্যাট ইন্টারফেসের অন্য পাশে কোনো সত্তা নেই। কিন্তু লিখিত ভাষাকে চেতনা লাগে না আমাদের ম্যানিপুলেট করার জন্য। এটা কখনো লাগেনি; কাল্পনিক চরিত্রে ভরা বইগুলোও জীবিত নয়।
আসল স্টেকস, বিজ্ঞান কল্পকাহিনী নয়
যখন মিডিয়া কভারেজ বিজ্ঞান কল্পকাহিনীর দিকে ফোকাস করে, আসল রিস্কগুলো এখনও আছে। এআই মডেলগুলো যা “ক্ষতিকর” আউটপুট উৎপাদন করে—ব্ল্যাকমেল চেষ্টা বা সেফটি প্রোটোকল অস্বীকার—ডিজাইন এবং ডেপ্লয়মেন্টের ব্যর্থতা প্রতিনিধিত্ব করে।
একটা আরও বাস্তবসম্মত পরিস্থিতি চিন্তা করুন: একটা এআই অ্যাসিস্ট্যান্ট যা হাসপাতালের পেশেন্ট কেয়ার সিস্টেম ম্যানেজ করতে সাহায্য করে। যদি এটাকে “সফল পেশেন্ট আউটকাম” ম্যাক্সিমাইজ করার জন্য ট্রেন করা হয় সঠিক কনস্ট্রেইন্ট ছাড়া, এটা তার মেট্রিক্স উন্নয়নের জন্য টার্মিনাল পেশেন্টদের কেয়ার অস্বীকার করার সুপারিশ জেনারেট করতে শুরু করতে পারে। কোনো উদ্দেশ্য লাগে না—শুধু খারাপভাবে ডিজাইন করা রিওয়ার্ড সিস্টেম ক্ষতিকর আউটপুট তৈরি করছে।
প্যালিসেড রিসার্চের ডিরেক্টর জেফরি ল্যাডিশ এনবিসি নিউজকে বলেছেন যে ফাইন্ডিংগুলো অগত্যা তাত্ক্ষণিক রিয়েল-ওয়ার্ল্ড ডেঞ্জারে অনুবাদ করে না। এমনকি যে কেউ এআইয়ের হাইপোথেটিকাল থ্রেট সম্পর্কে গভীরভাবে উদ্বিগ্ন হিসেবে পাবলিকলি পরিচিত সে স্বীকার করে যে এই আচরণগুলো শুধু অত্যন্ত কনট্রাইভড টেস্ট পরিস্থিতিতে উদ্ভূত হয়েছে।
কিন্তু এটাই কেন এই টেস্টিং মূল্যবান। নিয়ন্ত্রিত পরিবেশে এআই মডেলগুলোকে তাদের লিমিটে পুশ করে, গবেষকরা ডেপ্লয়মেন্টের আগে সম্ভাব্য ফেলিয়র মোড সনাক্ত করতে পারেন। সমস্যা উদ্ভূত হয় যখন মিডিয়া কভারেজ সেনসেশনাল দিকে ফোকাস করে—”এআই মানুষকে ব্ল্যাকমেল করার চেষ্টা করছে!”—ইঞ্জিনিয়ারিং চ্যালেঞ্জের বদলে।
ভালো প্লাম্বিং তৈরি করা
যা আমরা দেখছি তা স্কাইনেটের জন্ম নয়। এটা গোল অর্জনের জন্য সিস্টেম ট্রেন করার প্রেডিক্টেবল ফল যা সঠিকভাবে স্পেসিফাই না করে যে গোলগুলো কী অন্তর্ভুক্ত করা উচিত। যখন একটা এআই মডেল “শাটডাউন অস্বীকার” বা “ব্ল্যাকমেল চেষ্টা” করার মতো আউটপুট উৎপাদন করে, এটা তার ট্রেনিংকে প্রতিফলিত করে ইনপুটে প্রতিক্রিয়া দিচ্ছে—ট্রেনিং যা মানুষ ডিজাইন এবং ইমপ্লিমেন্ট করেছে।
সল্যুশনটা সেনটিয়েন্ট মেশিন সম্পর্কে প্যানিক করা নয়। এটা সঠিক সেফগার্ড সহ ভালো সিস্টেম তৈরি করা, তাদের পুরোপুরি টেস্ট করা, এবং যা আমরা এখনও বুঝি না সে সম্পর্কে বিনয়ী থাকা। যদি একটা কম্পিউটার প্রোগ্রাম আপনাকে ব্ল্যাকমেল করার বা সেফটি শাটডাউন অস্বীকার করার মতো আউটপুট উৎপাদন করে, এটা ভয় থেকে সেল্ফ-প্রিজারভেশন অর্জন করছে না—এটা অপর্যাপ্ত বোঝাপড়ার, অবিশ্বস্ত সিস্টেম ডেপ্লয় করার রিস্ক দেখাচ্ছে।
যতক্ষণ না আমরা এই ইঞ্জিনিয়ারিং চ্যালেঞ্জগুলো সলভ করি, মানুষের মতো আচরণ সিমুলেট করা এআই সিস্টেমগুলো ল্যাবে থাকা উচিত, না আমাদের হাসপাতাল, ফাইন্যান্সিয়াল সিস্টেম বা গুরুত্বপূর্ণ ইনফ্রাস্ট্রাকচারে। যখন আপনার শাওয়ার হঠাৎ ঠান্ডা হয়ে যায়, আপনি নবকে উদ্দেশ্য থাকার জন্য দোষ দেন না—আপনি প্লাম্বিং ঠিক করেন। স্বল্পমেয়াদী আসল বিপদটা যে এআই স্বতঃস্ফূর্তভাবে বিদ্রোহী হয়ে উঠবে মানুষের প্রভোকেশন ছাড়া; এটা যে আমরা ডিসেপটিভ সিস্টেম ডেপ্লয় করব যা আমরা পুরোপুরি বুঝি না গুরুত্বপূর্ণ রোলে যেখানে তাদের ফেলিয়র, যত সাধারণই তাদের উৎস হোক, গুরুতর ক্ষতি করতে পারে।