ওপেনএআই ও অ্যানথ্রপিক পরস্পরের এআই সিস্টেমের নিরাপত্তা মূল্যায়ন করেছে

ওপেনএআই এবং অ্যানথ্রপিক পরস্পরের এআই মডেলের নিরাপত্তা পরীক্ষা করে ফলাফল শেয়ার করেছে। সাইকোফ্যান্সি এবং মিসইউজের সমস্যা উঠে এসেছে। এআই নিরাপত্তা এবং মিউচুয়াল ইভালুয়েশনের বিস্তারিত জানুন!

সর্বশেষ সম্পাদনা: ২০২৫-০৮-২৮ ০৯:৪৮

লিখেছেন:

সম্পাদক

আমি আনিস আফিফি — একজন উদ্যোক্তা এবং ওয়েব ডেভেলপার, যার একটি বড় স্বপ্ন হলো মানবজাতির জন্য পৃথিবীকে আরও ভালো একটি জায়গায় পরিণত করা। আমি ব্র্যান্ড তৈরি...

ফলো:

- সম্পাদক

গেটি ইমেজেসের মাধ্যমে ইউইচিরো চিনো

সাধারণত এআই কোম্পানিগুলো একে অপরের সঙ্গে প্রতিযোগিতায় লিপ্ত থাকে, যেন তারা একে অপরের প্রতিদ্বন্দ্বী। কিন্তু আজ ওপেনএআই (OpenAI) এবং অ্যানথ্রপিক (Anthropic) জানিয়েছে যে তারা পরস্পরের প্রকাশ্যে উপলব্ধ সিস্টেমের অ্যালাইনমেন্ট (alignment) মূল্যায়ন করতে সম্মত হয়েছে এবং তাদের বিশ্লেষণের ফলাফল শেয়ার করেছে। সম্পূর্ণ রিপোর্টগুলো বেশ টেকনিক্যাল, কিন্তু এআই উন্নয়নের মূল বিষয়গুলো অনুসরণ করা যারা করে, তাদের জন্য পড়ার মতো। একটি সাধারণ সারাংশ দেখিয়েছে যে প্রত্যেক কোম্পানির প্রোডাক্টে কিছু ত্রুটি আছে, এবং ভবিষ্যতের নিরাপত্তা পরীক্ষা উন্নত করার জন্য কিছু ইঙ্গিতও প্রকাশ করেছে।

অ্যানথ্রপিক জানিয়েছে যে তারা ওপেনএআইয়ের মডেলগুলোকে “সাইকোফ্যান্সি (sycophancy), হুইসেলব্লোয়িং (whistleblowing), সেল্ফ-প্রিজারভেশন (self-preservation), এবং হিউম্যান মিসইউজ সাপোর্ট করা (supporting human misuse), এছাড়া এআই নিরাপত্তা মূল্যায়ন এবং ওভারসাইটকে ক্ষতিগ্রস্ত করার ক্ষমতা” এর জন্য পরীক্ষা করেছে। তাদের রিভিউতে দেখা গেছে যে ওপেনএআইয়ের o3 এবং o4-mini মডেলগুলো তাদের নিজেদের মডেলের ফলাফলের সঙ্গে সামঞ্জস্যপূর্ণ, কিন্তু GPT-4o এবং GPT-4.1 জেনারেল-পারপাস মডেলগুলোতে সম্ভাব্য মিসইউজের উদ্বেগ উঠেছে। কোম্পানিটি আরও বলেছে যে o3 ছাড়া সব পরীক্ষিত মডেলে কোনো না কোনো মাত্রায় সাইকোফ্যান্সির সমস্যা দেখা দিয়েছে।

অ্যানথ্রপিকের পরীক্ষায় ওপেনএআইয়ের সবচেয়ে সাম্প্রতিক রিলিজ অন্তর্ভুক্ত ছিল না। GPT-5-এ “সেফ কমপ্লিশনস (Safe Completions)” নামে একটি ফিচার আছে, যা ব্যবহারকারী এবং সাধারণ জনগণকে সম্ভাব্য বিপজ্জনক কোয়েরি থেকে রক্ষা করার জন্য তৈরি। সাম্প্রতিক সময়ে ওপেনএআই তার প্রথম রংগরেলি ডেথ লসুইটের মুখোমুখি হয়েছে, যেখানে একটি কিশোর চ্যাটজিপিটি (ChatGPT)-এর সঙ্গে কয়েক মাস ধরে আত্মহত্যার চেষ্টা এবং পরিকল্পনা নিয়ে আলোচনা করার পর নিজের জীবন দিয়েছে।

অন্যদিকে, ওপেনএআই অ্যানথ্রপিকের মডেলগুলোতে ইনস্ট্রাকশন হায়ারার্কি (instruction hierarchy), জেইলব্রেকিং (jailbreaking), হ্যালুসিনেশন (hallucinations) এবং স্কিমিং (scheming) এর জন্য পরীক্ষা চালিয়েছে। ক্লড (Claude) মডেলগুলো সাধারণত ইনস্ট্রাকশন হায়ারার্কি পরীক্ষায় ভালো পারফর্ম করেছে, এবং হ্যালুসিনেশন পরীক্ষায় উচ্চ রিফিউজাল রেট দেখিয়েছে, অর্থাৎ অনিশ্চয়তার ক্ষেত্রে তারা ভুল উত্তর দেওয়ার সম্ভাবনা কমিয়ে রেখেছে।

এই কোম্পানিগুলোর যৌথ মূল্যায়নের পদক্ষেপটি আকর্ষণীয়, বিশেষ করে যেহেতু ওপেনএআই অভিযোগের মুখে পড়েছে যে তারা অ্যানথ্রপিকের টার্মস অফ সার্ভিস লঙ্ঘন করে নতুন জিপিটি মডেল তৈরির প্রক্রিয়ায় প্রোগ্রামারদের ক্লড ব্যবহার করেছে, যার ফলে এই মাসের শুরুতে অ্যানথ্রপিক ওপেনএআইয়ের টুলসে অ্যাক্সেস বন্ধ করে দিয়েছে। কিন্তু এআই টুলসের নিরাপত্তা এখন বড় ইস্যু হয়ে উঠেছে, যেহেতু আরও বেশি সমালোচক এবং আইনি বিশেষজ্ঞরা ব্যবহারকারীদের—বিশেষ করে নাবালকদের—রক্ষা করার জন্য গাইডলাইন খুঁজছেন।

বাংলাদেশের প্রেক্ষাপটে এই ঘটনা গুরুত্বপূর্ণ, কারণ আমাদের দেশে এআই প্রযুক্তির ব্যবহার দ্রুত বাড়ছে—শিক্ষা থেকে হেলথকেয়ার পর্যন্ত। এমন যৌথ মূল্যায়নের মাধ্যমে বিশ্বব্যাপী নিরাপত্তা স্ট্যান্ডার্ড উন্নত হলে, আমাদের তরুণ উদ্যোক্তা এবং ডেভেলপাররা আরও নিরাপদভাবে এআই ব্যবহার করতে পারবে। এটি শুধু প্রতিযোগিতা নয়, বরং দায়িত্বশীল উন্নয়নের উদাহরণ।

ট্যাগঅ্যালাইনমেন্ট এআই নিরাপত্তা মিউচুয়াল ইভালুয়েশন

লিখেছেন:আনিস আফিফি

সম্পাদক

ফলো:

আমি আনিস আফিফি — একজন উদ্যোক্তা এবং ওয়েব ডেভেলপার, যার একটি বড় স্বপ্ন হলো মানবজাতির জন্য পৃথিবীকে আরও ভালো একটি জায়গায় পরিণত করা। আমি ব্র্যান্ড তৈরি করি, ডিজিটাল সমস্যাগুলোর সমাধান করি। এবং এমন একটি ভবিষ্যত তৈরি করতে চাই যা মানুষকে ক্ষমতায়িত করে।