এআই মডেল ছবিকে ৩ডি বিশ্বে রূপান্তর করে, তবে সীমাবদ্ধতা রয়েছে

এআই মডেল হুনয়ুয়ানওয়ার্ল্ড-ভয়েজার ছবি থেকে ৩ডি বিশ্ব তৈরি করে। সীমাবদ্ধতা সত্ত্বেও ভিডিও এবং গভীরতার ডেটা উৎপন্ন করে। বিস্তারিত জানুন!

আনিস আফিফি
লিখেছেন:
আনিস আফিফি
লিখেছেন:আনিস আফিফি
সম্পাদক
আমি আনিস আফিফি — একজন উদ্যোক্তা এবং ওয়েব ডেভেলপার, যার একটি বড় স্বপ্ন হলো মানবজাতির জন্য পৃথিবীকে আরও ভালো একটি জায়গায় পরিণত করা। আমি ব্র্যান্ড তৈরি...
- সম্পাদক
ভয়েজার দ্বারা তৈরি একটি ভিডিও সিকোয়েন্সের একটি স্থিরচিত্র। সৌজন্যে: টেনসেন্ট

টেনসেন্ট মঙ্গলবার একটি নতুন ওপেন-ওয়েট এআই মডেল হুনয়ুয়ানওয়ার্ল্ড-ভয়েজার প্রকাশ করেছে, যা একটি একক ছবি থেকে ৩ডি-সামঞ্জস্যপূর্ণ ভিডিও সিকোয়েন্স তৈরি করে। এই মডেল ব্যবহারকারীদের একটি ক্যামেরা পাথ নিয়ন্ত্রণ করে ভার্চুয়াল দৃশ্য “অনুসন্ধান” করতে দেয়। এটি একই সাথে আরজিবি ভিডিও এবং গভীরতার তথ্য তৈরি করে, যা সরাসরি ৩ডি পুনর্গঠনের জন্য ব্যবহার করা যায়, ঐতিহ্যবাহী মডেলিং কৌশলের প্রয়োজন ছাড়াই। তবে, এটি এখনও ভিডিও গেমের বিকল্প হতে পারছে না।

এই মডেলের ফলাফল সত্যিকারের ৩ডি মডেল নয়, তবে এটি একটি অনুরূপ প্রভাব তৈরি করে। এআই টুলটি ২ডি ভিডিও ফ্রেম তৈরি করে, যা এমনভাবে স্থানিক সামঞ্জস্য বজায় রাখে যেন ক্যামেরা একটি বাস্তব ৩ডি স্থানে চলছে। প্রতিটি উৎপাদন মাত্র ৪৯টি ফ্রেম তৈরি করে—প্রায় দুই সেকেন্ডের ভিডিও। তবে, টেনসেন্টের মতে, একাধিক ক্লিপ একত্রিত করে “কয়েক মিনিট” পর্যন্ত সিকোয়েন্স তৈরি করা যায়। ক্যামেরা যখন বস্তুর চারপাশে ঘোরে, তখন বস্তুগুলো তাদের আপেক্ষিক অবস্থানে থাকে এবং দৃষ্টিকোণ সঠিকভাবে পরিবর্তিত হয়, যেমনটি একটি বাস্তব ৩ডি পরিবেশে আশা করা যায়। যদিও আউটপুটটি সত্যিকারের ৩ডি মডেল নয়, বরং গভীরতার মানচিত্র সহ ভিডিও, এই তথ্যগুলো ৩ডি পয়েন্ট ক্লাউডে রূপান্তর করা যায়।

সিস্টেমটি একটি একক ইনপুট ছবি এবং ব্যবহারকারীর নির্দিষ্ট ক্যামেরা ট্র্যাজেক্টরি গ্রহণ করে কাজ করে। ব্যবহারকারীরা প্রদত্ত ইন্টারফেসের মাধ্যমে ক্যামেরার গতিবিধি যেমন সামনে, পিছনে, বামে, ডানে বা ঘূর্ণন নির্দিষ্ট করতে পারেন। সিস্টেমটি ছবি এবং গভীরতার ডেটার সাথে একটি মেমরি-দক্ষ “ওয়ার্ল্ড ক্যাশে” ব্যবহার করে ব্যবহারকারীর নির্দিষ্ট ক্যামেরা গতিবিধি প্রতিফলিত করে ভিডিও সিকোয়েন্স তৈরি করে।

ট্রান্সফরমার আর্কিটেকচারের উপর ভিত্তি করে সকল এআই মডেলের একটি বড় সীমাবদ্ধতা হলো তারা মূলত প্রশিক্ষণ ডেটার প্যাটার্ন অনুকরণ করে, যা তাদের “জেনারেলাইজেশন” ক্ষমতা সীমিত করে। অর্থাৎ, প্রশিক্ষণ ডেটায় না থাকা নতুন পরিস্থিতিতে এই প্যাটার্ন প্রয়োগ করা তাদের জন্য কঠিন। ভয়েজারকে প্রশিক্ষণ দেওয়ার জন্য গবেষকরা ১০০,০০০-এর বেশি ভিডিও ক্লিপ ব্যবহার করেছেন, যার মধ্যে আনরিয়াল ইঞ্জিন থেকে তৈরি কম্পিউটার-জনিত দৃশ্যও রয়েছে। এটি মডেলটিকে শেখায় কীভাবে ক্যামেরা ৩ডি ভিডিও গেম পরিবেশে চলে।

Backbone 768X294 1
ভয়েজার ওয়ার্ল্ড ক্রিয়েশন পাইপলাইনের একটি চিত্র। ক্রেডিট: টেনসেন্ট

বেশিরভাগ এআই ভিডিও জেনারেটর, যেমন সোরা, একের পর এক সম্ভাব্য ফ্রেম তৈরি করে, স্থানিক সামঞ্জস্য ট্র্যাক বা বজায় রাখার চেষ্টা না করে। বিশেষভাবে, ভয়েজারকে স্থানিক সামঞ্জস্যের প্যাটার্ন চিনতে এবং পুনরুৎপাদন করতে প্রশিক্ষণ দেওয়া হয়েছে, তবে এতে একটি জ্যামিতিক ফিডব্যাক লুপ যুক্ত করা হয়েছে। প্রতিটি ফ্রেম তৈরির সময় এটি আউটপুটকে ৩ডি পয়েন্টে রূপান্তর করে, তারপর এই পয়েন্টগুলো ভবিষ্যতের ফ্রেমের জন্য ২ডি-তে প্রক্ষেপণ করে।

এই কৌশলটি মডেলটিকে তার শেখা প্যাটার্নগুলোকে জ্যামিতিকভাবে সামঞ্জস্যপূর্ণ প্রক্ষেপণের সাথে মেলাতে বাধ্য করে। এটি সাধারণ ভিডিও জেনারেটরের তুলনায় অনেক ভালো স্থানিক সামঞ্জস্য তৈরি করে, তবে এটি এখনও মূলত জ্যামিতিক সীমাবদ্ধতা দ্বারা পরিচালিত প্যাটার্ন-ম্যাচিং। এটিই ব্যাখ্যা করে কেন মডেলটি কয়েক মিনিট ধরে সামঞ্জস্য বজায় রাখতে পারে কিন্তু পূর্ণ ৩৬০-ডিগ্রি ঘূর্ণনের ক্ষেত্রে সমস্যায় পড়ে—প্যাটার্ন ম্যাচিংয়ে ছোট ছোট ত্রুটি অনেক ফ্রেমে জমা হয়ে জ্যামিতিক সীমাবদ্ধতা আর সামঞ্জস্য বজায় রাখতে পারে না।

টেনসেন্টের প্রযুক্তিগত প্রতিবেদন অনুসারে, সিস্টেমটি দুটি প্রধান অংশ নিয়ে কাজ করে। প্রথমত, এটি রঙিন ভিডিও এবং গভীরতার তথ্য একসাথে তৈরি করে, নিশ্চিত করে যে এগুলো পুরোপুরি মিলে যায়—যখন ভিডিওতে একটি গাছ দেখায়, গভীরতার ডেটা জানে গাছটি কত দূরে। দ্বিতীয়ত, এটি “ওয়ার্ল্ড ক্যাশে” নামে একটি ক্রমবর্ধমান ৩ডি পয়েন্ট ক্লাউড ব্যবহার করে, যা পূর্বে উৎপন্ন ফ্রেম থেকে তৈরি হয়। নতুন ফ্রেম তৈরির সময়, এই পয়েন্ট ক্লাউডটি নতুন ক্যামেরা কোণ থেকে ২ডি-তে প্রক্ষেপিত হয়, যা পূর্বের ফ্রেমের ভিত্তিতে কী দৃশ্যমান হওয়া উচিত তা দেখায়। মডেলটি এই প্রক্ষেপণগুলোকে সামঞ্জস্য পরীক্ষা হিসেবে ব্যবহার করে, নিশ্চিত করে নতুন ফ্রেমগুলো পূর্বে উৎপন্ন ফ্রেমের সাথে সামঞ্জস্যপূর্ণ।

এই প্রকাশনাটি বিভিন্ন কোম্পানির বিশ্ব উৎপাদন মডেলের ক্রমবর্ধমান সংগ্রহে যোগ করেছে। গুগলের জিনি ৩, আগস্ট ২০২৫-এ ঘোষিত, টেক্সট প্রম্পট থেকে ৭২০পি রেজোলিউশনে এবং ২৪ ফ্রেম প্রতি সেকেন্ডে ইন্টারেক্টিভ বিশ্ব তৈরি করে, যা কয়েক মিনিটের জন্য রিয়েল-টাইম নেভিগেশনের সুযোগ দেয়। ডায়নামিক্স ল্যাবের মিরাজ ২ ব্রাউজার-ভিত্তিক বিশ্ব উৎপাদনের সুবিধা দেয়, যেখানে ব্যবহারকারীরা ছবি আপলোড করে এবং রিয়েল-টাইম টেক্সট প্রম্পটিংয়ের মাধ্যমে খেলার যোগ্য পরিবেশে রূপান্তর করতে পারে। জিনি ৩ এআই এজেন্ট প্রশিক্ষণের উপর দৃষ্টি নিবদ্ধ করে এবং সর্বজনীনভাবে উপলব্ধ নয়, মিরাজ ২ গেমিংয়ের জন্য ব্যবহারকারী-উৎপন্ন কন্টেন্টের উপর জোর দেয়, আর ভয়েজার ভিডিও প্রোডাকশন এবং ৩ডি পুনর্গঠনের কাজে আরজিবি-গভীরতা আউটপুট ক্ষমতার জন্য লক্ষ্য করে।

স্বয়ংক্রিয় ডেটা পাইপলাইনের মাধ্যমে প্রশিক্ষণ

ভয়েজার টেনসেন্টের পূর্ববর্তী হুনয়ুয়ানওয়ার্ল্ড ১.০-এর উপর ভিত্তি করে তৈরি, যা জুলাইয়ে প্রকাশিত হয়েছিল। এটি টেনসেন্টের বৃহত্তর “হুনয়ুয়ান” ইকোসিস্টেমের অংশ, যার মধ্যে হুনয়ুয়ান৩ডি-২ মডেল টেক্সট-টু-৩ডি জেনারেশনের জন্য এবং পূর্বে উল্লিখিত হুনয়ুয়ানভিডিও ভিডিও সিন্থেসিসের জন্য রয়েছে।

ভয়েজারকে প্রশিক্ষণ দেওয়ার জন্য, গবেষকরা এমন সফটওয়্যার তৈরি করেছেন যা স্বয়ংক্রিয়ভাবে বিদ্যমান ভিডিও বিশ্লেষণ করে ক্যামেরার গতিবিধি প্রক্রিয়া করে এবং প্রতিটি ফ্রেমের জন্য গভীরতা গণনা করে—যার ফলে হাজার হাজার ঘণ্টার ফুটেজ ম্যানুয়ালি লেবেল করার প্রয়োজন হয় না। সিস্টেমটি বাস্তব-বিশ্বের রেকর্ডিং এবং আনরিয়াল ইঞ্জিন রেন্ডার থেকে ১০০,০০০-এর বেশি ভিডিও ক্লিপ প্রক্রিয়া করেছে।

মডেলটি চালানোর জন্য গুরুতর কম্পিউটিং শক্তি প্রয়োজন, ৫৪০পি রেজোলিউশনের জন্য কমপক্ষে ৬০ জিবি জিপিইউ মেমরি প্রয়োজন, যদিও টেনসেন্ট আরও ভালো ফলাফলের জন্য ৮০ জিবি সুপারিশ করে। টেনসেন্ট মডেলের ওজন হাগিং ফেসে প্রকাশ করেছে এবং একক এবং মাল্টি-জিপিইউ সেটআপের সাথে কাজ করে এমন কোড অন্তর্ভুক্ত করেছে।

মডেলটির উল্লেখযোগ্য লাইসেন্সিং সীমাবদ্ধতা রয়েছে। টেনসেন্টের অন্যান্য হুনয়ুয়ান মডেলের মতো, লাইসেন্সটি ইউরোপীয় ইউনিয়ন, যুক্তরাজ্য এবং দক্ষিণ কোরিয়ায় ব্যবহার নিষিদ্ধ করে। এছাড়া, ১০০ মিলিয়নের বেশি মাসিক সক্রিয় ব্যবহারকারীদের জন্য বাণিজ্যিক মোতায়েনের জন্য টেনসেন্টের থেকে পৃথক লাইসেন্স প্রয়োজন।

স্ট্যানফোর্ড বিশ্ববিদ্যালয়ের গবেষকদের তৈরি ওয়ার্ল্ডস্কোর বেঞ্চমার্কে ভয়েজার সর্বোচ্চ সামগ্রিক স্কোর ৭৭.৬২ অর্জন করেছে, যেখানে ওয়ান্ডারওয়ার্ল্ডের স্কোর ৭২.৬৯ এবং কগভিডিওএক্স-আই২ভি-এর স্কোর ৬২.১৫। মডেলটি অবজেক্ট কন্ট্রোল (৬৬.৯২), স্টাইল সামঞ্জস্য (৮৪.৮৯) এবং বিষয়গত গুণমানে (৭১.০৯) শ্রেষ্ঠত্ব অর্জন করেছে, যদিও ক্যামেরা কন্ট্রোলে (৮৫.৯৫) এটি ওয়ান্ডারওয়ার্ল্ডের ৯২.৯৮-এর পিছনে দ্বিতীয় স্থানে রয়েছে। ওয়ার্ল্ডস্কোর বিশ্ব উৎপাদন পদ্ধতিগুলোকে ৩ডি সামঞ্জস্য এবং কন্টেন্ট সারিবদ্ধতা সহ একাধিক মানদণ্ডে মূল্যায়ন করে।

যদিও এই স্ব-প্রকাশিত বেঞ্চমার্ক ফলাফলগুলো আশাব্যঞ্জক মনে হয়, তবে প্রয়োজনীয় কম্পিউটিং শক্তি এবং দীর্ঘ, সুসংগত “বিশ্ব” তৈরির সীমাবদ্ধতার কারণে ব্যাপক মোতায়েন এখনও চ্যালেঞ্জের মুখোমুখি। দ্রুত প্রক্রিয়াকরণের জন্য, সিস্টেমটি একাধিক জিপিইউ জুড়ে সমান্তরাল ইনফারেন্স সমর্থন করে, যা xDiT ফ্রেমওয়ার্ক ব্যবহার করে। আটটি জিপিইউ-তে চললে প্রক্রিয়াকরণের গতি একক জিপিইউ সেটআপের তুলনায় ৬.৬৯ গুণ দ্রুত হয়।

প্রয়োজনীয় প্রক্রিয়াকরণ শক্তি এবং দীর্ঘ, সুসংগত বিশ্ব তৈরির সীমাবদ্ধতার কারণে রিয়েল-টাইম ইন্টারেক্টিভ অভিজ্ঞতার জন্য এই ধরনের কৌশল ব্যবহার করতে এখনও কিছুটা সময় লাগতে পারে। তবে, গুগলের জিনির মতো পরীক্ষার মাধ্যমে আমরা সম্ভবত একটি নতুন ইন্টারেক্টিভ, জেনারেটিভ শিল্প ফর্মের প্রাথমিক পদক্ষেপগুলো প্রত্যক্ষ করছি।

Avatar Of আনিস আফিফি
লিখেছেন:আনিস আফিফি
সম্পাদক
ফলো:
আমি আনিস আফিফি — একজন উদ্যোক্তা এবং ওয়েব ডেভেলপার, যার একটি বড় স্বপ্ন হলো মানবজাতির জন্য পৃথিবীকে আরও ভালো একটি জায়গায় পরিণত করা। আমি ব্র্যান্ড তৈরি করি, ডিজিটাল সমস্যাগুলোর সমাধান করি। এবং এমন একটি ভবিষ্যত তৈরি করতে চাই যা মানুষকে ক্ষমতায়িত করে।
মন্তব্য নেই

মন্তব্য করুন

আপনার ই-মেইল এ্যাড্রেস প্রকাশিত হবে না। * চিহ্নিত বিষয়গুলো আবশ্যক।

০%