OpenAi এর চ্যাটজিপিটি আসার পর Ai এর প্রতি মানুষের আকর্ষন বেড়েই গেছে। Internet industry তে আর্টিফিশিয়াল ইন্টেলিজেন্স এর যেন এক অলিখিত প্রতিযোগীতা চলছে।এআই ডেভেলপমেন্ট করার দিকে সফট‌ওয়্যার ফার্মগুলো ঝুঁকছে।

‘টেক্সট টু টেক্সট’ এআই দিয়ে চ্যাটজিপিটি যে ট্রেন্ড শুরু করেছে , এদিকে অন্যরা মনযোগ দেওয়ায় গড়ে উঠেছে বিভিন্ন ধরনের চমকপ্রদ আর্টিফিশিয়াল ইন্টেলিজেন্স । Text to image,Text to video,Image to video,text to audio,Audio to text …এ ধরনের অহরহ আর্টিফিশিয়াল ইন্টেলিজেন্স এর দেখা যাচ্ছে।

ইন্টারনেটের জায়ান্ট হিসেবে খ্যাত Google ও এর ব্যতিক্রম নয়। বিভিন্ন ধরনের artificial intelligence এর প্রজেক্ট হাতে নিয়ে এক্সপেরিমেন্ট করছে। বিভিন্ন ধরনের আর্টিফিশিয়াল ইন্টেলিজেন্স এর ডেভেলপমেন্ট এর অ্যানাউন্সমেন্ট দিয়ে যাচ্ছে।তেমন‌ই একটি প্রজেক্ট “VLOGGER”

ভ্লগিং আজকের দিনে দাঁড়িয়ে জনপ্রিয় একটি মাধ্যম অন্যদের সাথে অ্যানগেইজড হ‌ওয়ার।‌‌ জনপ্রিয় ভিডিও শেয়ারিং প্ল্যাটফর্ম‌ YouTube সহ সোশ্যাল মিডিয়া প্ল্যাটফর্ম Facebook এ‌ও পাওয়া যায় বিভিন্ন ধরনের ভ্লগ ভিডিও।

যারা ইন্ট্রোভার্ট ধরনের বা পাবলিকলি ভ্লগিং করতে লাজুক তাদের জন্য অন্যতম একটি সেরা এআই হতে যাচ্ছে Google এর এআই VLOGGER
এটি এমন একটি আর্টিফিশিয়াল ইন্টেলিজেন্স যেটি ইমেইজ টু ভিডিও জেনারেট করতে পারে।

চলুন দেখে নেয়া যাক এই Vlogger নিয়ে কয়েকটি চমকপ্রদ তথ্য

গুগলের Vlogger ডেভেলপ করা হচ্ছে কয়েকটি জেনারেটিভ ডিফ্যিউশন মডেলের কম্বিনেশন নিয়ে।এটি আগের থেকে আরো এক ধাপ এগিয়ে যাচ্ছে complete image generation ফিচার দিয়ে। অন্যান্য এআই এর মতো শুধু ফেস জেনারেট না করে এটি ফুল বডি জেনারেট করতে পারে।

মাল্টি মডেলের Diffusion model ব্যবহার করায় হাইপার‌রিয়েলিজমে এটির পারফরম্যান্স হবে আগের থেকে আরো‌ উন্নত।
এখানে বিভিন্ন ধরনের Scenerio নিয়ে ডেভেলপ করা হচ্ছে যাতে বিভিন্ন ধরনের ছবিতে ভালো আউটপুট মেইনটেইন করতে পারে।ফেসিয়াল ল্যান্ডমার্ক ডিটেকশন,লিপ মুভমেন্ট সেই সাথে এক্সপ্রেশন,অডিও এর উপর এখানে জোর দেয়া হচ্ছে।

মেইন কয়েকটি হাইলাইটিং ফিচার দেখা যাক

এটি সিঙ্গেল ফটো থেকে talking avatar এ কনভার্ট করতে পারে

বলা চলে ইউজাররা এই ফিচারটিই মেইনলি ব্যবহার করবে।এটি ছবিকে ডিটেক্ট করে হাইপার রিয়েলিস্টিক avatar এ কনভার্ট করার ক্ষমতা রাখে। ফলে ভ্লগিং এর জন্য যারা আগ্রহী তাদের জন্য বেশ উপকারী।

এটি ভিডিও ট্রান্সলেট করতে পারে ফেসিয়াল এক্সপ্রেশন ও lips কনভার্ট করে

যারা হলিউড বা অন্যান্য ভাষার মুভি dubbing করে দেখেন তারা একটি বিষয় হয়তো খেয়াল করেছেন অডিও এর সাথে ক্যারেক্টারের মুখের মুভমেন্ট মিলে না। ফলে কেমন যেন দেখায়। এটির বাউন্ডারি তুলে দিতে পারে এই এআই। এখানে ভিডিও ট্রান্সলেশন ফিচারে অডিও এর পাশাপাশি expression আর lip syncing করতে পারে

ভিজ্যুয়াল ফেসিয়াল এক্সপ্রেশন বদলাতে পারে এটি

ডিপফেক প্রযুক্তির মতো এখানে ফেসিয়াল এক্সপ্রেশন কনভার্ট করা যায়। ব্যবহারকারীরা তাদের ইচ্ছেমত কাস্টোমাইজ এক্সপ্রেসন সেট করে দিতে পারে।

এখানে রয়েছে বডি মুভমেন্ট generation সুবিধা

হাইপার রিয়েলিস্টিক ভাবে এটিতে বডি মুভমেন্ট এর ফিচার আছে। ফলে কথার ভাব বোঝাতে এটি আরো বেশি করে কার্যকরী। কথা বলার ক্ষেত্রে বডি মুভমেন্ট একটি মেইন ফ্যাক্টর। Google এটিতেই নজর দিয়েছে।

এখানে pixlel ও motion ডাইভার্সিটি এর ফিচার আছে

ব্যাকগ্রাউন্ড অনুযায়ী pixel এবং সেই সাথে point of view তে এটি পরিবর্তন আনতে পারে। যার কারনে ছবির ক্যারেক্টারকে বিভিন্ন সাইড থেকে‌‌ দেখানোর সুবিধা থাকবে।যেটি ভ্লগিং এ বেশ দরকারি একটি ফিচার।

 

আর্টিফিশিয়াল ইন্টেলিজেন্স বর্তমানে একটি ট্রেন্ডিং টপিক। সময়ের সাথে এটি আরো উন্নতি লাভ করেছে। দেখা যাক গুগল তাদের Vlogger এআই এ কতটুকু সাফল্য লাভ করে। আপাতত এটি রিসার্চ প্রজেক্ট হিসেবে আছে। আশা করা যায় শীঘ্রই এটি সবার জন্য উন্মুক্ত হবে। আজ এই পর্যন্তই।
দেখা হবে আবার নতুন কোন পোস্ট নিয়ে।

Leave a Reply