OpenAi এর চ্যাটজিপিটি আসার পর Ai এর প্রতি মানুষের আকর্ষন বেড়েই গেছে। Internet industry তে আর্টিফিশিয়াল ইন্টেলিজেন্স এর যেন এক অলিখিত প্রতিযোগীতা চলছে।এআই ডেভেলপমেন্ট করার দিকে সফটওয়্যার ফার্মগুলো ঝুঁকছে।
‘টেক্সট টু টেক্সট’ এআই দিয়ে চ্যাটজিপিটি যে ট্রেন্ড শুরু করেছে , এদিকে অন্যরা মনযোগ দেওয়ায় গড়ে উঠেছে বিভিন্ন ধরনের চমকপ্রদ আর্টিফিশিয়াল ইন্টেলিজেন্স । Text to image,Text to video,Image to video,text to audio,Audio to text …এ ধরনের অহরহ আর্টিফিশিয়াল ইন্টেলিজেন্স এর দেখা যাচ্ছে।
ইন্টারনেটের জায়ান্ট হিসেবে খ্যাত Google ও এর ব্যতিক্রম নয়। বিভিন্ন ধরনের artificial intelligence এর প্রজেক্ট হাতে নিয়ে এক্সপেরিমেন্ট করছে। বিভিন্ন ধরনের আর্টিফিশিয়াল ইন্টেলিজেন্স এর ডেভেলপমেন্ট এর অ্যানাউন্সমেন্ট দিয়ে যাচ্ছে।তেমনই একটি প্রজেক্ট “VLOGGER”ভ্লগিং আজকের দিনে দাঁড়িয়ে জনপ্রিয় একটি মাধ্যম অন্যদের সাথে অ্যানগেইজড হওয়ার। জনপ্রিয় ভিডিও শেয়ারিং প্ল্যাটফর্ম YouTube সহ সোশ্যাল মিডিয়া প্ল্যাটফর্ম Facebook এও পাওয়া যায় বিভিন্ন ধরনের ভ্লগ ভিডিও।
যারা ইন্ট্রোভার্ট ধরনের বা পাবলিকলি ভ্লগিং করতে লাজুক তাদের জন্য অন্যতম একটি সেরা এআই হতে যাচ্ছে Google এর এআই VLOGGER
এটি এমন একটি আর্টিফিশিয়াল ইন্টেলিজেন্স যেটি ইমেইজ টু ভিডিও জেনারেট করতে পারে।
চলুন দেখে নেয়া যাক এই Vlogger নিয়ে কয়েকটি চমকপ্রদ তথ্য
গুগলের Vlogger ডেভেলপ করা হচ্ছে কয়েকটি জেনারেটিভ ডিফ্যিউশন মডেলের কম্বিনেশন নিয়ে।এটি আগের থেকে আরো এক ধাপ এগিয়ে যাচ্ছে complete image generation ফিচার দিয়ে। অন্যান্য এআই এর মতো শুধু ফেস জেনারেট না করে এটি ফুল বডি জেনারেট করতে পারে।
এখানে বিভিন্ন ধরনের Scenerio নিয়ে ডেভেলপ করা হচ্ছে যাতে বিভিন্ন ধরনের ছবিতে ভালো আউটপুট মেইনটেইন করতে পারে।ফেসিয়াল ল্যান্ডমার্ক ডিটেকশন,লিপ মুভমেন্ট সেই সাথে এক্সপ্রেশন,অডিও এর উপর এখানে জোর দেয়া হচ্ছে।
মেইন কয়েকটি হাইলাইটিং ফিচার দেখা যাক
এটি সিঙ্গেল ফটো থেকে talking avatar এ কনভার্ট করতে পারেবলা চলে ইউজাররা এই ফিচারটিই মেইনলি ব্যবহার করবে।এটি ছবিকে ডিটেক্ট করে হাইপার রিয়েলিস্টিক avatar এ কনভার্ট করার ক্ষমতা রাখে। ফলে ভ্লগিং এর জন্য যারা আগ্রহী তাদের জন্য বেশ উপকারী।
এটি ভিডিও ট্রান্সলেট করতে পারে ফেসিয়াল এক্সপ্রেশন ও lips কনভার্ট করেযারা হলিউড বা অন্যান্য ভাষার মুভি dubbing করে দেখেন তারা একটি বিষয় হয়তো খেয়াল করেছেন অডিও এর সাথে ক্যারেক্টারের মুখের মুভমেন্ট মিলে না। ফলে কেমন যেন দেখায়। এটির বাউন্ডারি তুলে দিতে পারে এই এআই। এখানে ভিডিও ট্রান্সলেশন ফিচারে অডিও এর পাশাপাশি expression আর lip syncing করতে পারে
ভিজ্যুয়াল ফেসিয়াল এক্সপ্রেশন বদলাতে পারে এটিডিপফেক প্রযুক্তির মতো এখানে ফেসিয়াল এক্সপ্রেশন কনভার্ট করা যায়। ব্যবহারকারীরা তাদের ইচ্ছেমত কাস্টোমাইজ এক্সপ্রেসন সেট করে দিতে পারে।
এখানে রয়েছে বডি মুভমেন্ট generation সুবিধাহাইপার রিয়েলিস্টিক ভাবে এটিতে বডি মুভমেন্ট এর ফিচার আছে। ফলে কথার ভাব বোঝাতে এটি আরো বেশি করে কার্যকরী। কথা বলার ক্ষেত্রে বডি মুভমেন্ট একটি মেইন ফ্যাক্টর। Google এটিতেই নজর দিয়েছে।
ব্যাকগ্রাউন্ড অনুযায়ী pixel এবং সেই সাথে point of view তে এটি পরিবর্তন আনতে পারে। যার কারনে ছবির ক্যারেক্টারকে বিভিন্ন সাইড থেকে দেখানোর সুবিধা থাকবে।যেটি ভ্লগিং এ বেশ দরকারি একটি ফিচার।
আর্টিফিশিয়াল ইন্টেলিজেন্স বর্তমানে একটি ট্রেন্ডিং টপিক। সময়ের সাথে এটি আরো উন্নতি লাভ করেছে। দেখা যাক গুগল তাদের Vlogger এআই এ কতটুকু সাফল্য লাভ করে। আপাতত এটি রিসার্চ প্রজেক্ট হিসেবে আছে। আশা করা যায় শীঘ্রই এটি সবার জন্য উন্মুক্ত হবে। আজ এই পর্যন্তই।
দেখা হবে আবার নতুন কোন পোস্ট নিয়ে।