দৃষ্টি এবং ভাষা একত্রিত করা আরও সক্ষম AI – TechCrunch এর চাবিকাঠি হতে পারে

আপনি যে বুদ্ধিমত্তার তত্ত্বে সাবস্ক্রাইব করেন তার উপর নির্ভর করে, “মানব-স্তরের” AI অর্জনের জন্য এমন একটি সিস্টেমের প্রয়োজন হবে যা বিশ্ব সম্পর্কে যুক্তির জন্য একাধিক পদ্ধতি – যেমন, শব্দ, দৃষ্টি এবং পাঠ্য – ব্যবহার করতে পারে। উদাহরণস্বরূপ, যখন একটি তুষারময় ফ্রিওয়েতে একটি শীর্ষস্থানীয় ট্রাক এবং একটি পুলিশ ক্রুজারের একটি চিত্র দেখানো হয়, তখন একটি মানব-স্তরের AI অনুমান করতে পারে যে বিপজ্জনক রাস্তার অবস্থা দুর্ঘটনার কারণ হয়ে দাঁড়িয়েছে৷ অথবা, একটি রোবট চালিয়ে, যখন রেফ্রিজারেটর থেকে সোডার ক্যান ধরতে বলা হয়, তখন তারা ক্যানটি পুনরুদ্ধার করার জন্য মানুষ, আসবাবপত্র এবং পোষা প্রাণীর চারপাশে নেভিগেট করবে এবং অনুরোধকারীর নাগালের মধ্যে রাখবে।

আজকের এআই যদি সংক্ষিপ্ত হয়। কিন্তু নতুন গবেষণায় উৎসাহব্যঞ্জক অগ্রগতির লক্ষণ দেখা যাচ্ছে, রোবট যেগুলো মৌলিক আদেশ (যেমন, “একটি জলের বোতল পান”) সন্তুষ্ট করার পদক্ষেপগুলি বের করতে পারে থেকে পাঠ্য-উৎপাদন সিস্টেম যা ব্যাখ্যা থেকে শেখে। ডিপ সায়েন্সের এই পুনরুজ্জীবিত সংস্করণে, AI-তে সাম্প্রতিক উন্নয়ন এবং বৃহত্তর বৈজ্ঞানিক ক্ষেত্রের বিষয়ে আমাদের সাপ্তাহিক সিরিজ, আমরা DeepMind, Google এবং OpenAI-এর কাজগুলিকে কভার করছি যা এমন সিস্টেমের দিকে অগ্রসর হয় যা বিশ্বকে পুরোপুরি বুঝতে না পারলে — চিত্তাকর্ষক দৃঢ়তার সাথে চিত্র তৈরি করার মতো সংকীর্ণ কাজগুলি সমাধান করুন।

AI গবেষণা ল্যাব ওপেনএআই-এর উন্নত DALL-E, DALL-E 2, একটি AI গবেষণা ল্যাবের গভীরতা থেকে উদ্ভূত সবচেয়ে চিত্তাকর্ষক প্রকল্প। আমার সহকর্মী ডেভিন কোল্ডেউই লিখেছেন, যখন আসল DALL-E কার্যত যে কোনও প্রম্পটের সাথে মেলে ইমেজ তৈরি করার জন্য একটি অসাধারণ দক্ষতা প্রদর্শন করেছে (উদাহরণস্বরূপ, “বেরেট পরা একটি কুকুর”), DALL-E 2 এটিকে আরও এগিয়ে নিয়ে যায়। এটি যে ছবিগুলি তৈরি করে তা অনেক বেশি বিশদ, এবং DALL-E 2 বুদ্ধিমত্তার সাথে একটি চিত্রের একটি প্রদত্ত এলাকা প্রতিস্থাপন করতে পারে – উদাহরণস্বরূপ উপযুক্ত প্রতিফলন সহ একটি মার্বেল মেঝের ফটোতে একটি টেবিল ঢোকানো।

OpenAI DALL-E 2

DALL-E 2 যে ধরনের ছবি তৈরি করতে পারে তার একটি উদাহরণ।

DALL-E 2 এই সপ্তাহে সবচেয়ে বেশি মনোযোগ পেয়েছে। কিন্তু বৃহস্পতিবার, Google-এর গবেষকরা Google-এর AI ব্লগে প্রকাশিত একটি পোস্টে Visually-driven Prosody for Text-to-Speech – VDTTS – নামে একটি সমানভাবে চিত্তাকর্ষক ভিজ্যুয়াল বোঝার সিস্টেমের বিস্তারিত বর্ণনা করেছেন। VDTTS বাস্তবসম্মত-শব্দযুক্ত, ঠোঁট-সিঙ্কড বক্তৃতা তৈরি করতে পারে যা কথা বলা ব্যক্তির পাঠ্য এবং ভিডিও ফ্রেম ছাড়া আর কিছুই না।

ভিডিটিটিএস-এর তৈরি বক্তৃতা, যদিও রেকর্ড করা সংলাপের জন্য একটি নিখুঁত স্ট্যান্ড-ইন নয়, এখনও বেশ ভাল, বিশ্বাসযোগ্যভাবে মানুষের মতো অভিব্যক্তি এবং সময়। গুগল এটিকে একদিন একটি স্টুডিওতে মূল অডিও প্রতিস্থাপন করতে ব্যবহার করতে দেখে যা শোরগোল অবস্থায় রেকর্ড করা হতে পারে।

অবশ্যই, ভিজ্যুয়াল বোঝার আরও সক্ষম AI এর পথে একটি ধাপ মাত্র। আরেকটি উপাদান হল ভাষা বোঝা, যা অনেক দিক থেকে পিছিয়ে রয়েছে – এমনকি এআই-এর ভালভাবে নথিভুক্ত বিষাক্ততা এবং পক্ষপাতমূলক সমস্যাগুলিকে একপাশে রেখে। একটি প্রকৃষ্ট উদাহরণে, Google-এর একটি অত্যাধুনিক সিস্টেম, পাথওয়ে ল্যাঙ্গুয়েজ মডেল (PaLM), একটি গবেষণাপত্র অনুসারে, এটিকে “প্রশিক্ষণ” দেওয়ার জন্য ব্যবহৃত 40% ডেটা মুখস্থ করে, যার ফলে PaLM কপিরাইট নোটিশে পাঠ্য চুরি করে কোড স্নিপেট

সৌভাগ্যবশত, ডিপমাইন্ড, অ্যালফাবেট দ্বারা সমর্থিত AI ল্যাব, এটি সমাধান করার কৌশলগুলি অন্বেষণকারীদের মধ্যে রয়েছে। একটি নতুন গবেষণায়, ডিপমাইন্ড গবেষকরা তদন্ত করেন যে AI ভাষা সিস্টেম – যা বিদ্যমান পাঠ্যের অনেক উদাহরণ থেকে পাঠ্য তৈরি করতে শেখে (ভাবুন বই এবং সামাজিক মিডিয়া) – দেওয়া থেকে উপকৃত হতে পারে কিনা ব্যাখ্যা যারা পাঠ্যের. কয়েক ডজন ভাষার কাজ টীকা করার পরে (যেমন, “দ্বিতীয় বাক্যটি প্রথম, রূপক বাক্যটির একটি উপযুক্ত প্যারাফ্রেজ কিনা তা সনাক্ত করে এই প্রশ্নের উত্তর দিন”) ব্যাখ্যা সহ (যেমন, “ডেভিডের চোখ আক্ষরিক অর্থে ছোরা ছিল না, এটি একটি রূপক যা ব্যবহৃত হয়) বোঝায় যে ডেভিড পলের দিকে প্রচণ্ড দৃষ্টিতে তাকিয়ে ছিল।”) এবং তাদের উপর বিভিন্ন সিস্টেমের কার্যকারিতা মূল্যায়ন করে, ডিপমাইন্ড দল খুঁজে পেয়েছে যে উদাহরণগুলি প্রকৃতপক্ষে সিস্টেমগুলির কার্যকারিতা উন্নত করে৷

ডিপমাইন্ডের পদ্ধতি, যদি এটি একাডেমিক সম্প্রদায়ের মধ্যে একত্রিত হয়, তাহলে একদিন রোবোটিক্সে প্রয়োগ করা যেতে পারে, একটি রোবটের বিল্ডিং ব্লক তৈরি করে যা ধাপে ধাপে নির্দেশনা ছাড়াই অস্পষ্ট অনুরোধগুলি (যেমন, “আবর্জনা ফেলে দেওয়া”) বুঝতে পারে। Google-এর নতুন “ডু যেমন আমি পারি, আমি যেমন বলি তেমন নয়” প্রকল্প এই ভবিষ্যতের একটি আভাস দেয় — কিন্তু উল্লেখযোগ্য সীমাবদ্ধতা সহ।

অ্যালফাবেটের এক্স ল্যাবে Google-এর রোবোটিক্স এবং এভরিডে রোবোটিক্স টিমের মধ্যে একটি সহযোগিতা, আমি যেমন বলতে পারি তেমন নয়, একটি AI ভাষা ব্যবস্থাকে একটি রোবটের জন্য “সম্ভাব্য” এবং “প্রসঙ্গগতভাবে উপযুক্ত” পদক্ষেপগুলি প্রস্তাব করার জন্য শর্ত দিতে চায়, একটি নির্বিচারে দেওয়া হয় টাস্ক রোবট ভাষা সিস্টেমের “হাত এবং চোখ” হিসাবে কাজ করে যখন সিস্টেমটি টাস্ক সম্পর্কে উচ্চ-স্তরের শব্দার্থিক জ্ঞান সরবরাহ করে — তত্ত্বটি হল যে ভাষা ব্যবস্থা রোবটের জন্য দরকারী জ্ঞানের ভান্ডারকে এনকোড করে।

গুগল রোবোটিক্স

ইমেজ ক্রেডিট: Google এ রোবোটিক্স

SayCan নামক একটি সিস্টেম একটি কমান্ডের প্রতিক্রিয়া হিসাবে রোবটটির কোন দক্ষতাগুলি সম্পাদন করা উচিত তা নির্বাচন করে, (1) একটি প্রদত্ত দক্ষতা কার্যকর হওয়ার সম্ভাবনা এবং (2) উক্ত দক্ষতা সফলভাবে কার্যকর করার সম্ভাবনার উপর ভিত্তি করে। উদাহরণ স্বরূপ, “আমি আমার কোক ছিটিয়ে দিয়েছি, আপনি কি এটা পরিষ্কার করার জন্য আমাকে কিছু আনতে পারেন?” উত্তরে SayCan রোবটকে একটি স্পঞ্জ খুঁজে বের করতে, স্পঞ্জটি তুলে নিতে এবং যে ব্যক্তি চেয়েছিল তার কাছে নিয়ে আসতে পারে। এটা

SayCan রোবোটিক্স হার্ডওয়্যার দ্বারা সীমাবদ্ধ — একাধিক অনুষ্ঠানে, গবেষণা দল রোবটটিকে পর্যবেক্ষণ করেছে যে তারা দুর্ঘটনাক্রমে অবজেক্ট ড্রপ করার পরীক্ষা চালানোর জন্য বেছে নিয়েছে। তবুও, এটি, প্রাসঙ্গিক বোঝাপড়ায় DALL-E 2 এবং DeepMind-এর কাজ সহ, এটি একটি দৃষ্টান্ত যে কীভাবে AI সিস্টেমগুলিকে একত্রিত করা হলে তা আমাদেরকে একটি জেটসন টাইপ ভবিষ্যৎ

Related Posts