گوگل روش‌های جدیدی را برای آموزش ربات‌ها با مدل‌های ویدیویی و زبان بزرگ ارائه می‌کند

دی 18, 1402 6۰45

به گزارش اپ خونه، سال ۲۰۲۴ سال بزرگی برای بخش های مولد هوش مصنوعی/مدل های بنیادی بزرگ (LLM) و روباتیک خواهد بود.

هیجان زیادی پیرامون پتانسیل کاربردهای مختلف، از یادگیری گرفته تا طراحی محصول، وجود دارد. محققان DeepMind Robotics گوگل یکی از تعداد تیمی هستند که پتانسیل این فضا را بررسی می کنند.

در یک پست وبلاگ ، این تیم تحقیقات در حال انجامی را برجسته می کند که با رباتیک طراحی شده است تا درک بهتری از دقیقاً آنچه ما انسان ها از آنها می خواهیم داشته باشد.

به طور سنتی، ربات ها در طول زندگی خود به طور مکرر بر انجام یک کار منحصر به فرد تمرکز می کردند. ربات‌های تک‌منظوره در این یک چیز بسیار خوب عمل می‌کنند، اما حتی زمانی که تغییرات یا خطاها ناخواسته به روند رسیدگی وارد می‌شوند، با مشکل مواجه می‌شوند.

AutoRT به تازگی اعلام شده برای مهار مدل های پایه بزرگ، برای تعدادی از اهداف مختلف طراحی شده است.

در یک مثال استاندارد ارائه شده توسط تیم DeepMind، سیستم با استفاده از یک مدل زبان بصری (VLM) برای آگاهی بهتر از موقعیت شروع می‌کند.

AutoRT قادر است ناوگانی از ربات‌ها را مدیریت کند که به صورت پشت سر هم کار می‌کنند و مجهز به دوربین هستند تا طرح‌بندی محیط و شیء درون آن را به دست آورند.

در همین حال، یک مدل زبان بزرگ، وظایفی را پیشنهاد می‌کند که می‌توانند توسط سخت‌افزار انجام شوند، از جمله افکتور نهایی آن. بسیاری از LLM ها را کلید باز کردن روباتیک می دانند که به طور موثر دستورات زبان طبیعی را درک می کند و نیاز به مهارت های کدنویسی سخت را کاهش می دهد.

این سیستم قبلاً در طول هفت یا چند ماه گذشته کاملاً آزمایش شده است. AutoRT قادر است تا ۲۰ ربات و در مجموع ۵۲ دستگاه مختلف را هماهنگ کند. در مجموع، DeepMind حدود ۷۷۰۰۰ آزمایش شامل بیش از ۶۰۰۰ کار را جمع آوری کرده است.

همچنین RT-Trajectory جدید از این تیم است که از ورودی ویدئو برای یادگیری رباتیک استفاده می کند.

تیم‌های زیادی در حال بررسی استفاده از ویدیوهای یوتیوب به عنوان روشی برای آموزش ربات‌ها در مقیاس هستند، اما RT-Trajectory یک لایه جالب اضافه می‌کند و یک طرح دوبعدی از بازو در حال عمل را روی ویدیو می‌پوشاند.

این تیم خاطرنشان می کند، “این مسیرها، در قالب تصاویر RGB، نکات بصری سطح پایین و عملی را به مدل ارائه می دهند، زیرا سیاست های کنترل ربات خود را یاد می گیرد.”

DeepMind می‌گوید که این آموزش دو برابر میزان موفقیت آموزش RT-2 خود را داشته است، یعنی ۶۳ درصد در مقایسه با ۲۹ درصد، در حالی که ۴۱ کار را آزمایش کرده است.

این تیم خاطرنشان می کند:

«RT-Trajectory از اطلاعات حرکت رباتیک غنی که در همه مجموعه داده های ربات وجود دارد، اما در حال حاضر کمتر استفاده می شود، استفاده می کند. RT-Trajectory نه تنها نمایانگر گام دیگری در مسیر ساخت ربات‌هایی است که قادر به حرکت با دقت کارآمد در موقعیت‌های جدید هستند، بلکه باز کردن دانش از مجموعه داده‌های موجود است.»