گوگل روشهای جدیدی را برای آموزش رباتها با مدلهای ویدیویی و زبان بزرگ ارائه میکند
به گزارش اپ خونه، سال ۲۰۲۴ سال بزرگی برای بخش های مولد هوش مصنوعی/مدل های بنیادی بزرگ (LLM) و روباتیک خواهد بود.
هیجان زیادی پیرامون پتانسیل کاربردهای مختلف، از یادگیری گرفته تا طراحی محصول، وجود دارد. محققان DeepMind Robotics گوگل یکی از تعداد تیمی هستند که پتانسیل این فضا را بررسی می کنند.
در یک پست وبلاگ ، این تیم تحقیقات در حال انجامی را برجسته می کند که با رباتیک طراحی شده است تا درک بهتری از دقیقاً آنچه ما انسان ها از آنها می خواهیم داشته باشد.
به طور سنتی، ربات ها در طول زندگی خود به طور مکرر بر انجام یک کار منحصر به فرد تمرکز می کردند. رباتهای تکمنظوره در این یک چیز بسیار خوب عمل میکنند، اما حتی زمانی که تغییرات یا خطاها ناخواسته به روند رسیدگی وارد میشوند، با مشکل مواجه میشوند.
AutoRT به تازگی اعلام شده برای مهار مدل های پایه بزرگ، برای تعدادی از اهداف مختلف طراحی شده است.
در یک مثال استاندارد ارائه شده توسط تیم DeepMind، سیستم با استفاده از یک مدل زبان بصری (VLM) برای آگاهی بهتر از موقعیت شروع میکند.
AutoRT قادر است ناوگانی از رباتها را مدیریت کند که به صورت پشت سر هم کار میکنند و مجهز به دوربین هستند تا طرحبندی محیط و شیء درون آن را به دست آورند.
در همین حال، یک مدل زبان بزرگ، وظایفی را پیشنهاد میکند که میتوانند توسط سختافزار انجام شوند، از جمله افکتور نهایی آن. بسیاری از LLM ها را کلید باز کردن روباتیک می دانند که به طور موثر دستورات زبان طبیعی را درک می کند و نیاز به مهارت های کدنویسی سخت را کاهش می دهد.
این سیستم قبلاً در طول هفت یا چند ماه گذشته کاملاً آزمایش شده است. AutoRT قادر است تا ۲۰ ربات و در مجموع ۵۲ دستگاه مختلف را هماهنگ کند. در مجموع، DeepMind حدود ۷۷۰۰۰ آزمایش شامل بیش از ۶۰۰۰ کار را جمع آوری کرده است.
همچنین RT-Trajectory جدید از این تیم است که از ورودی ویدئو برای یادگیری رباتیک استفاده می کند.
تیمهای زیادی در حال بررسی استفاده از ویدیوهای یوتیوب به عنوان روشی برای آموزش رباتها در مقیاس هستند، اما RT-Trajectory یک لایه جالب اضافه میکند و یک طرح دوبعدی از بازو در حال عمل را روی ویدیو میپوشاند.
این تیم خاطرنشان می کند، “این مسیرها، در قالب تصاویر RGB، نکات بصری سطح پایین و عملی را به مدل ارائه می دهند، زیرا سیاست های کنترل ربات خود را یاد می گیرد.”
DeepMind میگوید که این آموزش دو برابر میزان موفقیت آموزش RT-2 خود را داشته است، یعنی ۶۳ درصد در مقایسه با ۲۹ درصد، در حالی که ۴۱ کار را آزمایش کرده است.
این تیم خاطرنشان می کند:
«RT-Trajectory از اطلاعات حرکت رباتیک غنی که در همه مجموعه داده های ربات وجود دارد، اما در حال حاضر کمتر استفاده می شود، استفاده می کند. RT-Trajectory نه تنها نمایانگر گام دیگری در مسیر ساخت رباتهایی است که قادر به حرکت با دقت کارآمد در موقعیتهای جدید هستند، بلکه باز کردن دانش از مجموعه دادههای موجود است.»