توانایی های اضطراری مدل های زبان بزرگ یک سراب است

فروردین 8, 1403 6۰51

به گزارش اپ خونه، یک مطالعه جدید نشان می‌دهد که جهش‌های ناگهانی در توانایی‌های LLM نه شگفت‌انگیز است و نه غیرقابل پیش‌بینی، بلکه در واقع نتیجه چگونگی اندازه‌گیری توانایی در هوش مصنوعی است.

دو سال پیش، در پروژه‌ای به نام بنچمارک Beyond the Imitation Game یا BIG-bench، ۴۵۰ محقق فهرستی از ۲۰۴ کار را تهیه کردند که برای آزمایش قابلیت‌های مدل‌های زبان بزرگ طراحی شده‌اند که به چت ربات‌هایی مانند ChatGPT کمک می‌کنند.

در بیشتر کارها، با افزایش مقیاس مدل‌ها، عملکرد به‌طور قابل پیش‌بینی و همواری بهبود می‌یابد – هر چه مدل بزرگ‌تر می‌شود، بهتر می‌شود.

اما با سایر وظایف، جهش در توانایی هموار نبود. عملکرد برای مدتی نزدیک به صفر باقی ماند، سپس عملکرد پرید. مطالعات دیگر جهش های مشابهی را در توانایی یافتند.

نویسندگان این را به عنوان رفتار “دستیابی به موفقیت” توصیف کردند. محققان دیگر آن را به یک انتقال فاز در فیزیک تشبیه کرده اند، مانند زمانی که آب مایع به یخ منجمد می شود.

در مقاله‌ای که در آگوست ۲۰۲۲ منتشر شد، محققان خاطرنشان کردند که این رفتارها شگفت‌انگیز و غیرقابل پیش‌بینی نیستند و باید مکالمات در حال تحول پیرامون ایمنی ، پتانسیل و خطر هوش مصنوعی را اطلاع دهند.

آنها توانایی‌ها را « emergent» نامیدند، کلمه‌ای که رفتارهای جمعی را توصیف می‌کند که تنها زمانی ظاهر می‌شوند که یک سیستم به سطح بالایی از پیچیدگی برسد.

اما ممکن است همه چیز به این سادگی نباشد. یک مقاله جدید توسط سه محقق در دانشگاه استنفورد بیان می کند که ظهور ناگهانی این توانایی ها فقط نتیجه روشی است که محققان عملکرد LLM را اندازه گیری می کنند.

آنها استدلال می کنند که توانایی ها نه غیرقابل پیش بینی هستند و نه ناگهانی. Sanmi Koyejo ، دانشمند کامپیوتر در استنفورد و نویسنده ارشد مقاله، گفت:

“این گذار بسیار قابل پیش بینی تر از آن چیزی است که مردم به آن اعتبار می دهند. ادعاهای قوی emergent به همان اندازه با روشی که ما برای اندازه گیری انتخاب می کنیم ارتباط دارد، همانطور که با آنچه مدل ها انجام می دهند ارتباط دارد.”

“ما فقط اکنون این رفتار را می بینیم و مطالعه می کنیم زیرا می دانیم که این مدل ها چقدر بزرگ شده اند.”

مدل‌های زبانی بزرگ با تجزیه و تحلیل مجموعه داده‌های عظیمی از متن -کلمات منابع آنلاین از جمله کتاب‌ها، جستجوهای وب و ویکی‌پدیا- و یافتن پیوندهایی بین کلماتی که اغلب با هم ظاهر می‌شوند، به کار می روند.

اندازه بر حسب پارامترها اندازه‌گیری می‌شود که تقریباً مشابه همه راه‌هایی است که کلمات را می‌توان به هم متصل کرد. هر چه پارامترهای بیشتر باشد، یک LLM می تواند ارتباطات بیشتری پیدا کند.

GPT-2 دارای ۱.۵ میلیارد پارامتر بود، در حالی که GPT-3.5، LLM که ChatGPT را تامین می کند، از ۳۵۰ میلیارد پارامتر استفاده می کند. GPT-4 که در مارس ۲۰۲۳ معرفی شد و اکنون زیربنای Microsoft Copilot است ، طبق گزارش ها از ۱.۷۵ تریلیون پارامتر استفاده می کند.

این رشد سریع افزایش شگفت انگیزی در عملکرد و کارایی به همراه داشته است، و هیچ کس بحث نمی کند که LLM های به اندازه کافی بزرگ می توانند وظایفی را که مدل های کوچکتر نمی توانند انجام دهند، از جمله مواردی که برای آنها آموزش ندیده اند، انجام دهند.

سه نفر در استنفورد که ظهور را به عنوان یک “سراب” معرفی می کنند، تشخیص می دهند که LLM ها با افزایش مقیاس موثرتر می شوند.

در واقع، پیچیدگی افزوده مدل های بزرگتر باید این امکان را فراهم کند که در مسائل دشوارتر و متنوع تر بهتر شوید.

اما آن‌ها استدلال می‌کنند که آیا این بهبود صاف و قابل پیش‌بینی به نظر می‌رسد یا ناهموار و واضح به‌جای عملکرد درونی مدل، از انتخاب متریک یا حتی نمونه‌های آزمایشی کم نتیجه می‌شود.