توانایی های اضطراری مدل های زبان بزرگ یک سراب است
به گزارش اپ خونه، یک مطالعه جدید نشان میدهد که جهشهای ناگهانی در تواناییهای LLM نه شگفتانگیز است و نه غیرقابل پیشبینی، بلکه در واقع نتیجه چگونگی اندازهگیری توانایی در هوش مصنوعی است.
دو سال پیش، در پروژهای به نام بنچمارک Beyond the Imitation Game یا BIG-bench، ۴۵۰ محقق فهرستی از ۲۰۴ کار را تهیه کردند که برای آزمایش قابلیتهای مدلهای زبان بزرگ طراحی شدهاند که به چت رباتهایی مانند ChatGPT کمک میکنند.
در بیشتر کارها، با افزایش مقیاس مدلها، عملکرد بهطور قابل پیشبینی و همواری بهبود مییابد – هر چه مدل بزرگتر میشود، بهتر میشود.
اما با سایر وظایف، جهش در توانایی هموار نبود. عملکرد برای مدتی نزدیک به صفر باقی ماند، سپس عملکرد پرید. مطالعات دیگر جهش های مشابهی را در توانایی یافتند.
نویسندگان این را به عنوان رفتار “دستیابی به موفقیت” توصیف کردند. محققان دیگر آن را به یک انتقال فاز در فیزیک تشبیه کرده اند، مانند زمانی که آب مایع به یخ منجمد می شود.
در مقالهای که در آگوست ۲۰۲۲ منتشر شد، محققان خاطرنشان کردند که این رفتارها شگفتانگیز و غیرقابل پیشبینی نیستند و باید مکالمات در حال تحول پیرامون ایمنی ، پتانسیل و خطر هوش مصنوعی را اطلاع دهند.
آنها تواناییها را « emergent» نامیدند، کلمهای که رفتارهای جمعی را توصیف میکند که تنها زمانی ظاهر میشوند که یک سیستم به سطح بالایی از پیچیدگی برسد.
اما ممکن است همه چیز به این سادگی نباشد. یک مقاله جدید توسط سه محقق در دانشگاه استنفورد بیان می کند که ظهور ناگهانی این توانایی ها فقط نتیجه روشی است که محققان عملکرد LLM را اندازه گیری می کنند.
آنها استدلال می کنند که توانایی ها نه غیرقابل پیش بینی هستند و نه ناگهانی. Sanmi Koyejo ، دانشمند کامپیوتر در استنفورد و نویسنده ارشد مقاله، گفت:
“این گذار بسیار قابل پیش بینی تر از آن چیزی است که مردم به آن اعتبار می دهند. ادعاهای قوی emergent به همان اندازه با روشی که ما برای اندازه گیری انتخاب می کنیم ارتباط دارد، همانطور که با آنچه مدل ها انجام می دهند ارتباط دارد.”
“ما فقط اکنون این رفتار را می بینیم و مطالعه می کنیم زیرا می دانیم که این مدل ها چقدر بزرگ شده اند.”
مدلهای زبانی بزرگ با تجزیه و تحلیل مجموعه دادههای عظیمی از متن -کلمات منابع آنلاین از جمله کتابها، جستجوهای وب و ویکیپدیا- و یافتن پیوندهایی بین کلماتی که اغلب با هم ظاهر میشوند، به کار می روند.
اندازه بر حسب پارامترها اندازهگیری میشود که تقریباً مشابه همه راههایی است که کلمات را میتوان به هم متصل کرد. هر چه پارامترهای بیشتر باشد، یک LLM می تواند ارتباطات بیشتری پیدا کند.
GPT-2 دارای ۱.۵ میلیارد پارامتر بود، در حالی که GPT-3.5، LLM که ChatGPT را تامین می کند، از ۳۵۰ میلیارد پارامتر استفاده می کند. GPT-4 که در مارس ۲۰۲۳ معرفی شد و اکنون زیربنای Microsoft Copilot است ، طبق گزارش ها از ۱.۷۵ تریلیون پارامتر استفاده می کند.
این رشد سریع افزایش شگفت انگیزی در عملکرد و کارایی به همراه داشته است، و هیچ کس بحث نمی کند که LLM های به اندازه کافی بزرگ می توانند وظایفی را که مدل های کوچکتر نمی توانند انجام دهند، از جمله مواردی که برای آنها آموزش ندیده اند، انجام دهند.
سه نفر در استنفورد که ظهور را به عنوان یک “سراب” معرفی می کنند، تشخیص می دهند که LLM ها با افزایش مقیاس موثرتر می شوند.
در واقع، پیچیدگی افزوده مدل های بزرگتر باید این امکان را فراهم کند که در مسائل دشوارتر و متنوع تر بهتر شوید.
اما آنها استدلال میکنند که آیا این بهبود صاف و قابل پیشبینی به نظر میرسد یا ناهموار و واضح بهجای عملکرد درونی مدل، از انتخاب متریک یا حتی نمونههای آزمایشی کم نتیجه میشود.