مصاحبه با گرگ براکمن از OpenAI :نسخه GPT-4 کامل نیست
به گزارش اپ خونه، OpenAI دیروز GPT-4 را ارسال کرد ، مدلی که بسیار مورد انتظار تولید متن بود، و این یک کار عجیب است.
GPT-4 نسبت به سلف خود، GPT-3 ، به روشهای کلیدی بهبود مییابد، برای مثال بیانیههای واقعیتر را ارائه میکند و به توسعهدهندگان اجازه میدهد تا سبک و رفتار آن را آسانتر تجویز کنند.
همچنین چندوجهی است به این معنا که می تواند تصاویر را درک کند و به آن اجازه می دهد تا محتوای یک عکس را شرح دهد و حتی جزئیات آن را توضیح دهد.
اما GPT-4 دارای کاستی های جدی است. مانند GPT-3، این مدل حقایق را “توهم” می کند و خطاهای استدلالی اساسی می کند.
در یک مثال OpenAI در وبلاگ خود ، GPT-4 الویس پریسلی را به عنوان “پسر یک بازیگر” توصیف می کند. (هیچ یک از والدین او بازیگر نبودند.)
برای کنترل بهتر چرخه توسعه GPT-4 و قابلیتهای آن و همچنین محدودیتهای آن، TechCrunch با گرگ براکمن، یکی از بنیانگذاران OpenAI و رئیس آن، روز سهشنبه از طریق یک تماس ویدیویی صحبت کرد.
بروکمن در مورد مقایسه GPT-4 با GPT-3، یک کلمه برای توضیح داشت: متفاوت.
او گفت: “این فقط متفاوت است.” «هنوز مشکلات و اشتباهات زیادی وجود دارد که [مدل] مرتکب میشود… اما شما واقعاً میتوانید جهش مهارت را در مواردی مانند حساب دیفرانسیل و انتگرال یا قانون مشاهده کنید، جایی که از واقعاً بد بودن در حوزههای خاص به واقعاً خوب نسبت به انسان تبدیل شده است. ”
نتایج آزمایش از مورد او حمایت می کند. در آزمون AP Calculus BC، نسخه GPT-4 امتیاز ۴ از ۵ را می گیرد در حالی که GPT-3 امتیاز ۱ را می گیرد .
آزمون وکالت شبیه سازی شده، GPT-4 با امتیازی در حدود ۱۰ درصد از شرکت کنندگان در آزمون قبول می شود. امتیاز GPT-3.5 حول ۱۰ درصد پایینی معلق بود.
یکی از جنبه های جذاب GPT-4، چندوجهی بودن فوق الذکر است. برخلاف GPT-3 و GPT-3.5 که فقط میتوانند درخواستهای متنی را بپذیرند (مثلاً «نوشتن مقاله در مورد زرافهها»)، GPT-4 میتواند از تصاویر و متن برای انجام برخی عملها (مثلاً تصویری از زرافهها در تصویر) درخواست کند.
به این دلیل که GPT-4 بر روی داده های تصویر و متن آموزش داده شده بود در حالی که پیشینیان آن فقط بر روی متن آموزش می دیدند.
OpenAI میگوید که دادههای آموزشی از «انواع منابع دادهای دارای مجوز، ایجاد شده و در دسترس عموم که ممکن است شامل اطلاعات شخصی در دسترس عموم باشد» آمده است، اما براکمن مخالفت کرد. (داده های آموزشی قبلاً OpenAI را با مشکل قانونی مواجه کرده است .)
در حال حاضر تنها یک شریک راه اندازی به قابلیت های تجزیه و تحلیل تصویر GPT-4 دسترسی دارد – یک برنامه کمکی برای افراد کم بینا به نام چشم من باش .
براکمن می گوید که عرضه گسترده تر، هر زمان که اتفاق بیفتد، “آهسته و عمدی” خواهد بود زیرا OpenAI خطرات و مزایای آن را ارزیابی می کند.
براکمن گفت: “مسائل سیاستی مانند تشخیص چهره و نحوه برخورد با تصاویر افراد وجود دارد که باید به آنها رسیدگی کنیم و روی آنها کار کنیم. ما باید بفهمیم، مثلاً، نوع مناطق خطرناک کجا هستند – خطوط قرمز کجا هستند – و سپس به مرور زمان آن را روشن کنیم.”
OpenAI با معضلات اخلاقی مشابهی در مورد DALL-E 2، سیستم متن به تصویر خود برخورد کرد. پس از اینکه در ابتدا این قابلیت را غیرفعال کرد، OpenAI به مشتریان اجازه داد چهره افراد را برای ویرایش آنها با استفاده از سیستم تولید تصویر مبتنی بر هوش مصنوعی آپلود کنند.
در آن زمان، OpenAI ادعا کرد که ارتقاء سیستم ایمنی آن، ویژگی ویرایش چهره را با «به حداقل رساندن پتانسیل آسیب» از دیپفیکها امکانپذیر کرد.
یکی دیگر از گیاهان چند ساله جلوگیری از استفاده ناخواسته از GPT-4 است که ممکن است آسیب روانی، پولی یا غیره را به همراه داشته باشد.
ساعاتی پس از انتشار این مدل، استارتآپ امنیت سایبری اسرائیلی Adversa AI یک پست وبلاگی منتشر کرد که در آن روشهایی را برای دور زدن فیلترهای محتوای OpenAI و دریافت GPT-4 برای تولید ایمیلهای فیشینگ و سایر متنهای بسیار قابل اعتراض نشان میداد.
این پدیده جدیدی در حوزه مدل زبان نیست. BlenderBot متا و ChatGPT OpenAI نیز به بیان چیزهای توهین آمیز وحشیانه و حتی افشای جزئیات حساس در مورد عملکرد درونی خود وادار شده اند.
اما بسیاری امیدوار بودند که GPT-4 ممکن است پیشرفت های قابل توجهی در جبهه اعتدال ایجاد کند.
وقتی از بروکمن در مورد استحکام GPT-4 سؤال شد، براکمن تأکید کرد که این مدل شش ماه آموزش ایمنی را گذرانده است و در آزمایشهای داخلی، ۸۲ درصد کمتر به درخواستهایی برای محتوای غیرمجاز توسط خطمشی استفاده OpenAI پاسخ میدهد و ۴۰ درصد احتمال بیشتری دارد.
براکمن گفت: «ما زمان زیادی را صرف تلاش کردیم تا بفهمیم GPT-4 چه توانایی هایی دارد. بیرون آوردن آن در دنیا روشی است که ما یاد می گیریم. ما دائماً بهروزرسانیها را انجام میدهیم، مجموعهای از پیشرفتها را شامل میشویم، به طوری که مدل برای هر شخصیت یا حالتی که میخواهید در آن باشد، مقیاسپذیرتر است.»
رک و پوست کنده، نتایج اولیه دنیای واقعی چندان امیدوارکننده نیست. با استفاده از ورودیهای دقیق تنظیمشده، کاربران توانستهاند ربات را وادار به ابراز عشق، تهدید به آسیب، دفاع از هولوکاست و اختراع تئوریهای توطئه کنند.
در اینجا، براکمن انکار نکرد که GPT-4 کوتاه است. اما او بر ابزارهای کنترلی کاهشدهنده جدید مدل، از جمله قابلیت API در سطح به نام پیامهای «سیستم» تأکید کرد.
پیامهای سیستم اساساً دستورالعملهایی هستند که لحن را تنظیم میکنند – و مرزهایی را – برای تعاملات GPT-4 تعیین میکنند.
به عنوان مثال، یک پیام سیستمی ممکن است به این شرح باشد: «شما معلمی هستید که همیشه به سبک سقراطی پاسخ می دهید. شما هرگز به دانشآموز پاسخ نمیدهید، اما همیشه سعی میکنید فقط سؤال درستی را بپرسید تا به او کمک کنید تا خودش فکر کند.»
ایده این است که پیام های سیستم به عنوان نرده های محافظ عمل می کنند تا از انحراف GPT-4 از مسیر جلوگیری کنند.
براکمن گفت: «واقعاً فهمیدن لحن، سبک و ماده GPT-4 تمرکز بسیار خوبی برای ما بوده است. من فکر می کنم ما شروع به درک کمی بیشتر از نحوه انجام مهندسی کرده ایم، در مورد اینکه چگونه یک فرآیند تکرارپذیر داشته باشیم که شما را به نتایج قابل پیش بینی برساند که واقعا برای مردم مفید است.»
براکمن همچنین به Evals ، چارچوب نرمافزار منبع باز جدید OpenAI برای ارزیابی عملکرد مدلهای هوش مصنوعی، به عنوان نشانهای از تعهد OpenAI به «محکم کردن» مدلهایش اشاره کرد.
Evals به کاربران این امکان را می دهد که معیارهایی را برای ارزیابی مدل هایی مانند GPT-4 در حین بررسی عملکرد آنها ایجاد و اجرا کنند – نوعی رویکرد جمع سپاری برای آزمایش مدل.
براکمن گفت: «با Evals، ما میتوانیم [مورد استفاده] را که کاربران به آن اهمیت میدهند، به شکلی سیستماتیک ببینیم که میتوانیم آن را آزمایش کنیم. بخشی از دلیل ما [منبع باز] به این دلیل است که ما از عرضه یک مدل جدید هر سه ماه – هر آنچه قبلا بوده – دور میشویم تا پیشرفتهای مداوم داشته باشیم. شما چیزی را که اندازه نمی گیرید، درست نمی کنید؟ همانطور که ما نسخههای جدید [مدل] را میسازیم، حداقل میتوانیم از این تغییرات آگاه باشیم.»
از براکمن پرسیده شد که آیا OpenAI هرگز به مردم برای آزمایش مدلهایش با Evals غرامت میدهد. او به آن متعهد نبود، اما توجه داشت که – برای مدت محدودی – OpenAI به کاربران منتخب Evals دسترسی زودهنگام به GPT-4 API را میدهد.
مکالمه براکمن همچنین به پنجره زمینه GPT-4 اشاره کرد که به متنی اشاره دارد که مدل می تواند قبل از تولید متن اضافی در نظر بگیرد.
OpenAI در حال آزمایش نسخهای از GPT-4 است که میتواند تقریباً ۵۰ صفحه محتوا یا پنج برابر بیشتر از GPT-4 وانیلی در «حافظه» خود و هشت برابر GPT-3 «به خاطر بیاورد».
براکمن معتقد است که پنجره زمینه گسترش یافته منجر به برنامه های کاربردی جدید و قبلا ناشناخته، به ویژه در سازمان می شود.
او یک ربات چت هوش مصنوعی را در نظر می گیرد که برای شرکتی ساخته شده است که از زمینه و دانش از منابع مختلف، از جمله کارمندان در سراسر بخش ها استفاده می کند تا به سؤالات به روشی بسیار آگاهانه اما مکالمه پاسخ دهد.
این مفهوم جدیدی نیست . اما براکمن ادعا می کند که پاسخ های GPT-4 بسیار مفیدتر از پاسخ های ربات های چت و موتورهای جستجوی امروزی خواهند بود.
براکمن گفت: «پیش از این، مدل هیچ اطلاعی از اینکه شما کی هستید، به چه چیزی علاقه دارید و غیره نداشت. داشتن چنین تاریخچه ای [با پنجره زمینه بزرگتر] قطعاً آن را قادر خواهد ساخت… این کار باعث می شود که مردم چه کاری انجام دهند.»