مصاحبه با گرگ براکمن از OpenAI :نسخه GPT-4 کامل نیست

اسفند 24, 1401 5۰61

به گزارش اپ خونه، OpenAI دیروز GPT-4 را ارسال کرد ، مدلی که بسیار مورد انتظار تولید متن بود، و این یک کار عجیب است.

GPT-4 نسبت به سلف خود، GPT-3 ، به روش‌های کلیدی بهبود می‌یابد، برای مثال بیانیه‌های واقعی‌تر را ارائه می‌کند و به توسعه‌دهندگان اجازه می‌دهد تا سبک و رفتار آن را آسان‌تر تجویز کنند.

همچنین چندوجهی است به این معنا که می تواند تصاویر را درک کند و به آن اجازه می دهد تا محتوای یک عکس را شرح دهد و حتی جزئیات آن را توضیح دهد.

اما GPT-4 دارای کاستی های جدی است. مانند GPT-3، این مدل حقایق را “توهم” می کند و خطاهای استدلالی اساسی می کند.

در یک مثال OpenAI در وبلاگ خود ، GPT-4 الویس پریسلی را به عنوان “پسر یک بازیگر” توصیف می کند. (هیچ یک از والدین او بازیگر نبودند.)

برای کنترل بهتر چرخه توسعه GPT-4 و قابلیت‌های آن و همچنین محدودیت‌های آن، TechCrunch با گرگ براکمن، یکی از بنیانگذاران OpenAI و رئیس آن، روز سه‌شنبه از طریق یک تماس ویدیویی صحبت کرد.

بروکمن در مورد مقایسه GPT-4 با GPT-3، یک کلمه برای توضیح داشت: متفاوت.

او گفت: “این فقط متفاوت است.” «هنوز مشکلات و اشتباهات زیادی وجود دارد که [مدل] مرتکب می‌شود… اما شما واقعاً می‌توانید جهش مهارت را در مواردی مانند حساب دیفرانسیل و انتگرال یا قانون مشاهده کنید، جایی که از واقعاً بد بودن در حوزه‌های خاص به واقعاً خوب نسبت به انسان تبدیل شده است. ”

نتایج آزمایش از مورد او حمایت می کند. در آزمون AP Calculus BC، نسخه GPT-4 امتیاز ۴ از ۵ را می گیرد در حالی که GPT-3 امتیاز ۱ را می گیرد .

آزمون وکالت شبیه سازی شده، GPT-4 با امتیازی در حدود ۱۰ درصد از شرکت کنندگان در آزمون قبول می شود. امتیاز GPT-3.5 حول ۱۰ درصد پایینی معلق بود.

یکی از جنبه های جذاب GPT-4، چندوجهی بودن فوق الذکر است. برخلاف GPT-3 و GPT-3.5 که فقط می‌توانند درخواست‌های متنی را بپذیرند (مثلاً «نوشتن مقاله در مورد زرافه‌ها»)، GPT-4 می‌تواند از تصاویر و متن برای انجام برخی عمل‌ها (مثلاً تصویری از زرافه‌ها در تصویر) درخواست کند.

به این دلیل که GPT-4 بر روی داده های تصویر و متن آموزش داده شده بود در حالی که پیشینیان آن فقط بر روی متن آموزش می دیدند.

OpenAI می‌گوید که داده‌های آموزشی از «انواع منابع داده‌ای دارای مجوز، ایجاد شده و در دسترس عموم که ممکن است شامل اطلاعات شخصی در دسترس عموم باشد» آمده است، اما براکمن مخالفت کرد. (داده های آموزشی قبلاً OpenAI را با مشکل قانونی مواجه کرده است .)

در حال حاضر تنها یک شریک راه اندازی به قابلیت های تجزیه و تحلیل تصویر GPT-4 دسترسی دارد – یک برنامه کمکی برای افراد کم بینا به نام چشم من باش .

براکمن می گوید که عرضه گسترده تر، هر زمان که اتفاق بیفتد، “آهسته و عمدی” خواهد بود زیرا OpenAI خطرات و مزایای آن را ارزیابی می کند.

براکمن گفت: “مسائل سیاستی مانند تشخیص چهره و نحوه برخورد با تصاویر افراد وجود دارد که باید به آنها رسیدگی کنیم و روی آنها کار کنیم. ما باید بفهمیم، مثلاً، نوع مناطق خطرناک کجا هستند – خطوط قرمز کجا هستند – و سپس به مرور زمان آن را روشن کنیم.”

OpenAI با معضلات اخلاقی مشابهی در مورد DALL-E 2، سیستم متن به تصویر خود برخورد کرد. پس از اینکه در ابتدا این قابلیت را غیرفعال کرد، OpenAI به مشتریان اجازه داد چهره افراد را برای ویرایش آنها با استفاده از سیستم تولید تصویر مبتنی بر هوش مصنوعی آپلود کنند.

در آن زمان، OpenAI ادعا کرد که ارتقاء سیستم ایمنی آن، ویژگی ویرایش چهره را با «به حداقل رساندن پتانسیل آسیب» از دیپ‌فیک‌ها امکان‌پذیر کرد.

یکی دیگر از گیاهان چند ساله جلوگیری از استفاده ناخواسته از GPT-4 است که ممکن است آسیب روانی، پولی یا غیره را به همراه داشته باشد.

ساعاتی پس از انتشار این مدل، استارت‌آپ امنیت سایبری اسرائیلی Adversa AI یک پست وبلاگی منتشر کرد که در آن روش‌هایی را برای دور زدن فیلترهای محتوای OpenAI و دریافت GPT-4 برای تولید ایمیل‌های فیشینگ و سایر متن‌های بسیار قابل اعتراض نشان می‌داد.

این پدیده جدیدی در حوزه مدل زبان نیست. BlenderBot متا و ChatGPT OpenAI نیز به بیان چیزهای توهین آمیز وحشیانه و حتی افشای جزئیات حساس در مورد عملکرد درونی خود وادار شده اند.

اما بسیاری امیدوار بودند که GPT-4 ممکن است پیشرفت های قابل توجهی در جبهه اعتدال ایجاد کند.

وقتی از بروکمن در مورد استحکام GPT-4 سؤال شد، براکمن تأکید کرد که این مدل شش ماه آموزش ایمنی را گذرانده است و در آزمایش‌های داخلی، ۸۲ درصد کمتر به درخواست‌هایی برای محتوای غیرمجاز توسط خط‌مشی استفاده OpenAI پاسخ می‌دهد و ۴۰ درصد احتمال بیشتری دارد.

براکمن گفت: «ما زمان زیادی را صرف تلاش کردیم تا بفهمیم GPT-4 چه توانایی هایی دارد. بیرون آوردن آن در دنیا روشی است که ما یاد می گیریم. ما دائماً به‌روزرسانی‌ها را انجام می‌دهیم، مجموعه‌ای از پیشرفت‌ها را شامل می‌شویم، به طوری که مدل برای هر شخصیت یا حالتی که می‌خواهید در آن باشد، مقیاس‌پذیرتر است.»

رک و پوست کنده، نتایج اولیه دنیای واقعی چندان امیدوارکننده نیست. با استفاده از ورودی‌های دقیق تنظیم‌شده، کاربران توانسته‌اند ربات را وادار به ابراز عشق، تهدید به آسیب، دفاع از هولوکاست و اختراع تئوری‌های توطئه کنند.

در اینجا، براکمن انکار نکرد که GPT-4 کوتاه است. اما او بر ابزارهای کنترلی کاهش‌دهنده جدید مدل، از جمله قابلیت API در سطح به نام پیام‌های «سیستم» تأکید کرد.

پیام‌های سیستم اساساً دستورالعمل‌هایی هستند که لحن را تنظیم می‌کنند – و مرزهایی را – برای تعاملات GPT-4 تعیین می‌کنند.

به عنوان مثال، یک پیام سیستمی ممکن است به این شرح باشد: «شما معلمی هستید که همیشه به سبک سقراطی پاسخ می دهید. شما هرگز به دانش‌آموز پاسخ نمی‌دهید، اما همیشه سعی می‌کنید فقط سؤال درستی را بپرسید تا به او کمک کنید تا خودش فکر کند.»

ایده این است که پیام های سیستم به عنوان نرده های محافظ عمل می کنند تا از انحراف GPT-4 از مسیر جلوگیری کنند.

براکمن گفت: «واقعاً فهمیدن لحن، سبک و ماده GPT-4 تمرکز بسیار خوبی برای ما بوده است. من فکر می کنم ما شروع به درک کمی بیشتر از نحوه انجام مهندسی کرده ایم، در مورد اینکه چگونه یک فرآیند تکرارپذیر داشته باشیم که شما را به نتایج قابل پیش بینی برساند که واقعا برای مردم مفید است.»

براکمن همچنین به Evals ، چارچوب نرم‌افزار منبع باز جدید OpenAI برای ارزیابی عملکرد مدل‌های هوش مصنوعی، به عنوان نشانه‌ای از تعهد OpenAI به «محکم کردن» مدل‌هایش اشاره کرد.

Evals به کاربران این امکان را می دهد که معیارهایی را برای ارزیابی مدل هایی مانند GPT-4 در حین بررسی عملکرد آنها ایجاد و اجرا کنند – نوعی رویکرد جمع سپاری برای آزمایش مدل.

براکمن گفت: «با Evals، ما می‌توانیم [مورد استفاده] را که کاربران به آن اهمیت می‌دهند، به شکلی سیستماتیک ببینیم که می‌توانیم آن را آزمایش کنیم. بخشی از دلیل ما [منبع باز] به این دلیل است که ما از عرضه یک مدل جدید هر سه ماه – هر آنچه قبلا بوده – دور می‌شویم تا پیشرفت‌های مداوم داشته باشیم. شما چیزی را که اندازه نمی گیرید، درست نمی کنید؟ همانطور که ما نسخه‌های جدید [مدل] را می‌سازیم، حداقل می‌توانیم از این تغییرات آگاه باشیم.»

از براکمن پرسیده شد که آیا OpenAI هرگز به مردم برای آزمایش مدل‌هایش با Evals غرامت می‌دهد. او به آن متعهد نبود، اما توجه داشت که – برای مدت محدودی – OpenAI به کاربران منتخب Evals دسترسی زودهنگام به GPT-4 API را می‌دهد.

مکالمه براکمن همچنین به پنجره زمینه GPT-4 اشاره کرد که به متنی اشاره دارد که مدل می تواند قبل از تولید متن اضافی در نظر بگیرد.

OpenAI در حال آزمایش نسخه‌ای از GPT-4 است که می‌تواند تقریباً ۵۰ صفحه محتوا یا پنج برابر بیشتر از GPT-4 وانیلی در «حافظه» خود و هشت برابر GPT-3 «به خاطر بیاورد».

براکمن معتقد است که پنجره زمینه گسترش یافته منجر به برنامه های کاربردی جدید و قبلا ناشناخته، به ویژه در سازمان می شود.

او یک ربات چت هوش مصنوعی را در نظر می گیرد که برای شرکتی ساخته شده است که از زمینه و دانش از منابع مختلف، از جمله کارمندان در سراسر بخش ها استفاده می کند تا به سؤالات به روشی بسیار آگاهانه اما مکالمه پاسخ دهد.

این مفهوم جدیدی نیست . اما براکمن ادعا می کند که پاسخ های GPT-4 بسیار مفیدتر از پاسخ های ربات های چت و موتورهای جستجوی امروزی خواهند بود.

براکمن گفت: «پیش از این، مدل هیچ اطلاعی از اینکه شما کی هستید، به چه چیزی علاقه دارید و غیره نداشت. داشتن چنین تاریخچه ای [با پنجره زمینه بزرگتر] قطعاً آن را قادر خواهد ساخت… این کار باعث می شود که مردم چه کاری انجام دهند.»