API چندوجهی OpenAI به طور گسترده راه اندازی می شود اما تحقیقات نشان می دهد که هنوز ناقص است

آبان 16, 1402 8۰50

به گزارش اپ خونه، در طی اولین کنفرانس توسعه دهنده خود، OpenAI جزئیات جدیدی از نسخه GPT-4 ، مدل شاخص هوش مصنوعی تولید متن این شرکت را منتشر کرد که می تواند تصاویر و متن را درک کند.

این نسخه، که OpenAI آن را «GPT-4 with vision» می‌نامد، می‌تواند تصاویر نسبتاً پیچیده را زیرنویس کند و حتی آن‌ها را تفسیر کند – به عنوان مثال، آداپتور کابل لایتنینگ را از روی تصویر یک آیفون متصل شناسایی می‌کند.

GPT-4 with vision قبلاً فقط برای کاربران منتخب Be My Eyes در دسترس بود . مشترکین رده های برتر چت ربات مبتنی بر هوش مصنوعی OpenAI، ChatGPT ؛ و “red teamers” مسئول بررسی GPT-4 with vision برای نشانه هایی از رفتار ناخواسته بودند.

دلیل این امر این است که OpenAI پس از رونمایی از GPT-4 در اوایل ماه مارس، به دلیل ترس از سوء استفاده – و نقض حریم خصوصی، از GPT-4 with vision جلوگیری کرد.

اکنون، OpenAI ظاهراً به اندازه کافی به اقدامات کاهشی خود اطمینان دارد تا به جامعه توسعه دهندگان گسترده تر اجازه دهد GPT-4 with vision در برنامه ها، محصولات و خدمات خود بسازند.

این شرکت گفت که GPT-4 with vision در هفته های آینده در دسترس خواهد بود و از طریق GPT-4 Turbo API تازه راه اندازی شده است.

سوال این است که آیا GPT-4 with vision واقعاً ایمن تر از قبل است؟

در ماه اکتبر، چند هفته قبل از اینکه OpenAI شروع به عرضه GPT-4 with vision برای مشترکین ChatGPT کند، این شرکت کاغذی را منتشر کرد که در آن جزئیات محدودیت های مدل توضیح داده شد.

اما این مقاله توسط دانشمندان OpenAI نوشته شده است – نه آزمایشگران خارجی که ممکن است دیدگاه بی طرفانه تری را ارائه دهند.

خوشبختانه، OpenAI برای چندین محقق دسترسی اولیه به GPT-4 را برای اهداف ارزیابی فراهم کرد. حداقل دو نفر، کریس کالیسون-برچ، دانشیار علوم کامپیوتر در دانشگاه پنسیلوانیا، و آلیسا هوانگ، دانشجوی دکترای کالیسون-برچ، برداشت های اولیه خود را در کنفرانس OpenAI منتشر کردند.

Callison-Burch،که گفت از ماه جولای به GPT-4 با دید دسترسی داشته است، در مصاحبه ای گفت:

“من با GPT-4 with vision برای کارهای مختلف، از پاسخ به سوال در مورد تصاویر گرفته تا کمک به انتخاب اشیاء سه بعدی برای صحنه ها در بازی های ویدئویی تا توصیف ترکیب بندی ها و سبک های هنری نقاشی های زیبا، آزمایش کردم.”

و افزود:”هر بار، آن را میخکوب کرد. توضیحات فوق‌العاده خوب هستند و پیشرفت آشکاری نسبت به پیشرفته‌ترین پیش‌نویس‌های قبلی در زیرنویس تصاویر است.»

اما هوانگ، که بازنگری سیستماتیک تری از GPT-4 with vision انجام داد، متوجه شد که این مدل از چندین راه مهم – و در برخی موارد مشکل ساز – ناقص است.

هوانگ در ایمیلی گفت:

“من متوجه شدم که GPT-4 with vision اغلب به درستی موقعیت عناصر [در یک تصویر] را توصیف می کند، اما در رابطه ساختاری یا نسبی آنها موفق نبوده است.”

“به عنوان مثال، یک بار به درستی گفت که دو منحنی در یک نمودار خطی به سمت بالا متمایل هستند، اما به اشتباه گفته شد که کدام یک بالاتر از دیگری است و به طور کلی در توصیف نمودارها اشتباهات زیادی داشت، از تخمین نادرست مقادیر در یک نمودار میله ای یا خطی گرفته تا تفسیر نادرست رنگ ها در یک افسانه.”

هوانگ بسیاری از موارد دیگر از خظاهای GPT-4 with vision در پیش نویس مطالعه منتشر شده در سرور پیش چاپ Arxiv.org ثبت می کند.

کار او در درجه اول بر روی GPT-4 with vision برای توصیف ارقام در مقالات آکادمیک متمرکز است، یک کاربرد بالقوه کاملاً مفید از فناوری – اما در جایی که دقت اهمیت دارد.

هوانگ می‌نویسد که GPT-4 with vision هنگام بازتولید فرمول‌های ریاضی خطا می‌کند و اغلب زیرنویس‌ها را حذف می‌کند یا آنها را به اشتباه چاپ می‌کند.

شمارش اشیاء در تصاویر، مشکل دیگری را برای مدل ایجاد می‌کند، مانند توصیف رنگ‌ها – به‌ویژه رنگ‌های اجسام در کنار یکدیگر، که GPT-4 with vision گاهی اوقات آنها را با هم مخلوط می‌کند.

برخی از GPT-4 با کاستی های جدی تر و گسترده تر در بخش دقت واقعی نهفته است.

GPT-4 with vision نمی تواند به طور قابل اعتماد متن را از یک تصویر استخراج کند. برای نشان دادن، در این مطالعه، هوانگ به مدل یک گسترش با لیستی از دستور العمل ها داد و از آن خواست تا هر دستور غذا را به صورت مکتوب کپی کند.

GPT-4 with vision در تجزیه عناوین دستور غذا اشتباه کرد.

یک چالش مرتبط برای GPT-4 with vision خلاصه کردن است. وقتی مثلاً اسکن یک سند از شما خواسته می شود، GPT-4 with vision ممکن است جملات آن سند را به خوبی بازنویسی کند – اما اطلاعات را در این فرآیند حذف می کند.

یا ممکن است نقل قول های مستقیم را به روش های گمراه کننده تغییر دهد و قسمت هایی را حذف کند که بر معنای متن تأثیر بگذارد.

این بدان معنا نیست که GPT-4 with vision یک شکست کامل در یک مدل چندوجهی است. هوانگ توانایی‌های تحلیلی آن را ستایش می‌کند و اشاره می‌کند که وقتی از این مدل خواسته می‌شود صحنه‌های نسبتاً پیچیده را توصیف کند، می‌درخشد.

اما یافته‌های هوانگ آنچه را که مقاله OpenAI به آن اشاره کرد تأیید می‌کند: اینکه GPT-4 with vision همچنان در حال پیشرفت است.

GPT-4 with vision به دور از یک حلال مشکل جهانی، اشتباهات اساسی را مرتکب می شود که یک انسان انجام نمی دهد و به طور بالقوه سوگیری هایی را در این مسیر معرفی می کند.

مشخص نیست که پادمان های OpenAI، که برای جلوگیری از انتشار اطلاعات نادرست GPT-4 with vision طراحی شده اند، تا چه حد بر دقت آن تأثیر می گذارد – یا اینکه آیا مدل به سادگی روی داده های بصری کافی برای کنترل لبه های خاص آموزش ندیده است.

OpenAI در مقاله خود مدعی شد که در حال ایجاد فرایندهایی برای گسترش GPT-4 with vision به روشی ایمن است، مانند اجازه دادن به GPT-4 with vision برای اینکه چهره ها و افراد را بدون شناسایی نام آن افراد توصیف کند.

ما باید منتظر بمانیم و ببینیم که تا چه حد موفقیت آمیز است – یا اینکه OpenAI به محدودیت های ممکن با روش های آموزشی مدل چندوجهی امروزی نزدیک می شود.