Google DeepMind از سیستم هوش مصنوعی «فوق بشری» رونمایی کرد که در بررسی واقعیت، صرفه جویی در هزینه ها و بهبود دقت برتری دارد

فروردین 11, 1403 5۰44

به گزارش اپ خونه، یک مطالعه جدید از واحد تحقیقات DeepMind گوگل نشان می‌دهد که یک سیستم هوش مصنوعی می‌تواند در ارزیابی صحت اطلاعات تولید شده توسط مدل‌های زبانی بزرگ، بهتر از حقیقت‌سنجی انسان عمل کند.

این مقاله با عنوان ” واقعیت با فرم طولانی در مدل های زبان بزرگ ” و منتشر شده در سرور پیش از چاپ arXiv ، روشی به نام ارزیابی واقعیت افزوده جستجو (SAFE) را معرفی می کند.

SAFE از یک مدل زبان بزرگ برای تجزیه متن تولید شده به حقایق فردی استفاده می کند و سپس از نتایج جستجوی گوگل برای تعیین صحت هر ادعا استفاده می کند.

SAFE از یک LLM استفاده می کند تا یک پاسخ طولانی را به مجموعه ای از حقایق فردی تجزیه کند و صحت هر واقعیت را با استفاده از یک فرآیند استدلال چند مرحله ای که شامل ارسال عبارت های جستجو به جستجوی گوگل و تعیین اینکه آیا یک واقعیت است را نشان می دهد.

محققان SAFE را در مقابل حاشیه نویسان انسانی بر اساس مجموعه داده ای از تقریباً ۱۶۰۰۰ واقعیت قرار دادند و دریافتند که ارزیابی های SAFE در ۷۲٪ مواقع با رتبه بندی های انسانی مطابقت دارد.

حتی مهم‌تر از آن، در یک نمونه از ۱۰۰ اختلاف بین SAFE و ارزیابی‌کنندگان انسانی، قضاوت SAFE در ۷۶٪ موارد صحیح بود.

در حالی که این مقاله ادعا می کند که “عوامل LLM می توانند به عملکرد رتبه بندی فوق بشری دست یابند”، برخی از کارشناسان این سوال را مطرح می کنند که “فوق بشر” واقعاً در اینجا به چه معناست.

گری مارکوس ، محقق مشهور هوش مصنوعی و منتقد مکرر ادعاهای پرهیجان، در توییتر پیشنهاد کرد که در این مورد، “فوق بشر” ممکن است به سادگی به معنای “بهتر از یک کارگر جمعی با حقوق کم، به جای یک حقیقت سنج واقعی انسانی باشد.”

او گفت: “این باعث می شود شخصیت پردازی گمراه کننده باشد.”

مارکوس یک نکته معتبر را مطرح می کند. برای نشان دادن واقعی عملکرد مافوق بشری، SAFE باید با بررسی‌کنندگان حقایق انسانی متخصص مقایسه شود، نه فقط با کارگران جمع‌سپاری.

جزئیات خاص ارزیابی‌کننده‌های انسانی، مانند صلاحیت‌ها، غرامت، و فرآیند بررسی واقعیت، برای ایجاد زمینه مناسب نتایج بسیار مهم است.

یکی از مزیت های واضح SAFE هزینه است – محققان دریافتند که استفاده از سیستم هوش مصنوعی حدود ۲۰ برابر ارزان تر از حقیقت سنجی انسانی است.

از آنجایی که حجم اطلاعات تولید شده توسط مدل های زبانی در حال افزایش است، داشتن یک روش اقتصادی و مقیاس پذیر برای تأیید ادعاها به طور فزاینده ای حیاتی خواهد بود.

تیم DeepMind از SAFE برای ارزیابی دقت واقعی ۱۳ مدل زبان برتر در ۴ خانواده (Gemini، GPT، Claude و PaLM-2) در معیار جدیدی به نام LongFact استفاده کرد. نتایج آنها نشان می‌دهد که مدل‌های بزرگ‌تر معمولاً خطاهای واقعی کمتری تولید می‌کنند.

با این حال، حتی مدل های با بهترین عملکرد نیز تعداد قابل توجهی ادعاهای نادرست ایجاد کردند. این امر بر خطرات ناشی از تکیه بیش از حد به مدل‌های زبانی که می‌توانند به روانی اطلاعات نادرست را بیان کنند، تأکید می‌کند.

ابزارهای خودکار بررسی حقایق مانند SAFE می توانند نقش کلیدی در کاهش این خطرات داشته باشند.

در حالی که کد SAFE و مجموعه داده LongFact منبع باز در GitHub هستند و به دیگر محققان اجازه می‌دهند کار را بررسی کنند و بر اساس آن کار کنند، هنوز شفافیت بیشتری در مورد خطوط پایه انسانی مورد استفاده در این مطالعه مورد نیاز است.

درک ویژگی های پیشینه و فرآیند کارگران جمعی برای ارزیابی قابلیت های SAFE در زمینه مناسب ضروری است.

از آنجایی که غول‌های فناوری برای توسعه مدل‌های زبانی قدرتمندتر برای برنامه‌های کاربردی از جستجو گرفته تا دستیارهای مجازی رقابت می‌کنند، توانایی بررسی خودکار خروجی‌های این سیستم‌ها می‌تواند بسیار مهم باشد.

ابزارهایی مانند SAFE گام مهمی در جهت ایجاد لایه جدیدی از اعتماد و مسئولیت پذیری است.

با این حال، بسیار مهم است که توسعه چنین فناوری‌های نتیجه‌ای در فضای باز و با ورودی طیف وسیعی از سهامداران فراتر از دیوارهای هر شرکتی اتفاق بیفتد.

معیار دقیق و شفاف در برابر متخصصان انسانی – نه فقط کارگران جمعی – برای اندازه‌گیری پیشرفت واقعی ضروری است. تنها در این صورت است که می‌توانیم تأثیر واقعیت‌سنجی خودکار در دنیای واقعی را بر مبارزه با اطلاعات نادرست بسنجیم.