مدل‌های متا Llama AI اکنون از تصاویر نیز پشتیبانی می‌کنند

مهر 6, 1403 6۰44

به گزارش اپ خونه، بنجامین فرانکلین زمانی نوشت که هیچ چیز جز مرگ و مالیات قطعی نیست. اجازه دهید این عبارت را اصلاح کنیم تا هجوم فعلی هوش مصنوعی به جهان خود را منعکس کنیم:

هیچ چیز به جز مرگ، مالیات و مدل‌های جدید هوش مصنوعی قطعی نیست.

اوایل این هفته، گوگل مدل های ارتقا یافته Gemini را منتشر کرد و در اوایل ماه، OpenAI از مدل o1 خود رونمایی کرد. اما روز چهارشنبه، نوبت متا بود که جدیدترین مدل خود را در کنفرانس سالانه توسعه دهندگان Meta Connect 2024 شرکت در منلو پارک به نمایش بگذارد.

خانواده مدل‌های چند زبانه Llama متا به نسخه ۳.۲ رسیده است، با پیشرفت از ۳.۱ نشان می‌دهد که چندین مدل Llama اکنون چند وجهی هستند.

Llama 3.2 11B – یک مدل جمع و جور – و 90B، که یک مدل بزرگتر و توانمندتر است، می تواند نمودارها، caption images، و اشیاء را در تصاویر با توضیحات ساده تفسیر کند.

برای مثال، با توجه به نقشه‌ای از یک پارک، Llama 3.2 11B و 90B می‌توانند به سؤالاتی مانند «چه زمانی زمین شیب‌دارتر شود؟» و “فاصله این مسیر با من چقدر است؟” پاسخ دهند.

یا با ارائه نموداری که درآمد یک شرکت را در طول یک سال نشان می‌دهد، مدل‌ها می‌توانند به سرعت بهترین ماه‌های این دسته را به تصویر بکشند.

برای توسعه‌دهندگانی که می‌خواهند از این مدل‌ها صرفاً برای برنامه‌های متنی استفاده کنند، متا می‌گوید که Llama 3.2 11B و 90B به‌عنوان جایگزینی برای نسخه ۳.۱ طراحی شده‌اند.

11B و 90B را می توان با ابزار ایمنی جدید، Llama Guard Vision، که برای شناسایی متون و تصاویر بالقوه مضر (مثلاً مغرضانه یا سمی) طراحی شده است که به مدل ها داده شده یا تولید می شود، استفاده کرد.

در اکثر نقاط جهان، مدل‌های چند وجهی Llama را می‌توان از تعداد زیادی از پلتفرم‌های ابری، از جمله Hugging Face، Microsoft Azure، Google Cloud و AWS دانلود کرد و از آن استفاده کرد.

متا همچنین آنها را در سایت رسمی Llama.com میزبانی می کند و از آنها برای تقویت دستیار هوش مصنوعی خود، Meta AI در واتس اپ، اینستاگرام و فیس بوک استفاده می کند.

اما Llama 3.2 11B و 90B در اروپا قابل دسترسی نیستند. در نتیجه، چندین ویژگی Meta AI ، مانند تجزیه و تحلیل تصویر، برای کاربران اروپایی غیرفعال شده است. متا بار دیگر ماهیت “غیر قابل پیش بینی” محیط نظارتی bloc را مقصر دانست.

متا درباره قانون هوش مصنوعی، قانون اتحادیه اروپا که چارچوب قانونی و نظارتی را برای هوش مصنوعی ایجاد می‌کند، نگرانی‌های خود را ابراز کرده و تعهد داوطلبانه ایمنی مرتبط با آن را رد کرده است.

قانون هوش مصنوعی شرکت‌هایی را که هوش مصنوعی را در اتحادیه اروپا توسعه می‌دهند، متعهد می‌سازد که مدل‌هایشان را در موقعیت‌هایی مانند پلیس راه‌اندازی کنند.

متا نگران است که ماهیت “باز” مدل‌هایش، که بینش کمی در مورد نحوه استفاده از مدل‌ها به او می‌دهد، ممکن است پیروی از قوانین AI را دشوار کند.

همچنین برای Meta، مقرراتی در GDPR، قانون گسترده حریم خصوصی اتحادیه اروپا، مربوط به آموزش هوش مصنوعی مطرح است.

متا مدل‌هایی را بر روی داده‌های عمومی کاربران اینستاگرام و فیس‌بوک که انصراف نداده‌اند آموزش می‌دهد – داده‌هایی که در اروپا مشمول ضمانت‌های GDPR هستند.

رگولاتورهای اتحادیه اروپا در اوایل سال جاری از متا درخواست کردند که آموزش در مورد داده های کاربران اروپایی را در حالی که آنها مطابقت با GDPR شرکت را ارزیابی می کنند، متوقف کند.

در اوایل این ماه، متا گفت که پس از «تلفیق بازخورد نظارتی» در فرآیند انصراف تجدیدنظر شده، آموزش داده‌های کاربران بریتانیا را از سر خواهد گرفت. اما این شرکت هنوز به‌روزرسانی در مورد آموزش‌های خود در سایر بخش‌های بلوک را به اشتراک نگذاشته است.

دیگر مدل‌های جدید Llama – مدل‌هایی که با داده‌های کاربران اروپایی آموزش ندیده‌اند – در اروپا (و در سطح جهانی) عرضه می‌شوند.

Llama 3.2 1B و 3B، دو مدل سبک وزن و فقط متنی که برای اجرا در گوشی‌های هوشمند و سایر edge devices طراحی شده‌اند، می‌توانند برای کارهایی مانند خلاصه‌سازی و بازنویسی پاراگراف‌ها (مثلاً در ایمیل) استفاده شوند.

متا می گوید که برای سخت افزار Arm از کوالکام و مدیاتک بهینه شده است، 1B و 3B همچنین می توانند از ابزارهایی مانند برنامه های تقویم با کمی پیکربندی استفاده کنند و به آنها اجازه می دهد به طور مستقل اقدامات خود را انجام دهند.

هیچ دنباله‌ای برای مدل پرچمدار Llama 3.1 405B که در ماه آگوست عرضه شد، چند وجهی یا غیر چندوجهی وجود ندارد.

با توجه به اندازه عظیم 405B – ماه ها طول کشید تا آموزش داده شود – احتمالاً موضوع منابع محاسباتی محدود است.

Llama Stack جدید متا، مجموعه‌ای از ابزارهای توسعه‌دهنده متمرکز بر Llama، می‌تواند برای تنظیم دقیق تمام مدل‌های Llama 3.2 استفاده شود: 1B، 3B، 11B، و 90B.

متا می‌گوید صرف‌نظر از نحوه سفارشی‌سازی، مدل‌ها می‌توانند تا حدود ۱۰۰۰۰۰ کلمه را همزمان پردازش کنند.

متا ادعا می کند که مدل های Llama آن بیش از ۳۵۰ میلیون بار دانلود شده است و توسط شرکت های بزرگ از جمله Zoom، AT&T و Goldman Sachs استفاده می شود.

برای بسیاری از این توسعه دهندگان و شرکت ها، مهم نیست که مدل های Llama به معنای دقیق آن “باز” نباشند.

مجوز متا نحوه استفاده از برنامه‌نویس‌های خاص را محدود می‌کند. پلتفرم هایی با بیش از ۷۰۰ میلیون کاربر ماهانه باید مجوز خاصی را از متا درخواست کنند که این شرکت بنا به صلاحدید خود اعطا می کند.

مسلماً پلتفرم‌های زیادی با این اندازه بدون مدل‌های داخلی خود وجود ندارند. اما متا در مورد این فرآیند شفاف نیست.

هیچ‌کدام از مدل‌های Llama 3.2 مشکلات اساسی هوش مصنوعی امروزی را حل نمی‌کنند، مانند تمایل آن به ایجاد چیزها و بازگردانی داده‌های آموزشی مشکل‌ساز (مانند کتاب‌های الکترونیکی دارای حق چاپ که ممکن است بدون اجازه استفاده شده باشند، که موضوع دعوای دسته‌جمعی علیه متا است ).