با DeepFloyd، هنر هوش مصنوعی مولد ارتقای متنی دریافت می‌کند

اردیبهشت 15, 1402 5۰49

به گزارش اپ خونه، همانطور که میم های وایرال مانند Balenciaga Pope نشان می دهد ، هوش مصنوعی مولد این روزها از نظر وفاداری بسیار چشمگیر است .

جدیدترین سیستم‌ها می‌توانند مناظری را از خط افق شهر تا کافه‌ها ایجاد کنند و تصاویری را ایجاد کنند که به طرز شگفت‌انگیزی واقعی به نظر می‌رسند – حداقل در نگاه اول.

اما یکی از ضعف های قدیمی مدل های هوش مصنوعی متن به تصویر، از قضا متن است. حتی بهترین مدل‌ها هم برای تولید تصاویر با آرم‌های خوانا، بسیار کمتر از متن، خوشنویسی یا فونت، تلاش می‌کنند.

اما ممکن است تغییر کند.

هفته گذشته، DeepFloyd، یک گروه تحقیقاتی تحت حمایت Stability AI ، از DeepFloyd IF ، یک مدل متن به تصویر که می‌تواند «هوشمندانه» متن را در تصاویر ادغام کند، رونمایی کرد .

DeepFloyd IF که بر روی مجموعه داده ای متشکل از بیش از یک میلیارد تصویر و متن آموزش دیده است، که برای اجرا به یک پردازنده گرافیکی با حداقل ۱۶ گیگابایت رم نیاز دارد، می تواند تصویری را از پیامی مانند “خرس عروسکی پوشیده از پیراهنی که “Deep Floyd” می پوشد به صورت اختیاری در طیف وسیعی از سبک ها ایجاد کند. ”

DeepFloyd IF به صورت متن باز در دسترس است، مجوز آن به گونه ای است که استفاده تجاری را در حال حاضر ممنوع می کند .

این محدودیت احتمالاً ناشی از وضعیت حقوقی ضعیف فعلی مدل‌های هنری مولد هوش مصنوعی است.

چندین فروشنده مدل تجاری مورد انتقاد هنرمندانی قرار گرفته‌اند که ادعا می‌کنند فروشندگان از کارشان سود می‌برند، بدون اینکه به آنها غرامتی بدهند و بدون اجازه آن اثر را از وب پاک کنند.

اما NightCafe، پلتفرم هنری مولد، دسترسی زودهنگام به DeepFloyd IF را دریافت کرد.

مدیر عامل NightCafe، آنگوس راسل، در مورد اینکه چه چیزی DeepFloyd IF را از سایر مدل‌های تبدیل متن به تصویر متمایز می‌کند و اینکه چرا ممکن است یک گام به جلو برای هوش مصنوعی مولد باشد، صحبت کرد.

به گفته راسل، طراحی DeepFloyd IF به شدت از مدل Imagen گوگل الهام گرفته شده است که هرگز به صورت عمومی منتشر نشد.

برخلاف مدل‌هایی مانند OpenAI’s DALL-E 2 و Stable Diffusion ، DeepFloyd IF از چندین فرآیند مختلف در یک معماری ماژولار برای تولید تصاویر استفاده می‌کند.

DeepFloyd IF

با یک مدل انتشار معمولی، مدل یاد می‌گیرد که چگونه به تدریج نویز را از یک تصویر شروع که تقریباً به طور کامل از نویز ساخته شده است کم کند و آن را گام به گام به اعلان هدف نزدیک‌تر کند.

DeepFloyd IF انتشار را نه یک بار بلکه چندین بار انجام می دهد و یک تصویر 64x64px ایجاد می کند و سپس تصویر را به 256x256px و در نهایت به 1024x1024px ارتقا می دهد.

چرا به مراحل انتشار چندگانه نیاز است؟ راسل توضیح داد که DeepFloyd IF مستقیماً با پیکسل ها کار می کند.

مدل‌های انتشار در بیشتر موارد مدل‌های انتشار پنهان هستند، که اساساً به این معنی است که در فضایی با ابعاد پایین‌تر کار می‌کنند که پیکسل‌های بسیار بیشتری را نشان می‌دهد اما به روشی کمتر دقیق.

تفاوت کلیدی دیگر DeepFloyd IF و مدل هایی مانند Stable Diffusion و DALL-E 2 این است که اولی از یک مدل زبان بزرگ برای درک و نمایش اعلان ها به عنوان یک بردار، یک ساختار داده پایه، استفاده می کند.

با توجه به اندازه مدل زبان بزرگ تعبیه شده در معماری DeepFloyd IF، این مدل به ویژه در درک اعلان های پیچیده و حتی روابط فضایی توصیف شده در اعلان ها خوب است (مثلاً “مکعب قرمز در بالای یک کره صورتی”).

راسل افزود: «همچنین در تولید متن خوانا و املای صحیح در تصاویر بسیار خوب است و حتی می‌تواند اعلان‌ها را در چندین زبان درک کند. از میان این قابلیت‌ها، توانایی تولید متن خوانا در تصاویر، شاید بزرگترین پیشرفت برای متمایز کردن DeepFloyd IF از سایر الگوریتم‌ها باشد.»

از آنجایی که DeepFloyd IF می‌تواند به خوبی متن را در تصاویر تولید کند، راسل انتظار دارد موجی از امکانات هنری مولد جدید را مانند طراحی لوگو، طراحی وب، پوسترها، بیلبوردها و حتی میم‌ها باز کند .

او می‌گوید این مدل همچنین باید در تولید چیزهایی مانند دست‌ها بسیار بهتر باشد، و – چون می‌تواند اعلان‌های زبان‌های دیگر را درک کند – ممکن است بتواند متنی را در آن زبان‌ها نیز ایجاد کند.

راسل گفت :

« کاربران NightCafe در مورد DeepFloyd IF تا حد زیادی به دلیل امکاناتی که با تولید متن در تصاویر باز می شود، هیجان زده هستند. Stable Diffusion XL اولین الگوریتم منبع باز بود که در تولید متن پیشرفت کرد – گاهی اوقات می تواند یک یا دو کلمه را با دقت تولید کند – اما هنوز برای مواردی که متن مهم است به اندازه کافی خوب نیست.»

این بدان معنا نیست که DeepFloyd IF جام مقدس مدل های متن به تصویر است.

راسل خاطرنشان می‌کند که مدل پایه تصاویری را ایجاد نمی‌کند که از نظر زیبایی‌شناختی به اندازه برخی مدل‌های انتشاری خوشایند باشند، اگرچه او انتظار دارد که تنظیم دقیق آن را بهبود بخشد.

اما سوال بزرگ‌تر این است که DeepFloyd IF تا چه حد از همان نقص‌هایی رنج می‌برد که برادران هوش مصنوعی مولد خود دارند.

تعداد فزاینده‌ای از تحقیقات به شکل‌های نژادی، قومی، جنسیتی و سایر اشکال کلیشه‌ای در هوش مصنوعی تولیدکننده تصویر، از جمله Stable Diffusion ، نشان داده‌اند .

همین ماه، محققان استارت‌آپ Hugging Face و دانشگاه لایپزیگ ابزاری را منتشر کردند که نشان می‌دهد مدل‌هایی از جمله Stable Diffusion و OpenAI’s DALL-E 2 تمایل به تولید تصاویری از افرادی دارند که سفید و مرد به نظر می‌رسند، به ویژه زمانی که از آنها خواسته می‌شود افرادی را در موقعیت‌های قدرتمند به تصویر بکشند.

تیم DeepFloyd، به اعتبار خود، به پتانسیل تعصبات در چاپ ظریف همراه با DeepFloyd IF اشاره می کند:

متون و تصاویر جوامع و فرهنگ‌هایی که از زبان‌های دیگر استفاده می‌کنند احتمالاً به اندازه کافی توضیح داده نمی‌شوند. این بر خروجی کلی مدل تأثیر می گذارد، زیرا فرهنگ های سفید و غربی اغلب به عنوان پیش فرض تنظیم می شوند.