هوش مصنوعی پایداری از تلاش برای آوردن یادگیری ماشینی به بیومد حمایت می کند

آبان 15, 1401 6۰52

به گزارش اپ خونه، Stability AI، استارت‌آپ مخاطره‌آمیز در پشت سیستم هوش مصنوعی متن به تصویر Stable Diffusion، تلاش گسترده‌ای را برای اعمال هوش مصنوعی در مرزهای بیوتکنولوژی تامین می‌کند. اولین پروژه‌های این تلاش که OpenBioML نام دارد، بر رویکردهای مبتنی بر یادگیری ماشینی برای توالی‌یابی DNA، تا کردن پروتئین و بیوشیمی محاسباتی متمرکز خواهد بود.

بنیانگذاران این شرکت OpenBioML را به عنوان یک “آزمایشگاه تحقیقاتی باز” توصیف می کنند و به گفته عماد مستاک، مدیر عامل هوش مصنوعی پایداری، هدف آن کشف تقاطع هوش مصنوعی و زیست شناسی در محیطی است که دانش آموزان، متخصصان و محققان می توانند در آن شرکت کنند و با هم همکاری کنند.

Mostaque در یک مصاحبه ایمیلی گفت: «OpenBioML یکی از جوامع تحقیقاتی مستقلی است که Stability از آن پشتیبانی می کند. ثبات به دنبال توسعه و دموکراتیزه کردن هوش مصنوعی است و از طریق OpenBioML، ما فرصتی برای پیشبرد وضعیت هنر در علوم، بهداشت و پزشکی می بینیم.»

با توجه به بحث و جدل پیرامون Stable Diffusion – سیستم هوش مصنوعی Stability AI که هنر را از توضیحات متن ایجاد می کند، مشابه DALL-E 2 OpenAI – ممکن است به طور قابل درک در مورد اولین سرمایه گذاری Stability AI در مراقبت های بهداشتی محتاط باشیم. این استارت‌آپ یک رویکرد آزادانه برای حاکمیت در پیش گرفته است و به توسعه دهندگان این امکان را می‌دهد تا از این سیستم هر طور که می‌خواهند استفاده کنند، از جمله برای دیپ‌فیک‌های افراد مشهور .

گذشته از تصمیمات اخلاقی مشکوک هوش مصنوعی پایداری، یادگیری ماشینی در پزشکی یک میدان مین است. در حالی که این فناوری با موفقیت برای تشخیص بیماری‌هایی مانند بیماری‌های پوستی و چشمی از جمله موارد دیگر استفاده شده است، تحقیقات نشان داده است که الگوریتم‌ها می‌توانند سوگیری‌هایی ایجاد کنند که منجر به مراقبت بدتر برای برخی از بیماران می‌شود. به عنوان مثال، یک مطالعه آوریل ۲۰۲۱ نشان داد که مدل‌های آماری مورد استفاده برای پیش‌بینی خطر خودکشی در بیماران سلامت روان برای بیماران سفیدپوست و آسیایی عملکرد خوبی داشتند اما برای بیماران سیاه‌پوست ضعیف بودند.

OpenBioML با قلمرو امن تر، عاقلانه شروع می شود. اولین پروژه های آن عبارتند از:

_BioLM، که به دنبال استفاده از تکنیک های پردازش زبان طبیعی (NLP) در زمینه های زیست شناسی محاسباتی و شیمی است.

_DNA-Diffusion، که هدف آن توسعه هوش مصنوعی است که می تواند توالی های DNA را از پیام های متنی تولید کند

_LibreFold، که به نظر می‌رسد دسترسی به سیستم‌های پیش‌بینی ساختار پروتئین هوش مصنوعی مشابه AlphaFold 2 DeepMind را افزایش دهد.

هر پروژه توسط محققان مستقل هدایت می شود، اما هوش مصنوعی پایداری در قالب دسترسی به خوشه میزبان AWS با بیش از ۵۰۰۰ پردازنده گرافیکی Nvidia A100 برای آموزش سیستم های هوش مصنوعی پشتیبانی می کند. به گفته نیکولو زانیچلی، دانش آموخته علوم کامپیوتر در دانشگاه پارما و یکی از محققین اصلی OpenBioML، این قدرت پردازشی و ذخیره سازی کافی برای در نهایت آموزش تا ۱۰ سیستم مختلف شبیه به AlphaFold 2 به صورت موازی خواهد بود.

«بسیاری از تحقیقات زیست‌شناسی محاسباتی در حال حاضر به انتشار منبع باز منجر شده است. با این حال، بیشتر آن در سطح یک آزمایشگاه اتفاق می افتد و بنابراین معمولاً توسط منابع محاسباتی ناکافی محدود می شود. ما می‌خواهیم این را با تشویق همکاری‌های در مقیاس بزرگ تغییر دهیم و به لطف حمایت از هوش مصنوعی پایداری، از این همکاری‌ها با منابعی که تنها بزرگترین آزمایشگاه‌های صنعتی به آن دسترسی دارند، حمایت کنیم.»

تولید توالی DNA

از پروژه‌های در حال انجام OpenBioML، DNA-Diffusion – که توسط آزمایشگاه پروفسور آسیب‌شناسی لوکا پینلو در بیمارستان عمومی ماساچوست و دانشکده پزشکی هاروارد رهبری می‌شود، شاید بلندپروازانه‌ترین آنها باشد. هدف استفاده از سیستم‌های هوش مصنوعی مولد برای یادگیری و اعمال قوانین توالی‌های «تنظیمی» DNA یا بخش‌هایی از مولکول‌های اسید نوکلئیک است که بر بیان ژن‌های خاص در یک ارگانیسم تأثیر می‌گذارند. بسیاری از بیماری‌ها و اختلالات نتیجه ژن‌های تنظیم نادرست هستند، اما علم هنوز فرآیند قابل اعتمادی را برای شناسایی این توالی‌های تنظیمی – بسیار کمتر در حال تغییر – کشف نکرده است.
DNA-Diffusion استفاده از یک نوع سیستم هوش مصنوعی معروف به مدل انتشار را برای تولید توالی‌های DNA تنظیم‌کننده خاص نوع سلول پیشنهاد می‌کند. مدل‌های انتشار – که زیربنای مولدهای تصویر مانند Stable Diffusion و OpenAI’s DALL-E 2 هستند – با یادگیری نحوه از بین بردن و بازیابی بسیاری از نمونه‌های موجود داده، داده‌های جدیدی (مانند توالی‌های DNA) ایجاد می‌کنند. همانطور که نمونه‌ها را تغذیه می‌کنند، مدل‌ها در بازیابی تمام داده‌هایی که قبلاً برای تولید آثار جدید نابود کرده بودند، بهتر می‌شوند.

زانیچلی می‌گوید: انتشار موفقیت گسترده‌ای در مدل‌های مولد چندوجهی داشته است و اکنون در زیست‌شناسی محاسباتی به‌عنوان مثال برای تولید ساختارهای پروتئینی جدید استفاده می‌شود. با انتشار DNA، اکنون در حال بررسی کاربرد آن در توالی‌های ژنومی هستیم.

اگر همه چیز طبق برنامه پیش برود، پروژه DNA-Diffusion یک مدل انتشار تولید می‌کند که می‌تواند توالی‌های DNA تنظیمی را از دستورالعمل‌های متنی تولید کند، مانند «توالی که یک ژن را به حداکثر سطح بیان آن در سلول نوع X فعال می‌کند» و «توالی که یک ژن را در کبد و قلب فعال می کند، اما در مغز نه».

زانیچلی می‌گوید چنین مدلی می‌تواند به تفسیر اجزای توالی‌های تنظیمی نیز کمک کند – درک جامعه علمی از نقش توالی‌های تنظیمی در بیماری‌های مختلف را بهبود می‌بخشد.

شایان ذکر است که این تا حد زیادی تئوری است. زانیچلی اذعان می‌کند که در حالی که تحقیقات اولیه در مورد استفاده از دیفیوژن در تا کردن پروتئین امیدوارکننده به نظر می‌رسد، اما زانیچلی اذعان می‌کند که این روزهای بسیار ابتدایی است – از این رو فشار برای مشارکت گسترده‌تر جامعه هوش مصنوعی است.

پیش بینی ساختارهای پروتئینی

LibreFold OpenBioML، اگرچه از نظر وسعت کوچکتر است، به احتمال زیاد فوراً نتیجه می دهد. این پروژه به دنبال دستیابی به درک بهتری از سیستم های یادگیری ماشینی است که ساختارهای پروتئین را علاوه بر راه هایی برای بهبود آنها پیش بینی می کند.

همانطور که همکار من دوین کولدیوی در مقاله خود درباره کار DeepMind روی AlphaFold 2 توضیح داد، سیستم‌های هوش مصنوعی که شکل پروتئین را به طور دقیق پیش‌بینی می‌کنند در صحنه نسبتاً جدید هستند اما از نظر پتانسیل‌شان دگرگون‌کننده هستند. پروتئین ها شامل دنباله هایی از اسیدهای آمینه هستند که برای انجام وظایف مختلف در موجودات زنده به شکل تا می شوند. فرآیند تعیین اینکه یک توالی اسیدها چه شکلی ایجاد می کند، زمانی یک کار سخت و مستعد خطا بود. سیستم های هوش مصنوعی مانند AlphaFold 2 این را تغییر دادند. به لطف آنها، بیش از ۹۸٪ از ساختارهای پروتئین در بدن انسان برای علم امروز شناخته شده است، و همچنین صدها هزار ساختار دیگر در موجوداتی مانند E. coli و مخمر.

گروه های کمی از تخصص مهندسی و منابع لازم برای توسعه این نوع هوش مصنوعی برخوردار هستند. DeepMind روزها را صرف آموزش AlphaFold 2 روی واحدهای پردازش تانسور (TPUs)، سخت افزار گران قیمت شتاب دهنده هوش مصنوعی گوگل کرد. و مجموعه داده های آموزش توالی اسید اغلب اختصاصی هستند یا تحت مجوزهای غیرتجاری منتشر می شوند.

پروتئین ها در ساختار سه بعدی خود تا می شوند

زانیچلی با اشاره به مدل آموزش دیده AlphaFold 2 که DeepMind در سال گذشته منتشر کرد، گفت: “این مایه تاسف است، زیرا اگر به آنچه جامعه توانسته است در بالای ایست بازرسی AlphaFold 2 که توسط DeepMind منتشر شده است نگاه کنید، به سادگی باورنکردنی است.” . به عنوان مثال، تنها چند روز پس از انتشار، مینکیونگ باک، استاد دانشگاه ملی سئول، ترفندی را در توییتر گزارش کرد که به مدل اجازه می‌دهد ساختارهای چهارتایی را پیش‌بینی کند – چیزی که کمتر کسی انتظار داشت که مدل قادر به انجام آن باشد. نمونه‌های بسیار بیشتری از این نوع وجود دارد، پس چه کسی می‌داند که اگر جامعه علمی گسترده‌تر توانایی آموزش روش‌های کاملاً جدید پیش‌بینی ساختار پروتئینی مشابه آلفا فولد را داشته باشد، چه چیزی می‌تواند بسازد؟

LibreFold با تکیه بر کار RoseTTAFold و OpenFold، دو تلاش مداوم جامعه برای تکرار AlphaFold 2، آزمایش‌های «مقیاس بزرگ» را با سیستم‌های مختلف پیش‌بینی تاخوردگی پروتئین تسهیل می‌کند. به گفته زانیچلی، تمرکز LibreFold که توسط محققان دانشگاه کالج لندن، هاروارد و استکهلم رهبری می‌شود، به دست آوردن درک بهتری از آنچه که سیستم‌ها می‌توانند انجام دهند و چرا انجام می‌دهند، خواهد بود.

«LibreFold در قلب خود یک پروژه برای جامعه است، توسط جامعه. همین امر در مورد انتشار هر دو مدل بازرسی و مجموعه داده‌ها صدق می‌کند، زیرا ممکن است تنها یک یا دو ماه طول بکشد تا ما شروع به انتشار اولین محصولات تحویلی کنیم یا به طور قابل توجهی بیشتر طول بکشد. “به گفته من، شهود من این است که اولی محتمل تر است.”

استفاده از NLP در بیوشیمی

در افق زمانی طولانی تری پروژه BioLM OpenBioML است که مأموریت مبهم “به کارگیری تکنیک های مدل سازی زبان برگرفته از NLP در توالی های بیوشیمیایی” را دارد. با همکاری EleutherAI، یک گروه تحقیقاتی که چندین مدل منبع باز تولید متن را منتشر کرده است، BioLM امیدوار است که «مدل های زبان بیوشیمیایی» جدید را برای طیف وسیعی از وظایف، از جمله تولید توالی پروتئین، آموزش دهد و منتشر کند.

زانیچلی به ProGen Salesforce به عنوان نمونه ای از انواع کارهایی که BioLM ممکن است شروع کند اشاره می کند. ProGen با توالی اسیدهای آمینه مانند کلمات در یک جمله رفتار می کند. این مدل که بر روی مجموعه داده ای از بیش از ۲۸۰ میلیون توالی پروتئین و ابرداده مرتبط آموزش دیده است، مجموعه بعدی آمینو اسیدها را از آمینو اسیدهای قبلی، مانند مدل زبانی که پایان یک جمله را از ابتدای آن پیش بینی می کند، پیش بینی می کند.

انویدیا در اوایل سال جاری یک مدل زبان به نام MegaMolBART منتشر کرد که بر روی مجموعه داده‌ای متشکل از میلیون‌ها مولکول برای جستجوی اهداف دارویی بالقوه و پیش‌بینی واکنش‌های شیمیایی آموزش دیده بود. متا همچنین اخیراً یک NLP به نام ESM-2 را بر روی توالی پروتئین ها آموزش داده است، رویکردی که شرکت ادعا می کند به آن اجازه می دهد توالی بیش از ۶۰۰ میلیون پروتئین را تنها در دو هفته پیش بینی کند.

ساختارهای پروتئینی پیش بینی شده توسط سیستم متا

نگاهی به آینده

در حالی که علایق OpenBioML گسترده است (و در حال گسترش است)، Mostaque می گوید که آنها با تمایل به “به حداکثر رساندن پتانسیل مثبت یادگیری ماشینی و هوش مصنوعی در زیست شناسی” با پیروی از سنت تحقیقات باز در علم و پزشکی متحد شده اند.

Mostaque ادامه داد: «”ما به دنبال این هستیم که محققان را قادر کنیم تا کنترل بیشتری بر خط لوله آزمایشی خود برای اهداف یادگیری فعال یا اعتبار سنجی مدل به دست آورند.” ما همچنین به دنبال ارتقای وضعیت هنر با مدل‌های بیوتکنولوژی عمومی به طور فزاینده‌ای هستیم، برخلاف معماری‌های تخصصی و اهداف یادگیری که در حال حاضر بیشتر زیست‌شناسی محاسباتی را مشخص می‌کند.»

اما – همانطور که ممکن است از یک استارت‌آپ با پشتوانه VC که اخیراً بیش از ۱۰۰ میلیون دلار جمع‌آوری کرده است انتظار می‌رود – Stability AI OpenBioML را یک تلاش صرفاً بشردوستانه نمی‌بیند. Mostaque می‌گوید که شرکت برای کاوش تجاری‌سازی فناوری از OpenBioML “زمانی که به اندازه کافی پیشرفته و ایمن باشد و زمانی که زمان مناسب باشد” آماده است.