پلتفرم تولید صدا ElevenLabs نوزده میلیون دلار جمع آوری می کند و ابزار تشخیص را راه اندازی می کند

خرداد 30, 1402 7۰55

به گزارش اپ خونه، ElevenLabs ، پلتفرم مبتنی بر هوش مصنوعی برای ایجاد صداهای مصنوعی، دور جدیدی از پول نقد را جمع آوری کرده است.

این استارت‌آپ بسته شدن دوره ۱۹ میلیون دلاری سری A را به رهبری کارآفرینان نات فریدمن و دانیل گراس در کنار آندریسن هوروویتز اعلام کرد.

سایر شرکت‌کنندگان شامل Creator Ventures، SV Angel، بنیان‌گذار اینستاگرام، مایک کریگر، بنیان‌گذار Oculus، برندان آیریب، بنیان‌گذار Deepmind و Inflection AI مصطفی سلیمان و موسس O’Reilly Media، تیم اوریلی بودند.

یک منبع آگاه می‌گوید که ارزش بخش ElevenLabs نود و نه میلیون دلار است که رقم قابل‌اعتمادی می باشد، به‌ویژه با توجه به اینکه این استارت‌آپ کمی بیش از یک سال پیش راه‌اندازی شد.

Mati Staniszewski یکی از بنیانگذاران و مدیرعامل شرکت گفت:

“این سرمایه گذاری برای ادامه ساخت مرکز تحقیقاتی پیشرفته ElevenLab برای هوش مصنوعی صوتی و راه اندازی طیف وسیعی از محصولات اضافی برای پشتیبانی از بازارهای عمودی خاص مانند انتشار، بازی، سرگرمی و برنامه های مکالمه استفاده خواهد شد. “

ElevenLabs، که طی چند ماه گذشته به دلایل خوب و نفرت انگیز تیتر خبرها شده بود، توسط استانیسفسکی، که قبلا در Palantir کار می کرد، و دوست دوران کودکی اش پیوتر دابکوفسکی، کارمند سابق گوگل، تاسیس شد.

این دو نفر با الهام از دوبله متوسط فیلم‌های آمریکایی که در لهستان، کشور مادری خود، تماشا می‌کردند، به طراحی پلتفرمی مبتنی بر هوش مصنوعی پرداختند که می‌توانست بهتر عمل کند.

ElevenLabs می‌تواند متن را با استفاده از صداهای مصنوعی، صداهای شبیه‌سازی‌شده یا صداهای کاملاً جدید مصنوعی که صدای افراد با جنسیت‌ها، سنین و قومیت‌های مختلف را تقلید می‌کند، به گفتار تبدیل کند.

مدل‌های تبدیل متن به گفتار هوش مصنوعی این شرکت دارای زبانی ناشناس هستند و به مشتریان شرکتی اجازه می‌دهند تا آن‌ها را تنظیم کنند و مدل‌های گفتاری اختصاصی خود را در بالا بسازند.

همزمان با افزایش دستمزدهای سری آ ، ElevenLabs با ۱۵ کارمند پروژه‌ها را راه‌اندازی می‌کند، که یک گردش کار برای ویرایش و ایجاد محتوای گفتاری طولانی است.

با پروژه ها، کاربران می توانند بخش های گفتگو و حتی کتاب های صوتی را بدون نیاز به ترک پلت فرم تولید کنند.

Staniszewski می‌گوید:

«برای شرکای تجاری، فناوری ما می‌تواند در زمینه‌هایی مانند ایجاد کتاب‌های صوتی مقیاس‌پذیر و چندزبانه، بیان شخصیت‌ها در بازی‌های ویدیویی، بیان مقالات دیجیتال، پشتیبانی از افراد کم بینا برای دسترسی به محتوای نوشتاری آنلاین و تقویت رادیو هوش مصنوعی استفاده شود. »

ElevenLabs، که در اواخر ژانویه در نسخه بتا راه اندازی شد، به دلیل کیفیت بسیار بالای صداهای تولید شده، زمان تولید سریع و سطح رایگان سخاوتمندانه، به سرعت وایرال شد.

اما همانطور که قبلا اشاره شد، تبلیغات همیشه مثبت نبوده است – به ویژه زمانی که بازیگران بد شروع به سوء استفاده از پلت فرم برای اهداف خود کردند.

4chan، تابلوی پیام بدنام که به خاطر محتوای توطئه‌آمیزش شناخته می‌شود، از ابزار ElevenLabs برای به اشتراک گذاشتن پیام‌های نفرت‌انگیز با تقلید از افراد مشهوری مانند بازیگر اما واتسون استفاده کرد .

در پاسخ، ElevenLabs گفت که مجموعه‌ای از پادمان‌های جدید مانند محدود کردن شبیه‌سازی صوتی به حساب‌های پولی، ممنوعیت کاربرانی که مکرراً شرایط خدمات آن را نقض می‌کنند و ارائه یک ابزار تشخیص هوش مصنوعی جدید معرفی می‌کند.

ابزار تشخیص اکنون راه اندازی می شود. این AI Speech Classifier نامیده می شود و به عنوان یک API برای شرکای انتخابی در دسترس است، برای تشخیص اینکه آیا یک نمونه صوتی آپلود شده حاوی محتوای تولید شده توسط هوش مصنوعی ElevenLabs است یا خیر، طراحی شده است.

استانیسفسکی گفت:

«حصول اطمینان از استفاده ایمن از پلتفرم‌های هوش مصنوعی یک چالش کلیدی برای کل بخش تولید شده با هوش مصنوعی، از جمله پلت‌فرم‌های متن، تصویر و صدا است.

ما باید اطمینان حاصل کنیم که مردم در مورد ماهیت چشم انداز رسانه های مولد آموزش دیده اند و بدانند که چنین محتوایی در آنجا وجود دارد – ما متعهد به ساخت ابزارهایی برای کمک به مردم برای شناسایی محتوای تولید شده توسط هوش مصنوعی به منظور شفافیت هستیم.»

یک ابزار تشخیص داوطلبانه – با فرض اینکه حتی همانطور که تبلیغ می شود کار کند – لزوماً از رفتار بد جلوگیری نمی کند. اما مورد دیگر وجود دارد که ElevenLabs به آن توجه نکرده است: تهدیدی که فناوری آن برای صداپیشه ها ایجاد می کند.

Motherboard در مورد این است که چگونه از صداپیشگان به طور فزاینده‌ای خواسته می‌شود تا حقوق صدای خود را امضا کنند تا مشتریان بتوانند از هوش مصنوعی برای تولید نسخه‌های مصنوعی استفاده کنند که در نهایت می‌تواند جایگزین آن‌ها شود و گاهی اوقات بدون پرداخت هزینه اضافی است .

در همین حال ، ایمیل‌های داخلی دیده‌شده توسط نیویورک تایمز نشان می‌دهد که Activision Blizzard، یکی از بزرگ‌ترین ناشران بازی در جهان، در حال کار بر روی ابزارهایی برای شبیه‌سازی صدا با کمک هوش مصنوعی است.

به نظر می‌رسد که ElevenLabs این را پیشرفت طبیعی همه چیز می‌داند و کار خود را با ناشرانی مانند Storytel و پلتفرم‌های رسانه‌ای مانند TheSoul Publishing و MNTN برای کتاب‌های صوتی، بازی‌های ویدیویی و محتوای رادیویی تبلیغ می‌کند. (Storytel و TheSoul Publishing سرمایه گذاران استراتژیک هستند.)

این شرکت ادعا می کند که بیش از یک میلیون کاربر ثبت شده در فضاهای خلاقانه، سرگرمی و انتشاراتی دارد که ده سال محتوای صوتی ایجاد کرده اند.

ElevenLabs قصد دارد در نهایت مدل‌های هوش مصنوعی خود را به دوبله صوتی گسترش دهد و به دنبال راه‌اندازی استارت‌آپ‌هایی مانند Papercup و Deepdub باشد و آنچه را که «بنیانی برای انتقال احساسات و لحن از زبانی به زبان دیگر» می‌نامد، بسازد.

ElevenLabs در یک بیانیه مطبوعاتی می نویسد:

“این امکان را فراهم می کند تا هر ویدیویی به هر زبانی به روشی جذاب، موثر و مقیاس پذیر دوبله شود، همه اینها در عین حفظ صدای گوینده اصلی است. ما در حال انجام تعدادی آزمایش با شرکای صنعتی برای فعال کردن دوبله هوش مصنوعی در مقیاس هستیم.”

ElevenLabs با ۲۱ میلیون دلار در بانک (که ۲ میلیون دلار آن از یک دور اولیه در ژانویه به دست آمد) بر روی غلبه بر رقبای خود در فضای رو به رشد صدای مولد متمرکز شده است.

آنها شامل شرکت‌هایی مانند آمازون، گوگل و مایکروسافت و همچنین استارت‌آپ‌هایی مانند Murf ، Tavus ، Resemble AI ، Respeecher ، Play.ht و Lovo هستند .