جذب ۱۰.۵ میلیون دلار سرمایه برای توسعه فناوری آواتار دیجیتال توسط Lemon Slice

0 3 3 دقیقه مطالعه

توسعه‌دهندگان و شرکت‌ها به طور فزاینده‌ای در حال پیاده‌سازی عامل‌ها و چت‌بات‌های هوش مصنوعی در برنامه‌های خود هستند، اما تاکنون این فناوری‌ها عمدتاً به متن محدود بوده‌اند. شرکت Lemon Slice که در زمینه تولید آواتار دیجیتال فعالیت می‌کند، در حال کار بر روی افزودن لایه ویدیویی به این گفتگوها با استفاده از مدل دیفیوژن جدیدی است که می‌تواند تنها با یک تصویر، آواتارهای دیجیتال تولید کند.

این مدل که Lemon Slice-2 نام دارد، قادر است یک آواتار دیجیتال بسازد که بر مبنای پایگاه دانش فعال می‌شود و می‌تواند هر نقشی را که از عامل هوش مصنوعی انتظار می‌رود ایفا کند؛ اعم از پاسخ به پرسش‌های مشتریان، کمک به سوالات درسی، یا حتی ایفای نقش پشتیبان سلامت روان.

لینا کولوچی، یکی از بنیان‌گذاران، می‌گوید: «در اوایل دوران هوش مصنوعی مولد، هم‌بنیان‌گذاران من شروع به آزمایش مدل‌های مختلف ویدیویی کردند و خیلی زود برای ما مشخص شد که ویدیو تعاملی خواهد بود. نکته جذاب درباره ابزارهایی مانند ChatGPT این است که تعاملی هستند و ما می‌خواهیم ویدیو نیز از چنین ویژگی برخوردار باشد.»

به گفته Lemon Slice، این یک مدل ۲۰ میلیارد پارامتری است که می‌تواند با یک GPU روی ویدیوها به صورت زنده و با نرخ ۲۰ فریم بر ثانیه کار کند. این شرکت مدل خود را از طریق یک API و ابزارک قابل درج ارائه می‌دهد که شرکت‌ها با یک خط کد می‌توانند آن را به سایت خود اضافه کنند. پس از ایجاد آواتار، در هر لحظه می‌توان پس‌زمینه، استایل و ظاهر شخصیت را تغییر داد.

علاوه بر آواتارهای انسان‌نما، این شرکت روی تولید شخصیت‌های غیرانسانی متناسب با نیازهای مختلف هم تمرکز کرده است. Lemon Slice برای تولید صدای این آواتارها از فناوری شرکت ElevenLabs استفاده می‌کند.

شرکت Lemon Slice که توسط لینا کولوچی، سیدنی پریماس و اندرو وایتز در سال ۱۴۰۳ تأسیس شد، اطمینان دارد که بهره‌گیری از مدل دیفیوژن عمومی خود (نوعی مدل مولد که با یادگیری به صورت معکوس از داده‌های آموزشی نویزی، داده‌های جدید می‌سازد) برای تولید آواتارها، آن‌ را از رقبا متمایز خواهد کرد.

کولوچی می‌گوید: «راهکارهای فعلی آواتار که تا امروز دیده‌ام، نه‌تنها ارزش افزوده‌ای ندارند، بلکه اثر منفی هم دارند. آن‌ها ترسناک، غیرطبیعی و خشک هستند؛ شاید در چند ثانیه اول خوب به نظر برسند اما به محض تعامل حس عجیبی القا می‌کنند و باعث راحتی نمی‌شوند. آنچه مانع موفقیت واقعی آواتارها شده، این است که به اندازه کافی خوب نیستند.»

برای تحقق این هدف، این شرکت در روز سه‌شنبه ۴ دی ۱۴۰۳ اعلام کرد موفق شده است ۱۰.۵ میلیون دلار سرمایه اولیه از Matrix Partners، Y Combinator، آرش فردوسی (مدیر فناوری Dropbox)، امت شیر (مدیرعامل Twitch) و The Chainsmokers جذب کند.

این شرکت اعلام کرده که برای جلوگیری از شبیه‌سازی غیرمجاز چهره یا صدا، راهکارهای حفاظتی مشخصی در نظر گرفته و از مدل‌های زبانی بزرگ برای مدیریت و نظارت بر محتوا بهره می‌گیرد.

Lemon Slice نام سازمان‌هایی که از فناوری آن استفاده می‌کنند را فاش نکرد، اما گفت این مدل در کاربردهایی مانند آموزش، یادگیری زبان، تجارت الکترونیک و آموزش سازمانی مورد استفاده قرار می‌گیرد.

این استارتاپ با رقبایی جدی از جمله شرکت‌های تولیدکننده ویدیو مانند D-ID، HeyGen و Sythesia و نیز سازندگان آواتار دیجیتال از جمله Genies، Soul Machine، Praktika و AvatarOS روبه‌رو است.

ایلیا سوخار، شریک Matrix، معتقد است آواتارها در حوزه‌هایی که ویدیو نقش پررنگی دارد، مفید خواهند بود. او اشاره می‌کند که بسیاری ترجیح می‌دهند از ویدیوهای آموزشی بهره ببرند تا خواندن متن‌های طولانی و می‌گوید توانایی فنی Lemon Slice و مدل اختصاصی‌اش، این شرکت را از سایر استارتاپ‌ها متمایز می‌کند.

او می‌گوید: «این یک تیم عمیقاً فنی با سابقه عرضه محصولات یادگیری ماشین است، نه صرفاً ارائه دمو یا پژوهش. بیشتر رقبای فعلی خود را به سناریوها یا حوزه‌های خاص محدود کرده‌اند اما Lemon Slice رویکرد مقیاس‌پذیر و کلی مبتنی بر داده و پردازش را اتخاذ کرده است؛ رویکردی که در سایر حوزه‌های هوش مصنوعی موفق بوده است.»

جرد فریدمن از Y-Combinator معتقد است استفاده از مدل دیفیوژنی به Lemon Slice اجازه می‌دهد هر نوع آواتاری تولید کند، برخلاف برخی استارتاپ‌ها که فقط آواتارهای انسان‌نما یا شخصیت‌های بازی می‌سازند.

او بیان می‌کند: «به باور من، Lemon Slice تنها شرکتی است که رویکرد یادگیری ماشین بنیادی را در پیش گرفته که می‌تواند نهایتا بر مشکل “دره وهم‌آور” غلبه کند و تست تورینگ آواتارها را پشت سر بگذارد. آن‌ها از همان نوع مدلی استفاده می‌کنند که Veo3 یا Sora استفاده می‌کنند؛ یک ترنسفورمر دیفیوژن ویدیویی. چون این مدل عمومی و انتها به انتها است، هیچ محدودیتی در بهبود آن وجود ندارد؛ دیگران تا رسیدن به واقع‌گرایی کامل پیش نمی‌روند. همچنین هم برای چهره‌های انسانی و هم غیرانسانی جوابگو است و فقط به یک تصویر برای افزودن چهره جدید نیاز دارد.»

این استارتاپ در حال حاضر هشت کارمند دارد و برنامه دارد از منابع جدید برای جذب نیروهای مهندسی و فروش، همچنین پرداخت هزینه‌های پردازش داده جهت آموزش مدل‌هایش استفاده کند.

Post Views: 23