مدل‌های جداسازی صدای محاسبات ظریف، به رایانه‌ها کمک می‌کنند تا در محیط‌های پر سروصدا شما را بهتر درک کنند.

0 0 3 دقیقه مطالعه

استارتاپ “ساب‌تل کامپیوتینگ” (Subtle Computing) واقع در کالیفرنیا، در حال حل مشکلی اساسی در زمینه فناوری‌های صوتی است: ضبط صدای افراد در محیط‌های پر سر و صدا. این استارتاپ با ارائه مدل‌های اختصاصی برای جداسازی صدا، می‌تواند کیفیت محصولات و خدمات مبتنی بر هوش مصنوعی صوتی را به طور چشمگیری ارتقا دهد.

اپلیکیشن‌های مصرفی که از هوش مصنوعی صوتی استفاده می‌کنند، امروزه شاهد رشد چشمگیری هستند. ابزارهای یادداشت‌برداری جلسات مبتنی بر هوش مصنوعی مانند Granola، Fireflies، Fathom و Read AI توجه کاربران و سرمایه‌گذاران را به خود جلب کرده‌اند. شرکت‌های بزرگی مانند OpenAI، ClickUp و Notion نیز راهکارهای رونویسی صوتی را در پلتفرم‌های خود ادغام کرده‌اند. سازندگان اپلیکیشن‌هایی مانند Wispr Flow و Willow نیز در حال کار بر روی فناوری تبدیل صدا به متن هستند. علاوه بر این، شرکت‌های سخت‌افزاری مانند Plaud و Sandbar با استفاده از دستگاه‌های خود به عنوان واسطه‌ای برای رونویسی صدا و سپس استفاده از هوش مصنوعی برای تولید بینش و تعامل، وارد این عرصه شده‌اند.

یکی از چالش‌های اصلی این شرکت‌ها، ضبط صدای کاربران در انواع محیط‌ها، به ویژه مکان‌های پر سر و صدا مانند کافه‌ها یا دفاتر شلوغ است.

برای حل این مشکل، Subtle Computing یک مدل یکپارچه برای جداسازی صدا توسعه داده است که حتی در محیط‌های پر سر و صدا نیز می‌تواند صحبت‌های شما را به درستی تشخیص دهد. به گفته چن، بسیاری از شرکت‌ها در زمینه درک صدا فعالیت می‌کنند. او خاطرنشان کرد که گاهی اوقات، تولیدکنندگان دستگاه‌ها برای دریافت خروجی تمیز، صدا را به فضای ابری ارسال می‌کنند، اما این روش کارآمدی نیست.

این استارتاپ به جای آموزش یک مدل واحد برای همه دستگاه‌ها، مدل‌های خاصی را برای مطابقت با ویژگی‌های صوتی هر دستگاه آموزش می‌دهد و آن‌ها را با صدای کاربر تطبیق می‌دهد.

چن می‌گوید: “ما دریافتیم که وقتی ویژگی‌های صوتی یک دستگاه را حفظ می‌کنیم، عملکرد بهتری نسبت به راهکارهای عمومی به دست می‌آوریم. این بدان معناست که می‌توانیم راهکارهای شخصی‌سازی شده‌ای را به کاربر ارائه دهیم.”

این شرکت توسط تایلر چن، دیوید هریسون، ساوانا کوفر و جکی یانگ که در استنفورد با یکدیگر آشنا شدند، تأسیس شده است. چن، هریسون و یانگ در حال گذراندن دوره دکترا بودند، در حالی که کوفر مدرک MBA خود را می‌گرفت. آن‌ها در دوره Lean Launchpad استیو بلنک گرد هم آمدند و در آنجا روی رابط‌های کاربری جایگزین برای رایانش کار کردند و Subtle Computing را پایه‌گذاری کردند.

چن می‌گوید: “همزمان با تعامل بیشتر ما با هوش مصنوعی، به آینده‌ای نزدیک می‌شویم که در آن با دستگاه‌های خود صحبت می‌کنیم. اما سوال واضح این است که دستگاه‌های ما تا چه حد می‌توانند ما، یعنی کاربران را در تمام محیط‌هایی که روزانه در آن کار می‌کنیم، درک کنند. چه در یک کافی‌شاپ بسیار شلوغ باشیم یا در یک دفتر کار اشتراکی که افراد دیگری در اطرافمان حضور دارند و ممکن است در مورد موضوعی خصوصی صحبت کنیم – فناوری صوتی امروز به این شکل کار نمی‌کند.”

این استارتاپ اعلام کرده است که می‌تواند مدل خود را فقط برای جداسازی صدا روی برخی از دستگاه‌ها اجرا کند. حجم این مدل تنها چند مگابایت است و تأخیر آن 100 میلی‌ثانیه است. این شرکت همچنین می‌تواند مدل دیگری را برای رونویسی صدا و ارائه خروجی متنی برای سایر دستگاه‌ها اجرا کند. چن می‌گوید به لطف مدل جداسازی صدا، مدل رونویسی این شرکت می‌تواند کاربران را بهتر درک کند و در نتیجه، رونوشت دقیق‌تری ایجاد می‌کند.

Subtle Computing اعلام کرده است که کوالکام این استارتاپ را به عنوان عضوی از برنامه توسعه صدا و موسیقی خود انتخاب کرده است. این بدان معناست که فناوری این استارتاپ با تراشه‌های کوالکام سازگار خواهد بود و در دستگاه‌های تولید شده توسط OEMها (تولیدکنندگان تجهیزات اصلی) در دسترس خواهد بود.

این شرکت 6 میلیون دلار سرمایه اولیه به رهبری Entrada Ventures و با مشارکت Amplify Partners، Abstract Ventures و سرمایه‌گذاران فرشته، از جمله بنیان‌گذارانی مانند بیز استون از توییتر، ایوان شارپ از پینترست و جانی هو از Perplexity، جذب کرده است.

کارن روتر دیویس، مدیرعامل Entrada Ventures و مدیر سابق یک پروژه اولیه در X (Alphabet)، خاطرنشان کرد که هوش مصنوعی صوتی یک فضای پر سر و صدا است و اگرچه تعامل از طریق این رسانه در حال افزایش است، اما تجربه کلی صدا چندان عالی نیست. او معتقد است که تمرکز این استارتاپ بر جداسازی صدا، دیدگاه متفاوتی را به بازار ارائه می‌دهد.

دیویس می‌گوید: “در حالی که می‌توان بحث کرد که آیا هوش مصنوعی زمان صرف شده به صورت روزانه را افزایش می‌دهد یا کاهش، همه ما می‌توانیم موافق باشیم که پیشرفت‌ها در قدرت محاسباتی و یادگیری ماشین / هوش مصنوعی فرصت‌هایی را برای پیشرفت‌های رابط صوتی فراهم می‌کند – البته اگر به درستی انجام شود. Subtle Computing با ارائه رابط‌های صوتی که در نویز شدید و سکوت مطلق کار می‌کنند، تجربه‌ای صوتی قابل اعتماد، آسان و سرگرم‌کننده را ارائه می‌دهد. این یک تغییر اساسی است.”

این شرکت اعلام کرده است که با یک برند سخت‌افزار مصرفی و یک برند خودروسازی (بدون ذکر نام آن‌ها) نیز برای استقرار راهکارهای خود همکاری کرده است. اما Subtle Computing نمی‌خواهد فقط یک تامین کننده مدل برای سایر شرکت‌ها باشد.

این استارتاپ همچنین اعلام کرد که قصد دارد سال آینده یک محصول مصرفی را که شامل هر دو بخش سخت‌افزار و نرم‌افزار می‌شود، معرفی کند، اما جزئیاتی را ارائه نکرد.

Post Views: 17