مدلهای جداسازی صدای محاسبات ظریف، به رایانهها کمک میکنند تا در محیطهای پر سروصدا شما را بهتر درک کنند.

استارتاپ “سابتل کامپیوتینگ” (Subtle Computing) واقع در کالیفرنیا، در حال حل مشکلی اساسی در زمینه فناوریهای صوتی است: ضبط صدای افراد در محیطهای پر سر و صدا. این استارتاپ با ارائه مدلهای اختصاصی برای جداسازی صدا، میتواند کیفیت محصولات و خدمات مبتنی بر هوش مصنوعی صوتی را به طور چشمگیری ارتقا دهد.
اپلیکیشنهای مصرفی که از هوش مصنوعی صوتی استفاده میکنند، امروزه شاهد رشد چشمگیری هستند. ابزارهای یادداشتبرداری جلسات مبتنی بر هوش مصنوعی مانند Granola، Fireflies، Fathom و Read AI توجه کاربران و سرمایهگذاران را به خود جلب کردهاند. شرکتهای بزرگی مانند OpenAI، ClickUp و Notion نیز راهکارهای رونویسی صوتی را در پلتفرمهای خود ادغام کردهاند. سازندگان اپلیکیشنهایی مانند Wispr Flow و Willow نیز در حال کار بر روی فناوری تبدیل صدا به متن هستند. علاوه بر این، شرکتهای سختافزاری مانند Plaud و Sandbar با استفاده از دستگاههای خود به عنوان واسطهای برای رونویسی صدا و سپس استفاده از هوش مصنوعی برای تولید بینش و تعامل، وارد این عرصه شدهاند.
یکی از چالشهای اصلی این شرکتها، ضبط صدای کاربران در انواع محیطها، به ویژه مکانهای پر سر و صدا مانند کافهها یا دفاتر شلوغ است.
برای حل این مشکل، Subtle Computing یک مدل یکپارچه برای جداسازی صدا توسعه داده است که حتی در محیطهای پر سر و صدا نیز میتواند صحبتهای شما را به درستی تشخیص دهد. به گفته چن، بسیاری از شرکتها در زمینه درک صدا فعالیت میکنند. او خاطرنشان کرد که گاهی اوقات، تولیدکنندگان دستگاهها برای دریافت خروجی تمیز، صدا را به فضای ابری ارسال میکنند، اما این روش کارآمدی نیست.
این استارتاپ به جای آموزش یک مدل واحد برای همه دستگاهها، مدلهای خاصی را برای مطابقت با ویژگیهای صوتی هر دستگاه آموزش میدهد و آنها را با صدای کاربر تطبیق میدهد.
چن میگوید: “ما دریافتیم که وقتی ویژگیهای صوتی یک دستگاه را حفظ میکنیم، عملکرد بهتری نسبت به راهکارهای عمومی به دست میآوریم. این بدان معناست که میتوانیم راهکارهای شخصیسازی شدهای را به کاربر ارائه دهیم.”
این شرکت توسط تایلر چن، دیوید هریسون، ساوانا کوفر و جکی یانگ که در استنفورد با یکدیگر آشنا شدند، تأسیس شده است. چن، هریسون و یانگ در حال گذراندن دوره دکترا بودند، در حالی که کوفر مدرک MBA خود را میگرفت. آنها در دوره Lean Launchpad استیو بلنک گرد هم آمدند و در آنجا روی رابطهای کاربری جایگزین برای رایانش کار کردند و Subtle Computing را پایهگذاری کردند.
چن میگوید: “همزمان با تعامل بیشتر ما با هوش مصنوعی، به آیندهای نزدیک میشویم که در آن با دستگاههای خود صحبت میکنیم. اما سوال واضح این است که دستگاههای ما تا چه حد میتوانند ما، یعنی کاربران را در تمام محیطهایی که روزانه در آن کار میکنیم، درک کنند. چه در یک کافیشاپ بسیار شلوغ باشیم یا در یک دفتر کار اشتراکی که افراد دیگری در اطرافمان حضور دارند و ممکن است در مورد موضوعی خصوصی صحبت کنیم – فناوری صوتی امروز به این شکل کار نمیکند.”
این استارتاپ اعلام کرده است که میتواند مدل خود را فقط برای جداسازی صدا روی برخی از دستگاهها اجرا کند. حجم این مدل تنها چند مگابایت است و تأخیر آن 100 میلیثانیه است. این شرکت همچنین میتواند مدل دیگری را برای رونویسی صدا و ارائه خروجی متنی برای سایر دستگاهها اجرا کند. چن میگوید به لطف مدل جداسازی صدا، مدل رونویسی این شرکت میتواند کاربران را بهتر درک کند و در نتیجه، رونوشت دقیقتری ایجاد میکند.
Subtle Computing اعلام کرده است که کوالکام این استارتاپ را به عنوان عضوی از برنامه توسعه صدا و موسیقی خود انتخاب کرده است. این بدان معناست که فناوری این استارتاپ با تراشههای کوالکام سازگار خواهد بود و در دستگاههای تولید شده توسط OEMها (تولیدکنندگان تجهیزات اصلی) در دسترس خواهد بود.
این شرکت 6 میلیون دلار سرمایه اولیه به رهبری Entrada Ventures و با مشارکت Amplify Partners، Abstract Ventures و سرمایهگذاران فرشته، از جمله بنیانگذارانی مانند بیز استون از توییتر، ایوان شارپ از پینترست و جانی هو از Perplexity، جذب کرده است.
کارن روتر دیویس، مدیرعامل Entrada Ventures و مدیر سابق یک پروژه اولیه در X (Alphabet)، خاطرنشان کرد که هوش مصنوعی صوتی یک فضای پر سر و صدا است و اگرچه تعامل از طریق این رسانه در حال افزایش است، اما تجربه کلی صدا چندان عالی نیست. او معتقد است که تمرکز این استارتاپ بر جداسازی صدا، دیدگاه متفاوتی را به بازار ارائه میدهد.
دیویس میگوید: “در حالی که میتوان بحث کرد که آیا هوش مصنوعی زمان صرف شده به صورت روزانه را افزایش میدهد یا کاهش، همه ما میتوانیم موافق باشیم که پیشرفتها در قدرت محاسباتی و یادگیری ماشین / هوش مصنوعی فرصتهایی را برای پیشرفتهای رابط صوتی فراهم میکند – البته اگر به درستی انجام شود. Subtle Computing با ارائه رابطهای صوتی که در نویز شدید و سکوت مطلق کار میکنند، تجربهای صوتی قابل اعتماد، آسان و سرگرمکننده را ارائه میدهد. این یک تغییر اساسی است.”
این شرکت اعلام کرده است که با یک برند سختافزار مصرفی و یک برند خودروسازی (بدون ذکر نام آنها) نیز برای استقرار راهکارهای خود همکاری کرده است. اما Subtle Computing نمیخواهد فقط یک تامین کننده مدل برای سایر شرکتها باشد.
این استارتاپ همچنین اعلام کرد که قصد دارد سال آینده یک محصول مصرفی را که شامل هر دو بخش سختافزار و نرمافزار میشود، معرفی کند، اما جزئیاتی را ارائه نکرد.



