سه دانشمند سابق گوگل ایکس قصد دارند یک مغز دوم به صورت مجازی برای شما ایجاد کنند، نه به شکل علمی-تخیلی یا با کاشت تراشه در سر، بلکه از طریق یک برنامه مبتنی بر هوش مصنوعی که با گوش دادن به تمام صحبتهای شما در پسزمینه، اطلاعات مورد نیاز را جمعآوری میکند. استارتاپ آنها، TwinMind، مبلغ ۵.۷ میلیون دلار بودجه اولیه جذب کرده و نسخه اندروید را به همراه یک مدل گفتاری هوش مصنوعی جدید منتشر کرده است. این برنامه همچنین یک نسخه آیفون نیز دارد.
TwinMind که در اسفند ۱۴۰۲ توسط دانیل جورج (مدیرعامل) و همکاران سابقش در گوگل ایکس، سانی تانگ و ماهی کریم (هر دو مدیر ارشد فناوری) تأسیس شد، در پسزمینه اجرا میشود و با کسب اجازه از کاربر، گفتار محیطی را برای ایجاد یک نمودار دانش شخصی ثبت میکند.
این برنامه با تبدیل افکار، جلسات، سخنرانیها و گفتگوهای شفاهی به حافظه ساختاریافته، میتواند یادداشتها، لیست وظایف و پاسخهای مبتنی بر هوش مصنوعی تولید کند. این برنامه به صورت آفلاین کار میکند، صدا را در لحظه پردازش میکند تا در دستگاه رونویسی شود و به گفته بنیانگذاران، میتواند به طور مداوم به مدت ۱۶ تا ۱۷ ساعت صدا را بدون خالی کردن باتری دستگاه ضبط کند. این برنامه همچنین میتواند از دادههای کاربر پشتیبانگیری کند تا در صورت گم شدن دستگاه، مکالمات قابل بازیابی باشند، اگرچه کاربران میتوانند از این قابلیت انصراف دهند. همچنین از ترجمه همزمان به بیش از ۱۰۰ زبان پشتیبانی میکند.
TwinMind با ضبط غیرفعال صدا در پسزمینه در طول روز، خود را از برنامههای یادداشتبرداری جلسات مبتنی بر هوش مصنوعی مانند Otter، Granola و Fireflies متمایز میکند. به گفته جورج در مصاحبه اختصاصی با خبرنگار، برای تحقق این امر، این تیم یک سرویس سطح پایین را در Swift خالص ایجاد کردهاند که به طور بومی روی آیفون اجرا میشود. در مقابل، بسیاری از رقبا از React Native استفاده میکنند و به پردازش مبتنی بر ابر متکی هستند که اپل اجرای آن را در پسزمینه برای مدت طولانی محدود میکند.
او به خبرنگار گفت: “ما حدود شش تا هفت ماه از سال گذشته را صرف بهینهسازی ضبط مداوم صدا و یافتن ترفندهای زیادی در مورد محدودیتهای اپل کردیم.”
جورج در سال ۱۳۹۹ گوگل ایکس را ترک کرد و ایده TwinMind در سال ۱۴۰۲ زمانی که به عنوان معاون و مدیر هوش مصنوعی کاربردی در JPMorgan کار میکرد و هر روز در جلسات پیدرپی شرکت میکرد، به ذهنش رسید. برای صرفهجویی در وقت، او اسکریپتی ساخت که صدا را ضبط میکرد، آن را روی iPad خود رونویسی میکرد و آن را به ChatGPT میداد که پروژههای او را درک میکرد و حتی کد قابل استفاده تولید میکرد. او که تحت تأثیر نتایج قرار گرفته بود، آن را با دوستان خود به اشتراک گذاشت و در Blind در مورد آن پست گذاشت، جایی که دیگران نیز علاقه نشان دادند اما نمیخواستند چیزی روی لپتاپهای کاری خود اجرا کنند. این امر او را بر آن داشت تا برنامهای بسازد که بتواند روی تلفن شخصی اجرا شود و بی سر و صدا در طول جلسات گوش دهد تا اطلاعات مفیدی جمعآوری کند.
TwinMind علاوه بر اپلیکیشن موبایل، یک افزونه کروم نیز ارائه میدهد که از طریق فعالیت مرورگر، اطلاعات بیشتری را جمعآوری میکند. با استفاده از هوش مصنوعی بینایی، میتواند به صورت بصری تبهای باز را اسکن کرده و محتوا را از پلتفرمهای مختلف، از جمله ایمیل، Slack و Notion تفسیر کند.
این استارتاپ حتی از این افزونه برای انتخاب کارآموزان از بین بیش از ۸۵۰ درخواست دریافتی در تابستان امسال استفاده کرد.
جورج گفت: “ما تمام پروفایلهای لینکدین و رزومههای ۸۵۴ متقاضی را در تبهای مرورگر باز کردیم، سپس از افزونه کروم خواستیم تا بهترین نامزدها را رتبهبندی کند.” او افزود: “این افزونه کار فوقالعادهای انجام داد و به این ترتیب چهار کارآموز نهایی خود را استخدام کردیم.”

او اشاره کرد که رباتهای گفتگوی هوش مصنوعی کنونی، از جمله ChatGPT شرکت OpenAI و Claude شرکت Anthropic، نمیتوانند به راحتی صدها سند را پردازش کنند یا برای جمعآوری اطلاعات متنی، ثبتنامها را از ابزارهایی مانند LinkedIn یا Gmail تجزیه کنند. به طور مشابه، مرورگرهای مبتنی بر هوش مصنوعی مانند مرورگرهای Perplexity و The Browser Company فاقد توانایی ایجاد دانش از مکالمات آفلاین و جلسات حضوری شما هستند.
این استارتاپ در حال حاضر بیش از ۳۰,۰۰۰ کاربر دارد که حدود ۱۵,۰۰۰ نفر از آنها هر ماه فعال هستند. جورج گفت که حدود ۲۰ تا ۳۰ درصد از کاربران TwinMind از افزونه کروم نیز استفاده میکنند.
در حالی که ایالات متحده بزرگترین پایگاه TwinMind تا به امروز است، این استارتاپ همچنین در هند، برزیل، فیلیپین، اتیوپی، کنیا و اروپا نیز مورد توجه قرار گرفته است.
TwinMind مخاطبان عمومی را هدف قرار میدهد، اگرچه در حال حاضر ۵۰ تا ۶۰ درصد از کاربران آن متخصصان، حدود ۲۵ درصد دانشجویان و ۲۰ تا ۲۵ درصد باقیمانده افرادی هستند که از آن برای اهداف شخصی استفاده میکنند.
جورج به خبرنگار گفت که پدرش از جمله افرادی است که از TwinMind برای نوشتن زندگینامه خود استفاده میکند.
یکی از معایب قابل توجه هوش مصنوعی، پتانسیل آن برای به خطر انداختن حریم خصوصی کاربران است. اما جورج تأکید کرد که TwinMind مدلهای خود را با استفاده از دادههای کاربران آموزش نمیدهد و به گونهای طراحی شده است که بدون ارسال ضبطها به فضای ابری کار کند. او خاطرنشان کرد که برخلاف بسیاری از برنامههای یادداشتبرداری هوش مصنوعی دیگر، TwinMind به کاربران اجازه نمیدهد بعداً به ضبطهای صوتی دسترسی داشته باشند؛ صدا در حین کار حذف میشود و فقط متن رونویسی شده به صورت محلی در برنامه ذخیره میشود.
تجربه گوگل ایکس به تسریع امور کمک کرد
بنیانگذاران TwinMind چند سال را صرف کار بر روی پروژههای مختلف در گوگل ایکس کردند. جورج به خبرنگار گفت که او به تنهایی روی شش پروژه کار کرده است، از جمله iyO، تیمی که پشت هدفونهای مجهز به هوش مصنوعی قرار دارد و اخیراً به دلیل شکایت از OpenAI و جانی آیو خبرساز شده است. این تجربه به تیم TwinMind کمک کرد تا به سرعت از ایده به محصول برسند.
جورج گفت: “گوگل ایکس در واقع مکان مناسبی برای آماده شدن برای شروع شرکت خود بود.” او افزود: “در هر زمان معین، حدود ۳۰ تا ۴۰ پروژه شبیه استارتاپ در حال انجام است. هیچ کس دیگری قبل از راهاندازی شرکت خود، این فرصت را پیدا نمیکند که در شش استارتاپ در مراحل اولیه طی دو یا سه سال کار کند، حداقل نه در چنین بازه زمانی کوتاهی.”

جورج قبل از پیوستن به گوگل، در گروه LIGO برنده جایزه نوبل در مرکز ملی برنامههای کاربردی ابررایانه دانشگاه ایلینوی، روی کاربرد یادگیری عمیق در اخترفیزیک امواج گرانشی کار کرد. او دکترای خود را در رشته هوش مصنوعی برای اخترفیزیک در تنها یک سال و در سن ۲۴ سالگی به پایان رساند، موفقیتی که باعث شد در سال ۱۳۹۶ به عنوان محقق یادگیری عمیق و هوش مصنوعی به آزمایشگاه تحقیقاتی استیون ولفرام بپیوندد.
این ارتباط اولیه با ولفرام سالها بعد به ثمر نشست؛ او در نهایت اولین چک را برای TwinMind نوشت و این اولین سرمایهگذاری او در یک استارتاپ بود. دور اخیر جذب سرمایه اولیه توسط Streamlined Ventures رهبری شد و Sequoia Capital و سایر سرمایهگذاران، از جمله ولفرام، در آن شرکت کردند. این دور، ارزش TwinMind را پس از دریافت سرمایه، ۶۰ میلیون دلار تخمین زده است.
مدل TwinMind Ear-3
TwinMind علاوه بر برنامهها و افزونه مرورگر خود، مدل TwinMind Ear-3 را نیز معرفی کرده است که جانشین مدل Ear-2 موجود است و از بیش از ۱۴۰ زبان در سراسر جهان پشتیبانی میکند و به گفته این استارتاپ، نرخ خطای کلمه آن ۵.۲۶٪ است. مدل جدید همچنین میتواند بلندگوهای مختلف را در یک مکالمه تشخیص دهد و دارای نرخ خطای تفکیک بلندگو ۳.۸٪ است.
مدل جدید هوش مصنوعی ترکیبی دقیق از چندین مدل متنباز است که بر روی مجموعهای انتخابشده از دادههای اینترنتی حاشیهنویسیشده توسط انسان، از جمله پادکستها، ویدیوها و فیلمها آموزش داده شده است.
جورج گفت: “ما دریافتیم که هر چه زبانهای بیشتری را پشتیبانی کنید، مدل در درک لهجهها و گویشهای منطقهای بهتر عمل میکند، زیرا روی طیف وسیعتری از گویندگان آموزش میبیند.”
هزینه استفاده از این مدل ۰.۲۳ دلار در ساعت است و در طی چند هفته آینده از طریق API در اختیار توسعهدهندگان و شرکتها قرار خواهد گرفت.

Ear-3 برخلاف Ear-2، از تجربه کاملاً آفلاین پشتیبانی نمیکند، زیرا از نظر اندازه بزرگتر است و روی فضای ابری اجرا میشود. با این حال، جورج گفت که اگر اینترنت قطع شود، برنامه به طور خودکار به Ear-2 تغییر میکند و هنگامی که اینترنت دوباره وصل شود، به Ear-3 باز میگردد.
با معرفی Ear-3، TwinMind اکنون یک اشتراک Pro با قیمت ۱۵ دلار در ماه ارائه میدهد که دارای یک پنجره بزرگتر تا ۲ میلیون توکن و پشتیبانی ایمیلی در عرض ۲۴ ساعت است. با این وجود، نسخه رایگان با تمام ویژگیهای موجود، از جمله ساعات نامحدود رونویسی و تشخیص گفتار روی دستگاه، همچنان وجود دارد.
این استارتاپ در حال حاضر یک تیم ۱۱ نفره دارد. این شرکت قصد دارد چند طراح را برای بهبود تجربه کاربری خود استخدام کند و یک تیم توسعه کسب و کار برای فروش API خود ایجاد کند. علاوه بر این، برنامههایی برای صرف مقداری پول برای جذب کاربران جدید وجود دارد.
منبع : techcrunch.com