هوش مصنوعی: مغز دوم شما؟

علیرضا شهریور 19, 1404

0 0 6 دقیقه مطالعه

سه دانشمند سابق گوگل ایکس قصد دارند یک مغز دوم به صورت مجازی برای شما ایجاد کنند، نه به شکل علمی-تخیلی یا با کاشت تراشه در سر، بلکه از طریق یک برنامه مبتنی بر هوش مصنوعی که با گوش دادن به تمام صحبت‌های شما در پس‌زمینه، اطلاعات مورد نیاز را جمع‌آوری می‌کند. استارتاپ آن‌ها، TwinMind، مبلغ ۵.۷ میلیون دلار بودجه اولیه جذب کرده و نسخه اندروید را به همراه یک مدل گفتاری هوش مصنوعی جدید منتشر کرده است. این برنامه همچنین یک نسخه آیفون نیز دارد.

TwinMind که در اسفند ۱۴۰۲ توسط دانیل جورج (مدیرعامل) و همکاران سابقش در گوگل ایکس، سانی تانگ و ماهی کریم (هر دو مدیر ارشد فناوری) تأسیس شد، در پس‌زمینه اجرا می‌شود و با کسب اجازه از کاربر، گفتار محیطی را برای ایجاد یک نمودار دانش شخصی ثبت می‌کند.

این برنامه با تبدیل افکار، جلسات، سخنرانی‌ها و گفتگوهای شفاهی به حافظه ساختاریافته، می‌تواند یادداشت‌ها، لیست وظایف و پاسخ‌های مبتنی بر هوش مصنوعی تولید کند. این برنامه به صورت آفلاین کار می‌کند، صدا را در لحظه پردازش می‌کند تا در دستگاه رونویسی شود و به گفته بنیانگذاران، می‌تواند به طور مداوم به مدت ۱۶ تا ۱۷ ساعت صدا را بدون خالی کردن باتری دستگاه ضبط کند. این برنامه همچنین می‌تواند از داده‌های کاربر پشتیبان‌گیری کند تا در صورت گم شدن دستگاه، مکالمات قابل بازیابی باشند، اگرچه کاربران می‌توانند از این قابلیت انصراف دهند. همچنین از ترجمه همزمان به بیش از ۱۰۰ زبان پشتیبانی می‌کند.

TwinMind با ضبط غیرفعال صدا در پس‌زمینه در طول روز، خود را از برنامه‌های یادداشت‌برداری جلسات مبتنی بر هوش مصنوعی مانند Otter، Granola و Fireflies متمایز می‌کند. به گفته جورج در مصاحبه اختصاصی با خبرنگار، برای تحقق این امر، این تیم یک سرویس سطح پایین را در Swift خالص ایجاد کرده‌اند که به طور بومی روی آیفون اجرا می‌شود. در مقابل، بسیاری از رقبا از React Native استفاده می‌کنند و به پردازش مبتنی بر ابر متکی هستند که اپل اجرای آن را در پس‌زمینه برای مدت طولانی محدود می‌کند.

او به خبرنگار گفت: “ما حدود شش تا هفت ماه از سال گذشته را صرف بهینه‌سازی ضبط مداوم صدا و یافتن ترفندهای زیادی در مورد محدودیت‌های اپل کردیم.”

جورج در سال ۱۳۹۹ گوگل ایکس را ترک کرد و ایده TwinMind در سال ۱۴۰۲ زمانی که به عنوان معاون و مدیر هوش مصنوعی کاربردی در JPMorgan کار می‌کرد و هر روز در جلسات پی‌درپی شرکت می‌کرد، به ذهنش رسید. برای صرفه‌جویی در وقت، او اسکریپتی ساخت که صدا را ضبط می‌کرد، آن را روی iPad خود رونویسی می‌کرد و آن را به ChatGPT می‌داد که پروژه‌های او را درک می‌کرد و حتی کد قابل استفاده تولید می‌کرد. او که تحت تأثیر نتایج قرار گرفته بود، آن را با دوستان خود به اشتراک گذاشت و در Blind در مورد آن پست گذاشت، جایی که دیگران نیز علاقه نشان دادند اما نمی‌خواستند چیزی روی لپ‌تاپ‌های کاری خود اجرا کنند. این امر او را بر آن داشت تا برنامه‌ای بسازد که بتواند روی تلفن شخصی اجرا شود و بی سر و صدا در طول جلسات گوش دهد تا اطلاعات مفیدی جمع‌آوری کند.

TwinMind علاوه بر اپلیکیشن موبایل، یک افزونه کروم نیز ارائه می‌دهد که از طریق فعالیت مرورگر، اطلاعات بیشتری را جمع‌آوری می‌کند. با استفاده از هوش مصنوعی بینایی، می‌تواند به صورت بصری تب‌های باز را اسکن کرده و محتوا را از پلتفرم‌های مختلف، از جمله ایمیل، Slack و Notion تفسیر کند.

این استارتاپ حتی از این افزونه برای انتخاب کارآموزان از بین بیش از ۸۵۰ درخواست دریافتی در تابستان امسال استفاده کرد.

جورج گفت: “ما تمام پروفایل‌های لینکدین و رزومه‌های ۸۵۴ متقاضی را در تب‌های مرورگر باز کردیم، سپس از افزونه کروم خواستیم تا بهترین نامزدها را رتبه‌بندی کند.” او افزود: “این افزونه کار فوق‌العاده‌ای انجام داد و به این ترتیب چهار کارآموز نهایی خود را استخدام کردیم.”

TwinMind یک افزونه کروم برای جمع‌آوری اطلاعات اضافی ارائه می‌دهد**منبع تصویر:**TwinMind

او اشاره کرد که ربات‌های گفتگوی هوش مصنوعی کنونی، از جمله ChatGPT شرکت OpenAI و Claude شرکت Anthropic، نمی‌توانند به راحتی صدها سند را پردازش کنند یا برای جمع‌آوری اطلاعات متنی، ثبت‌نام‌ها را از ابزارهایی مانند LinkedIn یا Gmail تجزیه کنند. به طور مشابه، مرورگرهای مبتنی بر هوش مصنوعی مانند مرورگرهای Perplexity و The Browser Company فاقد توانایی ایجاد دانش از مکالمات آفلاین و جلسات حضوری شما هستند.

این استارتاپ در حال حاضر بیش از ۳۰,۰۰۰ کاربر دارد که حدود ۱۵,۰۰۰ نفر از آن‌ها هر ماه فعال هستند. جورج گفت که حدود ۲۰ تا ۳۰ درصد از کاربران TwinMind از افزونه کروم نیز استفاده می‌کنند.

در حالی که ایالات متحده بزرگترین پایگاه TwinMind تا به امروز است، این استارتاپ همچنین در هند، برزیل، فیلیپین، اتیوپی، کنیا و اروپا نیز مورد توجه قرار گرفته است.

TwinMind مخاطبان عمومی را هدف قرار می‌دهد، اگرچه در حال حاضر ۵۰ تا ۶۰ درصد از کاربران آن متخصصان، حدود ۲۵ درصد دانشجویان و ۲۰ تا ۲۵ درصد باقیمانده افرادی هستند که از آن برای اهداف شخصی استفاده می‌کنند.

جورج به خبرنگار گفت که پدرش از جمله افرادی است که از TwinMind برای نوشتن زندگی‌نامه خود استفاده می‌کند.

یکی از معایب قابل توجه هوش مصنوعی، پتانسیل آن برای به خطر انداختن حریم خصوصی کاربران است. اما جورج تأکید کرد که TwinMind مدل‌های خود را با استفاده از داده‌های کاربران آموزش نمی‌دهد و به گونه‌ای طراحی شده است که بدون ارسال ضبط‌ها به فضای ابری کار کند. او خاطرنشان کرد که برخلاف بسیاری از برنامه‌های یادداشت‌برداری هوش مصنوعی دیگر، TwinMind به کاربران اجازه نمی‌دهد بعداً به ضبط‌های صوتی دسترسی داشته باشند؛ صدا در حین کار حذف می‌شود و فقط متن رونویسی شده به صورت محلی در برنامه ذخیره می‌شود.

تجربه گوگل ایکس به تسریع امور کمک کرد

بنیانگذاران TwinMind چند سال را صرف کار بر روی پروژه‌های مختلف در گوگل ایکس کردند. جورج به خبرنگار گفت که او به تنهایی روی شش پروژه کار کرده است، از جمله iyO، تیمی که پشت هدفون‌های مجهز به هوش مصنوعی قرار دارد و اخیراً به دلیل شکایت از OpenAI و جانی آیو خبرساز شده است. این تجربه به تیم TwinMind کمک کرد تا به سرعت از ایده به محصول برسند.

جورج گفت: “گوگل ایکس در واقع مکان مناسبی برای آماده شدن برای شروع شرکت خود بود.” او افزود: “در هر زمان معین، حدود ۳۰ تا ۴۰ پروژه شبیه استارتاپ در حال انجام است. هیچ کس دیگری قبل از راه‌اندازی شرکت خود، این فرصت را پیدا نمی‌کند که در شش استارتاپ در مراحل اولیه طی دو یا سه سال کار کند، حداقل نه در چنین بازه زمانی کوتاهی.”

بنیانگذاران TwinMind، سانی تانگ، دانیل جورج و ماهی کریم (از چپ به راست)**منبع تصویر:**TwinMind

جورج قبل از پیوستن به گوگل، در گروه LIGO برنده جایزه نوبل در مرکز ملی برنامه‌های کاربردی ابررایانه دانشگاه ایلینوی، روی کاربرد یادگیری عمیق در اخترفیزیک امواج گرانشی کار کرد. او دکترای خود را در رشته هوش مصنوعی برای اخترفیزیک در تنها یک سال و در سن ۲۴ سالگی به پایان رساند، موفقیتی که باعث شد در سال ۱۳۹۶ به عنوان محقق یادگیری عمیق و هوش مصنوعی به آزمایشگاه تحقیقاتی استیون ولفرام بپیوندد.

این ارتباط اولیه با ولفرام سال‌ها بعد به ثمر نشست؛ او در نهایت اولین چک را برای TwinMind نوشت و این اولین سرمایه‌گذاری او در یک استارتاپ بود. دور اخیر جذب سرمایه اولیه توسط Streamlined Ventures رهبری شد و Sequoia Capital و سایر سرمایه‌گذاران، از جمله ولفرام، در آن شرکت کردند. این دور، ارزش TwinMind را پس از دریافت سرمایه، ۶۰ میلیون دلار تخمین زده است.

مدل TwinMind Ear-3

TwinMind علاوه بر برنامه‌ها و افزونه مرورگر خود، مدل TwinMind Ear-3 را نیز معرفی کرده است که جانشین مدل Ear-2 موجود است و از بیش از ۱۴۰ زبان در سراسر جهان پشتیبانی می‌کند و به گفته این استارتاپ، نرخ خطای کلمه آن ۵.۲۶٪ است. مدل جدید همچنین می‌تواند بلندگوهای مختلف را در یک مکالمه تشخیص دهد و دارای نرخ خطای تفکیک بلندگو ۳.۸٪ است.

مدل جدید هوش مصنوعی ترکیبی دقیق از چندین مدل متن‌باز است که بر روی مجموعه‌ای انتخاب‌شده از داده‌های اینترنتی حاشیه‌نویسی‌شده توسط انسان، از جمله پادکست‌ها، ویدیوها و فیلم‌ها آموزش داده شده است.

جورج گفت: “ما دریافتیم که هر چه زبان‌های بیشتری را پشتیبانی کنید، مدل در درک لهجه‌ها و گویش‌های منطقه‌ای بهتر عمل می‌کند، زیرا روی طیف وسیع‌تری از گویندگان آموزش می‌بیند.”

هزینه استفاده از این مدل ۰.۲۳ دلار در ساعت است و در طی چند هفته آینده از طریق API در اختیار توسعه‌دهندگان و شرکت‌ها قرار خواهد گرفت.

Ear-3 برخلاف Ear-2، از تجربه کاملاً آفلاین پشتیبانی نمی‌کند، زیرا از نظر اندازه بزرگتر است و روی فضای ابری اجرا می‌شود. با این حال، جورج گفت که اگر اینترنت قطع شود، برنامه به طور خودکار به Ear-2 تغییر می‌کند و هنگامی که اینترنت دوباره وصل شود، به Ear-3 باز می‌گردد.

با معرفی Ear-3، TwinMind اکنون یک اشتراک Pro با قیمت ۱۵ دلار در ماه ارائه می‌دهد که دارای یک پنجره بزرگتر تا ۲ میلیون توکن و پشتیبانی ایمیلی در عرض ۲۴ ساعت است. با این وجود، نسخه رایگان با تمام ویژگی‌های موجود، از جمله ساعات نامحدود رونویسی و تشخیص گفتار روی دستگاه، همچنان وجود دارد.

این استارتاپ در حال حاضر یک تیم ۱۱ نفره دارد. این شرکت قصد دارد چند طراح را برای بهبود تجربه کاربری خود استخدام کند و یک تیم توسعه کسب و کار برای فروش API خود ایجاد کند. علاوه بر این، برنامه‌هایی برای صرف مقداری پول برای جذب کاربران جدید وجود دارد.