گوگل روز پنجشنبه ۲۱ آذر ۱۴۰۴ نسخهای «بازتصویر شده» از عامل پژوهشی خود با نام Gemini Deep Research را که بر پایه مدل مرجع پیشرفتهاش، Gemini 3 Pro ساخته شده است، معرفی کرد.
این عامل جدید صرفاً برای تولید گزارشهای پژوهشی طراحی نشده است؛ اگرچه همچنان این قابلیت را دارد. اکنون این امکان را به توسعهدهندگان میدهد که قابلیتهای پژوهشی مدل SATA گوگل را مستقیماً در برنامههای خود ادغام کنند. این ویژگی از طریق API جدید Google Interactions ممکن شده که برای فراهم شدن کنترل بیشتر توسعهدهندگان در عصر نوین عوامل هوشمند طراحی شده است.
ابزار جدید Gemini Deep Research عاملی است که برای ترکیب حجم عظیمی از اطلاعات و مدیریت ورودیهای حجیم طراحی شده است. گوگل اعلام کرده این عامل توسط مشتریان برای کارهایی از جمله ارزیابیهای پیش از معامله تا پژوهشهای ایمنی سمیت دارویی مورد استفاده قرار میگیرد.
همچنین گوگل اعلام کرده به زودی این عامل پژوهشی پیشرفته را در سرویسهایی نظیر جستجوی گوگل، Google Finance، اپلیکیشن Gemini و سرویس محبوب NotebookLM خود ادغام خواهد کرد. این اقدامی دیگر در راستای آمادهسازی جهانی است که در آن دیگر انسانها چیزی را «گوگل» نمیکنند؛ بلکه عوامل هوشمند این کار را انجام میدهند.
این شرکت بزرگ فناوری بیان داشته است که Deep Research از وضعیت پیشرفتهی Gemini 3 Pro به عنوان «دقیقترین مدل» خود بهره میبرد که برای کاهش خطاهای مدلهای زبانی در وظایف پیچیده آموزش دیده است.
خطای مدلهای هوش مصنوعی – زمانی که مدل به صورت خودسرانه اطلاعاتی را میسازد – به ویژه در وظایف طولانی و پیچیدهی مبتنی بر عامل مشکلساز است، جایی که تصمیمات خودکار متعددی در طول چند دقیقه، ساعت یا حتی زمان طولانیتر گرفته میشود. هر چه مدل تصمیمات بیشتری اتخاذ کند، احتمال اینکه حتی یک تصمیم اشتباه کل خروجی را بیاعتبار کند، بیشتر میشود.
برای اثبات پیشرفتهای خود، گوگل معیار جدیدی ایجاد کرده است (انگار دنیای هوش مصنوعی به یک معیار دیگر نیاز داشت). این معیار جدید با نام DeepSearchQA به منظور ارزیابی عملکرد عوامل در کارهای پیچیده و چندمرحلهای جستجوی اطلاعات طراحی شده است. گوگل این معیار را به صورت متنباز منتشر کرده است.
همچنین این ابزار در معیار Humanity’s Last Exam آزمایش شد، معیاری مستقل و با نام جالب که شامل کارهای بسیار خاص و نیش بوده و دانش عمومی را میسنجد؛ و نیز در BrowserComp، معیاری برای ارزیابی وظایف عاملمحور مبتنی بر مرورگر.
همانطور که انتظار میرفت، عامل جدید گوگل توانست سایر رقبا را در معیار خود و همچنین معیار Humanity’s پشت سر بگذارد. با اینحال، ChatGPT 5 Pro اوپنایآی با اختلافی اندک در جایگاه دوم قرار گرفت و حتی در معیار BrowserComp از گوگل پیشی گرفت.
البته این مقایسههای معیاری تقریباً در لحظه انتشار توسط گوگل منسوخ شدند؛ چرا که در همان روز، اوپنایآی مدل بسیار مورد انتظار GPT 5.2 با نام کد Garlic را عرضه کرد. اوپنایآی اعلام کرده این مدل جدید اکثر رقبای خود، بهویژه گوگل را، در مجموعهای از معیارهای مرسوم حتی معیار اختصاصی خودش پشت سر میگذارد.
شاید یکی از جالبترین بخشهای این اعلامیه زمانبندی آن بود؛ چرا که گوگل با اطلاع از اینکه جهان منتظر انتشار Garlic است، خبر جدیدی از عرصه هوش مصنوعی خود ارائه کرد.








