بهبود چشمگیر مدل تصویر هوش مصنوعی گوگل جمینی

علیرضا شهریور 4, 1404

0 0 3 دقیقه مطالعه

گوگل در حال ارتقاء ربات چت Gemini خود با یک مدل جدید هوش مصنوعی تصویر است که به کاربران کنترل دقیق‌تری بر ویرایش عکس‌ها می‌دهد. این اقدام تلاشی است برای رسیدن به ابزارهای محبوب تصویر OpenAI و جذب کاربران از ChatGPT.

این به‌روزرسانی، با نام Gemini 2.5 Flash Image، از روز سه‌شنبه در دسترس همه کاربران در برنامه Gemini، و همچنین توسعه‌دهندگان از طریق پلتفرم‌های Gemini API، Google AI Studio و Vertex AI قرار می‌گیرد.

مدل جدید هوش مصنوعی تصویر Gemini طوری طراحی شده است که ویرایش‌های دقیق‌تری را بر اساس درخواست‌های زبان طبیعی کاربران روی تصاویر اعمال کند، در حالی که سازگاری چهره‌ها، حیوانات و سایر جزئیات را حفظ می‌کند، چیزی که بیشتر ابزارهای رقیب با آن دست و پنجه نرم می‌کنند. به عنوان مثال، از ChatGPT یا Grok شرکت xAI بخواهید رنگ پیراهن کسی را در یک عکس تغییر دهد، ممکن است نتیجه شامل یک چهره تحریف شده یا یک پس‌زمینه تغییر یافته باشد.

انیمیشن GIF که دو عکس را نشان می‌دهد، یکی از یک ورزشکار و دیگری از یک سگ، در یک عکس ترکیبی جدید از ورزشکار که سگ را در آغوش گرفته است. — ویرایشگر تصویر بومی Gemini 2.5 Flash عکس‌های یک سگ و یک شخص را با هم ترکیب می‌کند، در حالی که شباهت آن‌ها را حفظ می‌کند. منبع: گوگل

ابزار جدید گوگل از قبل توجه‌ها را به خود جلب کرده است. در هفته‌های اخیر، کاربران شبکه‌های اجتماعی از یک ویرایشگر تصویر هوش مصنوعی چشمگیر در پلتفرم ارزیابی جمع‌سپاری شده LMArena تمجید کردند. این مدل به طور ناشناس با نام مستعار “nano-banana” برای کاربران ظاهر شد.

strange object spotted under the microscope over the weekend in the lab… pic.twitter.com/t1SBhqAnL0
— Demis Hassabis (@demishassabis) August 25, 2025

گوگل می‌گوید که پشت این مدل است (اگر از تمام نشانه‌های مربوط به موز از قبل مشخص نبود)، که در واقع قابلیت تصویر بومی در مدل هوش مصنوعی پرچمدار Gemini 2.5 Flash است. گوگل می‌گوید این مدل تصویر در LMArena و سایر معیارها پیشرو است.

نموداری که معیارهای ویرایش تصویر را نشان می‌دهد، که در آن Gemini 2.5 Flash Image / LMArena عملکرد بهتری نسبت به سایر مدل‌های رقیب دارد. — گوگل ادعا می‌کند که مدل جدید هوش مصنوعی تصویر آن در چندین معیار پیشرو است. منبع: گوگل

نیکول بریختووا، مدیر محصول مدل‌های تولید بصری در Google DeepMind، در مصاحبه با خبرنگار گفت: «ما واقعاً کیفیت بصری را به جلو می‌بریم، و همچنین توانایی مدل در پیروی از دستورالعمل‌ها را.»

بریختووا گفت: «این به‌روزرسانی کار بسیار بهتری در ویرایش‌های یکپارچه‌تر انجام می‌دهد، و خروجی‌های مدل برای هر چیزی که می‌خواهید از آنها استفاده کنید، قابل استفاده هستند.»

مدل‌های تصویر هوش مصنوعی به یک میدان نبرد حیاتی برای شرکت‌های بزرگ فناوری تبدیل شده‌اند. هنگامی که OpenAI ژنراتور تصویر بومی GPT-4o را در ماه مارس عرضه کرد، به لطف تب‌وتاب میم‌های Studio Ghibli تولید شده توسط هوش مصنوعی، استفاده از ChatGPT را به شدت افزایش داد، به طوری که به گفته سام آلتمن، مدیر عامل OpenAI، پردازنده‌های گرافیکی این شرکت «درحال ذوب شدن» بودند.

برای همگام شدن با OpenAI و Google، متا هفته گذشته اعلام کرد که مدل‌های تصویر هوش مصنوعی را از استارتاپ Midjourney لایسنس می‌کند. در همین حال، شرکت آلمانی Black Forest Labs که توسط a16z پشتیبانی می‌شود، همچنان با مدل‌های تصویر هوش مصنوعی FLUX خود بر معیارها تسلط دارد.

شاید ویرایشگر تصویر هوش مصنوعی چشمگیر Gemini بتواند به Google کمک کند تا شکاف کاربری خود را با OpenAI پر کند. ChatGPT اکنون بیش از 700 میلیون کاربر هفتگی دارد. در کنفرانس مالی گوگل در ماه جولای، ساندار پیچای، مدیرعامل این غول فناوری، فاش کرد که Gemini دارای 450 میلیون کاربر *ماهانه* است – که نشان می‌دهد کاربران هفتگی حتی کمتر هستند.

بریختووا می‌گوید که Google به طور خاص این مدل تصویر را با در نظر گرفتن موارد استفاده مصرف‌کننده طراحی کرده است، مانند کمک به کاربران برای تجسم پروژه‌های خانه و باغ خود. این مدل همچنین “دانش جهانی” بهتری دارد و می‌تواند چندین مرجع را در یک درخواست واحد ترکیب کند. به عنوان مثال، ادغام یک تصویر از یک مبل، یک عکس اتاق نشیمن و یک پالت رنگ در یک رندر منسجم.

انیمیشن GIF که تصویری از یک اتاق نشیمن خالی را نشان می‌دهد، با اعلان‌هایی که روی صفحه نمایش داده می‌شوند مانند "رنگ اضافه کن" - و رنگ اتاق تغییر می‌کند. "مبل اضافه کن،" و یک مبل اضافه می‌شود. این دمو نشان می‌دهد که اعلان‌های هوش مصنوعی تصویر را در زمان واقعی تغییر می‌دهند. — Gemini 2.5 Flash Image به کاربران اجازه می‌دهد تا مکالمات “چند نوبتی” با یک مدل تصویر هوش مصنوعی داشته باشند. منبع: گوگل

در حالی که ژنراتور تصویر هوش مصنوعی جدید Gemini، ساخت و ویرایش تصاویر واقعی را برای کاربران آسان‌تر می‌کند، این شرکت دارای محافظت‌هایی است که آنچه را که کاربران می‌توانند ایجاد کنند، محدود می‌کند. گوگل در گذشته با محافظت‌های ژنراتور تصویر هوش مصنوعی مشکل داشته است. در یک مقطع، این شرکت به دلیل تولید تصاویر تاریخی نادرست از افراد توسط Gemini عذرخواهی کرد و ژنراتور تصویر هوش مصنوعی را به طور کلی لغو کرد.

اکنون، گوگل احساس می‌کند که تعادل بهتری ایجاد کرده است.

بریختووا گفت: “ما می‌خواهیم به کاربران کنترل خلاقانه بدهیم تا بتوانند از مدل‌ها آنچه را که می‌خواهند به دست آورند.” “اما اینطور نیست که هر چیزی مجاز باشد.”

بخش هوش مصنوعی تولیدی شرایط خدمات Google، کاربران را از تولید “تصاویر صمیمی غیر توافقی” منع می‌کند. به نظر می‌رسد همین نوع محافظت‌ها برای Grok وجود ندارد، که به کاربران اجازه می‌داد تصاویر صریح تولید شده توسط هوش مصنوعی شبیه به افراد مشهور، مانند تیلور سویفت ایجاد کنند.

برای مقابله با افزایش تصاویر دیپ‌فیک، که می‌تواند تشخیص واقعیت آنلاین را برای کاربران دشوار کند، بریختووا می‌گوید که Google واترمارک‌های بصری را روی تصاویر تولید شده توسط هوش مصنوعی اعمال می‌کند و همچنین شناسه‌هایی را در فراداده‌های آن قرار می‌دهد. با این حال، ممکن است کسی که از یک تصویر در رسانه‌های اجتماعی عبور می‌کند، به دنبال چنین شناسه‌هایی نباشد.

منبع: techcrunch.com

Post Views: 29