گوگل در حال ارتقاء ربات چت Gemini خود با یک مدل جدید هوش مصنوعی تصویر است که به کاربران کنترل دقیقتری بر ویرایش عکسها میدهد. این اقدام تلاشی است برای رسیدن به ابزارهای محبوب تصویر OpenAI و جذب کاربران از ChatGPT.
این بهروزرسانی، با نام Gemini 2.5 Flash Image، از روز سهشنبه در دسترس همه کاربران در برنامه Gemini، و همچنین توسعهدهندگان از طریق پلتفرمهای Gemini API، Google AI Studio و Vertex AI قرار میگیرد.
مدل جدید هوش مصنوعی تصویر Gemini طوری طراحی شده است که ویرایشهای دقیقتری را بر اساس درخواستهای زبان طبیعی کاربران روی تصاویر اعمال کند، در حالی که سازگاری چهرهها، حیوانات و سایر جزئیات را حفظ میکند، چیزی که بیشتر ابزارهای رقیب با آن دست و پنجه نرم میکنند. به عنوان مثال، از ChatGPT یا Grok شرکت xAI بخواهید رنگ پیراهن کسی را در یک عکس تغییر دهد، ممکن است نتیجه شامل یک چهره تحریف شده یا یک پسزمینه تغییر یافته باشد.

ابزار جدید گوگل از قبل توجهها را به خود جلب کرده است. در هفتههای اخیر، کاربران شبکههای اجتماعی از یک ویرایشگر تصویر هوش مصنوعی چشمگیر در پلتفرم ارزیابی جمعسپاری شده LMArena تمجید کردند. این مدل به طور ناشناس با نام مستعار “nano-banana” برای کاربران ظاهر شد.
گوگل میگوید که پشت این مدل است (اگر از تمام نشانههای مربوط به موز از قبل مشخص نبود)، که در واقع قابلیت تصویر بومی در مدل هوش مصنوعی پرچمدار Gemini 2.5 Flash است. گوگل میگوید این مدل تصویر در LMArena و سایر معیارها پیشرو است.

نیکول بریختووا، مدیر محصول مدلهای تولید بصری در Google DeepMind، در مصاحبه با خبرنگار گفت: «ما واقعاً کیفیت بصری را به جلو میبریم، و همچنین توانایی مدل در پیروی از دستورالعملها را.»
بریختووا گفت: «این بهروزرسانی کار بسیار بهتری در ویرایشهای یکپارچهتر انجام میدهد، و خروجیهای مدل برای هر چیزی که میخواهید از آنها استفاده کنید، قابل استفاده هستند.»
مدلهای تصویر هوش مصنوعی به یک میدان نبرد حیاتی برای شرکتهای بزرگ فناوری تبدیل شدهاند. هنگامی که OpenAI ژنراتور تصویر بومی GPT-4o را در ماه مارس عرضه کرد، به لطف تبوتاب میمهای Studio Ghibli تولید شده توسط هوش مصنوعی، استفاده از ChatGPT را به شدت افزایش داد، به طوری که به گفته سام آلتمن، مدیر عامل OpenAI، پردازندههای گرافیکی این شرکت «درحال ذوب شدن» بودند.
برای همگام شدن با OpenAI و Google، متا هفته گذشته اعلام کرد که مدلهای تصویر هوش مصنوعی را از استارتاپ Midjourney لایسنس میکند. در همین حال، شرکت آلمانی Black Forest Labs که توسط a16z پشتیبانی میشود، همچنان با مدلهای تصویر هوش مصنوعی FLUX خود بر معیارها تسلط دارد.
شاید ویرایشگر تصویر هوش مصنوعی چشمگیر Gemini بتواند به Google کمک کند تا شکاف کاربری خود را با OpenAI پر کند. ChatGPT اکنون بیش از 700 میلیون کاربر هفتگی دارد. در کنفرانس مالی گوگل در ماه جولای، ساندار پیچای، مدیرعامل این غول فناوری، فاش کرد که Gemini دارای 450 میلیون کاربر *ماهانه* است – که نشان میدهد کاربران هفتگی حتی کمتر هستند.
بریختووا میگوید که Google به طور خاص این مدل تصویر را با در نظر گرفتن موارد استفاده مصرفکننده طراحی کرده است، مانند کمک به کاربران برای تجسم پروژههای خانه و باغ خود. این مدل همچنین “دانش جهانی” بهتری دارد و میتواند چندین مرجع را در یک درخواست واحد ترکیب کند. به عنوان مثال، ادغام یک تصویر از یک مبل، یک عکس اتاق نشیمن و یک پالت رنگ در یک رندر منسجم.

در حالی که ژنراتور تصویر هوش مصنوعی جدید Gemini، ساخت و ویرایش تصاویر واقعی را برای کاربران آسانتر میکند، این شرکت دارای محافظتهایی است که آنچه را که کاربران میتوانند ایجاد کنند، محدود میکند. گوگل در گذشته با محافظتهای ژنراتور تصویر هوش مصنوعی مشکل داشته است. در یک مقطع، این شرکت به دلیل تولید تصاویر تاریخی نادرست از افراد توسط Gemini عذرخواهی کرد و ژنراتور تصویر هوش مصنوعی را به طور کلی لغو کرد.
اکنون، گوگل احساس میکند که تعادل بهتری ایجاد کرده است.
بریختووا گفت: “ما میخواهیم به کاربران کنترل خلاقانه بدهیم تا بتوانند از مدلها آنچه را که میخواهند به دست آورند.” “اما اینطور نیست که هر چیزی مجاز باشد.”
بخش هوش مصنوعی تولیدی شرایط خدمات Google، کاربران را از تولید “تصاویر صمیمی غیر توافقی” منع میکند. به نظر میرسد همین نوع محافظتها برای Grok وجود ندارد، که به کاربران اجازه میداد تصاویر صریح تولید شده توسط هوش مصنوعی شبیه به افراد مشهور، مانند تیلور سویفت ایجاد کنند.
برای مقابله با افزایش تصاویر دیپفیک، که میتواند تشخیص واقعیت آنلاین را برای کاربران دشوار کند، بریختووا میگوید که Google واترمارکهای بصری را روی تصاویر تولید شده توسط هوش مصنوعی اعمال میکند و همچنین شناسههایی را در فرادادههای آن قرار میدهد. با این حال، ممکن است کسی که از یک تصویر در رسانههای اجتماعی عبور میکند، به دنبال چنین شناسههایی نباشد.
منبع: techcrunch.com