OpenAI در روز دوشنبه، ۱۵ مهر ۱۴۰۴ در مراسم Dev Day خود، از به‌روزرسانی‌های جدید API رونمایی کرد. این به‌روزرسانی‌ها شامل معرفی GPT-5 Pro، جدیدترین مدل زبانی، مدل جدید تولید ویدیو Sora 2 و یک مدل صوتی کوچک‌تر و ارزان‌تر است.

این به‌روزرسانی‌ها بخشی از مجموعه‌ای از اطلاعیه‌ها بودند که هدفشان جذب توسعه‌دهندگان به اکوسیستم OpenAI بود. این اطلاعیه‌ها شامل راه‌اندازی یک ابزار ساخت “ایجنت” و امکان ساخت برنامه‌ها در ChatGPT بود.

اضافه شدن GPT-5 Pro می‌تواند برای توسعه‌دهندگانی که برنامه‌هایی در حوزه‌های مالی، حقوقی و بهداشتی می‌سازند جذاب باشد. به گفته سام آلتمن، مدیرعامل OpenAI، این صنایع به “دقت بالا و عمق استدلال” نیاز دارند.

آلتمن همچنین خاطرنشان کرد که قابلیت‌های صوتی در آینده ضروری خواهند بود، زیرا به سرعت به یکی از اصلی‌ترین راه‌های تعامل مردم با هوش مصنوعی تبدیل می‌شود. به همین منظور، OpenAI در حال راه‌اندازی “gpt-realtime mini” است، یک مدل صوتی کوچک‌تر و ارزان‌تر در API که از تعاملات پخش جریانی با تأخیر کم برای صدا و گفتار پشتیبانی می‌کند. مدل جدید ۷۰٪ ارزان‌تر از مدل صوتی پیشرفته قبلی OpenAI است، اما نوید “همان کیفیت صدا و رسایی” را می‌دهد.

در نهایت، سازندگان درگیر در اکوسیستم توسعه‌دهنده OpenAI اکنون می‌توانند از Sora 2 در حالت پیش‌نمایش در API بهره ببرند. OpenAI هفته گذشته Sora 2، جدیدترین تولیدکننده صوتی و تصویری خود را در کنار برنامه Sora، رقیب TikTok که پر از ویدیوهای کوتاه تولید شده توسط هوش مصنوعی است، منتشر کرد. برنامه Sora به کاربران امکان می‌دهد ویدیوهایی از خود، دوستان یا هر چیز دیگری بر اساس یک دستور (prompt) تولید کنند و آن را از طریق یک فید الگوریتمی به سبک TikTok به اشتراک بگذارند.

آلتمن گفت: «[توسعه‌دهندگان] اکنون به همان مدلی دسترسی دارند که خروجی‌های ویدیویی خیره‌کننده Sora 2 را درست در برنامه خود ایجاد می‌کند.»

Sora 2 نسبت به نسل قبلی خود، صحنه‌های واقعی‌تر و از نظر فیزیکی سازگارتر با صدای هماهنگ و کنترل خلاقانه بیشتر – از جهت‌دهی دقیق دوربین تا جلوه‌های بصری سبک‌دار – ارائه می‌دهد.

آلتمن گفت: «به عنوان مثال، می‌توانید نمای آیفون را بگیرید و از Sora بخواهید آن را به یک نمای عریض سینمایی گسترده تبدیل کند. اما یکی از هیجان‌انگیزترین چیزهایی که ما روی آن کار کرده‌ایم، این است که این مدل جدید چقدر خوب صدا را با تصاویر جفت می‌کند، نه فقط گفتار، بلکه صداهای غنی، صدای محیط، جلوه‌های همگام‌سازی‌شده که ریشه در چیزی دارند که می‌بینید.»

Sora 2 به عنوان ابزاری برای توسعه مفهوم معرفی شده است، چه یک نقطه شروع بصری برای یک تبلیغ بر اساس حس و حال کلی یک محصول باشد، چه یک طراح Mattel که یک طرح را به یک مفهوم اسباب‌بازی تبدیل می‌کند – مثالی که آلتمن در Dev Day ارائه کرد و نشان می‌دهد که قرارداد OpenAI با سازنده باربی برای وارد کردن هوش مصنوعی مولد به خط تولید اسباب‌بازی است.

اشتراک‌ها:
دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *