OpenAI در روز دوشنبه، ۱۵ مهر ۱۴۰۴ در مراسم Dev Day خود، از بهروزرسانیهای جدید API رونمایی کرد. این بهروزرسانیها شامل معرفی GPT-5 Pro، جدیدترین مدل زبانی، مدل جدید تولید ویدیو Sora 2 و یک مدل صوتی کوچکتر و ارزانتر است.
این بهروزرسانیها بخشی از مجموعهای از اطلاعیهها بودند که هدفشان جذب توسعهدهندگان به اکوسیستم OpenAI بود. این اطلاعیهها شامل راهاندازی یک ابزار ساخت “ایجنت” و امکان ساخت برنامهها در ChatGPT بود.
اضافه شدن GPT-5 Pro میتواند برای توسعهدهندگانی که برنامههایی در حوزههای مالی، حقوقی و بهداشتی میسازند جذاب باشد. به گفته سام آلتمن، مدیرعامل OpenAI، این صنایع به “دقت بالا و عمق استدلال” نیاز دارند.
آلتمن همچنین خاطرنشان کرد که قابلیتهای صوتی در آینده ضروری خواهند بود، زیرا به سرعت به یکی از اصلیترین راههای تعامل مردم با هوش مصنوعی تبدیل میشود. به همین منظور، OpenAI در حال راهاندازی “gpt-realtime mini” است، یک مدل صوتی کوچکتر و ارزانتر در API که از تعاملات پخش جریانی با تأخیر کم برای صدا و گفتار پشتیبانی میکند. مدل جدید ۷۰٪ ارزانتر از مدل صوتی پیشرفته قبلی OpenAI است، اما نوید “همان کیفیت صدا و رسایی” را میدهد.
در نهایت، سازندگان درگیر در اکوسیستم توسعهدهنده OpenAI اکنون میتوانند از Sora 2 در حالت پیشنمایش در API بهره ببرند. OpenAI هفته گذشته Sora 2، جدیدترین تولیدکننده صوتی و تصویری خود را در کنار برنامه Sora، رقیب TikTok که پر از ویدیوهای کوتاه تولید شده توسط هوش مصنوعی است، منتشر کرد. برنامه Sora به کاربران امکان میدهد ویدیوهایی از خود، دوستان یا هر چیز دیگری بر اساس یک دستور (prompt) تولید کنند و آن را از طریق یک فید الگوریتمی به سبک TikTok به اشتراک بگذارند.
آلتمن گفت: «[توسعهدهندگان] اکنون به همان مدلی دسترسی دارند که خروجیهای ویدیویی خیرهکننده Sora 2 را درست در برنامه خود ایجاد میکند.»
Sora 2 نسبت به نسل قبلی خود، صحنههای واقعیتر و از نظر فیزیکی سازگارتر با صدای هماهنگ و کنترل خلاقانه بیشتر – از جهتدهی دقیق دوربین تا جلوههای بصری سبکدار – ارائه میدهد.
آلتمن گفت: «به عنوان مثال، میتوانید نمای آیفون را بگیرید و از Sora بخواهید آن را به یک نمای عریض سینمایی گسترده تبدیل کند. اما یکی از هیجانانگیزترین چیزهایی که ما روی آن کار کردهایم، این است که این مدل جدید چقدر خوب صدا را با تصاویر جفت میکند، نه فقط گفتار، بلکه صداهای غنی، صدای محیط، جلوههای همگامسازیشده که ریشه در چیزی دارند که میبینید.»
Sora 2 به عنوان ابزاری برای توسعه مفهوم معرفی شده است، چه یک نقطه شروع بصری برای یک تبلیغ بر اساس حس و حال کلی یک محصول باشد، چه یک طراح Mattel که یک طرح را به یک مفهوم اسباببازی تبدیل میکند – مثالی که آلتمن در Dev Day ارائه کرد و نشان میدهد که قرارداد OpenAI با سازنده باربی برای وارد کردن هوش مصنوعی مولد به خط تولید اسباببازی است.