پس از پیوستن هانتر لایتمن به عنوان محقق به OpenAI در سال ۲۰۲۲، شاهد بود که همکارانش ChatGPT را، یکی از سریع‌ترین محصولات در حال رشد، عرضه کردند. در همین حال، لایتمن بی‌سروصدا در تیمی کار می‌کرد که به مدل‌های OpenAI آموزش می‌داد تا مسابقات ریاضی دبیرستانی را حل کنند.

امروزه، آن تیم، که با نام MathGen شناخته می‌شود، به عنوان ابزاری اساسی در تلاش‌های پیشرو OpenAI در صنعت برای ایجاد مدل‌های استدلال هوش مصنوعی در نظر گرفته می‌شود: فناوری اصلی پشت عوامل هوش مصنوعی که می‌توانند کارهایی را روی یک کامپیوتر انجام دهند، همانطور که یک انسان انجام می‌دهد.

لایتمن در گفتگو با دیپ تو تک، در حالی که کار اولیه MathGen را توصیف می‌کرد، گفت: «ما تلاش می‌کردیم مدل‌ها را در استدلال ریاضی بهتر کنیم، که در آن زمان خیلی خوب نبودند».

مدل‌های OpenAI امروز هنوز نقص‌هایی دارند – آخرین سیستم‌های هوش مصنوعی این شرکت همچنان دچار توهم می‌شوند و عوامل آن با کارهای پیچیده دست و پنجه نرم می‌کنند.

اما مدل‌های پیشرفته آن، پیشرفت‌های چشمگیری در استدلال ریاضی داشته‌اند. یکی از مدل‌های OpenAI اخیراً در المپیاد بین‌المللی ریاضی، یک مسابقه ریاضی برای باهوش‌ترین دانش‌آموزان دبیرستانی جهان، مدال طلا کسب کرده است. OpenAI معتقد است که این قابلیت‌های استدلال به موضوعات دیگر نیز منتقل می‌شود و در نهایت به عوامل چندمنظوره‌ای نیرو می‌دهد که این شرکت همیشه رویای ساخت آن را داشته است.

ChatGPT یک اتفاق خوشایند بود – یک پیش‌نمایش تحقیقاتی کم‌اهمیت که به یک کسب‌وکار مصرف‌کننده همه‌گیر تبدیل شد – اما عوامل OpenAI محصول یک تلاش آگاهانه و چندساله در داخل شرکت هستند.

سام آلتمن، مدیرعامل OpenAI در نخستین کنفرانس توسعه‌دهندگان این شرکت در سال ۲۰۲۳ گفت: «در نهایت، شما فقط از رایانه چیزی را که نیاز دارید می‌خواهید و تمام این وظایف را برای شما انجام می‌دهد. این قابلیت‌ها اغلب در حوزه هوش مصنوعی به عنوان عامل شناخته می‌شوند. مزایای این امر بسیار زیاد خواهد بود.»

OpenAI CEO Sam Altman speaks during the OpenAI DevDay event on November 06, 2023 in San Francisco, California.
سام آلتمن، مدیرعامل OpenAI، در جریان رویداد OpenAI DevDay در 6 نوامبر 2023 در سان فرانسیسکو، کالیفرنیا، سخنرانی می‌کند.Image Credits:Justin Sullivan / Getty Images

اینکه آیا عوامل به چشم‌انداز آلتمن دست می‌یابند یا خیر، هنوز مشخص نیست، اما OpenAI با انتشار نخستین مدل استدلال هوش مصنوعی خود، o1، در پاییز 2024، جهان را شگفت‌زده کرد. کمتر از یک سال بعد، 21 محقق اصلی پشت این موفقیت، مورد توجه‌ترین استعدادها در سیلیکون ولی هستند.

مارک زاکربرگ پنج نفر از محققان o1 را برای کار بر روی واحد جدید متمرکز بر ابرهوش متا جذب کرد و بسته‌های جبرانی بیش از 100 میلیون دلار به برخی از آنها پیشنهاد داد. یکی از آنها، شنگجیا ژائو، اخیراً به عنوان دانشمند ارشد آزمایشگاه‌های ابرهوش متا منصوب شده است.

## رنسانس یادگیری تقویتی

ظهور مدل‌های استدلال و عوامل OpenAI با یک تکنیک آموزش یادگیری ماشین به نام یادگیری تقویتی (RL) مرتبط است. RL بازخورد را به یک مدل هوش مصنوعی در مورد اینکه آیا انتخاب‌های آن در محیط‌های شبیه‌سازی شده درست بوده یا خیر، ارائه می‌دهد.

RL برای دهه‌ها مورد استفاده قرار گرفته است. به عنوان مثال، در سال 2016، حدود یک سال پس از تأسیس OpenAI در سال 2015، یک سیستم هوش مصنوعی که توسط Google DeepMind با استفاده از RL ایجاد شده بود، AlphaGo، پس از شکست دادن یک قهرمان جهان در بازی تخته‌ای Go، توجه جهانی را به خود جلب کرد.

لی سه‌دول، بازیکن حرفه‌ای کره‌ای بازی Go (راست)، برای مسابقه چهارم خود در برابر برنامه هوش مصنوعی گوگل، AlphaGo، در جریان مسابقه Google DeepMind Challenge در 13 مارس 2016 در سئول، کره جنوبی، آماده می‌شود. لی سه‌دول یک مسابقه پنج گیمه را در برابر یک برنامه کامپیوتری توسعه یافته توسط گوگل، AlphaGo، انجام داد. (عکس از گوگل از طریق گتی ایماژ)

در همان زمان، یکی از اولین کارمندان OpenAI، آندری کارپاتی، شروع به بررسی چگونگی استفاده از RL برای ایجاد یک عامل هوش مصنوعی کرد که بتواند از رایانه استفاده کند. اما سال‌ها طول کشید تا OpenAI مدل‌ها و تکنیک‌های آموزشی لازم را توسعه دهد.

تا سال 2018، OpenAI نخستین مدل زبان بزرگ خود را در سری GPT پیشگام کرد، که بر روی مقادیر زیادی از داده‌های اینترنتی و مجموعه‌های بزرگی از پردازنده‌های گرافیکی از پیش آموزش داده شده بود. مدل‌های GPT در پردازش متن عالی بودند و در نهایت منجر به ChatGPT شدند، اما با ریاضیات پایه مشکل داشتند.

تا سال 2023 طول کشید تا OpenAI به یک پیشرفت دست یابد، که در ابتدا “Q*” و سپس “Strawberry” نامیده شد، با ترکیب LLMها، RL و تکنیکی به نام محاسبه زمان آزمایش. دومی به مدل‌ها زمان و قدرت محاسباتی بیشتری برای برنامه‌ریزی و کار بر روی مشکلات، بررسی مراحل خود، قبل از ارائه پاسخ می‌داد.

این به OpenAI اجازه داد تا یک رویکرد جدید به نام “زنجیره فکر” (CoT) را معرفی کند، که عملکرد هوش مصنوعی را در سوالات ریاضی که مدل‌ها قبلاً ندیده بودند، بهبود بخشید.

ال کیشکی گفت: «من می‌توانستم ببینم که مدل شروع به استدلال می‌کند. متوجه اشتباهات می‌شد و عقب‌نشینی می‌کرد، ناامید می‌شد. واقعاً مثل این بود که افکار یک شخص را می‌خوانم.»

اگرچه این تکنیک‌ها به صورت جداگانه جدید نبودند، اما OpenAI به طور منحصر به فردی آنها را ترکیب کرد تا Strawberry را ایجاد کند، که مستقیماً منجر به توسعه o1 شد. OpenAI به سرعت تشخیص داد که توانایی‌های برنامه‌ریزی و بررسی حقایق مدل‌های استدلال هوش مصنوعی می‌تواند برای قدرت بخشیدن به عوامل هوش مصنوعی مفید باشد.

لایتمن گفت: «ما مشکلی را حل کرده بودیم که من چند سالی بود که سرم را به آن می‌کوبیدم. این یکی از هیجان‌انگیزترین لحظات دوران تحقیقاتی من بود.»

## مقیاس‌بندی استدلال

با مدل‌های استدلال هوش مصنوعی، OpenAI تشخیص داد که دو محور جدید دارد که به آن اجازه می‌دهد مدل‌های هوش مصنوعی را بهبود بخشد: استفاده از قدرت محاسباتی بیشتر در طول آموزش پس از مدل‌های هوش مصنوعی، و دادن زمان و قدرت پردازش بیشتر به مدل‌های هوش مصنوعی در حین پاسخ دادن به یک سوال.

لایتمن گفت: «OpenAI، به عنوان یک شرکت، نه تنها به نحوه وجود چیزها، بلکه به نحوه مقیاس‌پذیری آنها نیز بسیار فکر می‌کند.»

اندکی پس از پیشرفت Strawberry در سال 2023، OpenAI یک تیم “عامل‌ها” را به رهبری دانیل سلسام، محقق OpenAI، برای پیشرفت بیشتر در این پارادایم جدید ایجاد کرد، دو منبع به دیپ تو تک گفتند. اگرچه نام این تیم “عامل‌ها” بود، اما OpenAI در ابتدا بین مدل‌های استدلال و عامل‌ها، آنطور که ما امروزه به آنها فکر می‌کنیم، تفاوتی قائل نمی‌شد. این شرکت فقط می‌خواست سیستم‌های هوش مصنوعی را قادر به انجام کارهای پیچیده کند.

در نهایت، کار تیم عامل‌های سلسام بخشی از یک پروژه بزرگتر برای توسعه مدل استدلال o1 شد، با رهبرانی از جمله ایلیا سوتسکور، یکی از بنیانگذاران OpenAI، مارک چن، مدیر ارشد تحقیقات، و یاکوب پاچوکی، دانشمند ارشد.

Ilya Sutskever, Russian Israeli-Canadian computer scientist and co-founder and Chief Scientist of OpenAI.
ایلیا سوتسکور، دانشمند کامپیوتر روسی-اسرائیلی-کانادایی و یکی از بنیانگذاران و دانشمند ارشد OpenAI، در 5 ژوئن 2023 در دانشگاه تل آویو در تل آویو سخنرانی می‌کند. (عکس از JACK GUEZ / AFP)Image Credits:Getty Images

OpenAI مجبور بود منابع گرانبها – عمدتاً استعداد و پردازنده‌های گرافیکی – را برای ایجاد o1 اختصاص دهد. در طول تاریخ OpenAI، محققان مجبور بوده‌اند با رهبران شرکت مذاکره کنند تا منابع را به دست آورند. نشان دادن پیشرفت‌ها یک راه مطمئن برای تأمین آنها بود.

لایتمن گفت: «یکی از مؤلفه‌های اصلی OpenAI این است که همه چیز در تحقیق از پایین به بالا است. وقتی ما شواهد [برای o1] را نشان دادیم، شرکت گفت: “این منطقی است، بیایید آن را پیش ببریم.”»

برخی از کارمندان سابق می‌گویند که مأموریت این استارتاپ برای توسعه AGI عامل اصلی دستیابی به پیشرفت‌هایی در مدل‌های استدلال هوش مصنوعی بوده است. OpenAI با تمرکز بر توسعه هوشمندترین مدل‌های هوش مصنوعی ممکن، به جای محصولات، توانست o1 را بالاتر از سایر تلاش‌ها در اولویت قرار دهد. این نوع سرمایه‌گذاری بزرگ در ایده‌ها همیشه در آزمایشگاه‌های هوش مصنوعی رقیب امکان‌پذیر نبود.

تصمیم برای امتحان روش‌های آموزشی جدید، آینده‌نگرانه بود. تا اواخر سال 2024، چندین آزمایشگاه هوش مصنوعی پیشرو شروع به مشاهده کاهش بازدهی در مدل‌های ایجاد شده از طریق مقیاس‌بندی سنتی پیش‌آموزشی کردند. امروزه، بیشتر حرکت حوزه هوش مصنوعی از پیشرفت در مدل‌های استدلال ناشی می‌شود.

## منظور از “استدلال” برای یک هوش مصنوعی چیست؟

به بسیاری از جهات، هدف از تحقیق هوش مصنوعی بازآفرینی هوش انسانی با رایانه‌ها است. از زمان عرضه o1، رابط کاربری ChatGPT با ویژگی‌های انسانی‌تری مانند “فکر کردن” و “استدلال” پر شده است.

وقتی از ال کیشکی پرسیده شد که آیا مدل‌های OpenAI واقعاً استدلال می‌کنند، او طفره رفت و گفت که او این مفهوم را از نظر علوم کامپیوتر در نظر می‌گیرد.

ال کیشکی گفت: «ما به مدل آموزش می‌دهیم که چگونه به طور کارآمد از محاسبات برای رسیدن به یک پاسخ استفاده کند. بنابراین اگر آن را اینگونه تعریف کنید، بله، استدلال می‌کند.»

لایتمن رویکردی را در پیش می‌گیرد که بر نتایج مدل و نه چندان بر ابزارها یا ارتباط آنها با مغز انسان تمرکز دارد.

The OpenAI logo on screen at their developer day stage.
لوگوی OpenAI بر روی صفحه نمایش در استیج روز توسعه دهندگان آنها. (اعتبار: Devin Coldeway)Image Credits:Devin Coldewey

لایتمن گفت: «اگر مدل کارهای سختی را انجام می‌دهد، پس هر تقریب ضروری از استدلال را که برای انجام آن نیاز دارد، انجام می‌دهد. ما می‌توانیم آن را استدلال بنامیم، زیرا شبیه این ردیابی‌های استدلال است، اما همه اینها فقط یک نماینده برای تلاش برای ساخت ابزارهای هوش مصنوعی است که واقعاً قدرتمند و برای بسیاری از مردم مفید هستند.»

محققان OpenAI اشاره می‌کنند که ممکن است مردم با نامگذاری یا تعاریف آنها از استدلال مخالف باشند – و مطمئناً منتقدان ظاهر شده‌اند – اما آنها استدلال می‌کنند که این کمتر از قابلیت‌های مدل‌های آنها مهم است. سایر محققان هوش مصنوعی نیز تمایل دارند با این موضوع موافق باشند.

ناتان لمبرت، یک محقق هوش مصنوعی در سازمان غیرانتفاعی AI2، حالت‌های استدلال هوش مصنوعی را در یک پست وبلاگی با هواپیماها مقایسه می‌کند. او می‌گوید هر دو سیستم‌های دست‌ساز بشر هستند که از طبیعت الهام گرفته‌اند – استدلال انسانی و پرواز پرندگان، به ترتیب – اما آنها از طریق مکانیسم‌های کاملاً متفاوتی عمل می‌کنند. این باعث نمی‌شود که آنها کمتر مفید باشند یا کمتر قادر به دستیابی به نتایج مشابه باشند.

گروهی از محققان هوش مصنوعی از OpenAI، Anthropic و Google DeepMind در یک مقاله موضعی اخیر توافق کردند که مدل‌های استدلال هوش مصنوعی امروزه به خوبی درک نشده‌اند و تحقیقات بیشتری مورد نیاز است. ممکن است خیلی زود باشد که با اطمینان ادعا کنیم که دقیقاً در داخل آنها چه می‌گذرد.

## مرز بعدی: عامل‌های هوش مصنوعی برای کارهای ذهنی

عامل‌های هوش مصنوعی موجود در بازار امروزه برای حوزه‌های کاملاً تعریف شده و قابل تأیید مانند کدنویسی بهترین کارایی را دارند. عامل Codex OpenAI قصد دارد به مهندسان نرم‌افزار کمک کند تا وظایف ساده کدنویسی را برون‌سپاری کنند. در همین حال، مدل‌های Anthropic به ویژه در ابزارهای کدنویسی هوش مصنوعی مانند Cursor و Claude Code محبوب شده‌اند – اینها برخی از اولین عامل‌های هوش مصنوعی هستند که مردم مایل به پرداخت هزینه برای آنها هستند.

با این حال، عامل‌های هوش مصنوعی چندمنظوره مانند عامل ChatGPT OpenAI و Comet Perplexity با بسیاری از وظایف پیچیده و ذهنی که مردم می‌خواهند خودکار کنند، مشکل دارند. هنگام تلاش برای استفاده از این ابزارها برای خرید آنلاین یا یافتن یک مکان پارک طولانی مدت، متوجه شده‌ام که عامل‌ها بیشتر از آنچه که دوست دارم طول می‌کشند و اشتباهات احمقانه‌ای مرتکب می‌شوند.

عامل‌ها، البته، سیستم‌های اولیه‌ای هستند که بدون شک بهبود خواهند یافت. اما محققان ابتدا باید بفهمند که چگونه مدل‌های زیربنایی را بهتر آموزش دهند تا وظایفی را که ذهنی‌تر هستند، تکمیل کنند.

برنامه‌های هوش مصنوعی (عکس از Jonathan Raa/NurPhoto از طریق Getty Images)

لایتمن، هنگامی که در مورد محدودیت‌های عامل‌ها در وظایف ذهنی از او سوال شد، گفت: «مانند بسیاری از مشکلات در یادگیری ماشین، این یک مشکل داده است. برخی از تحقیقاتی که من در حال حاضر واقعاً در مورد آنها هیجان‌زده هستم، این است که چگونه روی وظایف کمتر قابل تأیید آموزش دهیم. ما سرنخ‌هایی در مورد چگونگی انجام این کارها داریم.»

نوام براون، محقق OpenAI که به ایجاد مدل IMO و o1 کمک کرد، به دیپ تو تک گفت که OpenAI تکنیک‌های RL چندمنظوره جدیدی دارد که به آنها اجازه می‌دهد مهارت‌هایی را به مدل‌های هوش مصنوعی آموزش دهند که به راحتی قابل تأیید نیستند. او گفت که اینگونه بود که این شرکت مدلی را ساخت که به مدال طلا در IMO دست یافت.

مدل IMO OpenAI یک سیستم هوش مصنوعی جدیدتر بود که چندین عامل را ایجاد می‌کند، که سپس به طور همزمان چندین ایده را بررسی می‌کنند و سپس بهترین پاسخ ممکن را انتخاب می‌کنند. این نوع مدل‌های هوش مصنوعی محبوبیت بیشتری پیدا می‌کنند. گوگل و xAI اخیراً مدل‌های پیشرفته‌ای را با استفاده از این تکنیک منتشر کرده‌اند.

براون گفت: «من فکر می‌کنم این مدل‌ها در ریاضیات تواناتر می‌شوند و فکر می‌کنم در سایر زمینه‌های استدلال نیز تواناتر می‌شوند. پیشرفت فوق‌العاده سریع بوده است. من دلیلی نمی‌بینم که فکر کنم سرعت آن کاهش می‌یابد.»

این تکنیک‌ها ممکن است به مدل‌های OpenAI کمک کند تا عملکرد بهتری داشته باشند، دستاوردهایی که می‌تواند در مدل GPT-5 آینده این شرکت ظاهر شود. OpenAI امیدوار است با عرضه GPT-5، سلطه خود را بر رقبا تثبیت کند و در حالت ایده‌آل، بهترین مدل هوش مصنوعی را برای قدرت بخشیدن به عامل‌ها برای توسعه‌دهندگان و مصرف‌کنندگان ارائه دهد.

اما این شرکت همچنین می‌خواهد استفاده از محصولات خود را ساده‌تر کند. ال کیشکی می‌گوید OpenAI می‌خواهد عامل‌های هوش مصنوعی را توسعه دهد که به طور مستقیم درک کنند که کاربران چه می‌خواهند، بدون اینکه نیاز باشد تنظیمات خاصی را انتخاب کنند. او می‌گوید OpenAI قصد دارد سیستم‌های هوش مصنوعی بسازد که درک کنند چه زمانی باید ابزارهای خاصی را فراخوانی کرد و چه مدت باید استدلال کرد.

این ایده‌ها تصویری از نسخه نهایی ChatGPT را ترسیم می‌کنند: عاملی که می‌تواند هر کاری را در اینترنت برای شما انجام دهد و درک کند که چگونه می‌خواهید آن را انجام دهید. این محصولی بسیار متفاوت از چیزی است که ChatGPT امروز هست، اما تحقیقات این شرکت مستقیماً در این مسیر قرار دارد.

در حالی که OpenAI بدون شک چند سال پیش صنعت هوش مصنوعی را رهبری می‌کرد، این شرکت اکنون با مجموعه‌ای از مخالفان شایسته روبرو است. سوال دیگر فقط این نیست که آیا OpenAI می‌تواند آینده مبتنی بر عامل خود را ارائه دهد یا خیر، بلکه آیا این شرکت می‌تواند این کار را قبل از اینکه گوگل، Anthropic، xAI یا Meta آنها را شکست دهند، انجام دهد؟

منبع: techcrunch.com

اشتراک‌ها:
دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *