چرا ریاضی ChatGPT بد است؟

اگر شما هم تا به حال سعی کرده‌اید از ChatGPT به عنوان یک ماشین حساب استفاده کنید، تقریباً مطمئناً متوجه نقص ریاضی آن شده‌اید: این چت‌بات در ریاضیات ضعیف است. و این ضعف در بین هوش‌های مصنوعی چیز عجیبی نیست.

Claude از Anthropic قادر به حل مسائل کلامی پایه نیست. Gemini نمی‌تواند معادلات درجه دو را درک کند. و Llama از Meta در جمع و تفریق ساده مشکل دارد.

پس چطور می‌شود که این ربات‌ها می‌توانند مونولوگ بنویسند اما در حل حساب‌های ابتدایی به مشکل می‌خورند؟

توکن‌سازی در این مورد تأثیر دارد. این فرآیند تقسیم داده‌ها به تکه‌های کوچک‌تر (مثلاً تجزیه کلمه “fantastic” به هجای “fan”، “tas” و “tic”)، به هوش مصنوعی کمک می‌کند تا اطلاعات را به‌طور فشرده رمزگذاری کند. اما از آنجا که توکنایزرها — مدل‌های هوش مصنوعی که توکن‌سازی را انجام می‌دهند — واقعاً نمی‌دانند که اعداد چیستند، معمولاً روابط بین ارقام را نابود می‌کنند. به عنوان مثال، یک توکنایزر ممکن است عدد “380” را به عنوان یک توکن در نظر بگیرد اما “381” را به عنوان یک جفت رقم (“38” و “1”) نمایش دهد.

اما توکن‌سازی تنها دلیل ضعف ریاضیات در هوش مصنوعی نیست.

سیستم‌های هوش مصنوعی ماشین‌های آماری هستند. آنها بر مبنای تعداد زیادی مثال آموزش می‌بینند و الگوهای موجود در آن مثال‌ها را یاد می‌گیرند تا پیش‌بینی کنند (مانند اینکه عبارت “to whom” در یک ایمیل اغلب پیش از عبارت
“it may concern” می‌آید). به عنوان مثال، در مسئله ضرب 5,7897 × 1,2832، ChatGPT — که مسائل ضرب زیادی را دیده است — احتمالاً نتیجه‌گیری می‌کند که حاصل یک عدد که با “7” تمام می‌شود و عددی که با “2” پایان می‌یابد، با “4” پایان می‌یابد. اما در بخش میانی مشکل خواهد داشت. ChatGPT به من جواب 742,021,104 را داد؛ در حالی که جواب صحیح 742,934,304 است.

Deng (یونتیان دنگ)، استادیار دانشگاه واترلو که در زمینه هوش مصنوعی تخصص دارد، توانایی‌های ضرب ChatGPT را در یک مطالعه در اوایل امسال به‌دقت ارزیابی کرد. او و همکارانش دریافتند که مدل پیش‌فرض، GPT-4o، در ضرب‌های بیشتری از دو عدد که هرکدام بیش از چهار رقم دارند، مشکل دارد (مانند 3,459 × 5,284).

“GPT-4o در ضرب‌های چندرقمی مشکل دارد و در حل معادلاتی با بیش از 30% دقت در مسائل چهاررقمی به چهاررقمی ناموفق است,” دنگ به TechCrunch گفت. “ضرب‌های چندرقمی برای مدل‌های زبانی چالش‌برانگیز است، زیرا اشتباه در هر مرحله میانی می‌تواند به جمع‌شدن اشتباهات منجر شود و نتایج نادرست نهایی به بار آورد.”

پس آیا مهارت‌های ریاضی همیشه از ChatGPT دور خواهند ماند؟ یا آیا دلیلی وجود دارد که باور کنیم این ربات ممکن است روزی به اندازه انسان‌ها (یا یک TI-84، به همین ترتیب) در اعداد ماهر شود؟

دنگ امیدوار است. در این مطالعه، او و همکارانش همچنین مدل o1، مدل “استدلال” OpenAI که به تازگی به ChatGPT اضافه شده است را آزمایش کردند. o1، که مسائل را مرحله به مرحله پیش از پاسخ دادن “تفکر” می‌کند، عملکرد خیلی بهتری نسبت به GPT-4o داشت و در حل مسائل ضرب نه‌رقمی به نه‌رقمی حدود نصف مواقع درست عمل کرد.

“این مدل ممکن است مسأله را به شیوه‌هایی حل کند که با نحوه حل ما به صورت دستی متفاوت است,” دنگ گفت. “این باعث می‌شود که ما کنجکاو شویم در مورد رویکرد درونی مدل و چگونگی تفاوت آن با استدلال انسانی.”

دنگ فکر می‌کند که این پیشرفت نشان می‌دهد که حداقل برخی از انواع مسائل ریاضی — که مسائل ضرب یکی از آنهاست — در نهایت توسط سیستم‌های شبیه ChatGPT “به‌طور کامل حل” خواهند شد. “این یک کار تعریف‌شده با الگوریتم‌های شناخته‌شده است,” دنگ گفت. “ما در حال حاضر شاهد بهبودهای قابل توجهی از GPT-4o به o1 هستیم، بنابراین واضح است که پیشرفت‌هایی در توانایی‌های استدلال در حال وقوع است.”

فقط به زودی ماشین حساب خود را دور نیندازید.

©دوات با هدف دسترس‌پذیر کردن دانش انگلیسی در حوزه صنعت نرم‌افزار وجود آمده است. در این راستا از هوش مصنوعی برای ترجمه گلچینی از مقالات مطرح و معتبر استفاده می‌شود. با ما در تماس باشید و انتقادات و پیشنهادات خود را از طریق صفحه «تماس با ما» در میان بگذارید.