اگر شما هم تا به حال سعی کردهاید از ChatGPT به عنوان یک ماشین حساب استفاده کنید، تقریباً مطمئناً متوجه نقص ریاضی آن شدهاید: این چتبات در ریاضیات ضعیف است. و این ضعف در بین هوشهای مصنوعی چیز عجیبی نیست.
Claude از Anthropic قادر به حل مسائل کلامی پایه نیست. Gemini نمیتواند معادلات درجه دو را درک کند. و Llama از Meta در جمع و تفریق ساده مشکل دارد.
پس چطور میشود که این رباتها میتوانند مونولوگ بنویسند اما در حل حسابهای ابتدایی به مشکل میخورند؟
توکنسازی در این مورد تأثیر دارد. این فرآیند تقسیم دادهها به تکههای کوچکتر (مثلاً تجزیه کلمه “fantastic” به هجای “fan”، “tas” و “tic”)، به هوش مصنوعی کمک میکند تا اطلاعات را بهطور فشرده رمزگذاری کند. اما از آنجا که توکنایزرها — مدلهای هوش مصنوعی که توکنسازی را انجام میدهند — واقعاً نمیدانند که اعداد چیستند، معمولاً روابط بین ارقام را نابود میکنند. به عنوان مثال، یک توکنایزر ممکن است عدد “380” را به عنوان یک توکن در نظر بگیرد اما “381” را به عنوان یک جفت رقم (“38” و “1”) نمایش دهد.
اما توکنسازی تنها دلیل ضعف ریاضیات در هوش مصنوعی نیست.
سیستمهای هوش مصنوعی ماشینهای آماری هستند. آنها بر مبنای تعداد زیادی مثال آموزش میبینند و الگوهای موجود در آن مثالها را یاد میگیرند تا پیشبینی کنند (مانند اینکه عبارت “to whom” در یک ایمیل اغلب پیش از عبارت
“it may concern” میآید). به عنوان مثال، در مسئله ضرب 5,7897 × 1,2832، ChatGPT — که مسائل ضرب زیادی را دیده است — احتمالاً نتیجهگیری میکند که حاصل یک عدد که با “7” تمام میشود و عددی که با “2” پایان مییابد، با “4” پایان مییابد. اما در بخش میانی مشکل خواهد داشت. ChatGPT به من جواب 742,021,104 را داد؛ در حالی که جواب صحیح 742,934,304 است.
Deng (یونتیان دنگ)، استادیار دانشگاه واترلو که در زمینه هوش مصنوعی تخصص دارد، تواناییهای ضرب ChatGPT را در یک مطالعه در اوایل امسال بهدقت ارزیابی کرد. او و همکارانش دریافتند که مدل پیشفرض، GPT-4o، در ضربهای بیشتری از دو عدد که هرکدام بیش از چهار رقم دارند، مشکل دارد (مانند 3,459 × 5,284).
“GPT-4o در ضربهای چندرقمی مشکل دارد و در حل معادلاتی با بیش از 30% دقت در مسائل چهاررقمی به چهاررقمی ناموفق است,” دنگ به TechCrunch گفت. “ضربهای چندرقمی برای مدلهای زبانی چالشبرانگیز است، زیرا اشتباه در هر مرحله میانی میتواند به جمعشدن اشتباهات منجر شود و نتایج نادرست نهایی به بار آورد.”
Is OpenAI's o1 a good calculator? We tested it on up to 20x20 multiplication—o1 solves up to 9x9 multiplication with decent accuracy, while gpt-4o struggles beyond 4x4. For context, this task is solvable by a small LM using implicit CoT with stepwise internalization. 1/4 pic.twitter.com/et5DB9bhNL
— Yuntian Deng (@yuntiandeng) September 17, 2024
پس آیا مهارتهای ریاضی همیشه از ChatGPT دور خواهند ماند؟ یا آیا دلیلی وجود دارد که باور کنیم این ربات ممکن است روزی به اندازه انسانها (یا یک TI-84، به همین ترتیب) در اعداد ماهر شود؟
دنگ امیدوار است. در این مطالعه، او و همکارانش همچنین مدل o1، مدل “استدلال” OpenAI که به تازگی به ChatGPT اضافه شده است را آزمایش کردند. o1، که مسائل را مرحله به مرحله پیش از پاسخ دادن “تفکر” میکند، عملکرد خیلی بهتری نسبت به GPT-4o داشت و در حل مسائل ضرب نهرقمی به نهرقمی حدود نصف مواقع درست عمل کرد.
“این مدل ممکن است مسأله را به شیوههایی حل کند که با نحوه حل ما به صورت دستی متفاوت است,” دنگ گفت. “این باعث میشود که ما کنجکاو شویم در مورد رویکرد درونی مدل و چگونگی تفاوت آن با استدلال انسانی.”
دنگ فکر میکند که این پیشرفت نشان میدهد که حداقل برخی از انواع مسائل ریاضی — که مسائل ضرب یکی از آنهاست — در نهایت توسط سیستمهای شبیه ChatGPT “بهطور کامل حل” خواهند شد. “این یک کار تعریفشده با الگوریتمهای شناختهشده است,” دنگ گفت. “ما در حال حاضر شاهد بهبودهای قابل توجهی از GPT-4o به o1 هستیم، بنابراین واضح است که پیشرفتهایی در تواناییهای استدلال در حال وقوع است.”
فقط به زودی ماشین حساب خود را دور نیندازید.