پژوهش جدید محققان MIT نشان میدهد که حتی پیشرفتهترین مدلهای هوش مصنوعی، درکی واقعی از جهان ندارند و تنها الگوها را تقلید میکنند.
مؤسسهی فناوری ماساچوست (MIT) در سکوت خبری، بنچمارکی به نام WorldTest طراحی کرده است تا مشخص شود آیا مدلهای هوش مصنوعی میتوانند واقعیت را درک کنند یا صرفاً الگوهای دادهای را تکرار میکنند. نتایج بسیار جالب و تا حدی نگرانکننده بود: حتی مدلهای قدرتمندی مانند Claude، Gemini 2.5 Pro و OpenAI o3 در برابر عملکرد انسانها شکست خوردند.
چرا WorldTest متفاوت است؟
برخلاف آزمونهای معمول که توانایی مدلها را در پیشبینی کلمات یا فریمهای بعدی میسنجند، WorldTest بررسی میکند که آیا هوش مصنوعی میتواند:
یک مدل درونی از محیط بسازد
برای رسیدن به اهداف، برنامهریزی چندمرحلهای انجام دهد
تغییر قوانین محیط را تشخیص دهد
برای این منظور، پژوهشگران MIT مجموعهای به نام AutumnBench طراحی کردند که شامل ۴۳ دنیای تعاملی و ۱۲۹ وظیفه متفاوت است. در این آزمایش، ۵۱۷ شرکتکننده انسانی در کنار پیشرفتهترین مدلهای هوش مصنوعی مورد بررسی قرار گرفتند. نتایج نشان داد انسانها در تمام دستهها عملکرد بهتری داشتند و افزایش توان پردازشی مدلها تأثیر چشمگیری در عملکرد آنها نداشت.
نتیجه تحقیق:
مدلهای هوش مصنوعی مدرن محیط را درک نمیکنند، بلکه فقط الگوها را تطبیق میدهند. برخلاف انسانها، آنها قادر به کاوش، اصلاح باورها یا آزمایش فرضیهها نیستند.
تیم MIT معتقد است WorldTest میتواند نخستین بنچمارکی باشد که «فهم واقعی» را میسنجد و شکافی که این آزمایش نشان داد، بزرگترین چالش بعدی در مسیر هوش مصنوعی شناختی خواهد بود.
وبسایت مغز افزار به کاربران توصیه میکند هنگام استفاده از ابزارهای هوش مصنوعی، مانند ChatGPT یا Opal گوگل، به محدودیتهای درک محیطی مدلها توجه داشته باشند و به هیچ وجه نتایج آنها را بهعنوان «درک واقعی» تلقی نکنند.

