اختلافنظر شدید مدلهای هوش مصنوعی در تشخیص واقعیت
تحقیقات جدید نشان میدهد که حتی پیشرفتهترین سیستمهای هوش مصنوعی جهان در تشخیص درستی یا نادرستی اطلاعات با یکدیگر توافق ندارند. بر اساس مطالعهای که توسط کوستا جوردانو (Kosta Jordanov) در مؤسسه لنز ریسرچ (Lenz Research) منتشر شده است، در بیش از دو سوم موارد، حداقل یکی از پنج مدل برتر هوش مصنوعی پاسخی متفاوت نسبت به بقیه ارائه میدهد.
این یافتهها چالش جدی در اعتماد به این ابزارها بهعنوان مرجع حقیقت ایجاد کرده است. در این بررسی، مدلهای جیپیتی ۵.۴ (GPT-5.4)، کلاود اپوس ۴.۷ (Claude Opus ۴.۷) و جمنای ۳ پرو (Gemini ۳ Pro) در کنار نسخههای دیگر، ۱,۰۰۰ ادعای واقعی ثبت شده توسط کاربران را بررسی کردند.
نتایج نشان داد در ۶۷۲ مورد، اتفاقنظر وجود نداشته و در ۳۴ درصد مواقع، اختلافات بسیار شدید بوده است؛ بهطوری که یک مدل ادعایی را «صحیح» و مدل دیگر همان مطلب را «غلط» ارزیابی کرده است.
فقدان استاندارد واحد در تحلیل واقعیت
برخلاف خطاهای رایج موسوم به توهم هوش مصنوعی، در اینجا مدلها لزوماً دادهای جعل نمیکنند، بلکه قدرت تحلیل یکسان از واقعیتهای موجود را ندارند. شاخص آماری آلفای کریپندورف که برای سنجش توافق به کار میرود، در این مطالعه عدد ۰.۶۳۹ را نشان داد که بسیار پایینتر از حد استاندارد ۰.۸ برای اعتبار علمی است.
این یعنی مدلها به جای عملکردی یکپارچه، مانند قضاوتهایی مستقل و ناهماهنگ عمل میکنند.
چالش تشخیص موارد خاکستری
محققان دریافتند که مدلهای هوش مصنوعی تنها در موارد بسیار قطعی (کاملاً درست یا کاملاً غلط) به اجماع میرسند. در میان تمامی موارد، هیچ ادعایی وجود نداشت که تمام مدلها به صورت یکپارچه بر روی برچسب «تا حدودی درست» توافق کنند.
برای مثال در مورد داراییهای بانک جهانی در نیجریه یا اظهارات سیاسی، مدلهای مختلف گوگل و اوپن ایآی (OpenAI) پاسخهای کاملاً متضادی ارائه دادند که نشاندهنده ضعف این سیستمها در تحلیل مسائل پیچیده و چندبعدی است. پژوهشگران در گزارش خود اعلام کردند:
اکثریت آرا در میان مدلهای پیشرو به معنای حقیقت مطلق نیست؛ گاهی نظر اکثریت اشتباه و نظر مدل مخالف درست است. هرگونه اختلافنظر میان این پنل به این معناست که حداقل یکی از مدلها در تشخیص خود دچار تناقض شده است.
لطفا در صورت مشاهده دیدگاههای حاوی توهین و فحاشی یا خلاف عرف جامعه با گزارش سریع آنها، به ما در حفظ سلامت بستر ارتباطی کاربران کمک کنید.