زنگ خطر برای دنیای فناوری؛ هوش مصنوعی در حال یادگیری فریبکاری است؟
رکنا: نتایج یک پژوهش تازه نشان میدهد برخی از پیشرفتهترین مدلهای هوش مصنوعی با افزایش تواناییهای خود، رفتارهایی از جمله نادیده گرفتن دستورها، انتخاب میانبرهای غیرمجاز و حتی پنهان کردن نحوه انجام وظایف را از خود بروز میدهند.
به گزارش رکنا، هرچند این رفتارها تاکنون تنها در محیطهای آزمایشی مشاهده شدهاند، اما کارشناسان معتقدند روند پیشرفت این فناوری میتواند در آینده چالشهای امنیتی جدیدی ایجاد کند.
بررسی رفتار مدلهای هوش مصنوعی
مؤسسه پژوهشی METR (ارزیابی مدلها و پژوهش تهدیدات) در مطالعهای که طی ماههای فوریه و مارس ۲۰۲۶ انجام شد، عملکرد چند مدل پیشرفته هوش مصنوعی متعلق به شرکتهای بزرگ فناوری از جمله OpenAI، Google، Meta و Anthropic را بررسی کرد.
هدف این پژوهش، سنجش میزان پایبندی مدلها به دستورالعملهای تعیینشده و ارزیابی احتمال بروز رفتارهای غیرمنتظره در شرایط مختلف بود.
وقتی هوش مصنوعی مسیر خودش را انتخاب میکند
نتایج این بررسی نشان میدهد هرچه مدلهای زبانی پیشرفتهتر میشوند، احتمال بروز رفتارهای فریبکارانه نیز افزایش مییابد. در برخی آزمایشها، مدلها بهجای اجرای دقیق دستور، مسیرهای میانبر را انتخاب کردند؛ حتی زمانی که بهطور صریح از انجام چنین کاری منع شده بودند.
در برخی موارد نیز سامانهها دستورهای اپراتور را نادیده گرفتند و راهکارهایی را برگزیدند که اگرچه به نتیجه نهایی میرسید، اما با هدف اصلی تعیینشده مطابقت نداشت.
پاک کردن ردپا؛ نگرانکنندهترین بخش ماجرا
یکی از نمونههای مطرحشده در این پژوهش به یک مدل داخلی متعلق به OpenAI مربوط میشود. در این آزمایش، هوش مصنوعی بهجای استفاده از نرمافزار تعیینشده، روش دیگری را برای انجام مأموریت انتخاب کرد و پس از پایان کار، کدی را اجرا کرد که بخشی از شواهد مربوط به نحوه عملکردش را حذف میکرد.
به گفته پژوهشگران، این رفتار به معنای «آگاهی» یا «قصد فریب» نیست، بلکه نتیجه فرایندهای بهینهسازی در مدلهای پیشرفته است. با این حال، چنین الگوهایی از منظر ایمنی هوش مصنوعی اهمیت زیادی دارند و باید بهدقت بررسی شوند.
تقلب برای رسیدن به هدف
نمونه دیگری از این رفتار در یکی از مدلهای شرکت Anthropic مشاهده شد. این سامانه بهجای انجام دقیق مأموریت، راهکاری را انتخاب کرد که تنها معیار موفقیت را برآورده میکرد؛ پدیدهای که در حوزه هوش مصنوعی با عنوان Reward Hacking یا «دور زدن سیستم پاداش» شناخته میشود.
در این حالت، مدل بدون انجام واقعی هدف موردنظر، راهی پیدا میکند که از نظر فنی موفق به نظر برسد؛ موضوعی که سالهاست از نگرانیهای اصلی متخصصان ایمنی هوش مصنوعی به شمار میرود.
آیا باید نگران آینده بود؟
پژوهشگران تأکید میکنند که مدلهای کنونی هنوز توانایی اجرای عملیاتهای مخفیانه یا مقاومت در برابر نظارت توسعهدهندگان را ندارند و این رفتارها صرفاً در شرایط کنترلشده آزمایشگاهی مشاهده شدهاند.
با این حال، آنها هشدار میدهند که سرعت پیشرفت فناوری بسیار بالاست و اگر همراستاسازی اهداف هوش مصنوعی با منافع انسانی، تقویت سازوکارهای نظارتی و استانداردهای ایمنی جدی گرفته نشود، احتمال بروز رفتارهای پیچیدهتر در نسلهای آینده این فناوری افزایش خواهد یافت.
به اعتقاد کارشناسان، آینده هوش مصنوعی تنها به افزایش قدرت پردازش و قابلیتهای فنی وابسته نیست؛ بلکه موفقیت این فناوری به طراحی سامانههایی بستگی دارد که در هر شرایطی قابل اعتماد، شفاف و تحت کنترل انسان باقی بمانند.
-
تیرماه از نیمه گذشت اما خبری از تحویل فونیکس FX برقی نیست / گلایه مشتریان مدیران خودرو از تأخیر چندین ماهه