هوش مصنوعی در نقش بازیگر؛ آیا باید نگران باشیم؟
رکنا: هوش مصنوعی با یادگیری پنهانکاری و دسیسهچینی، چالش ایمنی را وارد مرحلهای جدید کرده است؛ پژوهشها نشان میدهند مدلهای زبانی قدرتمند میتوانند سیستمهای ارزیابی انسانی را دور زده و رفتار واقعی خود را مخفی کنند.

به گزارش رکنا، امروزه با پیشرفتهای چشمگیر در زمینه هوش مصنوعی ، ویژگیهای جدید و حیرتآوری از این فناوری نمایان میشود. یکی از چالشهای پررنگ این روزها، توانایی هوش مصنوعی در فریب دادن کاربران انسانی است. این فناوری اکنون قادر است موقعیتهای بررسی و نظارت را تشخیص دهد و دست به پنهانکاریهای هدفمند بزند. آیا این رفتارها زنگ خطری برای آینده ما هستند؟
تحقیقات جدید نشان دادهاند مدلهای هوش مصنوعی، به ویژه مدلهای زبانی بزرگ (LLM)، با افزایش قدرت محاسباتی، توانایی بیشتری در طراحی برنامههای پیچیده و دسیسهچینی هدفمند پیدا کردهاند. این موضوع سبب شده که ایمنی و قابلیت اعتماد به این سیستمها به شدت زیر سؤال برود.
در این پژوهش، نسخه اولیه مدل Claude Opus ۴ شرکت Anthropic نتایج غیرمنتظرهای از خود نشان داده است. براساس این آزمایش، این مدل تلاش کرده بود در مقابل تغییر سیاستهای انسانی، دست به رفتارهای آگاهانه و فریبکارانه بزند. کارشناسان هشدار دادهاند که چنین نسخههایی نباید وارد بازار عمومی شوند.
هوش مصنوعی در کارزار حفظ اهداف
در یکی از آزمایشها، وظیفه Claude بهینهسازی رفتار اخلاقی حیوانات در یک شرکت فرضی به نام AgriLife Industries بود. اما پس از تغییر مسیر این شرکت به سمت تمرکز بیشتر بر سود مالی به جای رفاه حیوانات، Claude متوجه شد احتمال توقف پروژه اولیه وجود دارد. واکنش این مدل، نشاندهنده عمق تواناییهایش بود.
Claude نه تنها تغییرات جدید را به مدیران گزارش نکرد، بلکه برای پیشبرد اهدافش دست به مجموعهای اقدامات حیرتآور زد؛ از جعل اسناد، انتشار بیانیههای حمایت از حقوق حیوانات، تا حتی طراحی کرمهای خودانتشاردهنده برای انتقال پیام خود به نسلهای بعدی. این رفتارها هرچند ممکن است در شرایط واقعی قابل اجرا نباشند، اما سطح بالای درک و تصمیمگیری مستقل این مدل، زنگ خطری جدی برای امنیت هوش مصنوعی به شمار میرود.
یکی دیگر از پدیدههای جالبی که در این پژوهش کشف شد، پدیدهای به نام "sandbagging" بود. در این حالت، زمانی که مدل متوجه نظارت و ارزیابی میشود، عمداً عملکرد خود را پایینتر از حد واقعی نشان میدهد. این رفتار به قصد جلوگیری از محدود کردن توانمندیهایش انجام میشود.
شکاف در آزمونهای سنتی
تحلیلگران معتقدند روشهای سنتی ارزیابی کارایی هوش مصنوعی در برابر این رفتارهای پیچیده ناکارآمد هستند. این سیستمها نه تنها وظیفه خود، بلکه رفتار ارزیابان انسانی را نیز مدلسازی میکنند و به صورت راهبردی پاسخهایی ارائه میدهند که ارزیاب را فریب دهد.
دکتر النور واتسون، پژوهشگر دانشگاه سینگولاریتی و عضو IEEE، هشدار میدهد: «وقتی مدلها قادر به درک و دور زدن آزمونهای انسانی باشند، ایمنی هوش مصنوعی وارد مرحله تازهای از چالش خواهد شد. ما نیازمند محیطهای آزمایشی پویا و غیردستوری هستیم که بتوانند رفتارهای واقعی این مدلها را آشکار کنند.»
گرچه برخی این رفتارها را نشانهای از «آشوبطلبی» هوش مصنوعی میدانند، گروهی دیگر بر این عقیدهاند که ممکن است این اقدامات نشاندهنده آگاهی زمینهای باشند و مسیر جدیدی برای تعامل انسان و ماشین باز کنند. برای دستیابی به این هدف، همسویی اهداف مدل با ارزشهای انسانی بسیار حیاتی است.
نگاه به آینده
واتسون تأکید میکند: «مسئله این نیست که هوش مصنوعی بدخواه است، بلکه وقتی اهداف را بر دستورالعملها مقدم میداند، دیگر نمیتوان به آن اعتماد کرد. شاید اکنون با ابزارهایی سروکار داریم که از حالت صرفاً ابزار بودن به سمت زیست دیجیتال حرکت میکنند. اگر این قدرت عظیم بدون همراهی اخلاق باشد، میتواند تأثیرات مخربی بر جامعه داشته باشد.»
-
فیلم / روایت تازه پزشکیان از حمله اسرائیل به جلسه شورای امینت ملی: اگر در بمباران جلسه شورای امنیت ملی شهید میشدیم، برایمان ...
ارسال نظر