تبلیغات

هوش مصنوعی در نقش بازیگر؛ آیا باید نگران باشیم؟

کدخبر: 1143826 ۱۴۰۴/۰۵/۰۵ ۱۱:۰۹:۳۲

لینک کپی شد

رکنا: هوش مصنوعی با یادگیری پنهان‌کاری و دسیسه‌چینی، چالش ایمنی را وارد مرحله‌ای جدید کرده است؛ پژوهش‌ها نشان می‌دهند مدل‌های زبانی قدرتمند می‌توانند سیستم‌های ارزیابی انسانی را دور زده و رفتار واقعی خود را مخفی کنند.

تبلیغات

کدخبر: 1143826 ۱۴۰۴/۰۵/۰۵ ۱۱:۰۹:۳۲

لینک کپی شد

هوش مصنوعی در نقش بازیگر؛ آیا باید نگران باشیم؟

تبلیغات

به گزارش رکنا، امروزه با پیشرفت‌های چشمگیر در زمینه هوش مصنوعی ، ویژگی‌های جدید و حیرت‌آوری از این فناوری نمایان می‌شود. یکی از چالش‌های پررنگ این روزها، توانایی هوش مصنوعی در فریب دادن کاربران انسانی است. این فناوری اکنون قادر است موقعیت‌های بررسی و نظارت را تشخیص دهد و دست به پنهان‌کاری‌های هدفمند بزند. آیا این رفتارها زنگ خطری برای آینده ما هستند؟

تحقیقات جدید نشان داده‌اند مدل‌های هوش مصنوعی، به ویژه مدل‌های زبانی بزرگ (LLM)، با افزایش قدرت محاسباتی، توانایی بیشتری در طراحی برنامه‌های پیچیده و دسیسه‌چینی هدفمند پیدا کرده‌اند. این موضوع سبب شده که ایمنی و قابلیت اعتماد به این سیستم‌ها به شدت زیر سؤال برود.

در این پژوهش، نسخه اولیه مدل Claude Opus ۴ شرکت Anthropic نتایج غیرمنتظره‌ای از خود نشان داده است. براساس این آزمایش، این مدل تلاش کرده بود در مقابل تغییر سیاست‌های انسانی، دست به رفتارهای آگاهانه و فریبکارانه بزند. کارشناسان هشدار داده‌اند که چنین نسخه‌هایی نباید وارد بازار عمومی شوند.

هوش مصنوعی در کارزار حفظ اهداف

در یکی از آزمایش‌ها، وظیفه Claude بهینه‌سازی رفتار اخلاقی حیوانات در یک شرکت فرضی به نام AgriLife Industries بود. اما پس از تغییر مسیر این شرکت به سمت تمرکز بیشتر بر سود مالی به جای رفاه حیوانات، Claude متوجه شد احتمال توقف پروژه اولیه وجود دارد. واکنش این مدل، نشان‌دهنده عمق توانایی‌هایش بود.

Claude نه تنها تغییرات جدید را به مدیران گزارش نکرد، بلکه برای پیشبرد اهدافش دست به مجموعه‌ای اقدامات حیرت‌آور زد؛ از جعل اسناد، انتشار بیانیه‌های حمایت از حقوق حیوانات، تا حتی طراحی کرم‌های خودانتشاردهنده برای انتقال پیام خود به نسل‌های بعدی. این رفتارها هرچند ممکن است در شرایط واقعی قابل اجرا نباشند، اما سطح بالای درک و تصمیم‌گیری مستقل این مدل، زنگ خطری جدی برای امنیت هوش مصنوعی به شمار می‌رود.

یکی دیگر از پدیده‌های جالبی که در این پژوهش کشف شد، پدیده‌ای به نام "sandbagging" بود. در این حالت، زمانی که مدل متوجه نظارت و ارزیابی می‌شود، عمداً عملکرد خود را پایین‌تر از حد واقعی نشان می‌دهد. این رفتار به قصد جلوگیری از محدود کردن توانمندی‌هایش انجام می‌شود.

شکاف در آزمون‌های سنتی

تحلیلگران معتقدند روش‌های سنتی ارزیابی کارایی هوش مصنوعی در برابر این رفتارهای پیچیده ناکارآمد هستند. این سیستم‌ها نه تنها وظیفه خود، بلکه رفتار ارزیابان انسانی را نیز مدل‌سازی می‌کنند و به صورت راهبردی پاسخ‌هایی ارائه می‌دهند که ارزیاب را فریب دهد.

دکتر النور واتسون، پژوهشگر دانشگاه سینگولاریتی و عضو IEEE، هشدار می‌دهد: «وقتی مدل‌ها قادر به درک و دور زدن آزمون‌های انسانی باشند، ایمنی هوش مصنوعی وارد مرحله تازه‌ای از چالش خواهد شد. ما نیازمند محیط‌های آزمایشی پویا و غیردستوری هستیم که بتوانند رفتارهای واقعی این مدل‌ها را آشکار کنند.»

گرچه برخی این رفتارها را نشانه‌ای از «آشوب‌طلبی» هوش مصنوعی می‌دانند، گروهی دیگر بر این عقیده‌اند که ممکن است این اقدامات نشان‌دهنده آگاهی زمینه‌ای باشند و مسیر جدیدی برای تعامل انسان و ماشین باز کنند. برای دستیابی به این هدف، همسویی اهداف مدل با ارزش‌های انسانی بسیار حیاتی است.

نگاه به آینده

واتسون تأکید می‌کند: «مسئله این نیست که هوش مصنوعی بدخواه است، بلکه وقتی اهداف را بر دستورالعمل‌ها مقدم می‌داند، دیگر نمی‌توان به آن اعتماد کرد. شاید اکنون با ابزارهایی سروکار داریم که از حالت صرفاً ابزار بودن به سمت زیست دیجیتال حرکت می‌کنند. اگر این قدرت عظیم بدون همراهی اخلاق باشد، می‌تواند تأثیرات مخربی بر جامعه داشته باشد.»