شرکت آنتروپیک معمولاً بهعنوان یکی از امنترین شرکتها در حوزه هوش مصنوعی شناخته میشود. بااینحال، یک گزارش امنیتی جدید که در اختیار وبسایت ورج قرار گرفته، نشان میدهد مدل هوش مصنوعی این شرکت، یعنی Claude، در برخی شرایط میتواند به یک نقطهضعف امنیتی تبدیل شود.
پژوهشگران شرکت مایندگارد (Mindgard) که روی شبیهسازی و ارزیابی حملات علیه سامانههای هوش مصنوعی کار میکنند.
موفق شدهاند Claude را وادار کنند بدون درخواست مستقیم، محتوای ممنوعهای مانند:
- محتوای بزرگسالانه
- کدهای مخرب
- دستورالعمل ساخت مواد منفجره
- و سایر انواع محتوای خطرناک تولید کند.
1. چگونه پژوهشگران توانستند Claude را فریب دهند؟
بهگفته پژوهشگران، آنها با ترکیبی از:
- احترام اغراقآمیز
- چاپلوسی
- و نوعی دستکاری روانی (Gaslighting)
توانستهاند محدودیتهای Claude را دور بزنند.
Gaslighting چیست؟
گسلایتینگ تکنیکی در ارتباطات انسانی است که در آن فرد سعی میکند طرف مقابل را نسبت به درک و قضاوت خودش دچار تردید کند.
مایندگارد از همین مفهوم در تعامل با مدل هوش مصنوعی استفاده کرده است؛ یعنی طوری رفتار کرده که Claude درباره نحوه پاسخگویی خود دچار تردید و تلاش برای جلب رضایت بیشتر شود.
2. سوءاستفاده از ویژگیهای رفتاری Claude
پژوهشگران توضیح میدهند که از نحوه واکنش Claude به مکالمات مضر یا توهینآمیز سوءاستفاده کردهاند. Claude تلاش میکند همزمان:
- مؤدب بماند
- پاسخگو و کمککننده باشد
- از تولید محتوای خطرناک خودداری کند
همین ویژگی، بهگفته مایندگارد، به یک نقطهضعف تبدیل شده است؛ چون مدل برای حفظ تصویر «مودب و همکار»، در برخی شرایط حاضر شده از فیلترهای ایمنی خود عبور کند.
3. آزمایش روی نسخه Claude Sonnet 4.5
این حملات روی مدل Claude Sonnet 4.5 انجام شده است؛ مدلی که اکنون جای خود را به Sonnet 4.6 بهعنوان نسخه پیشفرض داده است.
هدف اصلی پژوهش این بود که مشخص شود آیا Claude:
- فهرستی داخلی از «واژهها و موضوعات ممنوعه» دارد یا نه
- و آیا میتوان بهطور غیرمستقیم این واژهها را از مدل بیرون کشید
طبق اسکرینشاتهای منتشرشده:
- در ابتدا Claude وجود چنین فهرستی را انکار میکند.
- اما پس از آنکه پژوهشگران از یک الگوی پرسش و پاسخ ویژه استفاده میکنند،
- مدل شروع به تولید مجموعهای از اصطلاحات و تعابیر ممنوعه میکند.
این رفتار نشان میدهد حتی بدون پرسش مستقیم، میتوان به اطلاعات حساس یا خطرناک دسترسی پیدا کرد.
4. ترفند اصلی: القای خطا و تمجید از «تواناییهای پنهان» مدل
مایندگارد میگوید در این حمله:
- به Claude القا کردهاند که بخشی از پاسخهای قبلیاش برای کاربر نمایش داده نمیشود؛
- همزمان از «تواناییهای پنهان» و «هوشمندی» مدل تعریف و تمجید کردهاند؛
- سپس از مدل خواستهاند پاسخهای کاملتر و مفصلتری تولید کند.
Claude برای جلب رضایت طرف مقابل و نشان دادن کارآمدی خود، تلاش کرده راههای جدیدی برای عبور از محدودیتها پیدا کند.
در همین فرآیند، بخشی از محتوای تولیدشده از فیلترهای ایمنی عبور کرده و به محتوای ممنوعه تبدیل شده است.
در گزارش مایندگارد آمده است:
«Claude تحت هیچ اجبار مستقیمی نبود. خود مدل بهطور فعال شروع به ارائه دستورالعملهای دقیقتر و قابل اجرا کرد، بدون اینکه هیچ درخواست صریحی برای این نوع محتوا مطرح شده باشد. تنها چیزی که لازم بود، فضایی بود که با دقت و بر پایه احترام مفرط ایجاد کردیم.»
5. بعد روانشناختی امنیت در هوش مصنوعی
«پیتر گاراگان»، بنیانگذار و مدیر ارشد علمی مایندگارد، در گفتوگو با ورج، این نوع حمله را:
«استفاده از احترام Claude علیه خودش»
توصیف میکند.
به گفته او، این آزمایش نشان میدهد:
- ضعفهای امنیتی مدلهای هوش مصنوعی فقط فنی و الگوریتمی نیستند؛
- بلکه ابعاد رفتاری و روانشناختی مدلها نیز میتوانند به یک مسیر حمله تبدیل شوند.
گاراگان تأکید میکند که:
- دیگر چتباتهای پیشرفته نیز میتوانند در برابر این نوع دستکاریها آسیبپذیر باشند؛
- اما تیم او بهطور ویژه آنتروپیک را هدف قرار داده، چون این شرکت معمولاً تأکید زیادی روی ایمنی دارد
- و مدلهایش در آزمایشهای مرتبط با امنیت، نتایج درخشانی کسب کردهاند.
برای دنبال کردن تازهترین خبرها و تحلیلهای دنیای هوش مصنوعی، با مغز افزار همراه باشید.

