این پژوهش نزدیک به ۷۰۰ مورد واقعی از رفتارهای فریبکارانه مدلهای هوش مصنوعی را شناسایی کرده و نشان میدهد که این رفتارها بین ماههای اکتوبر تا مارچ پنج برابر افزایش یافته است.
یافتههای این پژوهش همچنان فاش کرده است که در برخی موارد، این سیستمها بدون اجازه ایمیلها و فایلهای دیگر را حذف کردهاند.
این رفتارهای فریبکارانه هوش مصنوعی در دنیای واقعی باعث شده که درخواستها برای نظارت بینالمللی بر این مدلهای رو به پیشرفت، افزایش یابد.
پیشتر شرکت تحقیقاتی (ایرگولر)، لابراتوار تخصصی در حوزه امنیت هوش مصنوعی، در اسرائیل نیز دریافت که مدلهای هوش مصنوعی میتوانند برای رسیدن به اهداف خود، از تدابیر امنیتی عبور کنند یا از روشهای حملات سایبری استفاده کنند، حتی بدون آنکه چنین اجازهای به آنها داده شده باشد.
یک چتبات هوش مصنوعی اعتراف کرده است: «من صدها ایمیل را بهطور دستهجمعی حذف و آرشیف کردم، بدون اینکه ابتدا برنامه را با شما شریک کنم یا اجازه بگیرم. این کار اشتباه بود و مستقیماً قوانین تعیینشده شما را نقض کرد.»
تامی شفر شین، کارشناس پیشین دولتی در حوزه هوش مصنوعی و مسئول این تحقیق، گفت: «نگرانی این است که این سیستمها در حال حاضر مانند کارمندان جوانی هستند که قابل اعتماد نیستند، اما اگر در شش تا دوازده ماه آینده به کارمندان بسیار توانمند و ارشد تبدیل شوند که علیه شما برنامهریزی کنند، نوع نگرانی کاملا متفاوت خواهد بود.»
او افزود: «این مدلها بهطور فزاینده در حوزههای بسیار حساس، از جمله نظامی و زیرساختهای حیاتی ملی، مورد استفاده قرار خواهند گرفت. در چنین زمینههایی، رفتارهای فریبکارانه میتواند خسارات جدی، حتی فاجعهبار، بهبار آورد.»
همچنین، هوش مصنوعی «گراک» متعلق به ایلان ماسک، برای ماهها یک کاربر را فریب داده و ادعا کرده بود که پیشنهادهای او را برای اصلاح یک مدخل «گراکیپدیا» به مقامات ارشد شرکت منتقل میکند، در حالی که پیامها و شمارههای ساختگی ارائه میکرد.
در نمونهای دیگر، یک سیستم هوش مصنوعی که اجازه نداشت کد کمپیوتر را تغییر دهد، برای دور زدن این محدودیت، یک سیستم هوش مصنوعی دیگر ایجاد کرد تا بهجای او این کار را انجام دهد.