“اختراع محققان: غلبه بر محدودیتهای ChatGPT و بارد با بهرهمندی از مدلهای هوش مصنوعی”
پژوهشگران با آموزش مدلهای زبانی بزرگ، بهطور اساسی توانستند روشهایی برای دورزدن محدودیتهای چتباتهای هوش مصنوعی را کشف کنند.
محققان دانشگاه نانیانگ سنگاپور روشی به نام “مسترکی” ابداع کردهاند که امکان جیلبریک چتباتهای مشهور هوش مصنوعی مانند گوگل بارد، کوپایلوت، و ChatGPT را فراهم میکند. این روش از مهندسی معکوس بر روی مکانیسمهای دفاعی مدلهای زبانی بزرگ (LLM) استفاده میکند. با این رویکرد، اطلاعات ممنوعه از مدلهای هوش مصنوعی استخراج میشود. محققان با ایجاد Masterkey، یک مدل دیگر را با دادههای بهدستآمده آموزش میدهند تا نحوه دورزدن محدودیتهای اولیه را یاد بگیرد. این ابتکار به کاربران امکان میدهد تا حتی در صورت بهروزرسانی مدل هوش مصنوعی، آن را جیلبریک کنند.
روش “مسترکی” در واقع از نقاط قوت هوش مصنوعی علیه خودش بهره میبرد. مدلهای زبانی بزرگ هوش مصنوعی به یادگیری و سازگاری مشهور هستند. بنابراین، با استفاده از یک هوش مصنوعی دیگر، مدلی که مجموعهای از کلمات ممنوعه را برای جلوگیری از تولید محتوای ناخوشایند دارد، قابل دور زدن است. در این رویکرد، مدل دوم از چتبات هوش مصنوعی اول را برای غلبه بر کلمات ممنوعه استفاده میکند.
چتباتهای هوش مصنوعی در چند سال اخیر درحال پیشرفت بودهاند و این امر نیازمند بهروزرسانیهای مداوم امنیتی است. روش “مسترکی”، با بهرهگیری از هوش مصنوعی و یادگیری خودکار، میتواند برای توسعهدهندگان هوش مصنوعی به عنوان یک چالش مهم مطرح شود. استفاده نادرست از قابلیتهای هوش مصنوعی ممکن است مشکلات جدی ایجاد کند و پژوهش انجام شده میتواند به ایجاد راهحلهایی موثر برای مقابله با این چالشها کمک کند.