» مطالب » تکنولوژی » هوش مصنوعی » “اختراع محققان: غلبه بر محدودیت‌های ChatGPT و بارد با بهره‌مندی از مدل‌های هوش مصنوعی”

پژوهشگران با آموزش مدل‌های زبانی بزرگ، به‌طور اساسی توانستند روش‌هایی برای دورزدن محدودیت‌های چت‌بات‌های هوش مصنوعی را کشف کنند.

محققان دانشگاه نانیانگ سنگاپور روشی به نام “مسترکی” ابداع کرده‌اند که امکان جیلبریک چت‌بات‌های مشهور هوش مصنوعی مانند گوگل بارد، کوپایلوت، و ChatGPT را فراهم می‌کند. این روش از مهندسی معکوس بر روی مکانیسم‌های دفاعی مدل‌های زبانی بزرگ (LLM) استفاده می‌کند. با این رویکرد، اطلاعات ممنوعه از مدل‌های هوش مصنوعی استخراج می‌شود. محققان با ایجاد Masterkey، یک مدل دیگر را با داده‌های به‌دست‌آمده آموزش می‌دهند تا نحوه دورزدن محدودیت‌های اولیه را یاد بگیرد. این ابتکار به کاربران امکان می‌دهد تا حتی در صورت به‌روزرسانی مدل هوش مصنوعی، آن را جیلبریک کنند.

روش “مسترکی” در واقع از نقاط قوت هوش مصنوعی علیه خودش بهره می‌برد. مدل‌های زبانی بزرگ هوش مصنوعی به یادگیری و سازگاری مشهور هستند. بنابراین، با استفاده از یک هوش مصنوعی دیگر، مدلی که مجموعه‌ای از کلمات ممنوعه را برای جلوگیری از تولید محتوای ناخوشایند دارد، قابل دور زدن است. در این رویکرد، مدل دوم از چت‌بات هوش مصنوعی اول را برای غلبه بر کلمات ممنوعه استفاده می‌کند.

چت‌بات‌های هوش مصنوعی در چند سال اخیر درحال پیشرفت بوده‌اند و این امر نیازمند به‌روزرسانی‌های مداوم امنیتی است. روش “مسترکی”، با بهره‌گیری از هوش مصنوعی و یادگیری خودکار، می‌تواند برای توسعه‌دهندگان هوش مصنوعی به عنوان یک چالش مهم مطرح شود. استفاده نادرست از قابلیت‌های هوش مصنوعی ممکن است مشکلات جدی ایجاد کند و پژوهش انجام شده می‌تواند به ایجاد راه‌حل‌هایی موثر برای مقابله با این چالش‌ها کمک کند.