[ad_1]

در هوش مصنوعی ، توهم هنگامی اتفاق می افتد که یک LLM خروجی هایی را تولید کند که در واقع نادرست ، مزخرف یا کاملاً غیر مرتبط با وظیفه ای که به آن اختصاص داده شده است. توهمات مدتهاست که LLMS را به همراه دارد زیرا آنها سودمندی و اعتماد به نفس خود را کاهش می دهند و پیش بینی و درمان آن بسیار دشوار بوده اند. در مقاله ای که قرار است در سمپوزیوم امنیتی USENIX 2025 ارائه شود ، آنها پدیده “توهم بسته” را لقب داده اند.
برای این مطالعه ، محققان 30 تست ، 16 در زبان برنامه نویسی پایتون و 14 در JavaScript ، که 19،200 نمونه کد در هر آزمون تولید کردند ، برای کل 576،000 نمونه کد انجام دادند. از 2.23 میلیون مرجع بسته موجود در این نمونه ها ، 4404445 یا 19.7 درصد ، به بسته هایی که وجود نداشتند اشاره کردند. در میان این توهم 440،445 بسته ، 205،474 نام بسته های منحصر به فرد داشتند.
یکی از مواردی که باعث می شود توهم بسته ها به طور بالقوه در حملات زنجیره تأمین مفید باشد این است که 43 درصد توهم بسته ها بیش از 10 نمایش داده شده تکرار شده اند. محققان نوشتند: “علاوه بر این ،” 58 درصد از زمان ، یک بسته توهم بیش از یک بار در 10 تکرار تکرار می شود ، که نشان می دهد اکثر توهمات به سادگی خطاهای تصادفی نیستند ، بلکه یک پدیده تکرار شونده است که در طول تکرارهای متعدد ادامه می یابد. این قابل توجه است زیرا یک توهم مداوم برای بازیگران بدخلقی که به دنبال آن است ، می تواند از این روخایی باشد که به کار می رود و باعث می شود که از این آشکار سازند که در معرض خطر قرار می گیرد و این باعث می شوند
به عبارت دیگر ، بسیاری از توهمات بسته خطاهای یک طرفه تصادفی نیستند. در عوض ، نام های خاص بسته های غیر موجود بارها و بارها تکرار می شوند. مهاجمان می توانند با شناسایی بسته های غیر موجود که بارها و بارها توهم می شوند ، از این الگوی استفاده کنند. مهاجمان سپس با استفاده از آن نامها بدافزار را منتشر می کردند و منتظر می ماندند که توسط تعداد زیادی از توسعه دهندگان به آنها دسترسی پیدا کنند.
این مطالعه از نابرابری ها در LLMS و زبانهای برنامه نویسی که بیشترین توهم بسته را تولید می کردند ، کشف کرد. میانگین درصد توهم بسته های تولید شده توسط LLM های منبع باز مانند Codellama و Deepseek نزدیک به 22 درصد بود ، در حالی که در مقایسه با کمی بیشتر از 5 درصد توسط مدلهای تجاری. کد نوشته شده در پایتون منجر به توهم کمتری نسبت به کد JavaScript شد ، به طور متوسط تقریباً 16 درصد در مقایسه با کمی بیش از 21 درصد برای JavaScript. Spracklen در پاسخ به این سؤال که چه عواملی باعث ایجاد اختلافات شده است ، نوشت:
[ad_2]
منبع:arstechnica