研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容天门市某某信息技术教育中心便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功天门市某某信息技术教育中心实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:知识)
-
11月28日,北京青年报记者从北京保障房中心获悉,近期该中心所属的燕兴投资公司启动金科嘉苑公租房项目燃气灶集中更换工作,822户使用年限满8年的承租家庭全部免费更换全新燃气灶。据介绍,金科嘉苑坐落于大
...[详细]
-
原标题:看看天舟八号货运飞船这些“超能力”)
...[详细]
-
中国无人机蜂群作战系统曝光 来源:视频综合) 中国航展上,中国蜂群2号陆战车首次亮相。单辆车可装载发射48架固定翼无人机,每架无人机都可以搭载光电侦察、打击弹药等多样化载荷,且可以任意组合,
...[详细]
-
近期,体彩7星彩一等奖连续空开,奖池水涨船高超3亿元。根据规则,在7星彩奖池超过3亿元的情况下,一、二等奖奖金分配比例倒置,在一等奖奖金成色有保障的同时,二等奖奖金含量将大大提升。奖池的高企,引起了购
...[详细]
-
有这四种表现,你可能得了“暖气病”2025-12-03 07:59:35 来源:国家应急广播微信公众号 作者
...[详细]
-
货车司机儿子质疑劳斯莱斯车主立人设博流量,对方一周涨粉超百万
近日,广州海珠区一货车撞上劳斯莱斯事件引发持续关注,随着事件发酵,不少网友质疑该事件为“剧本”摆拍。11月14日,货车司机的儿子李云起化名)介绍,目前劳斯莱斯车主又要求走保险理赔,自己的父亲也同意。事
...[详细]
-
来源:财联社 《科创板日报》11月16日讯 当地时间下周三11月20日),英伟达即将披露三季度财报,这也将是其纳入道指之后的第一份财报。 根据分析师预期综合统计结果显示: 英伟达Q3有望实现
...[详细]
-
△基辅资料图) 据总台记者消息,当地时间11月17日,乌克兰基辅传出爆炸声。总台记者 王晋燕)
...[详细]
-
日本在与中国台湾邻近的西南诸岛部署进攻性武器,刻意制造地区紧张,挑动军事对立。中国国防部11月27日正告日方,解放军有强大的能力、可靠的手段打败一切来犯之敌,日方胆敢越雷池半步给自己招事惹事,必将
...[详细]
-
如何培养孩子成为时间管理“小能手”2024-10-14 14:50:45 来源:北京青年报 作者:刘阳禾
...[详细]

多名日本艺人在华演出中止
以总理内塔尼亚胡位于凯撒利亚的住宅遭炸弹袭击
网传“北流市教育局局长酒驾、患艾滋病”?广西辟谣