您所在的位置: 首页 >> 学术活动 >> 正文

学术活动

人工智能系列讲座
发布时间:2025-04-24     浏览量:   分享到:

报告一题目:多模态大语言模型中的越狱攻击

报告地点44118太阳成城官方网长安校区文津楼3425报告厅

报告时间:2025年4月25日(周五)15:00

报告人:董长宇 教授

报告摘要:多模态大语言模型弥合了视觉数据与文本数据之间的鸿沟,使得多种高级应用成为可能。然而,视觉元素之间复杂的内部交互及其与文本的对齐,可能带来安全漏洞,从而被利用以绕过安全机制。基于这一发现,我们提出了分心假说(Distraction Hypothesis),并进一步设计了一个新的针对多模态大语言模型的越狱攻击(Contrasting Subimage Distraction Jailbreaking,简称 CS-DJ),通过多层次的干扰策略,破坏MLLMs 的对齐机制,从而实现越狱攻击。在五种典型场景和四个主流闭源多模态大语言模型(包括GPT-4o-mini、GPT-40、GPT-4V和 Gemini-1.5-Flash)上的广泛实验表明,CS-DJ在攻击成功率上平均达到52.40%而集成攻击成功率更高达74.10%。这些结果揭示了基于干扰的攻击方法在绕过 MLLMs防御机制方面的潜力,并为攻击策略提供了新的思路。本工作入选CVPR 2025 Highlight论文。

报告人介绍:董长宇,教授,博士生导师,广州大学人工智能研究院副院长,英国纽卡斯尔大学访问教授,国家重大人才工程海外高层次人才引进计划入选者。博士毕业于伦敦帝国理工学院,曾在英国思克莱德大学、纽卡斯尔大学担任教职,并任英国阿兰图灵研究所图灵学者。主要研究领域为大数据安全隐私计算,包括实用安全多方计算、分布式差分隐私机制、人工智能安全、云计算数据隐私、区块链的隐私安全等研究方向。在上述研究方向主持承担了多个项目及课题,包括英国EPSRC资助项目"实用数据密集型安全计算”、“恶意样本防御方法”、“可问责云计算”,及国家自然基金项目“多方机器学习中推理攻击与防御研究"。在相关研究领域发表高水平论文80余篇,包括安全顶会ACM CCS、USENIX Security、NDSS以及CCF推荐的A类期刊IEEE TDSC/TIFS/TPDS/TKDE等,三篇论文获得国际学术会议最佳论文奖。担任过英国及欧盟多个国家基金项目评审专家及多个国际学术会议程序委员会主席和期刊编委。