当前位置:首页 > 热点资讯 > 中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固

中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固

2024年04月27日54118

4月26日,在2024中关村论坛年会——数据安全治理与发展论坛上,中国科学院信工所研究员虎嵩林接受包括证券时报记者在内的媒体采访时指出,促使大模型遵循人类价值观、服从人类意图,规避各类风险,并保障数字和物理空间的应用安全,实现有用性、无害性和诚实性多目标的平衡,已经成为亟待解决的世界难题。需要在现有的技术条件下持续探索,通过“攻、检、防”,不断发现漏洞、自动识别并进行持续化的安全加固,形成一个循环发展的飞轮。

中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固
图片来源于网络,如有侵权,请联系删除

(中国科学院信工所研究员虎嵩林 郭博昊/摄)

当前,大模型正在成为驱动新质生产力发展的新动能、人类探索未知的新工具。“大模型不仅可以对话和生成视频、还可以调用工具、链接物理设备、并通过与机器人结合实现具身智能。大模型本身也正在从人类可利用的工具客体向认识、改造自然社会的主体转变。成为数学定理证明、科学研究的合作者,成为独立运营企业的法律主体。”虎嵩林指出。

在赋能新时代发展的同时,生成式人工智能也给全球带来了前所未有的安全风险。比如,数据方面,数据会带来价值偏见、隐私泄露、数据污染等问题:训练数据固有偏见导致模型产生偏见内容;海量训练数据扩大了数据安全和隐私保护风险。算法方面,算法模型生成特性及安全漏洞会引发“幻觉”或虚假信息、模型遭受攻击等风险。

虎嵩林表示,大模型能力的通用性、潜在的主体地位以及应用的深度与广度,也都将进一步放大其危害程度。包括两位图灵奖得主Hinton、Bengio和谷歌DeepMind和OpenAI的CEO在内的产学两界领军人物联名发出的AI风险声明中,更将AI可能带来的“毁灭性”的风险,上升到了与流行病以及核战争相提并论的高度。

2023年底《自然》杂志预测的2024年的重大科学事件中,GPT5的发布以及联合国人工智能高级别咨询机构将发布的AI监管相关报告位列其中,反映了全球对协调人工智能发展与安全的重大关切。

“毫无疑问,促使大模型遵循人类价值观、服从人类意图,规避各类风险,并保障数字和物理空间的应用安全,实现有用性、无害性和诚实性多目标的平衡,已经成为亟待解决的世界难题。”虎嵩林表示。

“大模型的安全风险主要体现在无害性(Harmless)和诚实性(Honest)两个方面。”虎嵩林表示,其中,有害信息对应前者,包括价值偏见,隐私泄露,还有黄赌毒、涉恐涉暴、仇恨、反讽、歧视、刻板印象等等各种信息污染;不实信息对应后者,包括虚假信息、伪造、欺诈内容等。

更广义地讲,也包括由输出信息所直接导致的各类不安全的指令调用、智能体或者具身智能机器人的恶意行为等。而算法模型生成特性及安全漏洞会引发“幻觉”,则是一把“双刃剑”,既有可能是导致有害、不实信息的“元凶”,也有可能是科学创新、艺术创意的能力来源。

需要看到,生成式大模型特有的预训练、微调、上下文、提示等新的学习范式,使其安全具有了与传统AI安全不同的许多新特点,面临诸多新挑战,制约了传统安全方法、经验、工具在大模型安全领域发挥效能。

大模型安全风险的成因既可以是来自各类训练数据的缺陷或算法的局限性等模型内因,也可以是利用这些新型学习范式的恶意使用或蓄意攻击等外因。这使得大模型在数据准备、预训练、微调对齐、推理以及应用阶段都会存在各种潜在的风险。尽管目前我们在安全理论、大模型安全评测、自动化测试、价值观对齐、幻觉缓解等方面都开展了一系列的研究和应用工作,这些领域依然充满了挑战。

“当下,从理论上,或者说技术上,大模型安全还有很多亟待解决的难题。”虎嵩林坦言,我们对大模型“智能涌现”的原理还所知甚少,对上下文学习、提示学习、思维链等能力的内在机理仍严重缺乏认知。一些研究工作也证明AI的安全性无法完全保障,对任意一个对齐模型总存在一定长度的提示可以将之攻破等,这都极大地制约我们从原理上认识和防御大模型的安全风险。

“我们需要在现有的技术条件下持续探索,这也是我们设计‘以攻促防、攻防相长’思路,研制Galexy(星河)大模型安全测评平台的原因,也是举办首届生成式人工智能安全大赛的初衷。”虎嵩林表示,我们希望通过“攻、检、防”,不断发现漏洞、自动识别并进行持续化的安全加固,形成一个循环发展的飞轮。

校对:祝甜婷

扫描二维码推送至手机访问。

版权声明:本文由财界探秘发布,如需转载请注明出处。

“中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固” 的相关文章

大买逾180亿,

大买逾180亿,"国家队"动向曝光!

随着公募基金2023年年报披露,中央汇金投资有限责任公司(下称“汇金公司”)去年四季度借道ETF托市的操作细节,终于水落石出。图片来源于网络,如有侵权,请联系删除 从截至3月30日披露的年报数据来看,汇金公司去年大举增持宽基ETF,包括华夏上证50ETF、易方达沪深300ETF在内的5只“巨无霸”...

公募一季度成绩单来了!最高收益超25%,累计分红487亿元

公募一季度成绩单来了!最高收益超25%,累计分红487亿元

2024年一季度已落下帷幕,公募基金也交出了成绩单。图片来源于网络,如有侵权,请联系删除 一季度共有294只基金成立,发行规模2433.98亿元,发行规模较去年同期小幅缩水。公募基金在一季度大撒“红包雨”,累计分红总额487.2亿元。图片来源于网络,如有侵权,请联系删除 此外,市场震荡之下,超过...

跃赛生物完成超亿元A轮融资 助力临床试验与新管线研发

跃赛生物完成超亿元A轮融资 助力临床试验与新管线研发

近日,跃赛生物宣布完成超亿元A轮融资,本轮融资由天士力和国内头部基金联合领投,浦东创投跟投。昆仑资本于2021年8月投资了跃赛生物,并于2022年3月持续加码投资。图片来源于网络,如有侵权,请联系删除 自2021年创立以来,跃赛生物一直致力于开发新一代基于人多能干细胞技术的细胞治疗药物,在研管线覆...

沪铜期货4月9日主力小幅上涨0.95% 收报76130.0元

沪铜期货4月9日主力小幅上涨0.95% 收报76130.0元

沪铜期货盘面情况:4月9日,沪铜期货主力合约收涨0.95%至76130.0元,当日最高价报76850.0元,最低价报75850.0元,持仓量:+14995手至195142手。图片来源于网络,如有侵权,请联系删除 沪铜期货实时行情 更新时间:---- 最新价图片来源于网络...

退市规则升级 加大对“害群之马”出清力度

退市规则升级 加大对“害群之马”出清力度

证券时报记者 程丹图片来源于网络,如有侵权,请联系删除 4月12日,证监会发布了《关于严格执行退市制度的意见》,通过严格退市标准,加大对“僵尸空壳”和“害群之马”出清力度,削减“壳”资源价值;同时,拓宽多元退出渠道,加强退市公司投资者保护。图片来源于网络,如有侵权,请联系删除 证监会上市公司监管...

海南大学国际商学院副院长童泽林:消费与产业双升级下,如何把握机遇?

海南大学国际商学院副院长童泽林:消费与产业双升级下,如何把握机遇?

4月16日,由《国际金融报》主办的“海南机遇:投资与消费大会”在海口举行。图片来源于网络,如有侵权,请联系删除 此次大会汇聚众多业界精英,共话消费升级新趋势。海南大学国际商学院副院长、海南大学品牌研究院院长童泽林就消费升级与产业升级的互动,在大会上发表了主旨演讲。图片来源于网络,如有侵权,请联系删...