当前位置:首页 > 财经新闻 > 大语言模型意识水平测评报告显示:DeepSeek-R1语义一致性表现较好

大语言模型意识水平测评报告显示:DeepSeek-R1语义一致性表现较好

2025年03月03日69346

  2月25日,记者从世界人工意识协会国际人工智能DIKWP测评标准委员会获悉,由该协会主导、全球10余个国家与地区的90多家机构和企业参与的《全球首个大语言模型意识水平“识商”白盒DIKWP测评2025报告(100题版)》(以下简称《报告》)日前出炉。

大语言模型意识水平测评报告显示:DeepSeek-R1语义一致性表现较好
图片来源于网络,如有侵权,请联系删除

  《报告》的核心亮点在于全球首创的意识水平测评体系。《报告》基于DIKWP模型,从数据、信息、知识、智慧、意图等方面,构建全链路评估体系。测试题全面覆盖大语言模型的感知与信息处理、知识构建与推理、智慧应用与问题解决、意图识别与调整四大模块,对主流大语言模型的意识水平进行系统化、量化深度剖析。

大语言模型意识水平测评报告显示:DeepSeek-R1语义一致性表现较好
图片来源于网络,如有侵权,请联系删除

  《报告》对当前主流的大语言模型进行了全面测评,包括DeepSeek-V3、ChatGPT-o1、通义千问-2.5、ChatGPT-4o、Kimi、文心大模型-3.5和Llama-3.1等。测评结果显示,不同模型在不同模块的表现各有千秋。

  例如,感知与信息处理部分主要考察模型在处理原始数据、提取信息和保持语义一致性方面的表现。ChatGPT-4o和ChatGPT-o1在数据转换和格式处理方面表现出色,体现出稳定性。ChatGPT-o3-mini、ChatGPT-o3-mini-high、通义千问-2.5、Kimi和Grok在信息提取方面表现优异,特别是在数据到信息转化路径上的表现尤为突出。DeepSeek-R1、ChatGPT-4o、Kimi和ChatGLM-4 Plus在保持语义一致性方面表现较好。

  知识构建与推理部分的测评考察模型将信息整合为知识的能力,以及逻辑推理能力。结果显示,通义千问-2.5、ChatGLM-4 Plus和ChatGPT-4o表现突出。

  意图识别与调整部分的测评重点考察模型对用户意图的理解能力,以及根据意图调整输出的能力。结果显示,豆包和Gemini-2.0 Flash Thinking Experimental表现较好,能够准确理解用户的问题并提供相关回答。 (记者王祝华)

【责任编辑:朱家齐】
    阅读下一篇:

              扫描二维码推送至手机访问。

              版权声明:本文由财界探秘发布,如需转载请注明出处。

              “大语言模型意识水平测评报告显示:DeepSeek-R1语义一致性表现较好” 的相关文章

              WTO新报告影射特朗普:贸易壁垒不是解决“红脖子”就业的正确方法

              WTO新报告影射特朗普:贸易壁垒不是解决“红脖子”就业的正确方法

                世贸组织(WTO)周一发表年度世界贸易报告,旗帜鲜明地捍卫国际贸易带来的好处,并警告“某些富裕国家”——挥舞关税大棒不仅会伤害地球上最贫困的国家,也不太可能给他们本国的就业带来好处。图片来源于网络,如有侵权,请联系删除 (来源:WTO)图片来源于网络,如有侵权,请联系删除   世贸组织秘书...

              央行12月末黄金储备7329万盎司 连续两个月扩大黄金储备

              央行12月末黄金储备7329万盎司 连续两个月扩大黄金储备

                中国人民1月7日发布数据,中国2024年12月末外汇储备32023.57亿美元,环比减少635.03亿美元;12月末黄金储备1913.4亿美元,共7329万盎司,连续两个月扩大黄金储备。图片来源于网络,如有侵权,请联系删除   外汇局解读   国家外汇管理局公布2024年12月末外汇储...

              openGauss四年蝶变 开放生态再结“硕果”

              openGauss四年蝶变 开放生态再结“硕果”

                在近期举办openGauss Summit 2024大会上,权威机构发布调查报告,在2024年线下集中式关系型数据库新增市场份额,openGauss系再创新高,达30.2%。图片来源于网络,如有侵权,请联系删除  数据库是支撑各类应用软件运行的基础,与操作系统并驾齐驱。中国数据库行业历经二十余年...

              看这座国家太空实验室有多不一般

              看这座国家太空实验室有多不一般

                人类,终将走出地球母亲的怀抱,投向无垠太空。图片来源于网络,如有侵权,请联系删除  在中国空间站全面建成两周年之际,中国载人航天工程办公室日前首次发布《中国空间站科学研究与应用进展报告》(2024年)(以下简称《报告》),对两年来中国空间站的科学研究与应用进展进行了系统性总结,集中回应社会各界对...

              10年期美债收益率突破4.7% 全球资产定价之锚为何“异常”飙升?

              10年期美债收益率突破4.7% 全球资产定价之锚为何“异常”飙升?

                在经济数据冲击下,美联储降息预期再度降温,美债持续遭遇抛售。图片来源于网络,如有侵权,请联系删除   美东时间1月7日,2年期美债收益率盘尾上涨2.7个基点,报4.297%。10年期美债收益率上涨6.1个基点至4.684%,盘中触及4.699%,创2024年4月26日以来最高。30年期美...

              收购格陵兰岛、拿下巴拿马运河、夺取加拿大 特朗普展现“扩张欲”引众怒

              收购格陵兰岛、拿下巴拿马运河、夺取加拿大 特朗普展现“扩张欲”引众怒

              图片来源于网络,如有侵权,请联系删除   美国候任总统特朗普不仅要求北约盟友提高军费,甚至还想要直接对它们下手。他在7日表示,美国因所谓“经济安全”“保护自由世界”等需要,必须要买下格陵兰岛,如果丹麦拒绝美国购买,丹麦出口美国的产品“关税会非常高”。他还说,不排除使用军事力量夺取格陵兰岛...