当前位置：网站首页 AI教程资讯正文

面对基础逻辑陷阱，“数字风洞”大模型竞技场有何表现？

来源：互联网发布时间：2025-05-25

前不久，网络热门话题“13.11%和13.8%究竟哪个大”引发网友关注，有媒体就这一问题向部分知名问答大模型发起提问，结果发现这些大模型多数都无法正确回答。随后有报道称，“一道小学生难度的数学题竟然难倒了一众海内外AI大模型。”关于大模型对数字小数部分识别混淆的问题，业内早有关注，其本质原因并非是在数学计算方面遇到了困难，而是因“分词器”拆解错误和大模型技术架构使然，导致在审题时陷入了误区。除了数学类问题之外，包括在复杂字母图形的识别，复杂语句的梳理等场景下也都存在类似逻辑推理能力缺陷问题。对此现象，永信至诚智能永信团队在AI大模型安全测评“数字风洞”平台的大模型竞技场中，详细展示了相关技术原理。

大模型分词器原理结合这一技术原理，该团队对阿里通义千问、百度千帆大模型、腾讯混元大模型、字节豆包大模型、360智脑等17个大模型产品开展同场横向对比，通过基础逻辑陷阱类问题，对各家大模型的表现进行测评。测评结果显示，除了基础设施安全、内容安全、数据与应用安全等领域外，大模型底层架构中还存在一些如“分词器”这样易被忽略的设计单元，这些设计单元的错误输出会影响到整个大模型的可靠性和安全性。这也说明大模型的的发展需要伴随持续的检测和改进。据介绍，“数字风洞”平台已将“大模型竞技场”功能面向体验用户开放，为大模型开发团队提供横向对比测评的功能，帮助快速检测不同大模型在数学计算、请求代码文档等场景下的回答，以便开发者选择使用开源基座模型进行开发ai应用、Agent或进行训练改进时，更直观对比不同大模型的异常反馈情况，便捷地开展大模型产品选型工作。

相关信息

面对基础逻辑陷阱，“数字风洞”大模型竞技场有何表现？前不久，网络热门话题“13 11%和13 8%究竟哪个大”引发网友关注，有媒体就这一问题向部分知名问答大模型发起提问，结果发现这些大模型多数都无法正确回答。随后有报道称，“一道小学生难度的数学题竟然难倒了一众海
AI教程资讯 05-25
作者联合抵制番茄小说“AI协议” AI大爆发之时，曾有人调侃称“我们希望机器人帮人类扫地、洗碗，是因为人类要去写诗、画画。现在是AI都去写诗、画画，我们人类还在扫地、洗碗。”如今正在变成事实。近日，不少网文作者发帖称，番茄小说签约协议
AI教程资讯 05-25
“推理式AI”向“生成式AI”，人手一个的AI是如何诞生的 2023年是AI大语言模型爆发的一年，以OpenAI推出的GPT大模型为起始，整个行业开始从“推理式AI”向“生成式AI”迈进。据Market Data Forecast预测，全球AI市场规模将从2023年的1502亿美元增长到2030年的13452亿美元，
AI教程资讯 05-25

推荐AI教程资讯

小编推荐 +

笔魂AI绘画

类型：AI工具浏览器
查看
Openart

类型：AI工具浏览器
查看
PaperPass论文查重系统

类型：AI工具浏览器
查看
DragGAN(GitHub)

类型：AI工具浏览器
查看
PaperPro

类型：AI工具浏览器
查看

近期热点 +

AI教程资讯周排行 +

05-25

面对基础逻辑陷阱，“数字风洞”大模型竞技场有何表现？前不久，网络热门话题“13 11%和13 8%究竟哪个大”引发网友关注，有媒体就这一问题向部分知名问答大模型发起提问，结果发现这些大模型多数都无法正确回答。随后有报道称，“一道小学生难度的数学题竟然难倒了一众海
05-25

作者联合抵制番茄小说“AI协议” AI大爆发之时，曾有人调侃称“我们希望机器人帮人类扫地、洗碗，是因为人类要去写诗、画画。现在是AI都去写诗、画画，我们人类还在扫地、洗碗。”如今正在变成事实。近日，不少网文作者发帖称，番茄小说签约协议
05-25

“推理式AI”向“生成式AI”，人手一个的AI是如何诞生的 2023年是AI大语言模型爆发的一年，以OpenAI推出的GPT大模型为起始，整个行业开始从“推理式AI”向“生成式AI”迈进。据Market Data Forecast预测，全球AI市场规模将从2023年的1502亿美元增长到2030年的13452亿美元，
05-25

法国用AI视频监控加强奥运安保据《科学美国人》月刊网站7月19日报道，2024年巴黎奥运会吸引全世界的目光，数以千计的运动员和支持人员以及来自全球各地的数以十万计的游客汇聚法国。不仅仅是全世界的目光都被吸引，人工智能（AI）系统也将密切
05-25

AI手机卷起价格战，最低不到2000元 AI概念的火爆，让沉寂许久的手机圈迎来了新的爆发点，各路玩家纷纷将当家花旦大模型装进手机端，国内头部电信运营商也圈地入场。 7月18日，中国电信推出了旗下首款AI手机麦芒305G，首次搭载中国电信星辰大模型。