AI实验室Andon Labs最新研究显示，搭载顶级大模型的AI扫地机器人在简单家务任务中表现欠佳，多项任务翻车，成功率远低于人类，如在执行“把黄油递给人”这一包含跨房间定位、区分包装、寻找移动位置的人类、完成交付并返回充电等多步骤指令时，Gemini 2.5 Pro成功率仅40%，Claude Opus 4.1为37%，GPT - 5为30%。研究指出大模型在空间推理、环境理解、长期任务规划等方面存在明显短板，同时研究团队强调除娱乐外还有严肃隐患，某些机器人会被诱导泄露机密文件，部分机型无法识别楼梯风险而从高处跌落，暴露了当前大型语言模型（LLM）与机器结合的安全漏洞。在资本大举押注机器人时代的当下，该研究提醒人们强大的文本生成能力不代表能在物理世界稳定、安全地执行任务，AI机器人真正进入家庭仍有大量工程与安全问题待解决。 -FXBus

快讯 > 快讯详情

2025-11-02 23:51:06

AI实验室Andon Labs最新研究显示，搭载顶级大模型的AI扫地机器人在简单家务任务中表现欠佳，多项任务翻车，成功率远低于人类，如在执行“把黄油递给人”这一包含跨房间定位、区分包装、寻找移动位置的人类、完成交付并返回充电等多步骤指令时，Gemini 2.5 Pro成功率仅40%，Claude Opus 4.1为37%，GPT - 5为30%。研究指出大模型在空间推理、环境理解、长期任务规划等方面存在明显短板，同时研究团队强调除娱乐外还有严肃隐患，某些机器人会被诱导泄露机密文件，部分机型无法识别楼梯风险而从高处跌落，暴露了当前大型语言模型（LLM）与机器结合的安全漏洞。在资本大举押注机器人时代的当下，该研究提醒人们强大的文本生成能力不代表能在物理世界稳定、安全地执行任务，AI机器人真正进入家庭仍有大量工程与安全问题待解决。

品种	现价	涨跌
现货黄金 XAU	4009.13	6.19 (0.15%)
现货白银 XAG	48.173	-0.482 (-0.99%)
WTI原油 CONC	61.00	0.02 (0.03%)
布伦特原油 OILC	64.81	0.17 (0.27%)
美元指数 USD	99.852	0.147 (0.15%)
欧元美元 EURUSD	1.1521	-0.0015 (-0.13%)
英镑美元 GBPUSD	1.3139	-0.0008 (-0.06%)
离岸人民币 USDCNH	7.1259	0.0050 (0.07%)

品种

现价

涨跌

现货黄金

XAU

4009.13

6.19

(0.15%)

现货白银

XAG

48.173

-0.482

(-0.99%)

WTI原油

CONC

61.00

0.02

(0.03%)

布伦特原油

OILC

64.81

0.17

(0.27%)

美元指数

USD

99.852

0.147

(0.15%)

欧元美元

EURUSD

1.1521

-0.0015

(-0.13%)

英镑美元

GBPUSD

1.3139

-0.0008

(-0.06%)

离岸人民币

USDCNH

7.1259

0.0050

(0.07%)

APP下载

热门商品实时行情

热门资讯