1. 首页
  2. 知识

腾讯开源网页视觉找茬评测DiffSpot,最强模型漏判六成微小CSS改动

OKX欧易app

OKX欧易app

欧易交易所app是全球排名第一的虚拟货币交易所,注册领取6万元盲盒礼包!

APP下载   官网注册

据动察 Beating 监测,腾讯在 Hugging Face 放出网页视觉差异评测集 DiffSpot,用来测试多模态大模型能不能看出网页界面里的细小变化。它不是让模型看两张明显不同的图,而是在 HTML 页面里只改一个目标元素的 CSS 属性,再让模型判断哪里变了。 DiffSpot 共包含 4400 对网页截图,其中 3900 对存在真实变化,覆盖 13 类 CSS 修改和 3 档难度;另有 500 对完全相同的截图,用来测试模型会不会无中生有。数据集只保留像素变化落在目标元素内部的样本,减少标注噪声。 结果并不好看。13 款前沿 VLM 零样本测试中,表现最好的 Gemini 3.1 Pro 综合准确率也只有 47.2%,对真实变化的召回率为 40.7%,约六成变化被漏掉。困难档任务里,所有模型召回率都低于 23%。 开源模型里,Kimi K2.5 综合准确率 42.2%,高于 GPT-5.4 的 38.3% 和 Claude Opus 4.7 的 38.9%。Qwen3.5-VL-397B 以 37.6% 位列开源第二。 DiffSpot 还暴露了一个更细的问题:变化大不等于更容易被看见。不同 CSS 属性下,像素变化量和 CLIP 特征距离都不能稳定预测模型召回率。部分模型则走向过度保守,比如 Qwen3-VL-235B-Instruct 在无变化控制组中达到 100.0% 零误判,但真实变化召回率只有 5.1%。

OKX欧易app

OKX欧易app

欧易交易所app是全球排名第一的虚拟货币交易所,注册领取6万元盲盒礼包!

APP下载   官网注册
相关文章
  • 火星财经消息,据 Coinbase 最新季度财报披露,此前曝光的用户数据泄露事件最终造成 3.07 亿美元损失。Q2 整体表现如下: · 净利润达 14.3 亿美元,远超去年同期的 3600 万

    2025-08-01 08:56:02
  • 火星财经消息,3 月 15 日,据卡塔尔半岛电视台 15 日报道,对于美国总统特朗普日前发文呼吁多国派遣军舰在霍尔木兹海峡护航一事,法国、日本、韩国、英国四国作出回应。据半岛电视台报道,法国方面

    2026-03-15 16:58:34
  • 火星财经消息,9 月 16 日,据官方消息,DOGE 财库公司 CleanCore 宣布额外购入 1 亿枚 DOGE,将数字资产财库规模扩大至超 6 亿枚 DOGE。

    2025-09-16 20:55:10
  • 火星财经消息,据 Decrypt 报道,Pump.fun 前高级开发人员 Jarett Dunn 因违反保释条件,目前被关押在伦敦监狱候审。 这位加拿大籍开发者此前承认滥用职权诈骗以及转移犯罪

    2025-07-18 18:35:01
  • 文章探讨商业航天的发展历程与未来方向,聚焦可复用火箭技术的竞争,分析SpaceX的成功路径及其背后的美式产业政策支持,同时对比中国商业航天的追赶态势,强调低轨星座、运力竞赛和AI在深空探索中的关键作用,指出人类正处在从政治驱动向商业与技术融合驱动的航天新阶段。
    2026-01-04
  • Coinbase与Better Home & Finance合作推出房利美支持的比特币抵押贷款,允许用户以比特币或USDC作为首付款抵押品,避免出售资产、资本利得税及丧失市场敞口,产品合规且无追加保证金要求,旨在解决‘资产充裕、现金不足’的购房障碍。
    2026-03-27
  • 火星财经消息,据金十报道,在对美国下月降息的预期逐渐消退的支撑下,金价延续此前三日的下跌。周二盘初,现货黄金在 4,040 美元/盎司附近进行交投。交易员和政策制定者正在等待大量数据出炉,几位美

    2025-11-18 07:49:01
  • 火星财经消息,据 cryptonews 报道,金融服务提供商 Vyberu 开展的一项新调查显示,超过五分之一的俄罗斯受访者曾交易或持有 Meme 币。调查对象为 3,000 名年龄在 18 至

    2025-01-28 16:17:24
OKX欧易app

OKX欧易app

欧易交易所app是全球排名第一的虚拟货币交易所,注册领取6万元盲盒礼包!

APP下载   官网注册