趣看热点

这项由上海AI实验室、浙江大学、中国科学技术大学深圳分校等机构联合完成的突破性研究发表于2025年9月，论文编号为arXiv:2509.24709。研究团队包括陈阳、刘明浩、沈雨帆等多位来自不同院校的研究者，项目由上海AI实验室的沈雨帆教授领导。有兴趣深入了解的读者可以通过该论文编号查询完整论文内容。

当我们浏览网页时，看到精美的界面、流畅的动画效果和各种交互功能，很少有人会想到这背后需要大量的代码来支撑。传统上，要让AI学会制作网页，研究者们通常只给它看静态的截图，然后让它生成对应的代码。这就像让一个人仅凭一张照片就要画出整幅画作一样，缺少了很多重要信息。

然而，真实的网页远比静态截图复杂得多。当用户点击按钮时页面会发生变化，当鼠标悬停在某个区域时会出现新的内容，当用户填写表单时系统会给出相应反馈。这些动态的交互过程包含了网页运作的核心逻辑，但在传统的AI训练方法中却被完全忽略了。

正是在这样的背景下，研究团队提出了一个革命性的想法：为什么不让AI观看完整的用户操作视频，就像人类学习使用软件一样，通过观察整个交互过程来理解网页的工作原理呢？

为了验证这个想法，研究团队开发了名为IWR-Bench的全新评测基准。这个基准的核心理念可以用一个简单的比喻来理解：如果说传统方法是让AI通过看房屋照片来设计建筑图纸，那么新方法就是让AI观看整个房屋的使用过程——看到人们如何开门、如何使用各个房间、如何操作各种设施，然后根据这些观察来重新构建出完全相同的房屋。

一、从静态截图到动态视频：AI网页理解的全新维度

传统的网页代码生成任务就像让一位厨师仅凭成品菜肴的照片来还原整道菜的制作过程。厨师能够看到最终的摆盘效果，也许能猜出一些基本食材，但对于具体的烹饪步骤、调料的添加时机、火候的控制等关键信息却一无所知。同样地，现有的AI模型虽然能够根据网页截图生成基本的页面布局，但对于用户点击按钮后会发生什么、表单提交后如何处理数据、动画效果如何实现等交互逻辑却无从得知。

研究团队发现，这种局限性源于一个根本问题：静态截图无法传达网页的时间维度信息。网页不是一幅静止的画作，而是一个动态的系统，它会根据用户的操作产生相应的变化。这些变化过程中蕴含着网页功能实现的核心逻辑，也是用户体验的关键所在。

为了解决这个问题，研究团队提出了交互式网页重建这一全新任务。这项任务要求AI模型不仅要看懂网页的外观，更要理解网页的行为模式。就像学习驾驶汽车一样，仅仅知道汽车的外观是不够的，还必须了解如何操作方向盘、如何踩刹车、如何变速等具体的驾驶技能。

在这个新任务中，AI模型接收的输入包括两个关键部分：首先是一段用户操作视频，记录了用户与网页交互的完整过程，包括点击、输入、滚动等各种操作以及页面的相应变化；其次是网页使用的所有静态资源，如图片、图标、字体等文件。有了这些完整的信息，AI就能像人类一样通过观察和学习来理解网页的工作原理。

这种方法的创新性在于它模拟了人类学习新软件的自然过程。当我们第一次使用某个应用程序时，通常会先观察其他人的操作演示，然后自己动手尝试。通过这种观察和实践的结合，我们逐渐掌握了软件的功能和使用方法。研究团队正是希望让AI也能具备这种学习能力。

二、精心构建的评测基准：真实世界的网页挑战

为了全面评估AI在交互式网页重建任务上的表现，研究团队花费了大量精力构建了IWR-Bench评测基准。这个基准的构建过程就像策划一场全面的技能考试，需要覆盖各种难度等级和应用场景，确保能够准确反映AI的真实能力水平。

整个基准包含113个精心挑选的任务，这些任务全部来源于真实的网站，涵盖了从简单的博客浏览到复杂的在线游戏等各种应用场景。为了确保评测的全面性，研究团队建立了一套三维分类体系，就像为这些任务建立了一个立体的分类档案。

在交互复杂度维度上，任务被分为四个等级。最简单的L1级别类似于阅读一篇长文章，主要涉及页面滚动等基本操作。L2级别增加了简单的状态管理，比如在电商网站上筛选商品或切换页面标签，就像操作一个简单的遥控器。L3级别涉及多步骤的复杂工作流程，例如完成一个多页面的订票流程，需要在不同的组件之间传递信息。最高的L4级别则要求实现复杂的算法逻辑，比如重建一个完整的在线游戏，这就像要求AI理解并实现一套完整的游戏规则。

在视觉复杂度维度上，任务同样分为四个等级。V1级别是极简的单栏或双栏布局，类似于简洁的文档页面。V2级别采用标准的网格布局，就像整齐排列的商品展示页面。V3级别包含现代化的非对称设计，具有重叠元素和复杂的视觉效果。V4级别则是信息密集的仪表板界面，包含大量图表、表格和数据卡片。

在应用领域维度上，基准涵盖了五个主要类别：商务服务类（如电商平台、预订系统）、知识教育类（如学术网站、新闻门户）、生产力工具类（如计算器、项目管理面板）、娱乐媒体类（如游戏、流媒体平台）以及生活社区类（如社交论坛、个人博客）。这种分类确保了AI模型需要面对各种不同的功能需求和视觉风格。

数据收集过程同样经过精心设计。研究团队首先由专业的网页开发人员从真实网站中选择了200个候选任务，然后通过严格的筛选和平衡过程，最终确定了113个高质量的任务。对于每个任务，团队都录制了完整的用户操作视频，同时收集了所有相关的静态资源文件。

特别值得注意的是，为了防止AI模型利用文件名中的语义信息作弊，研究团队将所有资源文件重命名为随机的编号，比如将"logo.png"改名为"asset001.png"。这就像在考试中要求学生仅凭图片内容而非图片标题来识别物体，确保了评测的公平性和准确性。

每个任务还包含详细的操作轨迹注释，记录了每一步操作的类型、参数、自然语言描述以及相应的验证条件。这些注释就像是标准答案，为后续的自动化评测提供了可靠的参考依据。

三、智能评测系统：像人类专家一样判断网页质量

评估AI生成的网页质量是一个极具挑战性的任务，就像评判一道菜的味道一样，需要从多个维度进行综合考量。传统的评测方法往往只能检查代码的语法正确性或页面的像素级相似度，但这远远不够。一个真正优秀的网页不仅要外观精美，更要功能完备、交互流畅。

为了解决这个难题，研究团队开发了一套创新的"智能评委"系统，这个系统能够像人类专家一样从功能性和美观性两个角度全面评估网页质量。

在功能性评估方面，系统采用了程序化交互测试的方法。就像汽车出厂前需要进行路试一样，每个AI生成的网页都要接受一系列标准化的操作测试。系统会按照预先定义的操作序列，在生成的网页上执行点击、输入、滚动等各种操作，然后检查页面是否产生了预期的反应。

这个过程就像是让一个虚拟用户按照剧本在网页上进行操作，每一步都有明确的预期结果。如果某个按钮应该在点击后显示一个弹窗，系统就会检查弹窗是否确实出现了。如果某个表单应该在提交后显示成功消息，系统就会验证这个消息是否正确显示。

为了确保评测的准确性，研究团队还引入了逻辑断言验证机制。这就像是在每个关键步骤设置检查点，不仅要看操作是否能够执行，还要验证执行结果是否符合预期。例如，在一个计算器应用中，不仅要检查数字按钮是否可以点击，还要验证计算结果是否正确。

在美观性评估方面，系统采用了多层次的视觉质量分析方法。首先是低层次的特征比较，包括文本内容的相似度分析和视觉结构的对比。文本相似度分析使用了先进的光学字符识别技术，能够提取页面中的所有文本内容，然后计算与参考页面的相似程度。视觉结构分析则使用了深度学习的特征提取技术，能够理解页面的布局、颜色分布、元素排列等视觉特征。

除了这些技术指标，系统还引入了高层次的语义评估。这部分由一个大型多模态语言模型担任"专家评委"，它能够像人类设计师一样从整体效果、用户体验、视觉和谐性等角度对页面进行综合评价。这个AI评委接受过大量高质量网页设计案例的训练，具备了较强的审美判断能力。

最终的评分系统结合了功能性分数和美观性分数，形成一个综合的质量评价。功能性分数反映了网页的实用性和交互正确性，美观性分数反映了页面的视觉质量和用户体验。两个分数按照一定权重组合，得出最终的综合评分。

这套评测系统的另一个重要特点是其高度的自动化程度。整个评测过程无需人工干预，能够快速处理大量的测试案例，这为大规模的模型比较研究提供了可能。同时，系统还具备良好的可重现性，相同的输入总是能够得到相同的评测结果，确保了研究结果的可靠性。

四、28个顶级AI模型的全面较量：现实与理想的巨大差距

研究团队对28个当前最先进的大型视觉语言模型进行了全面测试，这场测试就像是一次顶级厨师的厨艺大赛，参赛者包括了来自不同公司和研究机构的明星AI模型。测试结果揭示了一个令人深思的现实：即使是最强大的AI模型，在这项任务上的表现也远未达到理想水平。

在所有参测模型中，表现最好的是OpenAI的GPT-5，获得了36.35分的综合评分。这个分数虽然在所有模型中排名第一，但距离满分100分还有很大差距，就像一个学生在满分100分的考试中只考了36分一样。紧随其后的是Anthropic公司的Claude-Sonnet-4思维增强版，得分为34.62分，以及字节跳动的Doubao-seed-1.6，得分为34.02分。

更令人担忧的是功能性和美观性之间的巨大差距。以表现最好的GPT-5为例，它在视觉美观性方面得到了64.25分，这表明它已经能够较好地重现网页的外观效果，生成的页面在视觉上与原始网页有一定程度的相似性。然而，在功能性方面，它只得到了24.39分，这意味着生成的网页中大部分交互功能都无法正常工作。

这种差距就像是制作了一个外观精美的汽车模型，看起来几乎和真车一模一样，但是引擎无法启动、方向盘不能转动、刹车也不起作用。用户虽然能够欣赏到美观的界面设计，但却无法进行任何有意义的交互操作。

开源模型的表现相对较弱，其中表现最好的是阿里云的Qwen3-VL思维增强版，得分为31.15分。大部分开源模型的综合得分都在20分以下，这反映了开源社区在这一领域与商业模型之间仍存在较大差距。

特别引人注意的是，专门针对视频理解任务优化的模型表现反而不如通用的多模态模型。例如，VideoLLaMA3-7B和InternVideo-2.5-Chat-8B这两个视频专用模型的得分分别只有13.67分和10.07分。这个现象表明，仅仅具备视频理解能力是不够的，要完成交互式网页重建任务，模型还需要具备强大的代码生成能力、逻辑推理能力和多模态信息整合能力。

研究团队还发现了一个有趣的现象：配备"思维链"功能的模型版本普遍比基础版本表现更好。例如，Claude-Sonnet-4的思维增强版得分为34.62分，而基础版只有34.00分；Gemini-2.5-Pro的思维增强版得分为30.36分，基础版为30.31分。这种改进虽然存在但并不显著，说明仅仅增加推理步骤并不能从根本上解决问题。

从任务难度角度分析，研究团队发现所有模型在处理静态内容时表现相对较好，但一旦涉及交互逻辑就会出现明显的性能下降。在最简单的L1级别任务（主要是页面滚动）中，GPT-5能够达到61.85分，但在最复杂的L4级别任务（算法逻辑实现）中，得分骤降至25.26分。这种下降趋势在所有模型中都非常明显，表明当前的AI技术在理解和实现复杂交互逻辑方面还存在根本性的不足。

视觉复杂度对模型性能的影响相对较小，但仍然可以观察到一定的规律。大多数模型在处理极简布局时表现最好，随着视觉复杂度的增加，性能会有所下降，但下降幅度远小于交互复杂度带来的影响。

五、深入剖析：AI在网页重建中的核心挑战

通过对实验结果的深入分析，研究团队识别出了当前AI模型在交互式网页重建任务中面临的几个关键挑战，这些挑战就像是阻碍AI进步的几座大山，需要逐一攻克。

首要挑战是时间序列理解能力的不足。网页交互本质上是一个时间驱动的过程，用户的每个操作都会在特定时刻触发特定的响应，而这些响应之间往往存在复杂的依赖关系。现有的AI模型虽然能够处理视频输入，但大多数模型对于时间维度信息的理解还停留在较为浅层的水平。

这就像让一个人观看一段舞蹈视频后要求其编写舞蹈教程一样。观看者可能能够描述舞者的动作和姿态，但要准确把握每个动作的时机、动作之间的连接方式以及整体的节奏感，则需要更深层次的理解能力。同样地，AI模型需要不仅仅是"看到"用户点击了按钮，还要理解这个点击动作的时机、它与前后操作的关系，以及它应该触发什么样的响应。

第二个挑战是状态管理逻辑的复杂性。现代网页应用通常维护着复杂的内部状态，这些状态会根据用户操作动态变化，并影响页面的显示和行为。例如，在一个购物车应用中，添加商品会改变商品数量状态，这个状态变化会同时影响购物车图标上的数字显示、总价计算以及结算按钮的可用性。

当前的AI模型在理解这种多层次、相互关联的状态管理逻辑方面还存在明显不足。它们往往能够理解单个操作的直接效果，但很难把握状态变化在系统中的传播过程和累积效应。这就像是理解一个复杂机械装置的工作原理，仅仅知道齿轮会转动是不够的，还需要理解齿轮之间的传动关系、动力的传递路径以及整个系统的协调运作方式。

第三个挑战是动态资源匹配的准确性。在实际的网页开发中，页面元素的显示往往依赖于外部资源文件，如图片、图标、字体等。AI模型需要能够准确识别视频中出现的各种视觉元素，并将它们与提供的资源文件进行正确匹配。

这个过程面临多重困难。首先，同一个资源在视频中可能以不同的尺寸、角度或光照条件出现，增加了识别的难度。其次，某些资源可能只在特定的交互状态下才会显示，需要模型具备较强的上下文理解能力。最后，为了防止模型利用文件名信息作弊，所有资源文件都被重命名为随机编号，这进一步增加了匹配的挑战性。

第四个挑战是代码生成的完整性和正确性。即使AI模型能够完全理解网页的交互逻辑，将这种理解转化为可执行的代码仍然是一个巨大的挑战。网页代码需要同时处理HTML结构、CSS样式和JavaScript逻辑，这三者之间存在复杂的相互依赖关系。

HTML负责页面的基本结构，CSS控制视觉样式和布局，JavaScript实现交互逻辑和动态行为。任何一个部分的错误都可能导致整个页面无法正常工作。而且，现代网页开发通常需要处理异步事件、DOM操作、事件绑定等高级概念，这些概念对于没有深入编程经验的AI模型来说都是巨大的挑战。

第五个挑战是长上下文信息的有效利用。IWR-Bench中的任务通常包含较长的操作序列，平均每个任务包含约9个操作步骤，有些复杂任务甚至包含数十个步骤。AI模型需要在整个序列中保持一致的理解，并能够利用前面的信息来指导后续的代码生成。

然而，当前大多数模型在处理长序列时都会遇到注意力分散和信息遗忘的问题。就像人类在阅读长篇小说时可能会忘记前面章节的细节一样，AI模型也容易在处理长序列时丢失重要的上下文信息，导致生成的代码缺乏一致性和完整性。

六、技术突破的启示与未来发展方向

尽管实验结果显示当前AI模型在交互式网页重建任务上还存在显著不足，但这项研究为该领域的未来发展指明了重要方向。研究团队的工作不仅揭示了现有技术的局限性，更重要的是为克服这些局限性提供了明确的路线图。

首先，这项研究证明了基于视频的交互理解是一个可行且有价值的研究方向。虽然当前模型的性能还不够理想，但它们确实展现出了从视频中学习交互模式的能力。这就像早期的飞行实验虽然只能飞行几十米，但证明了人类飞行的可能性，为后续的技术发展奠定了基础。

在模型架构方面，研究结果表明未来需要开发专门针对时序交互理解的新型架构。传统的视觉语言模型主要针对静态图像和文本处理进行优化，对于时间维度信息的处理能力相对有限。未来的模型需要更好地整合时间序列建模技术，能够理解操作的时序关系和因果依赖。

这种新架构可能需要采用分层的处理方式：底层负责提取单帧的视觉特征，中层负责建模帧间的时序关系，顶层负责理解整体的交互逻辑。每一层都需要针对特定的任务需求进行专门设计和优化。

在训练方法方面，研究表明需要开发更加有效的多模态学习策略。当前的模型往往在视觉理解和代码生成之间存在脱节，无法有效地将视觉观察转化为可执行的代码逻辑。未来的训练方法需要更好地对齐这两个模态之间的表示空间，建立从视觉感知到代码实现的直接映射关系。

一个可能的方向是采用渐进式学习策略，先让模型学会理解简单的交互模式，然后逐步增加复杂度。这就像学习弹奏乐器一样，先掌握基本的音符和节拍，然后逐步学习复杂的旋律和和声。通过这种方式，模型可以在较低复杂度的任务上建立坚实的基础，然后将这些基础技能扩展到更复杂的场景中。

在数据构建方面，这项研究为未来的数据集建设提供了重要的参考框架。IWR-Bench的三维分类体系和详细的注释规范为构建更大规模、更高质量的训练数据集提供了蓝图。未来的研究可以在此基础上扩展任务的覆盖范围，增加更多类型的网页应用和交互模式。

特别重要的是，研究团队提出的自动化评测框架为该领域建立了标准化的评估体系。这个框架不仅能够客观评估模型性能，还能够提供详细的错误分析，帮助研究者识别模型的具体不足之处。这种标准化评测体系对于推动整个领域的发展具有重要意义。

从应用前景来看，一旦这项技术达到实用水平，将会带来革命性的影响。普通用户将能够通过简单的操作演示来创建复杂的网页应用，大大降低了软件开发的门槛。这就像从需要专业编程技能才能开发软件，转变为通过直观的演示就能实现相同的功能。

在教育领域，这项技术可以帮助学生更好地理解网页设计和交互概念。通过观察AI从视频中学习的过程，学生可以更直观地理解网页功能实现的逻辑，从而提高学习效果。

在软件开发领域，这项技术可以作为原型设计和快速开发的有力工具。开发者可以先创建一个简单的演示，然后让AI生成初始的代码框架，再在此基础上进行进一步的优化和完善。

七、研究方法的创新价值与技术贡献

这项研究在方法论上的创新为整个人工智能领域提供了重要的启示。研究团队不是简单地将现有技术应用到新问题上，而是从根本上重新思考了AI学习网页开发的方式，提出了一套全新的范式。

传统的网页代码生成研究遵循的是"静态到静态"的映射思路，即从静态截图生成静态代码。这种方法虽然在某些场景下有效，但本质上忽略了网页作为动态系统的核心特征。研究团队提出的"动态到动态"映射思路，即从动态交互视频生成动态交互代码，更加符合网页应用的本质特征。

这种思路转变的意义不仅局限于网页开发领域。在软件工程的许多其他分支中，我们同样面临着如何让AI理解动态系统行为的挑战。例如，在移动应用开发、桌面软件设计、甚至是物理系统建模等领域，都可以借鉴这种基于行为观察的学习方法。

在技术实现层面，研究团队开发的多模态评测系统具有重要的参考价值。这个系统成功地将主观的网页质量评估转化为客观的量化指标，为类似的评测任务提供了可借鉴的框架。特别是功能性评测和美观性评测的分离设计，使得研究者能够更精确地定位模型的具体不足之处。

评测系统中的"智能评委"设计也具有创新意义。通过让大型语言模型担任评审角色，系统能够进行更加灵活和智能的评估，而不仅仅是机械的规则匹配。这种人机结合的评测方式在保证客观性的同时，也具备了一定的主观判断能力，更加接近人类专家的评估标准。

在数据集构建方面，研究团队提出的三维分类体系为复杂任务的系统化组织提供了有效的方法。这种分类体系不仅有助于任务的平衡分布，还能够支持细粒度的性能分析，帮助研究者理解模型在不同类型任务上的表现差异。

特别值得关注的是，研究团队在数据收集过程中采用的防作弊策略体现了严谨的科学态度。通过将资源文件重命名为随机编号，研究者确保了模型必须依靠真正的视觉理解能力，而不是简单的文件名匹配。这种设计理念对于其他需要评估AI真实能力的研究具有重要参考价值。

从实验设计的角度来看，28个模型的大规模对比实验为理解当前技术水平提供了全面的视角。这种全面的比较不仅有助于识别最优的技术方案，还能够揭示不同技术路线的相对优势和局限性，为未来的技术发展提供重要的参考。

研究结果中关于功能性和美观性之间巨大差距的发现，也为整个领域指出了一个重要的研究方向。这种差距表明，当前的AI模型在视觉模仿方面已经达到了相当的水平，但在逻辑推理和系统性思考方面还有很大的改进空间。

八、对人工智能发展的深层思考

这项研究的意义远远超出了网页开发这个具体应用领域，它触及了人工智能发展中的几个根本性问题，为我们理解AI的能力边界和发展方向提供了重要启示。

首先，这项研究揭示了当前AI在理解复杂系统方面的根本性挑战。网页应用虽然看起来相对简单，但实际上是一个涉及多个组件、多种交互模式、多层状态管理的复杂系统。AI模型需要同时理解系统的静态结构和动态行为，这对模型的综合能力提出了很高要求。

这种挑战在现实世界的许多场景中都存在。无论是理解生物系统的运作机制、分析社会经济现象的发展规律，还是预测复杂工程系统的行为模式，都需要AI具备类似的系统性理解能力。因此，在网页重建任务上的突破可能为解决更广泛的复杂系统理解问题提供重要线索。

其次，研究结果反映了当前AI在知识迁移和抽象推理方面的不足。人类开发者能够从一个网页的工作原理中抽象出通用的设计模式和编程概念，然后将这些概念应用到其他类似的场景中。但现有的AI模型在这种抽象和迁移能力方面还显得相当有限。

这种局限性可能源于当前深度学习模型的基本架构特征。大多数现有模型本质上都是强大的模式识别器，擅长从大量数据中学习统计规律，但在形成抽象概念和进行逻辑推理方面还有待提高。未来的AI系统可能需要更好地整合符号推理和神经网络计算，才能获得类似人类的抽象思维能力。

第三，这项研究突出了多模态理解的复杂性。虽然近年来多模态AI取得了显著进展，但这项研究表明，真正有效的多模态理解不仅仅是简单地将不同模态的信息拼接在一起，而是需要深入理解不同模态之间的内在关联和相互作用。

在网页重建任务中，视觉信息、时序信息和代码逻辑之间存在复杂的对应关系。AI模型需要能够建立这些不同层面信息之间的精确映射，这要求模型具备更加精细的跨模态理解能力。这种能力的发展对于构建真正智能的AI系统具有重要意义。

第四，研究结果提醒我们关注AI评估方法的重要性。传统的AI评估往往关注单一维度的性能指标，但这项研究通过引入功能性和美观性的双重评估，揭示了单一指标可能掩盖的重要问题。这种多维度评估方法为设计更加全面和准确的AI评估体系提供了有益启示。

从社会影响的角度来看，这项研究也引发了关于AI与人类协作关系的思考。当AI在某些任务上表现不佳时，我们不应该简单地将其视为技术失败，而应该思考如何设计更好的人机协作模式。在网页开发场景中，AI可能无法完全替代人类开发者，但可以作为强有力的辅助工具，帮助降低开发门槛，提高开发效率。

这种协作模式的探索对于AI技术的实际应用具有重要意义。很多情况下，AI的价值不在于完全替代人类，而在于与人类形成互补关系，发挥各自的优势，共同完成复杂的任务。

说到底，这项由上海AI实验室团队完成的研究为我们打开了一扇通往未来的窗户。虽然当前的AI模型在交互式网页重建任务上还有很多不足，但这些发现为我们指明了前进的方向。随着技术的不断发展，我们有理由相信，未来的AI系统将能够更好地理解和创造复杂的交互系统，为人类的数字生活带来更多便利。

这项研究的真正价值不仅在于它揭示了当前技术的局限性，更在于它为整个领域建立了新的研究范式和评估标准。正如任何开创性的研究一样，它的影响将会在未来的岁月中逐渐显现，推动人工智能技术向着更加智能、更加实用的方向发展。对于那些希望深入了解这项研究细节的读者，建议查阅编号为arXiv:2509.24709的完整论文。

Q&A

Q1：IWR-Bench是什么？它与传统的AI网页生成评测有什么不同？

A：IWR-Bench是上海AI实验室团队开发的全新评测基准，专门用于评估AI从用户操作视频中重建交互式网页的能力。与传统方法只给AI看静态截图不同，IWR-Bench让AI观看完整的用户交互视频，包含点击、输入、滚动等操作过程，要求AI理解动态交互逻辑并生成功能完整的网页代码。这就像让AI通过观看烹饪过程来学会做菜，而不是仅凭成品照片。

Q2：目前最强的AI模型在IWR-Bench上表现如何？主要问题在哪里？

A：表现最好的GPT-5模型综合得分仅为36.35分（满分100分），存在严重的功能性和美观性不平衡问题。GPT-5在视觉美观性方面得到64.25分，说明它能较好地重现网页外观，但功能性分数只有24.39分，意味着大部分交互功能无法正常工作。这就像制作了一个外观精美的汽车模型，看起来很像真车，但引擎无法启动、方向盘不能转动。

Q3：这项研究对普通人有什么实际意义？

A：一旦技术成熟，普通人将能够通过简单的操作演示来创建复杂的网页应用，而不需要学习编程知识。比如你想做一个个人博客或小型电商网站，只需要录制一段演示视频显示你希望的交互效果，AI就能自动生成相应的代码。这将大大降低软件开发门槛，让更多人能够参与数字创作，就像从需要专业技能才能拍电影发展到人人都能用手机制作短视频一样。

上海AI实验室团队首创视频驱动交互网页重建基准

埃弗顿vs富...

冠军魔咒再应...

那些剃寸头的...

恩里克：0-...

老兵们打赢了...

邓炳强称火势...

郑钦文排名跌至世界第24！年终确定跌出前20 不影响澳网种子席位

76岁欢喜哥去世！众星悼念

本田东京车展亮相0系列电动概念车揭示未来出行

俞敏洪回应蹭董宇辉流量：如果他要离开东方甄选，我会第一个支持

媒体:美国挪威做局策划炸毁＂北溪＂管道意在警告德国

31省份去年平均工资公布，9省份非私营单位平均工资超12万

媒体人：海港中后卫贺惯将加盟武汉三镇

贵州2岁女童家门口失踪父亲已去世母亲独自在外打工

谷歌推出开源全栈NPU新架构，旨在实现大模型在终端的低功耗运行

从“辅助”到“自动”，我们该如何与AI共驾未来？

辽京：当一个妈妈开始写作

续火花：不间断的敷衍，就是真诚

紫光集团原董事长赵伟国涉职务犯罪被送检

隐退4年后，张一鸣久违现身！互联网大佬正集体杀回

错过靳东，嫁给父亲看中的女婿，如今她怎么样了

泰柬冲突柬方70人死伤泰国近20万人住进避难中心

托蒂：还没和斯帕莱蒂谈过去的事情，经过这么多年该放下了

茅台跌落价格神坛！53度飞天茅台补贴价跌破1700元，释放信号明显

涉嫌支持台军心战大队 5家企业主营业务被曝光

法国被枪杀少年的家人就暴乱发声呼吁人们保持冷静

傍上 “新中式”，现制酸奶能迎来 “二次爆发” 吗？

4天的沉默印证游本昌“真实人品”

高圆圆赵又廷被偶遇！夫妻俩牵手过马路画面超甜

理想 L9 遭恶意诋毁，官方回应称部分 KOL 双标成瘾、诋毁成性