关闭广告

对话Memories.ai:“人的记忆本质上是视觉,AI也该如此”

硅星人324人阅读


对话:王兆洋,黄小艺
整理:黄小艺

Memories.ai试图为未来的AI设备装上“视觉记忆”。

这家由前Meta Reality Labs研究员Shawn Shen和Ben Zhou创立的公司,11月6日发布了其第二代模型——大型视觉记忆模型(Large Visual Memory Model)2.0,并同步宣布与高通达成战略合作。

LVMM 2.0 通过将原始视频转换为设备上的结构化内存,对视频进行编码、压缩并构建支持亚秒级搜索的索引,让用户可以用自然语言提出问题,跳转到确切的时刻。

与高通的合作也意味着,Memories.ai可以为搭载高通芯片的AI硬件,例如AI眼镜等可穿戴设备,提供一个本地化的视觉记忆解决方案,让你的设备能记住你看到过的东西,并随时帮你找出来。

在合作官宣后,我们也和Shawn聊了聊,他们不参与最拥挤、最烧钱的“通用智能”战场,不负责让AI“思考”或“理解”记忆的含义,核心只做两件事:

将用户看到的视觉信息进行高效“编码”,并支持快速精准的“搜索”。

“从第一性原理出发,人类构建记忆也是两块:第一,编码器,能够实时地把我们感知的世界编码成电信号,储存在脑子里;第二,搜索引擎,用来查找回忆,我们做的也是这两块。至于搜出来后,怎么整理、筛选、组成上下文喂给大语言模型,就交给其他层来做。”Shawn说道。

“我们不做推理,也不做很多‘记忆’公司在做的上下文工程。我们认为那些工作解决的问题太具体细分了,而我们想做一家AI Infra公司。”

这是一个务实的想法,不与Google、OpenAI这样的庞然大物硬碰硬,也不和Agent公司争夺垂直领域,而是选择一个最底层的切口,成为生态链上一个不可或缺的“关键底层”,但它同样具有野心——未来无论谁家的Agent和硬件做得最好,都会需要一个稳定可靠的“视频记忆模块”,而Memories.ai希望成为这个模块的提供商。

Shawn是Memories.ai的联合创始人,他此前在剑桥大学期间主要研究的就是多模态模型——训练模型去关联视觉、语言和上下文。博士毕业后他去了 Meta Reality Labs继续做多模态AI研究,去年和同在Meta Reality Labs 的Ben一起创立了 Memories.ai。

以下为我们和Shawn的对话实录:

编码模型+搜索引擎,一家模型+Infra公司

硅星人:为什么选择“视频记忆”这个方向?你们似乎是这个领域里非常少有的玩家。

Shawn我们想做的是真正模拟人的记忆。我一直认为,人的记忆本质上是视觉记忆,回忆的载体是鲜活的视觉画面,而不是文本记忆。所以我们从第一性原理出发,决定要做视觉记忆。

硅星人:你们的技术路线是怎样的,怎样建构视觉记忆?

Shawn我们本质上只做两件事。从第一性原理出发,人类构建记忆也是两块:第一,我们有一个编码器(Encoder),能够实时地把我们感知的世界(通过视频方式)编码成电信号,储存在脑子里;第二,我们有一个搜索引擎来查找回忆。我们做的也是这两块:一个编码模型,把原始的视频转成结构化数据;一个搜索引擎,根据用户的提问,在结构化的数据库里找到最相关的数据。

我们觉得,未来的编码模型一定会做得越来越小,甚至一定会做进端侧。因为视频需要实时、持续地处理,不像大语言模型,用户一天只问几十个问题。未来的机器人需要时刻看着世界,这就必须在端侧处理。如果不在端侧,持续上传到云端的功耗会非常大,而且还有隐私问题。

硅星人:我体验了你们的产品,除了核心的视频Chatbot,还有基于海量视频的视频营销洞察、AI剪辑等等,这些都是你们未来的方向,还是仅仅作为案例范例?

Shawn:那些更偏应用层的功能,比如视频剪辑(Video Editor),更多是作为示范案例,之后我们会开源。我们一度想尝试,但很快发现想做深非常难,而且没有必要。因为现在也没有一家 Video Editor Agent 或 Video Marketing Agent 公司真正跑出来。

我们业务有三块:to C(或者说 to Prosumer)、to Developer 和 to 大B(大客户)。to Prosumer 和 to Developer 这两块,我们的目的不是赚钱,更多是扩大品牌影响力。

对于 Prosumer,我们的定位是一个一体化视觉平台,用户可以上传各种视频来学习和理解。我们后面也会推出连接器(Connector),可以连接到你自己的视频源,比如 Google Drive 或本地硬盘。

对于开发者,我们会开放 API。现在已经有很多视频剪辑Agent、视频营销Agent公司在基于我们的API构建他们自己的产品。我们自己做的这几个 Agent,其实是作为“参考设计”。

对于B端业务,Memories.ai已经吸引了很多企业合作需求,我们会筛选合适的项目进行深度合作。比如安保和监控摄像头中,对房屋周围情况的记忆,对独自在家的宠物行为的记忆,举个例子,你可以问AI,家里的花瓶是怎么碎了,然后AI查询出,是你的小狗在几点几分打碎的。


所以,我们只专注做两件事:编码(Encoding)和为视频优化的搜索(Search)。我们不做推理(Reasoning),也不做很多所谓“记忆”公司在做的上下文工程。我们认为那些工作解决的问题太具体(Problem Specific)了,而我们想做的是一家Infra公司。

硅星人:如果每一个垂直领域的记忆都那么不同,记忆公司该怎么去处理,都要做的话,是一个很大的挑战。

Shawn:是的。因为记忆,尤其是基于文本的记忆,太场景化了。就算是同样做客服机器人,你不同需求场景对记忆的处理方式就是不一样的,上下文也不同,这很难做成一个基础设施级的产品。

而什么东西能成长得最快?在企业端,就是找到一个痛点,然后找到更多有类似痛点的企业,做成一个 SaaS。在消费端,就是输入输出(Input-Output)要简单,一个 API 调用就结束了,而不是在里面还要做各种各样的工作,那样很难Scale。现在大部分记忆框架,对我来说就是上下文工程。

而我们做的编码,是完全独立于具体问题的,就是怎么把视频变成结构化数据;搜索,就是当我在海量的结构化视频数据里,有一个当下的任务或查询时,怎么搜到最相关的内容。

至于这些内容搜出来之后,你怎么整理、怎么筛选、怎么组成上下文喂给大语言模型,这些就是 RAG做的事了。当然对于 B 端大客户,我们会提供端到端的方案。

硅星人:编码模型是你们的核心。这个过程中,对视频的结构化处理很复杂,比如对人物、动作、情节、事件的多层拆解。你们的编码模型和此前的相比,区别在哪里?

Shawn主流视觉模型,比如ViT,把视频向量和文字向量对齐,用对比学习进行对齐,通常是基于静态图片(Image)进行训练的,这带来了几个问题:第一,它不是真正的多模态,只能理解视觉,无法融合音频等信息。第二,它无法理解时间概念,因为输入的是静态图片。第三,由于它是跟文字描述做对齐训练,如果文字里没有涵盖某些概念,模型就永远学不到。

而我们做的是一个世界模型编码器。它有三大不同:真正的多模态: 能将视觉、音频等多种信息融合到同一个嵌入空间里;理解时间与动作: 基于视频流进行训练,因此能真正理解动作(Action);自监督学习: 我们尤其在人物、动作和物体的理解上做了大量优化。

硅星人:所以本质上你们是一家模型公司。

Shawn:对,我们本质上是一家研究驱动的模型公司,一个研究实验室(Research Lab)。

视频记忆模型的未来在端侧

硅星人:这一代模型,借着跟高通合作的契机,做成了一个能在端侧运行的模型,它和第一代模型的关系是什么?

Shawn它们都是编码和检索模型。第二代则做得更小,更多的是尺寸上的区别。

硅星人:你认为这类模型,它存在的价值主要是在端侧吗?

Shawn:我觉得对于编码模型来说,在端侧非常重要。就像人一样,视觉信息是持续不断进来的。举个例子,你的手机相册,大部分人其实不会上传到云端做备份。


硅星人:那现在它识别精准度的问题,接下来要如何进一步优化?

Shawn:首先,肯定是要在更大的数据上做训练,模型会变得越来越准。第二,还是要把模型做得更小。我觉得“准”是有一个天花板的,因为我们不是做推理模型。推理模型没有天花板,可以做得无限聪明。而我们的编码模型,它的目标就是对视频信息做一次无损的重构(lossless reconstruction),最多就是能做到完全转回去,这就是天花板,可能未来 5 到 10 年达到。

现在更重要的,就是怎么把模型不断变小,先在 NPU,后面在 CPU,再后面在一个更便宜的处理器上就能实时跑。

硅星人:跟高通的合作,是第一次把模型放进 NPU 或芯片里吗?

Shawn:对,之前都是在云端依赖 GPU,通过 API 调用。现在可以直接做端侧部署了。

硅星人:接下来和高通的合作,会有一个阶段性的部署计划吗?

Shawn:有。我们现在就在跟他们做联合销售(Co- sell),一起去服务很多终端厂商客户,我们也能提供很多初创公司的合作机会。我们做各种各样的 POC(概念验证),包括未来的一些 AI 眼镜公司。主要的 use case 就是手机上的 AI 相册、安防领域的智能监控,以及 AI 助手的端侧视觉能力。


硅星人:这几个案例的市场规模,就足够支撑你们在长线的事情上继续投入了。

Shawn:是的。而且我们现在也在做First Party(第一方)的APP,高通也会在这方面支持我们。

硅星人:这个事挺重要的。一方面,直接在芯片上跑,速度会天然快很多。另一方面,回顾商业史,移动互联网时代的很多大公司,比如字节跳动,最初也是在智能手机转换期通过预装来获得杠杆。所以这次合作的节点,从这两个角度看都很重要。是高通主动找到你们的吗?

Shawn是高通找到我们的。你看现在英伟达涨得这么快,那么下一个破局点在哪里,很自然就能想到了可穿戴设备和机器人。这些设备什么地方需要巨大的算力?就是对视觉信息的实时处理。

硅星人:为什么现在大厂很少做类似的事?

Shawn:我觉得更多的是因为大家现在都在竞争“智能”。“智能”和“编码”是两条完全不同的技术路径。“智能”要做的是要有足够的创造力,而且没有上限。我们做的“编码”,是把视频转成结构化数据,从技术上说,我们需要的创造力是越少越好。这是完全不一样的训练方法和技术路径,最后只会越走越远,而不会趋同。

硅星人:这很有意思。我们看“记忆”这个领域,包括像 DeepSeek OCR 、 Sora出来,外界总想把它放到多模态的框架里讨论,包括你们也能被归类到“世界模型”的讨论中。但我自己感觉,其实不应该把视觉只是当成一种“模态”,包括你们的思路其实也是把它当作一个更基础的东西。只是因为这波大语言模型太强了,所有东西都在向 token 对齐,但人的记忆可能是基于视觉的,不是基于 token 的。

Shawn:是的。你看,人思考用文字,所以我们写公式是用 token 的。但是人回忆,永远是回忆视觉。因为视觉回忆起来够快、够准。

我现在让你一字不落地背诵一篇长文可能很难,但让你回忆几十年前童年的某个场景,你却可以很快地回溯出来。因为视觉信息对于人脑来说,是一个非常容易被储存和检索的模态。有了这些视觉信息之后,你才会去做相关的推理。

硅星人:我们知道,像LLM(大语言模型)处理的Token,数据存储和检索相对高效,甚至可以用“大力出奇迹”的暴力方式来处理。但视觉信息要大得多,将非结构化的视觉信息转换成模型能理解的“结构化数据”的过程,是否也意味着它的处理方式与现有LLM完全不同?

举一个更具体的例子:当我回忆童年时,我的人脑并不会像计算机一样,从2000年到2005年把所有“视频帧”都线性地扫描一遍,你们的模型要如何才能实现这种类似人脑的、非线性的视觉记忆检索?

Shawn:对,其实在研究领域大家都很早期。比如说,DeepSeek OCR,他们也开始探索如果拿视觉作为一个Native的Reasoning框架,之后能发生什么,其实我们也是以这样的方式去思考的。大语言模型是无监督训练,去Predict the next token,我们现在做世界模型的Encoder。世界模型不是predict next token,是predict the next frame。

硅星人:你的最小单位是 frame,里面包含了时间等多维信息。

Shawn:对。

创业要找到北极星指标,学会Say No

硅星人:所以你们在一个研究上都未成熟的领域,需要去定义问题,同时又要商业化、要融资,技术本身又很新。

Shawn:对,在硅谷大家也更认可这一点,就是我们去做一个长期(5到10年)的事情。我们现在主要还是把自己定位成一个 Research Lab,在长期道路上做正确的事。

硅星人:但做这个事情需要资源,你们的资源怎么去竞争,策略是什么?

Shawn我们需要三类资源,数据资源、算力资源、人才资源。因为我们做的模型,天生就不需要特别多的算力资源,模型本来就小,编码模型预训练一次花几百万美元。所以,对我们更重要的是数据资源和人才资源,我们主要是在这两方面有一些核心竞争力。

硅星人:可以展开讲讲吗?比如数据。

Shawn:第一,我们平台上有几万用户,上传了超过百万的个人视频。第二,我们会通过硬件,专门去做第一人称视角的视频数据采集,这类数据本身就非常稀缺,但我们也积累下了大量的数据。第三就是人才资源,我们在硅谷有一定的存在感,是一家人才浓度很高的公司。大家其实都是因为对我们做的事情感兴趣而来的。

硅星人:以前在学术界,现在作为 CEO,这个转变感觉怎么样?

Shawn挺好的。挑战很大,每个阶段都不同,很多东西体验了才知道。比如大家都说要保持健康,但只有你真生病了才知道重要。创业也是,大家总说要招最牛的人,真正做了才知道这确实至关重要,不能只招执行力强的人。第二点是要专注,学会说不。创业公司资源永远有限,怎么去专注一件事,做好优先级排序和时序安排。

听别人讲和自己上手体验完全不一样,我现在是各种环节都得自己上,从产品到市场,到跟客户交流,企业销售会议,甚至模型、产品发布的视频文案都是我做的。

硅星人:我们观察到你的产品思路在不断变化。比如一开始对 Prosumer 端的想象可能野心很大,但试了一下马上就知道了市场的真实反馈。

Shawn:今年三四月份,我们还觉得视频营销(Video Marketing)是利用多模态的一个非常好的市场。但试了之后发现不是。

我们的技术是理解海量视频,AI 助手(AI 的记忆)才是我们未来真正想做的方向。像视频剪辑、视频营销这些,即使做了,你还得去找更细的切入点,比如是给品牌用还是给个人用,是做有 UI 的还是纯自然语言交互的。切得越小,跟我们主体方向就越远。所以我们决定这些就作为Demo或Side Project,我们还是会更专注于更长期的事。

我们的北极星(North Star)就是:做未来所有智能体(机器人、AI 助手等)的记忆系统。只要硬件上带摄像头、内部有 AI,我们就为它提供看见、理解并记住世界的能力。

硅星人:你现在也依然在高校里担任教授,这种给公司和产品的定位能力和学术里去“定义问题”有点像?

Shawn对,就是一句话概括你要做什么。定位定义好了,你才知道怎么打市场,目标客户群体是什么。比如我们的目标客户群体一直是创始人和构建者(Founders and Builders),我们也确实做到了,现在的AI 创业团队应该都听过我们。

硅星人:你那一句话的定位是什么?变化过吗?

Shawn:没太变过。如果用一句话概括,就是“让 AI 看见和记住”(Making AI to see and remember)。另一个就是“Large Visual Memory Model”这个词,它本身就定义了:第一,你是做视觉记忆(Visual Memory)的;第二,你是模型(Model)公司;第三,你是做基础层(Foundational)工作的。

在一个万物皆可被记录的时代,如何“记住”本身,或许比如何“思考”更为根本。



点个爱心,再走 吧

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

桑乔替补登场又被换下,埃梅里:这不是惩罚,而是战术决定

懂球帝 浏览 559

小鹏P7+增程版曝光 选用东安1.5T增程器

网易汽车 浏览 837

爱女回国,李湘与王诗龄同框似闺蜜

娱絮 浏览 14810

国乒梦之队!大满贯首日6战全胜,王曼昱惊险,樊振东陈梦横扫

天涯沦落人 浏览 11521

限制赎回风波后,当红PE Blue Owl为数据中心专项基金募资17亿美元

华尔街见闻官方 浏览 111

这谁能想到!能伸手“救”日产汽车一把的,会是比亚迪

小李车评李建红 浏览 551

2023最流行的4款单品,时髦炸了!

仙爷种草机 浏览 13476

百万粉丝网红小英丈夫被刑拘 夫妻已数月未住村里

红星新闻 浏览 1376

今年靴子怎么穿?这个思路可以解决一半冬日搭配

黎贝卡的异想世界 浏览 147

快船询价利拉德被拒 未提升哈登报价真因:失冠将沦为巨大笑柄

颜小白的篮球梦 浏览 14090

竞逐AI内容,爱奇艺先出手了

连线Insight 浏览 668

邓超金鸡奖闹乌龙,苏有朋扯出吴奇隆

丁丁鲤史纪 浏览 357

2架美军机在南海相继坠毁 原因正在调查中

界面新闻 浏览 602

专家:美方受到来自北京的迎面正击 特朗普真没招了

澎湃新闻 浏览 4104

邮报:在罗伯特-桑切斯转会切尔西前,拜仁曾在最后时刻尝试截胡

直播吧 浏览 14000

钢铁业未见“金九银十” 中钢协呼吁“自律控产”

中国经营报 浏览 465

首个国产“减肥神药”利拉鲁肽获批上市,抢到头筹竟是这家A股公司!

创作者_1486537600008 浏览 15492

媒体人:湖人希望詹姆斯赛季后退役;詹姆斯与湖人已陷入冷战

懂球帝 浏览 831

法兰克福左后卫布朗:我们依靠整体防守萨拉赫,而不是我单防

懂球帝 浏览 650

中年女人想穿得时髦,少穿羽绒服+紧身裤,换成这些好看保暖

静儿时尚达人 浏览 250

著名表演艺术家赵有亮去世 冯远征发文悼念

网易娱乐 浏览 15286
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1