45看点带你看尽天下事网站导航/网站地图手机版

首页看点啥它：想给AI搜索醒醒脑

它：想给AI搜索醒醒脑

2026-07-04 0

不过，一个缺点是并没有给我直接的答案。可能是因为关于Exa的报道本身就较少，所以它没法自己创造内容。

它，想给AI搜索醒醒脑

这真的很技术思维，并不像谷歌、Perplexity用户体验感那么强。

我也遇到一个问题，当我搜“IPD是什么”时，它没有给我想要的答案。我意识到问题太过简单，于是我重新提问，加上IPD（Integrated Product Development集成产品完整表达，它才给我过滤掉那些和我意图不一样的内容。

它的索引能力真的很强。

9年前、16年前的内容都可以给我找出来，这些内容也并非完全可以使用，点进去看，明显有些逊色，而且居然有一些是卖书、卖专栏的产品广告，它们在广告中加了IPD方面的内容，外加上网站权重比较高，就被索引出来了。

据此，从个人使用感受来看：Exa的优点在于：

一，找资料利器，索引能力强、筛选条件多，非常适合技术人员使用，不适合小白用户。

二，还原过程指标，把结论放在单篇文章上，而不是一个问题上。缺点则是：一，无法给出直接答案，我一个个筛选信息源，点击查看；二，有些信息源不准确，这可能和我选择的筛选条件有关。

03‍

紧接着，我又拿Perplexity进行测试。Perplexity更友好。

从Perplexity的介绍里，我可以明白：

Exa主要为AI系统和开发者设计，它的工作给AI提供需要的知识和数据。而Perplexity则是给普通人用的搜索引擎，提供问答式的搜索体验，所以，这两个是完全不同的产品。

除此外，Exa定位为AI搜索的中间层，提供API服务，整合世界知识为AI系统提供数据，Perplexity是一个端到端的搜索引擎，直接给用户提供摘要。

我详细查阅了一下， Exa使用Embedding技术来理解语义，能搜索Twitter、GitHub、Reddit等多种数据源；而Perplexity则采用GPT-4o API和Claude-3、Sonar Large (LLaMa 3)等语言模型。

那么，它们二者有什么区别呢？

你可以想象一下，你有一堆玩具，每个玩具都有它的名字，比如“小汽车、洋娃娃、积木”。现在，要把这些玩具的名字告诉一台机器，让机器理解并记住它们。但问题是，机器不懂我们的语言，它只懂数字。

怎么办？

Embedding技术像一个魔法转换器，它可以把“小汽车”这样的名字变成一串数字，比如[1, 2]，把“洋娃娃”变成另一串数字，比如[2, 3]。

这样，每个玩具的名字就都对应一串数字，机器就能通过数字来“理解”和区分不同的玩具了。

更神奇的是，这个技术还可以让相似的玩具有相近的数字。比如，“小汽车和卡车”可能都是车，所以它们的数字会比较接近，而和“洋娃娃”的数字就会远一些。

所以，Embedding技术，是帮助机器通过数字来理解和记住各种信息的一种方法。

而GPT-4o API和Claude-3不一样，它们本意上是已经被开发好的一个语言模型，Perplexity只是把不同的模型整合起来，去做写文章、回答问题、聊天的动作。

所以，很明显，Embedding技术和GPT-4o API、Claude-3的最主要区别是：

前者能把词汇、图片等变成一串数字，这样更容易让计算机学习和使用；后者更贴近用户，帮助我在网上找到你需要的信息，比如新闻、图片或视频等。

因此，我们可以得到一个结论：Exa是一个为AI和开发者服务的高级搜索工具，它更注重于数据的深度整合和技术处理；Perplexity是面向普通用户的搜索引擎，注重直接好用的便捷性，两者不是一个赛道。

04‍

关于Embedding技术，中国也有不少研究者在讨论。

我查了一下：

百度智能云的一篇文档里，深入讨论了Embedding技术在推荐系统中的应用。

这包括怎样更好地推荐用户和商品，还有序列推荐和知识图谱的应用。这些技术把零散的数据变成连续的向量（就像一串串数字），提高了推荐系统的表现和准确度。

还有一个技术博客的作者，在他的文章中也详细说明Embedding技术，在58同城房产相关业务和推荐场景中的实际应用 [1] 。

李乾坤，在GitHub博客上也详细描述Embedding技术的原理和它在自然语言处理中的应用。像Word2Vec和GloVe这样的模型，就是通过把单词变成高维的向量，来捕捉单词之间的语义关系 [2] 。

我不是太懂，把它罗列出来，供你参考，相信这门技术在国内也能很快用到其他场景上。

那么，我们是否可以说：这项技术在迭代传统以整合信源为中心的AI搜索引擎呢？我不知道，至少觉得它具备一定的市场需求。

比如：

前一段时间有篇文章特别火，叫《中文互联网是否会消失》，抛开争议就整体而言，大家认为中文互联网内容并没有迅速消失，相反，中文内容在全球范围内的比例在增长。

根据W3Techs数据，截止到2024年7月，中文内容在全球网站上的使用比例为1.5%，中文和印地语内容的比重都增加了超过10倍（注：W3Techs一家专门提供数据分析的机构）。

这说明什么？互联网数据并没有消失，我们要特定工具把它给找出来。

国外风险机构Lightspeed，投资完Exa后，分享了一些关于未来智能体网络的想法。他们提到：

最近，一直在思考一个全新的，支持AI智能体的网络基础设施，这种网络会和我们人类用的网络不一样，因为AI智能体和人类需要的东西不同。

为什么需要智能体网络呢？

一，AI智能体要获取最新且准确的信息来完成任务。虽然现在的大型语言模型能记住很多数据，但，这些数据很快就会过时，而且不容易找到需要的信息。

二，虽然现在有了检索增强生成（Retrieval-augmented generation）技术，它帮助大型语言模型能够处理训练数据之外的信息，但这些通常都是私人或内部的信息。

理想情况下，AI智能体应该能通过API检索整个公共互联网的信息，这就要新的基础设施——也就是智能体网络。

但是，建设这样的网络，面临很多技术和经济上的挑战。现有网络基础设施，主要是为了服务广告商，而不是用户，传统搜索引擎更关注广告点击和展示，这就导致了“SEO”产业兴起。

内容质量并不总是最重要的。

比如：当你搜“精通Go语言的软件工程师”，理想搜索引擎，应该给你工程师的个人网站或社交媒体资料，而不是一些讨论Go语言的网页。

好的搜索引擎应该能理解“实体”的概念，而不只是泛泛地讨论一些话题。所以，AI想要的搜索结果，可能和人类需要的不一样。

AI用的搜索引擎不应该显示广告，应该直接显示结果，不幸的是，现在人类和AI使用的是同样的搜索结果，这种“一刀切”的方式很糟糕。

Exa 的用武之地就在这，它是一个为AI智能体，专门设计的基于嵌入技术的搜索引擎。

它获取并索引网络上的最新内容，并通过一种独特的“链接预测”模型，通过搜索API，把数据提供给基于大型语言模型的应用程序；这个模型被专门调整，以便更好地理解搜索查询并从索引中返回相关链接。

这好比：当你向图书管理员询问关于某个主题的书时，他不仅迅速找到了与这个主题相关的书，还确保书正是你现在最需要的那一本。

有了 Exa，互联网变得又新又有趣，AI需要一种新的方式来访问信息，它正在执行和设计适用于AI和互联网信源革命的任务。

是不是很有趣？简单讲：它想给AI搜索引擎“洗个脑”，做中间部分，左手深度检索信源后，右手投喂给大语言模型，让它更聪明、更高效。

总结

中国，什么时候有这样的公司？

很快了，值得期待。最起码，这两位年轻人的创新想法，让人们看到了新的机会点。

郑重声明：本站发布内容宗旨在传播更多信息，仅提供查阅，与本站立场无关，不拥有所有权，不承担相关法律责任。不具有任何效益，仅供参考。如果需要专业知识建议，请咨询相关专业人士。如有侵权请联系邮箱。一经查实，立即删除！

喜欢(0)

被骂到72小时“急刹”: Sam Altman弟弟创办、估值30亿美元的独角兽: 因“转正”AI员工遭群嘲

明星AI独角兽Mistral AI亮出大模型新王炸：代码和数学能力超群