《猫猫钓游记》可爱+收集+钓鱼游戏试玩
2026-06-30
2026-07-04 0
不过,一个缺点是并没有给我直接的答案。可能是因为关于Exa的报道本身就较少,所以它没法自己创造内容。

这真的很技术思维,并不像谷歌、Perplexity用户体验感那么强。
我也遇到一个问题,当我搜“IPD是什么”时,它没有给我想要的答案。我意识到问题太过简单,于是我重新提问,加上IPD(Integrated Product Development集成产品完整表达,它才给我过滤掉那些和我意图不一样的内容。
它的索引能力真的很强。
9年前、16年前的内容都可以给我找出来,这些内容也并非完全可以使用,点进去看,明显有些逊色,而且居然有一些是卖书、卖专栏的产品广告,它们在广告中加了IPD方面的内容,外加上网站权重比较高,就被索引出来了。
据此,从个人使用感受来看:Exa的优点在于:
一,找资料利器,索引能力强、筛选条件多,非常适合技术人员使用,不适合小白用户。
二,还原过程指标,把结论放在单篇文章上,而不是一个问题上。缺点则是:一,无法给出直接答案,我一个个筛选信息源,点击查看;二,有些信息源不准确,这可能和我选择的筛选条件有关。
紧接着,我又拿Perplexity进行测试。Perplexity更友好。
从Perplexity的介绍里,我可以明白:
Exa主要为AI系统和开发者设计,它的工作给AI提供需要的知识和数据。而Perplexity则是给普通人用的搜索引擎,提供问答式的搜索体验,所以,这两个是完全不同的产品。
除此外,Exa定位为AI搜索的 中间层 ,提供API服务,整合世界知识为AI系统提供数据,Perplexity是一个端到端的搜索引擎,直接给用户提供摘要。
我详细查阅了一下, Exa使用Embedding技术来理解语义 ,能搜索Twitter、GitHub、Reddit等多种数据源; 而Perplexity则采用GPT-4o API和Claude-3、Sonar Large (LLaMa 3)等语言模型。
那么,它们二者有什么区别呢?
你可以想象一下,你有一堆玩具,每个玩具都有它的名字,比如“小汽车、洋娃娃、积木”。现在,要把这些玩具的名字告诉一台机器,让机器理解并记住它们。但问题是,机器不懂我们的语言,它只懂数字。
怎么办?
Embedding技术像一个魔法转换器,它可以把“小汽车”这样的名字变成一串数字,比如[1, 2],把“洋娃娃”变成另一串数字,比如[2, 3]。
这样,每个玩具的名字就都对应一串数字,机器就能通过数字来“理解”和区分不同的玩具了。
更神奇的是,这个技术还可以让相似的玩具有相近的数字。比如,“小汽车和卡车”可能都是车,所以它们的数字会比较接近,而和“洋娃娃”的数字就会远一些。
所以,Embedding技术,是帮助机器通过数字来理解和记住各种信息的一种方法。
而GPT-4o API和Claude-3不一样,它们本意上是已经被开发好的一个语言模型,Perplexity只是把不同的模型整合起来,去做写文章、回答问题、聊天的动作。
所以,很明显,Embedding技术和GPT-4o API、Claude-3的最主要区别是:
前者能把词汇、图片等变成一串数字,这样更容易让计算机学习和使用;后者更贴近用户,帮助我在网上找到你需要的信息,比如新闻、图片或视频等。
因此,我们可以得到一个结论:Exa是一个为AI和开发者服务的高级搜索工具,它更注重于数据的深度整合和技术处理;Perplexity是面向普通用户的搜索引擎,注重直接好用的便捷性,两者不是一个赛道。
关于Embedding技术,中国也有不少研究者在讨论。
我查了一下:
百度智能云的一篇文档里,深入讨论了Embedding技术在推荐系统中的应用。
这包括怎样更好地推荐用户和商品,还有序列推荐和知识图谱的应用。这些技术把零散的数据变成连续的向量(就像一串串数字),提高了推荐系统的表现和准确度。
还有一个技术博客的作者,在他的文章中也详细说明Embedding技术,在58同城房产相关业务和推荐场景中的实际应用 [1] 。
李乾坤,在GitHub博客上也详细描述Embedding技术的原理和它在自然语言处理中的应用。像Word2Vec和GloVe这样的模型,就是通过把单词变成高维的向量,来捕捉单词之间的语义关系 [2] 。
我不是太懂,把它罗列出来,供你参考,相信这门技术在国内也能很快用到其他场景上。
那么,我们是否可以说:这项技术在迭代传统以整合信源为中心的AI搜索引擎呢? 我不知道,至少觉得它具备一定的市场需求。
比如:
前一段时间有篇文章特别火,叫《中文互联网是否会消失》,抛开争议就整体而言,大家认为中文互联网内容并没有迅速消失,相反,中文内容在全球范围内的比例在增长。
根据W3Techs数据,截止到2024年7月,中文内容在全球网站上的使用比例为1.5%,中文和印地语内容的比重都增加了超过10倍(注:W3Techs一家专门提供数据分析的机构)。
这说明什么? 互联网数据并没有消失,我们要特定工具把它给找出来。
国外风险机构Lightspeed,投资完Exa后,分享了一些关于未来智能体网络的想法。他们提到:
最近,一直在思考一个全新的,支持AI智能体的网络基础设施,这种网络会和我们人类用的网络不一样,因为AI智能体和人类需要的东西不同。
为什么需要智能体网络呢?
一,AI智能体要获取最新且准确的信息来完成任务。 虽然现在的大型语言模型能记住很多数据,但,这些数据很快就会过时,而且不容易找到需要的信息。
二,虽然现在有了检索增强生成(Retrieval-augmented generation)技术,它帮助大型语言模型能够处理训练数据之外的信息,但这些通常都是私人或内部的信息。
理想情况下,AI智能体应该能通过API检索整个公共互联网的信息,这就要新的基础设施——也就是智能体网络。
但是,建设这样的网络,面临很多技术和经济上的挑战。现有网络基础设施,主要是为了服务广告商,而不是用户,传统搜索引擎更关注广告点击和展示,这就导致了“SEO”产业兴起。
内容质量并不总是最重要的。
比如:当你搜“精通Go语言的软件工程师”,理想搜索引擎,应该给你工程师的个人网站或社交媒体资料,而不是一些讨论Go语言的网页。
好的搜索引擎应该能理解“实体”的概念,而不只是泛泛地讨论一些话题。所以,AI想要的搜索结果,可能和人类需要的不一样。
AI用的搜索引擎不应该显示广告,应该直接显示结果,不幸的是,现在人类和AI使用的是同样的搜索结果,这种“一刀切”的方式很糟糕。
Exa 的用武之地就在这,它是一个为AI智能体,专门设计的基于嵌入技术的搜索引擎。
它获取并索引网络上的最新内容,并通过一种独特的“链接预测”模型,通过搜索API,把数据提供给基于大型语言模型的应用程序;这个模型被专门调整,以便更好地理解搜索查询并从索引中返回相关链接。
这好比: 当你向图书管理员询问关于某个主题的书时,他不仅迅速找到了与这个主题相关的书,还确保书正是你现在最需要的那一本。
有了 Exa,互联网变得又新又有趣,AI需要一种新的方式来访问信息,它正在执行和设计适用于AI和互联网信源革命的任务。
是不是很有趣?简单讲:它想给AI搜索引擎“洗个脑”,做中间部分,左手深度检索信源后,右手投喂给大语言模型,让它更聪明、更高效。
总结
中国,什么时候有这样的公司?
很快了,值得期待。 最起码,这两位年轻人的创新想法,让人们看到了新的机会点。