• 首页
  • 新闻推送
  • 短视频热
  • 娱乐聚焦
  • 生活关注
  • 让建站和SEO变得简单

    让不懂建站的用户快速建站,让会建站的提高建站效率!

    你的位置:UC 热点资讯 > 短视频热 > 从浩大到有序:Exa让汇注搜索酿成你的私东谈主数据库

    从浩大到有序:Exa让汇注搜索酿成你的私东谈主数据库

    发布日期:2024-12-11 10:29    点击次数:128

    起首:网易新闻

    起首:MITTechnologyReview

    一家名为 Exa 的初创公司正在推出一种新的生成搜索引擎,期骗 LLM 背后的时代来复返末端列表,并宣称这些末端比谷歌和 OpenAI 等竞争敌手的末端更准确。此名堂的方针是将互联网上浩大的网页酿成一种目次,提供具体而精准的末端。

    Exa 已将其搜索引擎动作后端奇迹提供给但愿在其基础上构建我方的应用法子的公司。近期,该公司推出了该搜索引擎的第一个花费者版块:Websets。

    “汇注是数据的集结,但它很浩大。”Exa 调理创举东谈主兼首席扩充官 Will Bryk 示意,“这里有一个 Joe Rogan 的视频,那边有一篇《大泰西月刊》的著述,十足莫得组织性。咱们的方针是让汇注嗅觉更像一个数据库。”

    Websets 面向高档用户,他们需要查找其他搜索引擎不擅长查找的内容,举例东谈主员或公司类型。如若搜索“制造改日硬件的初创公司”,Websets 会给出数百个具体公司的列表,而不是指向说起这些术语的网页的当场蚁集。Bryk 说,谷歌无法作念到这少量:“对于投资者或招聘东谈主员,或者想要从汇注上获得任何类型数据集的东谈主来说,Websets 王人能提供更多价值。”

    自从 MIT TR 于 2021 年报谈谷歌权谋东谈主员正在探索在新式搜索引擎中使用 LLM 以来,联系事件发展赶紧,导致这个概念很快就招来了强横的月旦,但科技公司并不介意。三年往常了,谷歌和微软等巨头与 Perplexity 和 OpenAI 等一多数新晋者争夺这一热点新趋势,况兼 OpenAI 还在 10 月份推出了 ChatGPT Search。

    Exa 还莫得试图卓绝任何一家公司,但它建议了一些新的东西。其他大多数搜索公司围绕现存搜索引擎包装 LLM,使用这些模子分析用户的查询,然后总结末端。但搜索引擎本人并莫得发生太大变化。举例,Perplexity 仍然将其查询定向到 Google 搜索或 Bing。简便走漏,不错把当前的 AI 搜索引擎想象成一个三明治,外侧是簇新的面包,但内部的馅料依然变质了。

    不单是是关键词

    Exa 为用户提供了老练的蚁集列表,但使用 LLM 背后的时代来从头瞎想搜索本人。基本想路如下:Google 的责任旨趣是握取网页并构建多量关键字索引,然后将其与用户的查询进行匹配;Exa 握取网页并将网页内容编码为一种称为镶嵌的时局,一种 LLM 不错处理的花式。

    镶嵌将单词调遣为数字,这么具有一样含义的单词就酿成了具有一样值的数字。内容上,这让 Exa 大致捕捉网页上文本的含义,而不单是是关键字。

    图|Websets的屏幕截图露馅了以下搜索末端

    LLM 使用镶嵌来掂量句子中的下一个单词,而 Exa 的搜索引擎会掂量下一个蚁集,输入“制造改日硬件的初创公司”,该模子就会给出可能跟在该短语背面的蚁集。

    诚然,Exa 的步骤亦然有代价的。对网页进行编码而不是对关键字进行索引既慢又腾贵。Bryk 示意,Exa 依然对数十亿个网页进行了编码,与谷歌比拟,这个数字微不及谈,谷歌依然对简短一万亿个网页进行了索引。但 Bryk 并不以为这是一个问题:“你毋庸镶嵌通盘汇注才能阐扬作用。”他说。(一个意旨的事实:“exa”示意为 1 背面随着 18 个 0,“googol”示意为 1 背面随着 100 个 0。)

    Websets 复返末端的速率特别慢,搜索巧合需要几分钟。但 Bryk 宣称这是值得的。“咱们的许多客户运转条款提供数千或数万个末端。”他说,“他们自得去喝杯咖啡,然后归来看到一大堆末端。”

    “当我不知谈我方到底在寻找什么时,我发现 Exa 最灵验。”斯坦福大学野心计科学系学生 Andrew Gao 使用过该搜索引擎,他说谈。“举例,查询‘一篇对于金融法学硕士的意旨博客著述’在 Exa 上比在 Perplexity 上成果更好。”但他也示意,它们各有千秋:“我将两者用于不同的方针。”

    “我以为镶嵌是示意履行天下中的东谈主、场地和事物等实体的好步骤。”Diffbot 首席扩充官 Mike Tung 示意,该公司使用常识图谱构建了另一种搜索引擎。但他指出,如若你试图镶嵌通盘句子或整页文本,就会丢失多量信息:“将《干戈与和平》示意为单个镶嵌会丢失该故事中发生的险些通盘具体事件,只留住对其类型和时辰的一般了解。”

    Bryk 承认 Exa 还在诞生中。他还指出了其他搁置。如若你只想查找一条信息,比如 Taylor Swift 男一又友的名字,或者 Will Bry 是谁,Exa 不如竞争敌手的搜索引擎好:“它会给出许多听起来像波兰东谈主的东谈主,因为我的姓氏是波兰东谈主。不错看出,镶嵌在匹配精准关键词方面说明欠安。”他说。

    当前,Exa 通过在需要时将关键词从头组合来处分这个问题。但 Bryk 对此持乐不雅气派:“咱们正在弥补镶嵌步骤中的颓势,使其变得越来越好,直到咱们不再需要寥落技能修正。”

    https://www.technologyreview.com/2024/12/03/1107726/the-startup-trying-to-turn-the-web-into-a-database/