Skip to main content

综观自索引搜索引擎

原文:A look at search engines with their own indexes

作者  Rohan Kumar

目前版本:2023-03-13

陆续更新

前言

本文是对所有我能够找到的索引搜索引擎的粗略评论。

具有自索引[1]的三个主导英语搜索引擎是 Google,Bing 和 Yandex(GBY)。GBY 的许多替代品都存在,但几乎没有一个没有自己的结果。相反,他们只是从 GBY 获取结果。

考虑到这一点,我决定对所有我能找到的不同索引搜索引擎进行测试和分类。我将优先考虑广度而不是深度,并鼓励读者如果需要获取更多信息,可以自己尝试这些引擎。

此页面是我计划无限期更新的“活跃文档“。如果你发现此页面十分有趣,请不时检查更新。欢迎给我提出建议,更新和更正;我特别感谢那些说英语以外的语言,并可以评估非英语索引搜索引擎的人的所提供的帮助。联系方式在文章页脚。

我计划更新前两个类别中的引擎,并提供更多信息,以比较引擎所利用的结构化/链接的数据(RDFa 词汇表,微数据,微模型,JSON-LD 等),以帮助创作者确定要使用的格式。

关于列表

我在缘由部分中讨论了制作此页面的动机。
我主要评估了英语的搜索引擎,因为这是我的主要语言。虽然有些困难,我也许可以评估西班牙语。但是,我找不到许多由自己的爬虫驱动的西班牙语搜索引擎。

我提到了诸如“允许站点提交”和结构化数据支持之类的详细信息,这些只是为了让内容创作者了解它们的选择,而不是作为引擎的有利因素。

请参阅底部的研究方法部分,以了解我如何评估每一个引擎的。

通用的索引搜索引擎

有大型索引,搜索结果优秀

这些是通过我所有标准测试的大型引擎。

Google

最大的索引。允许提交页面和站点地图以爬取,甚至支持 Websub 以自动化此过程。驱动着其它一些引擎:

Bing

老二。允许使用 IndexNow API 提交页面和站点地图而不登录,与 Yandex 和 Seznam 共享 IndexNow 界面提交。它的索引驱动着许多其它引擎:

  • Yahoo(及其衍生引擎,One­Search)
  • DuckDuck­Go[3]
  • AOL
  • Qwant(部分)[4]
  • Ecosia
  • Ekoru
  • Privado
  • Findx
  • Disconnect Search[5]
  • PrivacyWall
  • Lilo
  • Search­Scene
  • Peekier
  • Oscobo
  • Million Short
  • Yippy search[6]
  • Lycos
  • Givero
  • Swisscows
  • Fireball
  • Netzzappen
  • You.com[7]
  • Metager 默认情况下部分被其驱动;这可以关闭
  • 目前,我基本上不再添加基于 Bing 的搜索引擎。有太多了。
Yandex

最初是俄语的搜索引擎,现在已推出英语版本。有一些俄语的搜索结果流入了其英文网站。它允许使用 IndexNow API 提交页面和站点地图,与 Bing 和 Seznam 共享 IndexNow 界面提交。驱动着:

Mojeek

看起来注重隐私保护,具有包含数十亿个页面的大型索引。它的质量不及 GBY,但也不坏。如果我不得不将 Mojeek 用作默认的通用搜索引擎,我可以使用它。eTools.ch 部分由其驱动。目前,针对通用搜索引擎我认为 Mojeek 是 GBY 的最佳替代品

华为的搜索引擎,最近从搜索 Android 应用程序转变为通用搜索,以减少对西方搜索服务提供商的依赖。尽管搜索结果令人意外的好,但由于隐私问题,我不推荐使用它:其隐私政策描述了增强指纹识别遥测,并且没有 JavaScript,它将无法正常工作。提交站点需要一个帐户。我通过我的访问日志发现了这个搜索引擎。请注意,在某些司法管辖区,它不使用自己的索引:在俄罗斯和一些欧盟地区,它分别使用了 Yandex 和 Qwant。

Google,Bing 和 Yandex 支持结构化数据,例如 microformats1,microdata,RDFa,Open Graph markup 和 JSON-LD。Yandex 对 microformats1 的支持是有限的;例如,它可以为组织机构解析 H-Card 元数据,但不面向个人。Open Graph 和 Schema.org 是我知道的唯一支持的词汇表。Mojeek 正在评估结构化数据;它对 Open Graph 和 Schema.org 词汇表感兴趣。

有较小的索引或结果不够相关

这些引擎在“研究方法”部分列出的大部分测试中都通过了。它们都比较注重隐私保护。我不建议使用这些引擎来寻找特定的结果;通过查找与一组关键词相关的有趣页面来深入了解一个主题,这对于它们来说会是更好的选择。

Right Dao

非常快速,结果不错。测试也都通过了。一旦其用户群体增加,它计划包含查询式广告。[8]

Gigablast

它已经存在一段时间,并且也拥有一个经典 Web 目录。搜索有点慢,提交站点进行爬取也需要收费。它为 Private.sh 提供技术支持。Gigablast 在质量上与 Right Dao 不相上下。

Alexandria

一个相当新的“非营利性,不投放广告”的引擎,并且拥有自由许可的代码。其发现最新网页的能力令人惊讶。它的索引来自 Common Crawl;虽然它比 Gigablast 或 Right Dao 的索引要小,但排名很高。

Yep

这是一个野心勃勃的引擎,来自一个搜索引擎优化和后向链接查找的公司,Ahrefs,它“与创作者分享广告收益并保护你的隐私”。大多数引擎会显示包含查询关键字或相关关键字的结果;Yep 还会显示与包含查询的页面链接的结果。换句话说,并不是所有的结果都包含相关关键字。这使它可以用于不太精确的搜索以及发现“相关网站”,尤其是通过它数百亿网页的索引。目前它在查找非常具体的信息或最近事件方面表现较差,但它可能会得到改进。在正式发布之前,它被称作 “FairSearch”。

SeSe Engine

尽管它是一个中文引擎,但其索引似乎有足够多的英文内容适用于此处。此引擎是开源的;请参阅 SeSe 后端 Python 代码基于 Vue 的 SeSe-UI 前端。对于一个低预算项目,它的结果惊人地好。每个结果都标注有详细的排名元数据,例如关键字相关性和反向链接权重。之前在我的访问日志中发现了它。

目前 Yep 支持 Open Graph 和一些 JSON-LD。查看 Alexandria 和 Gigablast 的源代码没有显示它们使用任何结构化数据。SeSe 和 Right Dao 的出人意料的结果质量似乎受爬虫的高质量起始位置(即维基百科)的影响。

有较小的索引,时好时坏

这些引擎在一些重要测试中表现很差。然而,对于希望在不太具体的搜索中获得更多意外惊喜的用户来说,它们貌似恰如其分。

Infotiger

这个引擎是我在本部分的最爱。它提供了高级结果过滤并拥有一个相当大的索引。它允许提交英语和德语页面的站点。在这一部分中改进最快的引擎:我经常使用它发现新的网站,并期待它“升级”到上一部分的那一天。Infotier 拥有一个 Tor 隐藏服务

seekport

界面是德语,但它能很好地支持英语搜索。默认语言是由本地设置的。考虑到它相对较小的索引,它非常优秀;它可能没有听说过一些不常见的术语,但在其它测试中它能找到相关的结果。它是本部分中增长第二快的引擎。

Exalead

搜索速度较慢,质量参差不齐。它的索引器声称爬取 DMOZ 目录,但此目录已停止,并已被 Curlie 目录替换。一些与历史相关的查询,比如 “Oppenheimer”,没有相关结果。允许提交个别网址进行索引,但需要解决 Google reCAPTCHA 和输入电子邮件地址。

ExactSeek

索引较小,被大型网站所占据。在多项测试中失败。允许提交个别网址进行爬取,但需要输入电子邮件地址并接收通讯简报。网站管理员工具似乎在大力推销付费的 SEO 选项。它还支持 SitesOnDisplay 和 Blog-search.com

Burf.co

索引非常小,但它更善于将相关的结果排名靠前。允许直接提交网站,没有多余的步骤。

Entfer

一个新来者,允许注册的用户对搜索结果进行投票以自定义排名。未提供关于其运营者的详细信息。它的索引虽然不大,但似乎会返回与查询相关的结果。

Siik

缺少联系信息,ToS 和隐私策略链接都是无法访问的。它的即时回答小部件的后端似乎存在 PHP 错误。如果你滚动到所有那些问题之后,它的网页搜索似乎是由它自己的索引提供的。这些结果通常会是相当相关的,但此索引似乎对于更具体的查询而言有些小。

websearchengine.org 或 tuxdex.com

这两个搜索引擎由同一批人经营,使用他们的 inetdex.com 索引。搜索速度很快,但是它的爬取深度较浅。声称拥有 1000 万域名的索引,并且不使用 Cookies。

ChatNoir

这是一个由研究人员开发的实验性引擎,使用的是 Common Crawl 索引。此引擎是开源的。请查看 Common Crawl 邮件列表(Google Groups)上的公告

Secret Search Engine Labs

索引非常小,几乎没有多少 SEO 垃圾;它承诺在“搜索引擎”和“冲浪引擎”之间取得平衡。对于那些因为 SEO 垃圾而难以在广泛话题上找到有用信息的人来说,它是最好的选择,由于它的 CashRank 算法,它可以帮助人们读取广泛话题的信息。允许网站提交。

新兴引擎

这类搜索引擎的结果似乎并不那么相关;这个类别的索引通常很小。

Yessle

看起来很新;允许通过将页面粘贴到搜索框中进行页面提交。索引非常小,但可以快速爬取新站点。声称是私人的。

Bloopish

更新索引的速度非常快;站点提交的结果在几秒钟内就能显示出来。不幸的是,其索引只包含几千个文档(在撰写本文时不到十万个)。它正在快速增长:如果你搜索一个词,它将开始抓取相关页面并增加其索引。

YaCy

社区制作的索引;速度慢。结果很糟糕/不相关,但可用于内部网或自定义搜索。

Scopia

似乎仅可通过 MetaGer 元搜索引擎在关闭 Bing 和新闻结果后使用。索引很小,质量很低。

主要是土耳其语,但似乎也支持英文结果。与 Plumb 一样,它使用客户端 JS 从现有引擎(Google、Bing、Yahoo、Petal 等)获取结果;与 MetaGer 一样,它有一个选项可使用其自己独立的索引。来自其索引的结果几乎总是空的。非常简单的查询(“twitter”,“wikipedia”,“reddit”)提供一些结果。支持站点提交和众包即时结果。

Active Search Results

质量极差。结果似乎严重偏向商业网站。

Crawlson

新,慢。在此类别中,因为其索引每个域名有 10 个 URL 的容量限制。我最初在 seirdy.one 访问日志中发现了 Crawlson。

Anoox

结果很少且不相关;无法找到任何基本术语的结果。允许站点提交。它还是一个轻量级社交网络,并声称由其用户提供动力,让成员对列表进行投票以改变排名。

Yioop!

一个自由开源的搜索引擎,拥有非常令人印象深刻的功能集:它可以解析站点地图、订阅源和各种标记格式;它可以导入预筛选的数据,格式如访问日志、Usenet 帖子和 WARC 档案;它还支持基于订阅源的新闻搜索。尽管功能集非常令人印象深刻,但由于其小型索引,Yioop 的结果很少且不相关。允许提交站点进行爬行。与 Meorca 一样,Yioop 具有博客、维基和聊天机器人 API 等社交功能。

Marlo

另一个自由开源的引擎:Marlo 是用 Haskell 编写的。具有适于浏览广泛主题但不足以进行特定研究的小型索引。

Spyda

这是一个由 James Mills 制作的小型引擎,它被描述在 So I'm a Knucklehead eh? 文章中。它是用 Go 编写的;可以查看其 MIT 许可证的 Spyda 源代码

半独立性索引

此类引擎在其自己的索引没有足够结果时会回退到 GBY。随着它们自己的索引不断增长,某些搜索引擎声称这种情况应该会越来越少。

许多测试(包括我在“研究方法”部分列出的所有测试)的结果与 Google 完全相同,这点由与 Google、Startpage 和仅启用 Google 的 Searx 实例进行的横向比较得出。Brave 声称,这归功于 Cliqz(由 Brave 收购的已终止运营的引擎)使用查询日志构建其页面模型的方式,并且经过了针对 Google 的优化[9]。索引是独立的,但是针对 Google 的优化导致与独立索引的实际收益过于相似。此外,许多查询都与 Bing 的结果混合在一起;用户可以单击“信息”按钮,查看自己的索引占结果的百分比。独立的百分比通常相当高(通常接近 100%独立),但对于高级查询来说可能会下降。

Plumb

几乎所有的查询都没有返回结果;当这种情况发生时,它会回退到 Google。虽然回退过程相当透明,但我还是担心它是如何实现的:它会从 cse.google.com 加载 Google 的自定义搜索脚本到页面上进行客户端 Google 搜索。可以使用浏览器插件阻止 cse.google.com 加载任何脚本来缓解这种情况。Plumb 声称这是其索引增长期间的临时措施,并且他们计划摆脱这种情况。允许提交 URL,但需要解决 hCaptcha。这个引擎非常新,希望随着它的改进,它可以从这个类别升级。其首席产品官以前创立了 Gibiru 搜索引擎,与此搜索引擎共享相同的附属企业和(目前)相同的索引;随着时间的推移,索引将分化。

Neeva

结合了 Bing 的结果与自己的索引结果。Bing 通常不允许这样做,但 Neeva 是为数不多的例外之一。截至目前,其结果大部分与 Bing 相同,但经常会出现 Bing 未找到的原始链接。长而晦涩的查询不太可能出现原始结果。需要使用电子邮件地址或 OAuth 进行注册,并提供具有附加功能的付费层次。

Qwant

Qwant 声称使用自己的索引,但仍然依靠 Bing 获取大部分结果。它似乎处于与 Neeva 相似的位置。尝试进行横向比较,看看它与 Bing 相比如何。

在我看来,这是此类别中最为有趣的条目。与 Neeva 一样,需要帐户并限制未付款用户的使用。它由其自己的 Teclis 索引(Teclis 可以独立使用;请参见下面的非商业部分)驱动,并声称还使用了来自 Google 和 Bing 的结果。结果似乎有些独特:我能够识别一些来自 Teclis 索引的结果与主流结果混合在一起。除了 Teclis,Kagi 的其它产品还包括 Kagi.ai 智能答案服务和 TinyGem 社交书签服务,这些都在现在或未来在 Kagi.com 中发挥作用。

非通用性搜索引擎

这些索引搜索引擎没有类似于 Google 的“问我任何问题”的最终目标;它们试图做一些不同的事情。你不应该像使用 GBY 一样使用这些引擎。

小型或非商业网站

这是我在此页面最喜欢的条目。它有自己的爬虫,但强烈偏向于非商业、个人和/或极简的网站。这是对 GBY 中越来越多充斥着 SEO 垃圾的 SERPs 的巨大回应。部分地驱动了 Teclis,后者又部分地驱动了 Kagi。2022-05-28 更新:Marginallia.nu 现在是开源的。

Teclis

由 Kagi search 的创始人创建的一个项目。使用自己的爬虫,探测 uBlock Origin 阻止的内容,并使用开源文章抓取器 Trafilatura 和 Readability.js 提取内容。这是一种非常有趣的方法:跟踪被阻止的元素会抑制跟踪和广告;使用 Trafilatura 和 Readability.js 会鼓励使用语义 HTML 和语义 Web 标准,例如微格式微数据RDFa。它声称还使用了 Marginalia 的一些结果。

网站查找器

这些引擎试图找到网站,通常是在域名级别。它们不专注于捕获网站内的特定页面。

Kozmonavt

此类别中的最佳。拥有超过 800 多万个站点的小型但不断增长的索引。如果我想找到某个项目的网站,Kozmonavt 效果很好(前提是其索引已爬取此网站)。它的寻找学习资料和查找一般信息的能力很弱。由于它缺少联系方式、隐私政策或任何其他有关组织/人员的信息,我不能重点推荐它。发现于 seirdy.one 的访问日志中。

search.tl

单次搜索限制在单个 TLD 上的通用搜索(默认为 .com)。我不确定为什么你想一直将搜索限制在单个 TLD 上,但现在你可以这么做了[10]。没有可视化 UI 以更改可用结果的 TLD;你需要添加/更改 tld URL 参数。例如,要搜索 .org 站点,请将 &tld=org 附加到 URL。它似乎与 Amidalla 有关。Amidalla 允许用户将 URL 手动添加到其索引和目录中;我还没有看到这样做是否会影响 search.tl 结果。

Thunderstone

一个结合了网站目录和搜索引擎的分类工具。其介绍页面声称:我们不断调查 COM、NET 和 ORG 的所有主要 Web 服务器,并提炼其内容以生成此数据库。这是一个网站的而非页面的索引。它非常擅长通过目的、产品、主题或位置查找公司和组织。如果你试图找到类似“BillyBob 在 AOL 上的个人啤酒罐页面”的东西,请尝试 Yahoo 或 Dogpile。这似乎是“小型或非商业网站”类别中引擎的对立。

sengine.info

仅显示域名,而不是单独的页面。由专门从事于印刷和招聘广告的内容提取的 netEstate GmbH 开发。还提供仅限德语的版本。发现于我的访问日志中。

Gnomit

允许单个关键字查询,并返回涉及相关主题的站点。我实际上很喜欢使用它;结果很旧(通常来自 2009 年)且有点随意,但是可以很好地发现一些新事物。例如,搜索“IRC”帮助我发现了我从未听说过的新 IRC 网络。

其它

High Browse

使用非传统的排名算法,能够在搜索结果中引入非 SEO 优化的巧合,是我最喜欢的“冲浪引擎”,与传统的“搜索引擎”不同。

Keybot

任何从事翻译工作的人的必备工具。它爬取网络以查找多语言网站。不确定如何翻译某个单词或短语的翻译者可以看到两种语言中的使用情况,从其它人工翻译中学习。我父母的英语很流利,但有时不知道如何用英语表达某个印地语习语;这种工具对他们可能有用,因为机器翻译并不针对每种情况提供细致入微的解释。属于 TTN 翻译网络的一部分。发现于我的访问日志中。

Quor

主要收录大型新闻网站。截至 2021 年 6 月,此网站已关闭;最初可在 www dot quor dot com 上访问。

Semantic Scholar

由 Allen Institute for AI(艾伦人工智能研究所)开发的面向学术 PDF 的搜索引擎,索引了几亿篇论文。发现于我的访问日志中。

Bonzamate

一个专门为澳大利亚网站设计的搜索引擎。Boyter 写了一篇有趣的关于 Bonzamate 的博客文章

searchcode

由 Bonzamate 的开发者开发的代码搜索引擎。于经过精心挑选的代码库列表中搜索源代码,支持许多搜索操作符。

其它语言

由于我不会讲这些语言,因此无法恰当地评估这些引擎。对于英语搜索,可能或好或坏。在此类别中,我可能会犯一些错误。

大型索引

  • 百度(Baidu):中文。具有非常大的索引;与 GBY 一样,是一个主流引擎。提供网站提交的站长工具。
  • 360 搜索(Qihoo 360):中文。我不确定这个搜索引擎的独立性。
  • 今日头条(Toutiao):中文。我也不确定这个搜索引擎的独立性。
  • 搜狗(Sogou):中文。
  • 一搜(Yisou):中文。
  • Naver:韩文。允许提交站点地图和订阅源。发现于一些 Searx 元搜索实例。
  • Daum:韩文。这个搜索引擎的独立性也不确定。
  • Seznam:捷克语,似乎相对隐私友好。发现于 seirdy.one 的访问日志中。它允许使用站长工具提交网站。Seznam 支持 IndexNow;它与 Bing 和 Yandex 分享 IndexNow 提交的页面。
  • Cốc Cốc:越南语
  • go.mail.ru:俄语

小型索引

几乎符合条件

这些引擎接近通过我的包含标准,我觉得我必须提及它们。它们都显示出了你无法在其它引擎上找到的原始自然搜索结果,并维护自己的索引。不幸的是,它们还没有完全符合条件。

wiby.mewiby.org

我喜欢这个搜索引擎。它专注于小型独立站点,捕捉“早期”网络的精神。它更注重“发现”与一组关键字匹配的新有趣页面,而不是寻找特定的资源。我喜欢把 Wiby 认为是一个冲浪而不是搜索引擎。Runnaroo 偶尔会特别推荐来自 Wiby 的页面(Runnaroo 现在已关闭)。如果你有一个不太“商业化”的小型网站或博客,请考虑将其提交到索引中。不符合条件,因为它似乎只由用户提交的站点支持;它不会尝试“爬取互联网”。

Mwmbl

像 YaCy 一样,它是一款开源引擎,其爬取由社区驱动。用户可以安装 Firefox 插件来爬取其日志中的页面。不幸的是,它不符合条件,因为它只爬取由手动选择的站点链接的页面(例如 Wikipedia、GitHub、在 Hacker News 排名良好的域名)。爬取深度为“1”,因此(目前)它无法爬取整个互联网。

Search My Site

类似于 Marginalia 和 Teclis,但仅索引用户提交的个人和独立站点。它可选择支持 IndieAuth。它的 API 支撑着本站的搜索结果;可试用底部的搜索栏进行搜索。不符合条件,因为它被限制为用户提交和/或手动选择的站点。

Blog Surf

一个搜索带有 RSS/Atom 源的博客的搜索引擎。不符合条件,因为提交到索引中的所有博客都需要手动审核,但它看起来很有趣。其“MarketRank”算法似乎让它偏向“Hacker News”上受欢迎的站点。

杂项

Ask.com

这个网站回来了。他们声称外包搜索结果。结果似乎类似于 Google、Bing 和 Yandex;但是,我无法确定他们的结果确切地来自哪里。此外,“ask.com 网络”的几个站点,如 directhit.com、info.com 和 kensaq.com,都有独特的搜索结果。

部分评估。年轻的小型索引。它最近分为带主索引的付费服务和 Infinity Decentralized,后者允许用户从社区托管的爬虫中选择。我在它变成付费功能之前试过它,它看起来不错;但是,我不能运行“研究方法”部分中列出的测试。允许在文本框中提交 URL 和站点地图,无需其它工作。

没有网页接口的搜索引擎

一些搜索引擎是嵌入到其它应用中的,没有网页接口。

  • 苹果的搜索引擎可以通过"Siri 建议的网站"形式使用。它的索引是由 Applebot 网络爬虫建立的。如果苹果已经有了一个工作的搜索引擎,那么可以说,它们迟早会为其创建一个网页接口。
  • 亚马逊购买了 Alexa Internet(当时是一个与亚马逊 Alexa 虚拟助手无关的网络流量分析公司),并停止了其网站排名产品。亚马逊仍在运行相关的爬虫,并拥有一个名为"Amazonbot"的机器人。虽然 Applebot 为 Siri 个人助手提供支持,但 Amazonbot 为 Alexa 个人助手提供支持,可以回答更多的客户问题。爬取网络以回答问题是搜索引擎的基础。

墓地

这些引擎最初包含在文章中,但现在已中止运营。

wbsrch

除了通用搜索外,它还具有许多与域名统计有关的其它实用程序。它的索引有点过时;它有一个旧的未完成索引的网站库。它还有几个针对每种语言的专用索引。

Gowiki

非常年轻,索引规模很小,但显示出了很大的潜力。我在 seirdy.one 的访问日志中发现了这个搜索引擎。它只在美国可用。截至 2022 年初,它似乎已经宕机。

Meorca

总部位于英国的搜索引擎,声称其不会"索引含有色情或非法内容的网站"。它还提供一个可选的社交网络("博客")。我在 seirdy.one 的访问日志中发现了它。

Ninfex

这是一个结合了链接聚合器和搜索引擎的"群众驱动"搜索引擎。它允许用户对提交的内容进行投票,并显示有关提交的论坛链接。

排除

此列表中排除了两个引擎,因为它们有极右翼的倾向。

还有一个引擎因为使用加密货币的方式,我不愿意支持,所以也被排除在这个列表之外。

一些有趣的小型引擎似乎只是爱好者的概念验证 (POC)。我决定不把它们包括在此列表中,但我会关注它们,看看它们能否成为可行的搜索引擎。

缘由

为什么要使用非主流搜索引擎?

利益冲突

Google、微软(Bing 背后的公司)和 Yandex 不仅是搜索引擎公司,也是内容和广告公司。例如,Google 在 YouTube 上托管视频内容,微软在 LinkedIn 上托管社交媒体内容。这给这些公司带来了强大的动力去优先考虑他们自己的内容。即使他们声称他们将自己的内容和其它任何内容一样对待,他们也能这样做:因为他们完全能够访问他们的搜索引擎的内部工作原理,他们可以调整他们的内容页面以更好地适应他们的算法,并调整他们的算法以在他们自己的内容上运行良好。他们还可以无限制地索引自己的内容,但限制其它爬虫的索引[11]

避免这种利益冲突的一种方法是使用与主流内容提供者无关的搜索引擎;即使用有自己独立索引的引擎。

信息多样性

试用其它引擎还有一个实用且非意识形态的原因:不同的提供者有不同的结果。在一个搜索引擎上难以找到的网站可能在另一个上容易找到,因此使用更多的索引和排名算法可以获得更多的内容。

没有搜索引擎是真正客观的。大多数引擎的排名算法类似于 PageRank,这使它们偏向于那些有很多反向链接的网站。搜索引擎必须处理那些不受欢迎的结果,这些结果存在于 SEO 垃圾、冲击性内容 (shock content) 和重复内容之间令人困惑的重叠区域中。当这些内容的操纵排名算法导致它排名很高时,引擎必须通过手动操作或算法改进来解决它。选择通过任一选项来解决这个问题,或选择在收到用户报告后将其保留在热门查询中,都反映出了偏向。最好的解决方案是混合使用不同的排名算法和索引,而不是仅使用单个引擎搜索。

研究方法

发现

我通过以下方式发现新的引擎:

- 监控特定的网页目录,以发现搜索引擎列表的变化。
- 检查其它 "好/坏机器人" 的精选列表,找出其中的搜索引擎。
- 使用搜索引擎来发现搜索引擎:搜索较不流行的引擎名称通常会带来类似的搜索列表。
- 接收读者的建议。
- 编写一系列常用 user-agent 字符串的正则表达式。(在删除服务器访问日志之前,提取出与此列表不匹配的 user-agent 字符串及其请求的页面。)
- 查看 Searx 和 SearxNG 项目是否有新的集成。

入选标准

此列表中的引擎应该有自己的索引,由网络爬虫驱动。原始结果不应仅限于引擎创建者手动挑选的一组网站;索引应由互联网上的各个站点构建而成。引擎应当发现互联网上的新奇有趣的地方。

以下是一个过度简化的示例,以说明我所寻找的内容:想象有人自托管了自己的个人网站或特定兴趣网站,偶然得到一些认可。你的爬虫能否自动发现它、索引化,并在某些查询的第一页结果中包含它?

但我愿意做两个例外:

- "半独立"部分中的引擎可以将符合上述标准和不符合标准的结果混合在一起。
- "几乎合格"部分中的引擎可能主要使用由用户提交或手动挑选的站点构建的索引,而非主要关注通过爬取自然发现的站点。

第二个例外存在的原因是,虽然用户提交的站点不代表自动爬取,但它们至少会告知引擎新的有趣站点,而这些站点在之前还没有被发现;这些站点随后可以显示给其他用户。这应该是一种替代性网页索引需要实现的基本功能。

我通常不会妥协我的 "不允许手动挑选的网站" 规则。无论你们的引擎是通过它们的 API 获取内容还是爬取和抓取它们的内容,手动挑选的站点都将被忽略。可以将手动挑选的站点用作爬虫的起点(例如,维基百科是一个常见的选择)。

我只考虑针对网页链接结果进行搜索的搜索引擎。图像搜索引擎不在考虑范围内,尽管我可能会考虑一些非通用搜索引擎(例如,Semantic Scholar 可以找到 PDF 而非网页)。

评估

我几乎完全专注于“自然搜索结果”(即经典的链接搜索结果),并没有太关注(通常非常明显的)隐私问题,“增强”或“即时”结果(例如,维基百科侧栏、相关搜索、Stack Exchange 答案)或其它元素。

我将晦涩的查询结果横向比较;如果前 20 个结果(几乎)与其它引擎的结果相同(尽管可能顺序略有不同),则它们可能来自外部来源,而不是独立索引。

我努力挑选应该具有良好结果数量和搜索引擎之间差异的查询。我测试的一些不完整查询选择:

  • “vim”、“emacs”、“neovim”和“nvimrc”:具有与“nvimrc”相关结果的搜索引擎通常具有大型索引。找到与文本编辑器“vim”和“emacs”相关的结果而不是与共享名称的其它主题是一项具有挑战性的任务。
  • “vim 清洁剂”:应返回与一系列与清洁产品相关的结果,而不是所谓正确的文本编辑器。
  • “Seirdy”:我的网站流量相对较低,但我的昵称在一些流量极高的网站上非常独特和引人注目。
  • “Project London”:一部由志愿者与自由开源软件制作的小电影,没有太多的广告。如果出现与电影相关的链接,则此引擎的效果非常好。
  • “Oppenheimer”:一个多义词。在没有上下文的情况下,它应该指的是在洛斯阿拉莫斯工作的原子弹物理学家。其它历史查询:“大宪章”(中难度),“王子”(高难度)。

一些不太主流的引擎已经注意到了本文,这非常好!我与几个这些引擎的工作人员进行了很好的讨论。不幸的是,本文的可见性也激励一些引擎专门为我所描述的任何方法进行优化。我通过将测试查询的长列表保密来解决这个问题。上述简单查询是快速进行简单评估的不错起点,但是我还要测试常用的搜索运算符、关键词长度和特定领域的术语类型。我还使用旨在提高特定页面受欢迎度和新鲜度的查询来评估索引的规模、范围和增长速度。

专业评论家经常匿名工作,因为个性化可能会损害他们的评论诚信。出于类似的原因,我尝试匿名地至少一次尝试每个引擎,方法是使用 VPN 和/或我的标准匿名设置:一个健忘的 Whonix VM 与 Tor 浏览器。我在旅行时经常使用新的配置文件进行测试,或者通过 Searx 实例进行测试(如果它支持给定的引擎)。在避免个性化时,我使用“多样化”的查询,不会逐字地在搜索引擎之间重复这些查询;这可以减少识别我的可能性。我还尝试随时间推移将这些测试分散开来,以便管理员不会注意到不可预测和晦涩搜索的不寻常增加。这可能看起来过分,但是我已经定期为各种不同情景采用类似的方法。

警告

当测试需要创建帐户的引擎时,我没有尝试避免个性化。“时好时坏”和“无法使用”部分的条目得到的关注较少:我没有花费大量精力追踪结果随时间的变化,以查看新条目是如何添加到其中的。

我避免了像问题这样的“自然语言”查询,而是专注于关键字搜索和搜索运算符。我也基本忽略了信息框(也称为“即时答案”)。

研究结果

通过建立这个列表,我学会了如何进行更深入的网络搜索。 

仅使用单个引擎搜索的做法忽略了不同的引擎具有不同的强处。例如:虽然 Google 更注重成为“答案引擎”,但是其它引擎在发现与广泛主题相关的新网站方面比 Google 更好。幸运的是,像 Chromium 和 Firefox 这样的浏览器使得添加许多搜索引擎快捷方式以便于快速切换变得容易。

在与搜索引擎创始人交谈时,我发现增加索引的最大障碍是被网站阻止。Cloudflare 是最糟糕的罪犯之一。太多网站都阻止了表现良好的网络爬虫,只允许 Googlebot、BingBot 和 TwitterBot 这样的主要玩家;这巩固了目前英语搜索的双头垄断局面,对整个网络的健康发展是有害的。

许多人针对 Google 对网站进行优化,而没有考虑他们的行为可能带来的长期后果。Google 的 JavaScript 支持使得不使用 JavaScript 或图片测试网站的做法“过时”了:在此列表中几乎没有非 GBY 引擎具有 JavaScript 能力。

在构建网页时,作者需要考虑新搜索引擎进入的障碍。我们今天所能构建的最佳引擎不应取代 Google。它们应该努力与 Google 区别开来,我们想看到 Google 不会向我们展示的网络,搜索引擎的多样化是这个方向的重要一步。

可以尝试从列表中选择排名较低的“糟糕”引擎。它可能会显示一些非常糟糕的内容。但是每个废物堆都有未被发现的宝藏。我相信你将会发现一些珍贵的宝藏。让我们在充满 SEO 的网络中增加一些意想不到的发现。

致谢

这些内容部分来源于 Search Engine MapSearch Engine Party。一些网页目录也很有用。

GigablastMatt Wells 也向我提供了一些有关 GBY 的有用信息,并包含在“缘由”部分中。他在 Gigablast 博客中更详细地写到了大型科技公司。

来自 The New Leaf JournalNicholas Ferrell 著写的“2021 年备选搜索引擎和搜索资源列表”是一个很好的备选搜索引擎文章。他还向我提供了有关 Seznam、Naver、Baidu 和 Goo 的一些有用细节

尾注

1.

是的,“indexes”是“index”的可接受复数形式。在数学课堂之外,单词“indices”听起来有点奇怪。

2.

更新:2023 年 3 月 8 日更新的 Startpage 支持文章声称 Startpage 也使用 Microsoft(可能是 Bing)。在我的测试中,我仍然看到谷歌的结果。如果这种情况发生变化,我将更新它的排名。

3.

DuckDuckGo 有一个名为 DuckDuckBot 的爬虫。此爬虫不影响显示的链接结果,它只获取图片网站图标并为某些即时回答收集数据。DuckDuckGo 的帮助页面声称引擎使用了 400 多个来源,我的理解是至少有 398 个来源不会影响自然搜索结果。我认为 DuckDuckGo 并未充分公开其自然搜索结果是代理的事实。将 DuckDuckGo 与 Bing 和 Yandex 并排比较,你会看到它从其中一个(可能是 Bing)获取自然搜索结果。更新,2022 年 3 月:DuckDuckGo 有能力自行降低搜索结果;此前,它与 Bing 合作去除虚假信息和垃圾信息。

4.

Qwant 声称也使用自己的爬虫获得结果,但根据我自己的经验,它大部分还是 Bing。请看“半独立”部分。

5.

Disconnect Search 允许用户将结果代理从 Bing 或 Yahoo 获取,但 Yahoo 的结果来自 Bing。

6.

Yippy 声称是由某个 IBM 品牌(可能对应于任何数量的产品)驱动,并用“Yippy Index”这个短语注释结果,但将其与 Bing 和其它基于 Bing 的引擎进行了横向比较,结果几乎相同。

7.

我正在重新评估 You.com。它声称运营一个爬虫和索引。对我来说,它看起来非常像 DuckDuckGo[4]:自然搜索结果看起来像 Bing 的结果,而简介(“应用程序”)似乎是从选定的网站抓取或查询的。
我目前没有看到像其它可以通过我的纳入标准的引擎那样从“网络”中获取结果。也许我错了!我正在重新评估它,以查看这是否确实是这种情况。

更新:You.com 似乎从 Bing 获取有机链接结果,并仅将这些结果与其自己策划的简介交替显示

8.

这是 Right Dao 在 Reddit 上发表的声明存档)。

9.

更多信息可以在此 HN 子帖和 Cliqz 技术博客的一些文章中找到(文章一文章二)。

10.

一些搜索引擎支持 site: 搜索运算符,以将搜索限制在单个站点或 TLD 的子页面或子域名中。例如,site:.one 只限制搜索具有“.one” TLD 的网站。

11.

Gigablast 的 Matt 告诉我,如果你不是 Google 或 Microsoft,索引 YouTube 或 LinkedIn 将被阻止。我猜测你可以通过特殊许可以获得索引的权限,如果你是一个大公司。