Skip to main content

综观自索引搜索引擎

原文:A look at search engines with their own indexes

作者  Rohan Kumar

目前版本:2023-01-23

陆续更新

前言

这是对我能够找到的所有索引搜索引擎的粗略评论。

具有自索引[^1]的三个主导英语搜索引擎是Google,Bing和Yandex(GBY)。GBY的许多替代品都存在,但几乎没有一个没有自己的结果。相反,他们只是从GBY获取结果。

考虑到这一点,我决定对所有我能找到的不同索引搜索引擎进行测试和分类。我将优先考虑广度而不是深度,并鼓励读者如果需要获取更多信息,可以自己尝试这些引擎。

此页面是我计划无限期更新的“活跃文档“。如果您发现此页面十分有趣,请不时检查更新。请随时给我提出建议,更新和更正;我特别感谢那些说英语以外的语言,并可以评估非英语索引搜索引擎的人的帮助。联系信息是文章页脚。

我计划更新前两个类别中的引擎,并提供更多信息,以比较引擎所利用的结构化/链接的数据(RDFa 词汇表,微数据,微模型,JSON-LD等),以帮助作者确定要使用的格式。

关于列表

我在[缘由部分](#缘由)中讨论了制作此页面的动机。
我主要评估了英语的搜索引擎,因为这是我的主要语言。虽然有些困难,我也许可以评估西班牙语。但是,我找不到许多由自己的爬虫驱动的西班牙语搜索引擎。

我提到了诸如“允许站点提交”和结构化数据支持之类的详细信息,这些只是为了让内容创作者了解它们的选择,而不是作为引擎的有利因素。

请参阅底部的[方法论部分](#方法论),以了解我如何评估每一个引擎的。

通用的索引搜索引擎

有大型索引,搜索结果优秀

这些是通过我所有标准测试的大型搜索引擎。

Google

最大的索引。允许提交页面和站点地图以爬取,甚至支持Websub以自动化该过程。驱动着其它一些引擎:

  • Startpage,可能是最受欢迎的Google代理。
  • GMX Search,由流行的德国电子邮件提供商运营。
  • (已终止运营)Runnaroo
  • SAPO(葡萄牙语的界面,可以看到英语结果)
  • DSearch

  • 13TABS

  • 使用可编程搜索引擎客户端脚本的其它许多引擎。
Bing

老二。允许使用 IndexNow API 提交页面和站点地图而不登录,与 Yandex 和 Seznam 共享 IndexNow 界面提交。它的索引驱动着许多其它引擎:

  • Yahoo(及其衍生引擎,One­Search)
  • DuckDuck­Go[^2]
  • AOL
  • Qwant(部分)[^3]
  • Ecosia
  • Ekoru
  • Privado
  • Findx
  • Disconnect Search[^4]
  • PrivacyWall
  • Lilo
  • Search­Scene
  • Peekier
  • Oscobo
  • Million Short
  • Yippy search[^5]
  • Lycos
  • Givero
  • Swisscows
  • Fireball
  • Netzzappen
  • You.com[^6]
  • Metager 默认情况下部分被其驱动;这可以关闭
  • 目前,我基本上不再添加基于Bing的搜索引擎。有太多了。
Yandex

最初是俄语的搜索引擎,现在有一个英语版本。有一些俄语的搜索结果流入了其英文网站。它允许使用 IndexNow API 提交页面和站点地图,与 Bing 和 Seznam 共享 IndexNow 界面提交。驱动着:

Mojeek

有包含数十亿页的大型索引而且似乎还是面向隐私的。质量不在 GBY 的水平之上,但还不错。如果我不得不将 Mojeek 用作默认的通用搜索引擎,那我也能正常生活。eTools.ch部分由其驱动。目前,针对通用搜索引擎我认为 Mojeek 是 GBY 的最佳替代品

华为的搜索引擎,最近从搜索 Android 应用程序转变为通用搜索,以减少对西方搜索服务提供商的依赖。尽管搜索结果令人意外的好,但由于隐私问题,我不推荐使用它:其隐私政策描述了增强指纹识别遥测,并且没有 JavaScript,它就用不了。需要一个帐户才能提交站点。我通过我的访问日志发现了这一点。请注意,在某些司法管辖区,它不使用自己的索引:在俄罗斯和一些欧盟地区,它分别使用了 Yandex 和 Qwant。

Google,Bing 和 Yandex 支持结构化数据,例如microformats1,microdata,RDFa,Open Graph markup和JSON-LD。Yandex对 microformats1 的支持是有限的;例如,它可以为组织机构解析 H-Card 元数据,但不面向个人。Open Graph 和 Schema.org 是我知道的唯一支持的词汇表。Mojeek 正在评估结构化数据;它对 Open Graph 和 Schema.org 词汇表感兴趣。