综观自索引搜索引擎
原文:A look at search engines with their own indexes
作者 Rohan Kumar
目前版本:2023-03-13
陆续更新
前言
这是对我能够找到的所有索引搜索引擎的粗略评论。
具有自索引[^1]的三个主导英语搜索引擎是Google,Bing和Yandex(GBY)。GBY的许多替代品都存在,但几乎没有一个没有自己的结果。相反,他们只是从GBY获取结果。
考虑到这一点,我决定对所有我能找到的不同索引搜索引擎进行测试和分类。我将优先考虑广度而不是深度,并鼓励读者如果需要获取更多信息,可以自己尝试这些引擎。
此页面是我计划无限期更新的“活跃文档“。如果您发现此页面十分有趣,请不时检查更新。请随时给我提出建议,更新和更正;我特别感谢那些说英语以外的语言,并可以评估非英语索引搜索引擎的人的帮助。联系信息是文章页脚。
我计划更新前两个类别中的引擎,并提供更多信息,以比较引擎所利用的结构化/链接的数据(RDFa 词汇表,微数据,微模型,JSON-LD等),以帮助作者确定要使用的格式。
关于列表
我在[缘由部分](#缘由)中讨论了制作此页面的动机。
我主要评估了英语的搜索引擎,因为这是我的主要语言。虽然有些困难,我也许可以评估西班牙语。但是,我找不到许多由自己的爬虫驱动的西班牙语搜索引擎。
我提到了诸如“允许站点提交”和结构化数据支持之类的详细信息,这些只是为了让内容创作者了解它们的选择,而不是作为引擎的有利因素。
请参阅底部的[方法论部分](#方法论),以了解我如何评估每一个引擎的。
通用的索引搜索引擎
有大型索引,搜索结果优秀
这些是通过我所有标准测试的大型搜索引擎。
最大的索引。允许提交页面和站点地图以爬取,甚至支持Websub以自动化该过程。驱动着其它一些引擎:
- Startpage,可能是最受欢迎的Google代理。[^2]
- GMX Search,由流行的德国电子邮件提供商运营。
- (已终止运营)Runnaroo
- SAPO(葡萄牙语的界面,可以看到英语结果)
- 使用可编程搜索引擎客户端脚本的其它许多引擎。
Bing
老二。允许使用 IndexNow API 提交页面和站点地图而不登录,与 Yandex 和 Seznam 共享 IndexNow 界面提交。它的索引驱动着许多其它引擎:
- Yahoo(及其衍生引擎,OneSearch)
- DuckDuckGo[^3]
- AOL
- Qwant(部分)[^4]
- Ecosia
- Ekoru
- Privado
- Findx
- Disconnect Search[^5]
- PrivacyWall
- Lilo
- SearchScene
- Peekier
- Oscobo
- Million Short
- Yippy search[^6]
- Lycos
- Givero
- Swisscows
- Fireball
- Netzzappen
- You.com[^7]
- Metager 默认情况下部分被其驱动;这可以关闭
- 目前,我基本上不再添加基于Bing的搜索引擎。有太多了。
Yandex
最初是俄语的搜索引擎,现在有一个英语版本。有一些俄语的搜索结果流入了其英文网站。它允许使用 IndexNow API 提交页面和站点地图,与 Bing 和 Seznam 共享 IndexNow 界面提交。驱动着:
- Epic Search(截至2021年6月,仅付费)
- 偶尔驱动了 DuckDuckGo 的链接结果,而不是 Bing(更新:DuckDuckgo 与 Yandex “暂停”了合作关系,在「 "追究大公司的责任:立法保护在线用户"」听证会中得到证实
- Petal,仅适用于俄罗斯用户。
Mojeek
有包含数十亿页的大型索引而且似乎还是面向隐私的。质量不在 GBY 的水平之上,但还不错。如果我不得不将 Mojeek 用作默认的通用搜索引擎,那我也能正常生活。eTools.ch部分由其驱动。目前,针对通用搜索引擎我认为 Mojeek 是 GBY 的最佳替代品。
Petal Search
华为的搜索引擎,最近从搜索 Android 应用程序转变为通用搜索,以减少对西方搜索服务提供商的依赖。尽管搜索结果令人意外的好,但由于隐私问题,我不推荐使用它:其隐私政策描述了增强指纹识别遥测,并且没有 JavaScript,它就用不了。需要一个帐户才能提交站点。我通过我的访问日志发现了这一点。请注意,在某些司法管辖区,它不使用自己的索引:在俄罗斯和一些欧盟地区,它分别使用了 Yandex 和 Qwant。
Google,Bing 和 Yandex 支持结构化数据,例如 microformats1,microdata,RDFa,Open Graph markup 和 JSON-LD。Yandex 对 microformats1 的支持是有限的;例如,它可以为组织机构解析 H-Card
元数据,但不面向个人。Open Graph 和 Schema.org 是我知道的唯一支持的词汇表。Mojeek 正在评估结构化数据;它对 Open Graph 和 Schema.org 词汇表感兴趣。
有较小的索引或结果不够相关
这些搜索引擎在“方法论”部分列出的大部分测试中都通过了。它们都比较注重隐私保护。我不建议使用这些引擎来寻找特定的答案;通过查找与一组关键词相关的有趣页面来深入了解一个主题,这对于它们来说会是更好的选择。
Right Dao
非常快速,结果不错。测试也都通过了。一旦其用户群体增加,它计划包含查询式广告。[^8]
Gigablast
它已经存在一段时间,并且也拥有一个经典 Web 目录。搜索有点慢,提交站点进行爬取也需要收费。它为 Private.sh 提供技术支持。Gigablast 在质量上与 Right Dao 不相上下。
Alexandria
一个相当新的“非营利性,不投放广告”的搜索引擎,并且拥有自由许可的代码。其发现最新网页的能力令人惊讶。它的索引来自 Common Crawl;虽然它比 Gigablast 或 Right Dao 的索引要小,但排名很高。
Yep
这是一个野心勃勃的搜索引擎,来自一个搜索引擎优化和后向链接查找的公司,Ahrefs,它“与创作者分享广告收益并保护你的隐私”。大多数搜索引擎会显示包含查询关键字或相关关键字的结果;Yep 还会显示与包含查询的页面链接的结果。换句话说,并不是所有的结果都包含相关关键字。这使它可以用于不太精确的搜索以及发现“相关网站”,尤其是通过它数百亿网页的索引。目前它在查找非常具体的信息或最近事件方面表现较差,但它可能会得到改进。在正式发布之前,它被称作 “FairSearch”。
SeSe Engine
尽管它是一个中国文搜索引擎,但其索引似乎有足够多的英文内容适用于此处。该引擎是开源的;请参阅 SeSe后SeSe 后端Python代 Python 代码和基于Vue的 Vue 的 SeSe-UI前UI 前端。对于一个低预算项目,它的结果惊人地好。每个结果都标注有详细的排名元数据,例如关键字相关性和反向链接权重。之前在我的访问日志中发现了它。
目前 Yep 支持 Open Graph 和一些 JSON-LD。查看 Alexandria 和 Gigablast 的源代码没有显示它们使用任何结构化数据。SeSe 和 Right Dao 的出人意料的结果质量似乎受爬虫的高质量起始位置(即维基百科)的影响。
有较小的索引,时好时坏
这些搜索引擎在一些重要测试中表现很差。然而,对于希望在不太具体的搜索中获得更多意外惊喜的用户来说,它们貌似恰如其分。
Infotiger
这个引擎是我在本部分的最爱。它提供了高级结果过滤并拥有一个相当大的索引。它允许提交英语和德语页面的站点。在这一部分中改进最快的引擎:我经常使用它发现新的网站,并期待它“升级”到上一部分的那一天。Infotier拥有一个Tor隐藏服务。
seekport
界面是德语,但它能很好地支持英语搜索。默认语言是由本地设置的。考虑到它相对较小的索引,它非常优秀;它可能没有听说过一些不常见的术语,但在其它测试中它能找到相关的结果。它是本部分中增长第二快的引擎。
Exalead
搜索速度较慢,质量参差不齐。它的索引器声称爬取 DMOZ 目录,但该目录已停止,并已被 Curlie 目录替换。一些与历史相关的查询,比如 “Oppenheimer”,没有相关结果。允许提交个别网址进行索引,但需要解决 Google reCAPTCHA 和输入电子邮件地址。
ExactSeek
索引较小,被大型网站所占据。在多项测试中失败。允许提交个别网址进行爬取,但需要输入电子邮件地址并接收通讯简报。网站管理员工具似乎在大力推销付费的 SEO 选项。它还支持 SitesOnDisplay 和 Blog-search.com。
Burf.co
索引非常小,但它更善于将相关的结果排名靠前。允许直接提交网站,没有多余的步骤。
Entfer
一个新来者,允许注册的用户对搜索结果进行投票以自定义排名。未提供关于其运营者的详细信息。它的索引虽然不大,但似乎会返回与查询相关的结果。
Siik
缺乏联系信息,ToS 和隐私策略链接都是无法访问的。它的即时回答小部件的后端似乎存在 PHP 错误。如果你滚动到所有那些问题之后,它的网页搜索似乎是由它自己的索引提供的。这些结果通常会是相当相关的,但该索引似乎对于更具体的查询而言有些小。
websearchengine.org 或 tuxdex.com
这两个搜索引擎由同一批人经营,使用他们的 inetdex.com 索引。搜索速度很快,但是它的爬取深度较浅。声称拥有1000万域名的索引,并且不使用 Cookies。
ChatNoir
这是一个由研究人员开发的实验性搜索引擎,使用的是 Common Crawl 索引。该引擎是开源的。请查看 Common Crawl 邮件列表(Google Groups)上的公告。
Secret Search Engine Labs
索引非常小,几乎没有多少 SEO 垃圾;它承诺在“搜索引擎”和“冲浪引擎”之间取得平衡。对于那些因为 SEO 垃圾而难以在广泛话题上找到有用信息的人来说,它是最好的选择,由于它的 CashRank 算法,它可以帮助人们读取广泛话题的信息。允许网站提交。