综观自索引搜索引擎
原文:A look at search engines with their own indexes
作者 Rohan Kumar
目前版本:2023-01-23
陆续更新
前言
这是对我能够找到的所有索引搜索引擎的粗略评论。
具有自索引[^1]的三个主导英语搜索引擎是Google,Bing和Yandex(GBY)。GBY的许多替代品都存在,但几乎没有一个没有自己的结果。相反,他们只是从GBY获取结果。
考虑到这一点,我决定对所有我能找到的不同索引搜索引擎进行测试和分类。我将优先考虑广度而不是深度,并鼓励读者如果需要获取更多信息,可以自己尝试这些引擎。
此页面是我计划无限期更新的“活跃文档“。如果您发现此页面十分有趣,请不时检查更新。请随时给我提出建议,更新和更正;我特别感谢那些说英语以外的语言,并可以评估非英语索引搜索引擎的人的帮助。联系信息是文章页脚。
我计划更新前两个类别中的引擎,并提供更多信息,以比较引擎所利用的结构化/链接的数据(RDFa 词汇表,微数据,微模型,JSON-LD等),以帮助作者确定要使用的格式。
关于列表
我在[缘由部分](#缘由)中讨论了制作此页面的动机。
我主要评估了英语的搜索引擎,因为这是我的主要语言。虽然有些困难,我也许可以评估西班牙语。但是,我找不到许多由自己的爬虫驱动的西班牙语搜索引擎。
我提到了诸如“允许站点提交”和结构化数据支持之类的详细信息,这些只是为了让内容创作者了解它们的选择,而不是作为引擎的有利因素。
请参阅底部的[方法论部分](#方法论),以了解我如何评估每一个引擎的。
通用的索引搜索引擎
有大型索引,搜索结果优秀
这些是通过我所有标准测试的大型搜索引擎。
最大的索引。允许提交页面和站点地图以爬取,甚至支持Websub以自动化该过程。驱动着其它一些引擎:
- Startpage,可能是最受欢迎的Google代理。
- GMX Search,由流行的德国电子邮件提供商运营。
- (已终止运营)Runnaroo
- SAPO(葡萄牙语的界面,可以看到英语结果)
- 使用可编程搜索引擎客户端脚本的其它许多引擎。
Bing
老二。允许使用 IndexNow API 提交页面和站点地图而不登录,与 Yandex 和 Seznam 共享 IndexNow 界面提交。它的索引驱动着许多其它引擎:
- Yahoo(及其衍生引擎,OneSearch)
- DuckDuckGo[^2]
- AOL
- Qwant(部分)[^3]
- Ecosia
- Ekoru
- Privado
- Findx
- Disconnect Search[^4]
- PrivacyWall
- Lilo
- SearchScene
- Peekier
- Oscobo
- Million Short
- Yippy search[^5]
- Lycos
- Givero
- Swisscows
- Fireball
- Netzzappen
- You.com[^6]
- Metager 默认情况下部分被其驱动;这可以关闭
- 目前,我基本上不再添加基于Bing的搜索引擎。有太多了。
Yandex
最初是俄语的搜索引擎,现在有一个英语版本。有一些俄语的搜索结果流入了其英文网站。它允许使用 IndexNow API 提交页面和站点地图,与 Bing 和 Seznam 共享 IndexNow 界面提交。驱动着:
- Epic Search(截至2021年6月,仅付费)
- 偶尔驱动了 DuckDuckGo 的链接结果,而不是 Bing(更新:DuckDuckgo 与 Yandex “暂停”了合作关系,在「 "追究大公司的责任:立法保护在线用户"」听证会中得到证实
- Petal,仅适用于俄罗斯用户。
Mojeek
有包含数十亿页的大型索引而且似乎还是面向隐私的。质量不在 GBY 的水平之上,但还不错。如果我不得不将 Mojeek 用作默认的通用搜索引擎,那我也能正常生活。eTools.ch部分由其驱动。目前,针对通用搜索引擎我认为 Mojeek 是 GBY 的最佳替代品。
Petal Search
华为的搜索引擎,最近从搜索 Android 应用程序转变为通用搜索,以减少对西方搜索服务提供商的依赖。尽管搜索结果令人意外的好,但由于隐私问题,我不推荐使用它:其隐私政策描述了增强指纹识别遥测,并且没有 JavaScript,它就用不了。需要一个帐户才能提交站点。我通过我的访问日志发现了这一点。请注意,在某些司法管辖区,它不使用自己的索引:在俄罗斯和一些欧盟地区,它分别使用了 Yandex 和 Qwant。
Google,Bing 和 Yandex 支持结构化数据,例如microformats1,microdata,RDFa,Open Graph markup和JSON-LD。Yandex对 microformats1 的支持是有限的;例如,它可以为组织机构解析 H-Card
元数据,但不面向个人。Open Graph 和 Schema.org 是我知道的唯一支持的词汇表。Mojeek 正在评估结构化数据;它对 Open Graph 和 Schema.org 词汇表感兴趣。