广告
广告
  • 12:00 AM
  • POV

通过Google主导搜索,互联网需要爬网中立

该网络对UPSTART搜索引擎爬网非常有害,并且大多数网站仅允许Google的爬网。

通过Google主导搜索,互联网需要爬网中立
[照片:Jakub Porzycki/Nurphoto通过Getty Images]

今天,一家公司 -谷歌- 控制着世界上几乎所有世界上所有信息的访问权限。他们在搜索中的垄断意味着数十亿人,他们通往知识,产品的门户以及他们对网络的探索掌握在一家公司的手中。大多数人都同意,这种缺乏搜索竞争对个人,社区和民主不利。

广告
广告

对于许多人来说,不为人知的是,搜索竞争的最大障碍之一是缺乏爬行中立性。建造独立搜索引擎和与大型技术公平竞争的机会的唯一方法是首先有效地有效地爬网。但是,该网络是用于新贵搜索引擎爬网的积极敌对环境,大多数网站仅允许Google的爬行者并歧视其他搜索引擎爬网,例如Neeva的

这个至关重要的,但经常被忽视的问题对防止像Neeva这样的新贵搜索引擎为用户提供真正的替代方案有巨大影响,从而进一步减少了搜索竞争。与网络中立类似,今天我们需要一种爬网中性的方法。没有政策和行为改变,搜索竞争者将继续与一只手绑在我们背后的手。

让我们从头开始。建立网络的综合索引是搜索竞争的先决条件。换句话说,建立Neeva搜索引擎是通过Neeva的爬行者“下载互联网”,称为Neevabot。

广告
广告

这是麻烦开始的地方。在大多数情况下,网站仅允许Google和Bing的爬行者不受限制的访问,同时歧视Neeva等其他爬行者。这些站点要么禁止其机器人中的其他所有内容。目的可能是要过滤恶意演员,但其结果是将婴儿扔给沐浴水。如果您无法爬网,就无法提供搜索结果。

这迫使创业公司花费大量的时间和资源来解决解决方法。例如,Neeva实施了“只要Robots.txt允许GoogleBot且不专门禁止Neevabot抓取网站的政策”。即使在这样的解决方法之后,许多搜索引擎仍无法访问包含有用搜索结果的Web的一部分。

第二个例子,许多网站通常会通过robots.txt允许非google爬虫,并以其他方式阻止它,要么通过抛出各种错误(503s,429s,…)或速率节流。要爬这些站点,必须部署“通过使用定期旋转的代理IP爬行来爬行来混淆”等解决方法。”像Neeva这样的合法搜索引擎不愿部署像这样的对抗性解决方法。

广告

这些障碍通常是针对恶意机器人的,但具有扼杀合法搜索竞赛的效果。在Neeva,我们付出了很多努力来建立一个尊重费率限制的行为良好的轨道,并以建造出色的搜索引擎所需的最低利率爬行。同时,Google有carte blanche。它每天爬网50B页。它每三天一次访问一次网络上的每个页面,并在所有网站上征税网络带宽。这是互联网上的垄断者的税。

对于我们当中的幸运爬行者来说,一组良好的祝愿者,网站管理员和良好的出版商可以帮助您将机器人列入白名单。多亏了他们,Neeva的爬行现在每天都有数亿页的访问,每天都在数十亿页的范围内。即便如此,这仍然需要确定您可以与之交谈的这些公司中合适的个人,通过电子邮件和电话拨打电话,并希望从网站管理员的网站管理员别名上提供善意,这些别名通常被忽略。一个不可扩展的临时修复。

获得爬网的许可不应与您认识的人有关。对于任何竞争并遵守规则的人来说,应该有一个平等的竞争环境。Google是搜索的垄断。网站和网站管理员面临不可能的选择。要么让Google爬网,要么在Google结果中不显着显示。结果,Google的搜索垄断会导致互联网广大地通过使Googlebot优先访问来加强垄断。

广告

不应允许互联网根据其是谁区分搜索引擎爬网。Neeva的爬行者能够以Google的速度和深度爬网。没有技术局限性,只有反竞争的市场力量使得更难公平竞争。而且,如果网站管理员为了区分错误的机器人而不是合法的搜索引擎,那些速度放缓的网站是太多的工作,那么应该需要自由rone的那些Googlebot来与负责任的参与者共享他们的数据。

如果监管机构和政策制定者在搜索竞争中,则需要介入。市场需要爬行中立性,类似于网络中立性。

Vivek Raghunathan是Neeva的联合创始人,Neeva是无广告的私人搜索引擎。Asim Shankar是Neeva的首席技术官。

广告
广告
广告