用开源搜索引擎定制你的互联网( 二 )


搜索引擎和算法索引互联网的行为是指将网页分成单个单词 , 然后将页面的 URL 与每个单词相关联 。在搜索引擎中搜索一个或多个单词将获取与该查询关联的所有 URL 。YaCy 客户端在运行时也是如此 。
客户端要做的另一件事是为你的浏览器提供搜索界面 。你可以将 Web 浏览器指向 localhost:8090 来搜索 YaCy , 而不是在要搜索时导航到谷歌 。你甚至可以将其添加到浏览器的搜索栏中(取决于浏览器的可扩展性) , 因此可以从 URL 栏中进行搜索 。
YaCy 的防火墙设置首次开始使用 YaCy 时 , 它可能运行在“初级”模式下 。这意味着你的客户端爬网的站点仅对你可用 , 因为其他 YaCy 客户端无法访问你的索引条目 。要加入对等环境 , 必须在路由器的防火墙(或者你正在运行的软件防火墙)中打开端口 8090 , 这称为“高级”模式 。
如果你使用的是 Linux , 则可以在《 使用防火墙让你的 Linux 更加强大 》中找到有关计算机防火墙的更多信息 。在其他平台上 , 请参考操作系统的文档 。
互联网服务提供商(ISP)提供的路由器上几乎总是启用了防火墙 , 并且有太多种类的防火墙无法准确说明 。大多数路由器都提供了在防火墙上“打洞”的选项 , 因为许多流行的联网游戏都需要双向流量 。
如果你知道如何登录路由器(通常为 192.168.0.1 或 10.1.0.1 , 但可能因制造商的设置而异) , 则登录并查找配置面板来控制“防火墙”或“端口转发”或“应用” 。
找到路由器防火墙的首选项后 , 将端口 8090 添加到白名单 。例如:

用开源搜索引擎定制你的互联网

文章插图
Adding YaCy to an ISP router
 
如果路由器正在进行端口转发 , 则必须使用相同的端口将传入的流量转发到计算机的 IP 地址 。例如:
用开源搜索引擎定制你的互联网

文章插图
Adding YaCy to an ISP router
 
如果由于某种原因无法调整防火墙设置 , 那也没事 。YaCy 将继续以初级模式运行并作为对等搜索网络的客户端运行 。
你的互联网使用 YaCy 搜索引擎可以做的不仅仅是被动搜索 。你可以强制抓取不太显眼的网站 , 可以请求对网站进行网络抓取 , 可以选择使用 YaCy 进行本地搜索等等 。你可以更好地控制你的互联网的所呈现的一切 。高级用户越多 , 索引的网站就越多 。索引的网站越多 , 所有用户的体验就越好 。加入吧!


推荐阅读