网络爬虫同时需要考虑抓取频率 , 防止给站点造成过重负担 , 总之 , 搜索引擎的网络爬虫需要是个谦谦君子 。
5.2中文分词将清洗完成的内容进行分词提取关键词 , 比如一个网页内容有1000字 , 分词之后大约有50个词 , 相当于提取了网页的主干 , 并且会对标题、摘要、正文等不同部分的内容做不同权重处理 。
分词过程中会剔除停用词、虚词等 , 比如"的、得、地"等 , 从而极力还原网页的主干内容 。
我们用在线网页分词工具和真实网页来模拟下这个过程:
网页分词在线工具:
抓取网页:
基于字符串匹配的分词算法
基于概率统计的分词算法
基于语义规则的分词算法
其他算法
所谓正排就是根据docid可以拿到属于该网页的所有内容 , 是一个符合我们思维的正向过程 , 相对而言会有倒排索引 。
我们以一篇《隐秘的角落》剧情简介的页面为例 , 模拟分词情况 , 大致如下(本分词结果纯属脑补 , 以实际为准):
推荐阅读
-
-
-
「zol中关村在线」小米75英寸壁画电视开启预约 售价9999元
-
TikTok欧洲总经理:创意与温情陪伴人们度过不凡的一年
-
-
辣椒|嘴馋也要少碰,肠胃感谢你!比辣椒还“伤胃”的4种食物
-
-
面子|好吃不贵的几道家常菜,好吃好看快捷易做,学会待客有面子
-
稻草人1052Windows10,不借助第三方工具,设置启动项
-
平安江苏|200人的群199个“托”,江苏警方捣毁一网络诈骗犯罪团伙
-
跳高的鱼|刘诗诗为什么这么美?收下这份“穿搭美学”,你也可以轻松做到
-
电科技 13 可能会用上,苹果正在研究更省电的 OLED 屏幕,iPhone
-
『军武次位面』战斗才刚刚打响!,“中美撞机事件”19周年!但是
-
「」教师抱怨工资低!网友:工资低就别干啊!校长:好老师真走完了!
-
AT、CVT、DCT变速箱有哪些区别?谁更好?选谁最合适?
-
创投时报资讯号 顶级华为跌成中端价格,40W快充+50倍远摄,从5488跌至3588
-
Angelababy|这应该是今天娱乐圈最无语的事了吧!杨颖你怎么看?
-
爷爷|一位中国大爷的绝活惊呆1000万老外:这才是中国制造!
-
青年|埃迪·赫恩正在积极运作怀特和波维特金的二番战比赛
-
上市|易方达科创板50ETF上市在即 尽享场内科创投资机遇