Ai聘网 Ai聘网:零基础学大数据挖掘知识点(4)( 二 )
33.web页面内文本信息的挖掘:
挖掘的目标是对页面进行摘要和分类 。
页面摘要:对每一个页面应用传统的文本摘要方法可以得到相应的摘要信息 。
页面分类:分类器输入的是一个Web页面集(训练集) , 再根据页面文本信息内容进行监督学习 , 然后就可以把学成的分类器用于分类每一个新输入的页面 。
{在文本学习中常用的方法是TFIDF向量表示法 , 它是一种文档的词集(Bag-of-Words)表示法 , 所有的词从文档中抽取出来 , 而不考虑词间的次序和文本的结构 。 这种构造二维表的方法是:
每一列为一个词 , 列集(特征集)为辞典中的所有有区分价值的词 , 所以整个列集可能有几十万列之多 。
每一行存储一个页面内词的信息 , 这时 , 该页面中的所有词对应到列集(特征集)上 。 列集中的每一个列(词) , 如果在该页面中不出现 , 则其值为0;如果出现k次 , 那么其值就为k;页面中的词如果不出现在列集上 , 可以被放弃 。 这种方法可以表征出页面中词的频度 。
对中文页面来说 , 还需先分词然后再进行以上两步处理 。
这样构造的二维表表示的是Web页面集合的词的统计信息 , 最终就可以采用NaiveBayesian方法或k-NearestNeighbor等方法进行分类挖掘 。
在挖掘之前 , 一般要先进行特征子集的选取 , 以降低维数
更多零基础学大数据知识点详情见:Ai聘网:零基础学大数据挖掘知识点(1)(2)(3)
推荐阅读
- 重庆时代广场|夏季爱穿的基础款,搭配丝巾才出彩!
- 冰雪冬鸣TB|这两基础比例公式让效率大增,不再单靠清新香气调和卤水的腻感
- 油炸小可爱|保时捷Taycan基础版正式上市 售88.80万元
- 鞠婧祎也回应自己是四千年美女这一称呼,但这并不重要,可作品才是能让自己永远红下去的基础
- 辛墨墨的小食光|烘焙中最简单的一款甜点,无需打发黄油成功率高,零基础小白也会
- 光明日报|杨卫:勾勒人类基础研究的天际线
- 摩丽穿搭|长腿少女日常穿搭,基础款也能打造不平凡
- 微咖风格穿搭|学会基础款的“一衣多穿”,出门穿什么就不烦恼了
- 盗贼之海|《盗贼之海》新手指南 基础任务
- 一起来护肤|基础单品如何“穿不腻”?ins时尚博主来教你,每天都有新感觉
