Ai聘网 Ai聘网:零基础学大数据挖掘知识点(4)( 二 )


33.web页面内文本信息的挖掘:
挖掘的目标是对页面进行摘要和分类 。
页面摘要:对每一个页面应用传统的文本摘要方法可以得到相应的摘要信息 。
页面分类:分类器输入的是一个Web页面集(训练集) , 再根据页面文本信息内容进行监督学习 , 然后就可以把学成的分类器用于分类每一个新输入的页面 。
{在文本学习中常用的方法是TFIDF向量表示法 , 它是一种文档的词集(Bag-of-Words)表示法 , 所有的词从文档中抽取出来 , 而不考虑词间的次序和文本的结构 。 这种构造二维表的方法是:
每一列为一个词 , 列集(特征集)为辞典中的所有有区分价值的词 , 所以整个列集可能有几十万列之多 。
每一行存储一个页面内词的信息 , 这时 , 该页面中的所有词对应到列集(特征集)上 。 列集中的每一个列(词) , 如果在该页面中不出现 , 则其值为0;如果出现k次 , 那么其值就为k;页面中的词如果不出现在列集上 , 可以被放弃 。 这种方法可以表征出页面中词的频度 。
对中文页面来说 , 还需先分词然后再进行以上两步处理 。
这样构造的二维表表示的是Web页面集合的词的统计信息 , 最终就可以采用NaiveBayesian方法或k-NearestNeighbor等方法进行分类挖掘 。
在挖掘之前 , 一般要先进行特征子集的选取 , 以降低维数
更多零基础学大数据知识点详情见:Ai聘网:零基础学大数据挖掘知识点(1)(2)(3)


推荐阅读