Ai聘网 Ai聘网：零基础学大数据挖掘知识点（4）( 二 ) 这是Ai聘网讲零基础学大数据挖掘的最后

33.web页面内文本信息的挖掘：
挖掘的目标是对页面进行摘要和分类。
页面摘要：对每一个页面应用传统的文本摘要方法可以得到相应的摘要信息。
页面分类：分类器输入的是一个Web页面集(训练集) ，再根据页面文本信息内容进行监督学习，然后就可以把学成的分类器用于分类每一个新输入的页面。
{在文本学习中常用的方法是TFIDF向量表示法，它是一种文档的词集(Bag-of-Words)表示法，所有的词从文档中抽取出来，而不考虑词间的次序和文本的结构。这种构造二维表的方法是：
每一列为一个词，列集(特征集)为辞典中的所有有区分价值的词，所以整个列集可能有几十万列之多。
每一行存储一个页面内词的信息，这时，该页面中的所有词对应到列集(特征集)上。列集中的每一个列(词) ，如果在该页面中不出现，则其值为0;如果出现k次，那么其值就为k;页面中的词如果不出现在列集上，可以被放弃。这种方法可以表征出页面中词的频度。
对中文页面来说，还需先分词然后再进行以上两步处理。
这样构造的二维表表示的是Web页面集合的词的统计信息，最终就可以采用NaiveBayesian方法或k-NearestNeighbor等方法进行分类挖掘。
在挖掘之前，一般要先进行特征子集的选取，以降低维数
更多零基础学大数据知识点详情见：Ai聘网：零基础学大数据挖掘知识点（1）（2）（3）

Ai聘网 Ai聘网：零基础学大数据挖掘知识点（4）( 二 )

推荐阅读

烹饪|立秋后，这肉跟干豆角一起炒！生津开胃还下饭，简单一炒营养美味

自然灾害|你做过哪些无心插柳的事？我小时候的生活经历告诉你真相！

新华社新媒体|全球疫情简报｜美国新增100万病例仅用15天《柳叶刀》：中国抗疫经验值得学习

青年|离开嘉行后的李溪芮不得了，去郊游非穿“儿童衫”，还凹出蚂蚁腰

小C妈妈|打造“学霸脑”，要用3T原则，父母的语言直接影响孩子的“大脑”

喝啤酒的好处有哪些啤酒的好处

抑郁症和抑郁情绪的区别-抑郁症和抑郁情绪有什么区别

菜篮子|新发地市场复市！首日1.3万吨果蔬进场

陈瑶 |《少女大人》开播！剧情老套，陈瑶演技一如既往好评

新华网|世卫组织：中国以外新冠确诊病例达10448516例

领投智库|全年成长趋势不变，合理价值15.46 元，领益智造：业绩符合预期

历史|?三本历史久远的网络小说，看过其中一本的都是骨灰级老书虫

泪目！禁毒功勋犬滨哒完成“最后一次巡逻”后离世

邢菲 |胡一天新剧官宣，《你好，神枪手》未播先火，搭档高颜值女主邢菲

韩式泡菜鸡翅

浩室舞|脱口秀演员House道歉，表演时引用不当比喻，李诞黑历史也被扒

军事随身听|一女子隆胸假体拦住子弹救一命，加拿大枪击案的奇迹

“豪”气！新年首场雪下了4.3毫米

李嫣|李嫣与闺蜜吃火锅，染回黑发麻花腿吸睛，为闺蜜贴心拍照现王菲同款微笑

小孩撒谎不做作业怎么管教呢小孩撒谎不做作业怎么管教