#读芯术#第一次参加Kaggle竞赛,该怎么做?
文共4621字 , 预计学习时长14分钟
本文插图
来源:ijiandao
Kaggle很有可能是最著名的机器学习竞赛网站 。 Kaggle竞赛包括一个可从网站获得的数据集 , 需要用机器学习、深度学习或其他数据科学技术来解决问题 。
一旦开发出解决方案 , 参赛者就可以将预测结果上传回站点 , 预测结果的成功与否将会决定参赛者在竞赛排行榜中的位置 , 参赛者甚至可能获得现金奖励 。
Kaggle是磨练机器学习和数据科学技能、将自己与他人进行比较、学习新技术的极佳平台 。 本文将提供第一次参加Kaggle竞赛的攻略 。 本文包括以下内容:
· 开发模型 , 用来预测推文是否与真正的灾难有关 。
· 用模型对Kaggle提供的测试数据集进行预测 。
· 进行第一次提交 , 在Kaggle排行榜上占有一席之地 。
检测灾难推文
网站上一个最新的竞赛提供了一个数据集 , 其中含有推文和一个标签 , 参赛者可通过该标签得知推文是否真的与灾难有关 。 该竞赛有将近3000名参赛者 , 最高现金奖励为10000美元 。 点击此处可查看数据和竞赛大纲 。
如果没有Kaggle账户 , 点击此处免费创建 。
在竞赛页面选择“全部下载”将获得含有三个CSV文件的压缩文件 。
本文插图
第一个数据集包含一系列特征以及用于训练的相应目标标签 。 该数据集具有以下属性:
· Id:推文的数值标识符 。 参赛者将预测结果上传至排行榜时 , 它会派上大用场 。
· 关键字:某些情况下 , 推文中的关键字可能会丢失 。
· 位置:发送推文的位置 。 这也有可能不显示 。
· 文本:推文的全文 。
· 目标:参赛者试图预测的标签 。 如果该推文确实和灾难有关 , 则为1 , 否则为0 。
仔细阅读这些文件 , 以便进一步了解它们 。 你会注意到下面的代码中已经包含了一个set_option指令 。 Pandas set_options允许你控制数据框结果的显示格式 。 此处包含指令旨在确保显示文本列的完整内容 , 让结果和分析更易于查看 。
-
import pandasas pdpd.set_option('display.max_colwidth', -1)train_data = http://news.hoteastday.com/a/pd.read_csv('train.csv')train_data.head -
- test_data =http://news.hoteastday.com/a/pd.read_csv('test.csv')test_data.head
- 第三个数据集举例说明了提交的文件应该采用什么格式 。 该文件将包括test.csv文件中的id列以及模型预测的目标 。 创建此文件后 , 参赛者会将其提交给网站 , 从而进入排行榜 。
-
- sample_submission= pd.read_csv('sample_submission.csv')sample_submission.head
- 为机器学习准备数据
-
- train_data =http://news.hoteastday.com/a/train_data.drop(['keyword', 'location', 'id'], axis=1)train_data.head
推荐阅读
- 鲁信创投■60余家创投机构代表参加新能源与先进制造专场路演活动中国科协科学技术传播中心
- 『全市』莱芜区参加全市重点项目集中开工分会场活动
- 【在人群中寻找你】现跟男友参加真人秀节目秀恩爱,黄轩却单身至,她曾拒绝黄轩七次
- 『奇葩搞笑菌』搞笑gif动态图:这么皮的保安还是第一次见
- 砺剑堂■参加叙利亚战争,钢铁洪流的继承者:俄军T-90M坦克全面交付
- 云云琴:朱德逝世几小时后影响有多大看参加追悼会人物就懂了
- 「鞠婧祎第一次做导播频频出错内疚到哭泣」鞠婧祎第一次做导播频频出错内疚到哭泣 何老师暖心安慰
- 小悦爱搞笑▲我不同意,因为她家太有钱,开心笑话:第一次有媒人主动上门提亲
- 『互联网快报』SKG大厂出品,年轻人第一次按摩颈椎,小米上线颈椎仪
- [晶用军事]德国一战的攻城重炮兴衰史,“大贝莎”
第二个数据集只包含数据集的特征 , 用来预测目标标签 , 其结果将决定是否能在排行榜上获得一席之地 。
本文插图
无论是什么机器学习任务 , 数据清洗和预处理都是必须的 , 之后才能对模型进行训练 。 处理文本数据时 , 这一点尤为重要 。
为了让第一个模型易于操作 , 而且由于这些列中缺少大量数据 , 位置和关键字特征将会删去 , 仅用推文中的实际文本进行训练 。 id列也会删去 , 因为它对训练模型没有用处 。
