#读芯术#第一次参加Kaggle竞赛,该怎么做?


文共4621字 , 预计学习时长14分钟
#读芯术#第一次参加Kaggle竞赛,该怎么做?
本文插图
来源:ijiandao
Kaggle很有可能是最著名的机器学习竞赛网站 。 Kaggle竞赛包括一个可从网站获得的数据集 , 需要用机器学习、深度学习或其他数据科学技术来解决问题 。
一旦开发出解决方案 , 参赛者就可以将预测结果上传回站点 , 预测结果的成功与否将会决定参赛者在竞赛排行榜中的位置 , 参赛者甚至可能获得现金奖励 。
Kaggle是磨练机器学习和数据科学技能、将自己与他人进行比较、学习新技术的极佳平台 。 本文将提供第一次参加Kaggle竞赛的攻略 。 本文包括以下内容:
· 开发模型 , 用来预测推文是否与真正的灾难有关 。
· 用模型对Kaggle提供的测试数据集进行预测 。
· 进行第一次提交 , 在Kaggle排行榜上占有一席之地 。
检测灾难推文
网站上一个最新的竞赛提供了一个数据集 , 其中含有推文和一个标签 , 参赛者可通过该标签得知推文是否真的与灾难有关 。 该竞赛有将近3000名参赛者 , 最高现金奖励为10000美元 。 点击此处可查看数据和竞赛大纲 。
如果没有Kaggle账户 , 点击此处免费创建 。
在竞赛页面选择“全部下载”将获得含有三个CSV文件的压缩文件 。
#读芯术#第一次参加Kaggle竞赛,该怎么做?
本文插图
第一个数据集包含一系列特征以及用于训练的相应目标标签 。 该数据集具有以下属性:
· Id:推文的数值标识符 。 参赛者将预测结果上传至排行榜时 , 它会派上大用场 。
· 关键字:某些情况下 , 推文中的关键字可能会丢失 。
· 位置:发送推文的位置 。 这也有可能不显示 。
· 文本:推文的全文 。
· 目标:参赛者试图预测的标签 。 如果该推文确实和灾难有关 , 则为1 , 否则为0 。
仔细阅读这些文件 , 以便进一步了解它们 。 你会注意到下面的代码中已经包含了一个set_option指令 。 Pandas set_options允许你控制数据框结果的显示格式 。 此处包含指令旨在确保显示文本列的完整内容 , 让结果和分析更易于查看 。