用训练好的模型预测保留的测试数据 , 看看模型的表现如何 。
from sklearn.metrics importclassification_reporty_predict = model.predict(X_test)print(classification_report(y_test, y_predict))

本文插图
第一次尝试 , 该模型的表现相当不错 。
进行第一次提交
现在一起来看看该模型在竞赛测试数据集中的表现和排行榜上的排名 。
首先需要清洗测试文件中的文本 , 然后用模型做预测 。 下面的代码获取测试数据的副本 , 并执行与训练数据相同的清洗操作 。 输出显示在代码下方 。
submission_test_clean =test_data.copysubmission_test_clean = clean_text(submission_test_clean, "text")submission_test_clean['text'] = submission_test_clean['text'].apply(lambda x: ''.join([word for word in x.split if word not in (stop)]))submission_test_clean = submission_test_clean['text']submission_test_clean.head
接下来用模型进行预测 。
submission_test_pred =model.predict(submission_test_clean)
创建提交需要构建的仅包含测试集id和预测的数据框 。
id_col = test_data['id']submission_df_1 = pd.DataFrame({ "id": id_col, "target":submission_test_pred})submission_df_1.head

本文插图
最后将其另存为CSV文件 。 要包含index=False , 这很重要 , 否则索引将被另存为文件中的一列 , 提交也会遭到拒绝 。
submission_df_1.to_csv('submission_1.csv',index=False)
获得CSV文件后 , 可以返回竞赛页面并选择“提交预测”按钮 。 该操作会打开一个表格 , 参赛者可以在上面上传CSV文件 。 最好添加一些有关该方法的注释 , 以便于记录之前提交的尝试 。

本文插图
提交文件后会显示此界面 。
【#读芯术#第一次参加Kaggle竞赛,该怎么做?】

本文插图
现在提交成功了!

本文插图
该模型让笔者在排行榜上获得0.78分 , 排名为2371 。 很显然还有一些提高的空间 , 但现在笔者拥有了可用来比较的基准 , 这有利于以后的竞赛 。
本文对初次参加Kaggle竞赛该怎样提交预测做了概述 。 想要提高分数 , 还可以进一步采取其他步骤 。 比如更好的文本清洗、不同的预处理方法、尝试其他机器学习算法、模型的超参数调整等等 。

本文插图
来源:Pexels
感谢阅读!

本文插图
留言 点赞
我们一起分享AI学习与发展的干货如转载 , 请后台留言 , 遵守转载规范
本文为***作者原创 , 未经授权不得转载
推荐阅读
-
科技养生■想增加腸內好菌?快补充益菌生 洋蔥、牛蒡5种食物都上榜
-
-
娱堂客|是饭店的掌勺大厨,结婚之后呢!,开心笑话:老公在没有结婚前
-
「全球疫情」世卫组织:全球新增316884例新冠肺炎确诊病例
-
「萍妮聊娱乐」瘦身减肥后,完全升级为女神,有种“整容”叫《三生三世》的素锦
-
科技资讯眺望|难用到好用!经过两年的发展,国产操作系统有了这样的变化
-
-
恶之花|紧急停播后终于又复播,9.2分新剧刷新了深夜档收视纪录
-
时代|粉丝聚集在机场造成拥堵 时代少年团方发紧急声明
-
科技真探社|他们友谊为何那么好?,比尔盖茨亲自为股神做奥利奥味蛋糕
-
哏都太尉|5百军人镇暴!特朗普:敢抢劫就开枪!,美国暴乱第3天:警局被烧
-
大河财立方|你花了多少?,上半年全国网购超5万亿元
-
江苏新闻|2万现金藏化妆盒 结果又亲手当垃圾扔了…
-
国际丨50米游艇剧烈燃烧浓烟滚滚快速沉入海中 乘客弃船而逃
-
曝导演大鹏晕倒浑身抽搐,43天暴瘦30斤,造谣那英收847万条恶评
-
搞笑王茜茜幽默段子:那我选择买翡翠镯子吧!我打算去缅甸购买。
-
漫漫笑|出于亲情我帮小姨子完成手头工作业绩,幽默笑话:小姨子忙不过来
-
淘宝优惠券去哪里领惠券app哪个好 淘宝优惠券去哪里领
-
胡小姐的OK绷|什么样的爷爷奶奶会遭孙子嫌弃?小孩:不喜欢这3样,人老后
-
研究成果|随“时空溯园”展览,穿越三山五园的前世今生