#读芯术#第一次参加Kaggle竞赛,该怎么做?( 三 )


用训练好的模型预测保留的测试数据 , 看看模型的表现如何 。


  • from sklearn.metrics importclassification_reporty_predict = model.predict(X_test)print(classification_report(y_test, y_predict))

  • #读芯术#第一次参加Kaggle竞赛,该怎么做?
    本文插图

  • 第一次尝试 , 该模型的表现相当不错 。
    进行第一次提交
    现在一起来看看该模型在竞赛测试数据集中的表现和排行榜上的排名 。
    首先需要清洗测试文件中的文本 , 然后用模型做预测 。 下面的代码获取测试数据的副本 , 并执行与训练数据相同的清洗操作 。 输出显示在代码下方 。

  • submission_test_clean =test_data.copysubmission_test_clean = clean_text(submission_test_clean, "text")submission_test_clean['text'] = submission_test_clean['text'].apply(lambda x: ''.join([word for word in x.split if word not in (stop)]))submission_test_clean = submission_test_clean['text']submission_test_clean.head

  • 接下来用模型进行预测 。

  • submission_test_pred =model.predict(submission_test_clean)
  • 创建提交需要构建的仅包含测试集id和预测的数据框 。
  • id_col = test_data['id']submission_df_1 = pd.DataFrame({ "id": id_col, "target":submission_test_pred})submission_df_1.head

  • #读芯术#第一次参加Kaggle竞赛,该怎么做?
    本文插图
    最后将其另存为CSV文件 。 要包含index=False , 这很重要 , 否则索引将被另存为文件中的一列 , 提交也会遭到拒绝 。

  • submission_df_1.to_csv('submission_1.csv',index=False)
  • 获得CSV文件后 , 可以返回竞赛页面并选择“提交预测”按钮 。 该操作会打开一个表格 , 参赛者可以在上面上传CSV文件 。 最好添加一些有关该方法的注释 , 以便于记录之前提交的尝试 。

  • #读芯术#第一次参加Kaggle竞赛,该怎么做?
    本文插图
    提交文件后会显示此界面 。
    【#读芯术#第一次参加Kaggle竞赛,该怎么做?】
    #读芯术#第一次参加Kaggle竞赛,该怎么做?
    本文插图
    现在提交成功了!
    #读芯术#第一次参加Kaggle竞赛,该怎么做?
    本文插图
    该模型让笔者在排行榜上获得0.78分 , 排名为2371 。 很显然还有一些提高的空间 , 但现在笔者拥有了可用来比较的基准 , 这有利于以后的竞赛 。
    本文对初次参加Kaggle竞赛该怎样提交预测做了概述 。 想要提高分数 , 还可以进一步采取其他步骤 。 比如更好的文本清洗、不同的预处理方法、尝试其他机器学习算法、模型的超参数调整等等 。
    #读芯术#第一次参加Kaggle竞赛,该怎么做?
    本文插图
    来源:Pexels
    感谢阅读!
    #读芯术#第一次参加Kaggle竞赛,该怎么做?
    本文插图
    留言 点赞
    我们一起分享AI学习与发展的干货如转载 , 请后台留言 , 遵守转载规范
    本文为***作者原创 , 未经授权不得转载


    推荐阅读