「爱与否科技」怎么用最快的速度解决算法问题，机器学习、深度学习的基础已打好( 二 ) 来源：夕小瑶的卖萌屋本文为多内容

数据集分析-预处理策略-算法策略-模型评价-casestudy
对于小白，往往是在第三步和第四步陷入死循环，看不到前两个环节和最后一个环节。
对于大白，往往还能额外考虑一下预处理策略。
1.数据集分析
很多小白拿到数据集后就开始迫不及待的调参之路了，其实在开始之前对数据集做个简单的分析，可能有助于大大降低你之后的体力劳动（提前排除不靠谱的策略和不敏感的超参数），并大大降低初次接触新任务时犯致命错误的概率。
比如，简单统计一下样本长度分布，你就可以知道maxsequencelength这个参数的大体取值范围，没有必要把它当成一个正儿八经的超参数从小调到大；简单统计一下类别分布，你就不会在正负样本比9：1的情况下为一个90%的准确率沾沾自喜，误导决策；多扫几眼数据集，你就不会在初次接触文本风格相关任务时把英文单词统一小写了。
2.预处理策略与算法策略
这个环节不用太多赘述啦，最直接方法就是搬运上一节的调研结果，将一些paper中比较有效的策略搬过来进行验证。不过，尤其是注意一个meaningful的问题，即我搬运这个策略，甚至设计一个新的策略，目的是什么？要解决什么问题？毕竟很多paper中的策略的适用场景是很局限的，毫无目的的搬运可能会大大增加无用功。
3.模型评价
模型评价的问题在打比赛时一般不会遭遇，在比较成熟的算法任务中一般也被解决了。比如谈到文本分类，就能想到acc、f1等指标；谈到机器翻译，就能想到bleu等。然而有很多算法问题是很难找到一个无偏且自动的评价指标的。
一个典型的例子就是开放域对话生成问题。
虽然与机器翻译一样，这也是个生成问题，但是如果你沿用BLEU作为评价指标，那么BLEU对对话生成来说就是一个有偏的评价指标，你刷得再高也难以真实反映对话生成模型的质量（对话生成问题中不存在机器翻译中的强的对齐关系）。更糟糕的是，由于找不到无偏的自动指标，因此每迭代一次策略，就需要让一群人轰轰烈烈地标注打分，还要去检验是否存在异常标注者（说不定有个宝宝就耍脾气了给你乱打一通），这无疑是效率非常低的，纵然你代码写得再快，也会被评价问题所拖累。
业务中更是可能有一些模棱两可的算法任务，比如“小夕，来个更好的句子表示吧” ，那么如何无偏地评价一个表示的好坏，就需要你在大规模开搞之前仔细设计清楚了。没有一个客观、无偏且自动的评价指标，策略迭代无疑会非常缓慢甚至到后期推翻重来。
4.casestudy
像accuracy、f1、bleu等标量型评价指标可以指导当前策略整体上好不好，但是却无法帮助你发现更细粒度的问题。很多小白在入行时，喜欢把各种花里胡哨的算法和各种不着边际的想法一顿乱试，以为有了模型评价指标就可以很轻松地评判一个算法“是不是有用” ，以及可以因此纯拼体力的炼丹。
但！是！当你额外地做一下casestudy之后，可能你会突然发现，很多自己之前的尝试完全就是多余的：
你以为数据不均衡问题很严重， casestudy才发现模型其实很轻松；你以为推理问题离自己很遥远， casestudy才发现一大半的错例是推理问题导致的；你以为领域问题不重要， casestudy才发现太多模型没见过的领域术语了；你以为数据集很干净， casestudy却发现了大量错别字导致的错误决策；
总之，在经验不足的情况下，通过casestudy可以帮助你排除大量的不必要尝试，并有助于发现当前策略的瓶颈，针对性的寻找策略和创新。
重视bug ，找准翻车原因
小白经常在跑了一轮迭代闭环之后就受挫：“效果好差啊” 。这里经常存在一个思维误区：“精度不够一定是算法/参数不好” 。
比如，小白觉得自己上了BERT能达到95%accuracy ，结果跑了个baseline后发现acc只有70% ，然后就开始1个点1个点的开始迭代策略。努力错了方向，自然最终结果也不会太好。

「爱与否科技」怎么用最快的速度解决算法问题，机器学习、深度学习的基础已打好( 二 )

推荐阅读

海峡要闻|中方早已严阵以待，形势急剧恶化！五角大楼紧急行动再对华下黑手

联想威6商务笔记本真实测评联想商务笔记本电脑哪款好

不浪不舒服斯基电竞|35年前的“魂”游戏，红白机上令无数玩家崩溃的《魔界村》

16家银行理财子开业：不再只投债，打新、港股、黄金都到碗里来

孕五月肚子经常发硬正常吗

扬子晚报|两车同属违停处理却相异，市民投诉交警要“说法”

文汇|上海首批商标保险集体签约涉及16件注册商标

绿茶并非越鲜越好喝新茶或出现不适

[iphone11]扎心了！宁愿买iPhone11，也不愿意买华为P40Pro呢？原因太现实

军队文职离职率为什么高？

防止头发分叉有妙招头发分叉八大注意事项要避免

怎样看待老公的红颜知己

时尚阅砚台|杨采钰古装大片

去腋毛最干净的方法

鼠标|为什么我的鼠标难用？鼠标引擎惹的祸

健康海盐|【科普】中医四季养生

80年代文革砖品评,老同志流金岁月品评

羊城晚报|荷叶清暑化湿，还能降脂减肥！

奇瑞瑞虎：奇瑞瑞虎7提车作业，车主驾驶2个月后，晒出真实油耗

#石油商报#吕建中：能源应急保障能力建设可成为“新基建”的重头戏