特征工程与模型调优(11) 机器学习特征工程机器学习流程与概念机

哈希方案适用于字符串、数字和其它结构（如向量）。你可以将哈希输出看作一个有限的 b bins 集合，以便于当将哈希函数应用于相同的值\类别时，哈希函数能根据哈希值将其分配到 b bins 中的同一个 bin（或者 bins 的子集）。我们可以预先定义 b 的值，它成为我们使用特征哈希方案编码的每个分类属性的编码特征向量的最终尺寸。
因此，即使我们有一个特征拥有超过 1000 个不同的类别，我们设置 b = 10 作为最终的特征向量长度，那么最终输出的特征将只有 10 个特征。而采用独热编码方案则有 1000 个二进制特征。我们来考虑下视频游戏数据集中的「风格（Genre）」属性。
unique_genres = np.unique(vg_df[['Genre']])print("Total game genres:", len(unique_genres))print(unique_genres)Output\------Total game genres: 12['Action' 'Adventure' 'Fighting' 'Misc' 'Platform' 'Puzzle' 'Racing' 'Role-Playing' 'Shooter' 'Simulation' 'Sports' 'Strategy']我们可以看到，总共有 12 中风格的游戏。如果我们在“风格”特征中采用独热编码方案，则将得到 12 个二进制特征。而这次，我们将通过 scikit-learn 的 FeatureHasher 类来使用特征哈希方案，该类使用了一个有符号的 32 位版本的 Murmurhash3 哈希函数。在这种情况下，我们将预先定义最终的特征向量大小为 6 。
from sklearn.feature_extraction import FeatureHasherfh = FeatureHasher(n_features=6, input_type='string')hashed_features = fh.fit_transform(vg_df['Genre'])hashed_features = hashed_features.toarray()pd.concat([vg_df[['Name', 'Genre']], pd.DataFrame(hashed_features)], axis=1).iloc[1:7]
文章插图
风格属性的特征哈希
基于上述输出，「风格（Genre）」属性已经使用哈希方案编码成 6 个特征而不是 12 个。我们还可以看到，第 1 行和第 6 行表示相同风格的游戏「平台（Platform）」，而它们也被正确编码成了相同的特征向量。
时间型
文章插图
文章插图
文章插图
文本型
文章插图
文章插图
文章插图
文章插图

特征工程与模型调优(11)

推荐阅读

破伤风常见的并发症有哪些

相濡以沫的出处相濡以沫的意思

医药代表|纯属造谣！上海辟谣医疗机构接受医药代表请客

「增开」广西调整413列动车应对“五一”客流

江南华南等地将有强降水华北黄淮等地多大风天气

黑茶有存储价值吗,寿眉茶有保质期吗

「紫砂壶」选购紫砂壶的那些事

1g等于多少兆mb 1g等于多少兆

股东|立华股份：股东艾伯艾桂减持计划到期，减持股份数量135万股

「乐活娱乐」今穿双排扣外套配渔夫帽，活力十足，她曾是火箭少女的队长

珠海2万新号牌刚刚投入号池！有人在家选到9999！可自编4个数字！

玫瑰花茶可以和什么搭配,玫瑰花茶怎么泡

奥运会|国际奥委会称办奥运会必须做出一定牺牲！此言论引发日本民众不满

学海无涯苦作舟可以怎么用独特的理解?学海无涯苦作舟还是学海无涯巧作舟

一个体育疯子|戈贝尔罚球准绝杀！4个月前，他让联盟停摆，NBA神剧本：复赛首战

孙铱|知名女演员孙铱，不小心暴露出产后的真实状态！

凤凰网山东综合无线吸尘器哪个牌子好？专业清洁品牌的优势大盘点

盛典红毯：宋轶白鹿美翻了，周笔畅火龙果礼服亮眼，肖战排面不小

有抗体就能除病毒？一文读懂抗体的利与弊

13条进藏路线图！最全了