抖音,头条这类自媒体的推荐机制是什么?大数据如何给你贴标签?( 二 )


今天我们重点分析下基于隐式反馈数据的推荐系统:
大数据环境下 , 隐式反馈数据(如用户视频点击、浏览网页、转发微博、购买商品等行为数据)是主要的输入数据形式 , 这类数据不需要用户投入更多的精力 , 同时也不会影响用户正常生活 , 收集成本低、应用场景广泛 , 数据规模也更大 , 而用户评分数据只有非常稀疏的数据量.这些条件决定了在大数据环境下 , 基于隐式反馈数据的推荐系统将成为推荐系统的主要形式之一.
传统的推荐系统忽视了大量的隐式反馈信息 , 而只关注于分析用户评分数据 , 这不仅浪费了宝贵的大数据资源 , 更限制了大数据环境下推荐系统的发展.
隐式反馈数据分为"选择"和"未选择"两类 , 其中"选择"数据数量较少 , 该数据能直接反映用户偏好;"未选择"数据数量众多 , 却不能直接解释为用户不喜欢 , 而是无法确定用户偏好.目前 , 研究者主要使用正隐式反馈数据 , 如Pálovics等使用用户收听音乐的行为数据 , 而浪费了大量用户未收听音乐的数据.针对该问题 , 印鉴等提出一种隐式反馈推荐模型(IFRM, implicit feedback recommendation model) , 将推荐任务转化为用户选择行为发生概率的最大化问题 , 达到直接对隐式反馈数据进行建模的目的 , 这样既利用了"未选择"信息 , 又避免引入负例的同时引入噪声 , 提升了推荐质量.同时 , 借鉴了降维方法解决高维稀疏数据的噪声问题 , 进一步采用分桶的并行化隐式反馈模型p-IFRM , 提高了算法的效率.隐式信任数据是一种由用户间交互行为反映的用户关系 , Fazali等使用隐式信任数据预测用户信任值评分 , 实验证明与采用用户评分数据获取结果相似 , 但其数据采集成本更低 , 有很好的应用前景.
相比于用户评分数据 , 隐式反馈数据能直观反映用户的行为偏好.大数据环境下 , 丰富的隐式反馈数据使得短期局部用户偏好的捕捉也成为可能 , 当前短期偏好可以较好预测用户未来一个时间段内的偏好 , 生成实时性强的推荐结果. Yang等提出基于局域隐式反馈大数据的推荐算法 , 模型利用局部和全局的隐式反馈数据 , 基于用户未来短期内的音乐偏好受到当前用户偏好影响的思想 , 把用户时间划分为多个时间切片 , 在每个时间切片内 , 综合考虑用户的上下文环境(如休息、工作或跑步)对用户歌曲选择的影响 , 根据当前时间切片内获取的用户音乐偏好预测下一个时间切片内用户的音乐偏好 , 进而为用户准确推荐歌曲 , 并且使用SGD优化算法 , 提高算法实时性 , 同时调节时间切片的粒度 , 从而获取用户长期稳定偏好和用户短期易变偏好.
传统的推荐方法在处理评分数据时有良好性能 , 但隐式反馈数据没有直接的评分 , 不同于基于评分预测的方法 , 直接的基于排序的方法在处理隐式反馈数据时有更好的效果. Zhao等把微博中提取的用户对商品反馈信息加入排序算法 , 取得了良好的电子商务推荐效果.但是传统的排序方法目标函数最小化需要付出很大代价 , 需要在目标采样上牺牲一定精度来改善算法的计算效率 , 而大数据时这种牺牲往往不能容忍.有研究者认为 , 在大数据环境下 , 数据采样的方式不再重要 , 甚至不需要采样.基于这样的思想 , Takács等提出RankALS , 该算法不进行采样 , 直接对排序目标函数最小化 , 提高了数据处理效率 。

抖音,头条这类自媒体的推荐机制是什么?大数据如何给你贴标签?

文章插图
 
最后我们对推荐系统做一下展望:为了缓解更加严峻的"信息过载"问题 , 推荐系统受到工业界和学术界越来越多的关注.大数据环境下 , 数据规模更大 , 更新速度更快 , 数据类型更多 , 传统的推荐系统无法直接满足对大数据环境数据的处理需求 , 因此在相同的框架下 , 提出了大数据环境下的推荐系统 , 其对大规模数据处理能力的需求更高 , 对推荐结果的准确性和实时性要求也更高.同时 , 大规模数据也为进一步提高推荐系统的准确性提供了机遇.目前 , 采集的主要用户数据是隐式反馈数据 , 相比于传统推荐系统主要输入数据——用户评分数据 , 隐式反馈数据数量大、成本低 , 同时对用户干扰小 , 其中从移动网络中采集到的移动社会化网络数据 , 尤其是用户位置数据 , 有很大的使用价值.同时 , 大数据环境下的推荐系统应用领域还有很多亟待解决的问题 , 例如 , 如何利用大数据缓解推荐结果多样性 , 如何在保护用户隐私安全的同时充分利用大数据带来的价值等.因此 , 大数据环境下推荐系统仍然有重要的研究意义和巨大的应用价值.


推荐阅读