One-hot编码和Multiple-hot编码
创作时间:
作者:
@小白创作中心
One-hot编码和Multiple-hot编码
引用
CSDN
1.
https://blog.csdn.net/m0_59704905/article/details/140992059
在推荐系统和机器学习中,我们通常会遇到两种类型的编码方式:One-hot 编码和 Multiple-hot 编码(有时也称为 Multi-hot 编码)。这两种编码方式用于将分类数据转换为数值表示,以便机器学习模型能够处理这些数据。
1、One-hot编码
One-hot 编码是一种将类别、ID 型特征转换成数值向量的典型编码方式。它通过将所有其他维度置为 0,单独将当前类别或者 ID 对应的维度置为 1 的方式生成特征向量。例如,如果一个特征有三个类别(A、B、C),那么使用 One-hot 编码后,每个类别将被表示为一个三维向量:
- A 类别:[1, 0, 0]
- B 类别:[0, 1, 0]
- C 类别:[0, 0, 1]
可以使用Spark等工具将id等类别型特征转化成One-hot编码。
2 Multiple-hot编码
Multiple-hot编码特征将多个属性同时编码到一个特征中。在推荐场景中,单个用户对哪些物品感兴趣的特征就是一种Multiple-hot编码特征。Multiple-hot编码采用类似oneHot编码的形式进行编码,根据物品种类数目,展成物品种类数目大小的向量,当某个用户感兴趣时,对应维度为1,反之为0。
例如,假设一个推荐系统中有5种物品(Item1-Item5),如果一个用户对Item1和Item3感兴趣,那么该用户的兴趣特征可以表示为:
[1, 0, 1, 0, 0]
从上面的例子可以看出,Multiple-hot编码与One-hot编码的主要区别在于:One-hot编码通常用于表示单个类别的信息,而Multiple-hot编码可以同时表示多个类别的信息。这种编码方式在处理多标签分类问题或推荐系统中用户兴趣表示时非常有用。
热门推荐
近15年"最好的悬疑片"排行榜:国产仅1部上榜,第一名实至名归
炉石传说阵营选择指南(探索炉石传说中不同阵营的魅力与策略)
探寻历史深处的王者典范——千古一帝的标准
90岁老奶奶教我的祖传秘制黄豆酱做法,不晒不发酵,放几个月不坏
第30届全国肿瘤防治宣传周:华中科技大学协和医院举办系列科普活动
湾区一小时直达!10条精品线路带你玩转台山!
孩子口唇肌功能训练方法:唇部运动、舌头运动及综合训练全攻略
练武术为什么发出声音
如何选择最适合你的绘制软件?详细对比与推荐
绿茶:解压神器还是焦虑源?
渝厦高铁重庆段、重庆东站进入联调联试阶段
林清玄散文《随风吹笛》的文学特点
白粉虱的防治方法,可农业防治也可物理防治
钧台:一座承载夏代文明的古台
专家解读:如何提高资本支持科技的精准度,探索建立多元化融资渠道
中老年人如何保护眼睛视力
绝地求生国服反外挂举措详解:腾讯TP安全系统接入,零容忍打击外挂
职业成功的人际关系网络的重要性解析
央视新闻主播团队大换血:康辉转战幕后,新生代成主力军
科目三一次过的通过率
工作任务单和工作票区别:哪个更适合你的项目管理?
“回到日常,回归常识”论坛②|意义:数字时代日常生活的意义感
睡觉时突然猛抖一下,是身体在“求救”?
感觉统合训练和普通体育活动在儿童心理发展上有何不同?
如何管理在职场中的压力情绪
中国佛教四大名山:神圣与美景交织的奇妙之旅
数字贸易对我国区域出口效率的影响
H3C交换机配置文件导入完整指南
八字命理中的太极贵人:定义、查法与效用详解
在金银盛行的古代,胡椒为什么能当做俸禄发放给官员?