特征稀疏性

特征稀疏性

  • 特征稀疏性的含义:特征只能覆盖很少一部分样本,数据维度高
  • 带来的问题:样本少训练不充分,置信度低
  • 来源:取值很多的类别特征、离散化、组合特征

缓解方式

  • 可考虑用降维来缓解。但只能缓解,无法解决,本质上是信息的缺失
  • 业务方法降维:通过业务知识以预定义的方式对数据归类 e.g.单品 ->类别
  • 算法降维:LDA、PCA、embedding等

© 2020. All rights reserved.