您需要在过度拟合和提高性能之间找到平衡。考虑一下 Youtube 上每个视频的观看次数。
对于某些视频,该值可能异常大,而对于其他一些视频,该值可能极小。使用此列而不进行分箱可能会导致性能问题和错误预测。
分箱可以具有固定或自适应宽度。如果数据分布几乎均匀,则固定宽度分箱就足够了。但是,当数据分布不规则时,自适应分箱可以提供更好的结果。
6. 对数变换
您的数据是正态分布的吗?还是 保加利亚手机号码数据库 有偏差?偏差的数据集会导致模型性能不佳。
对数变换可以修正偏斜并使模型接近正态。当数据的量级在同一范围内时,对数变换也很有帮助。
美国年度收入分配
对数变换还可以减少异常值的影响。异常值在许多数据集中很常见。如果您打算删除所有异常值,那么您最终也会丢失宝贵的信息。
当你的数据集较小时,删除异常值并不是理想的解决方案。
对数变换保留了异常值,但减少了它们对数据的影响。它使数据更加稳健。
请记住,对数变换仅适用于正值。
如果您的数据具有负值,则需要向整列添加一个常数使其变为正值,然后使用此技术。
机器学习中特征工程的范围
机器学习中的特征工程是一个广阔的领域,包含许多不同的技术。
但很多时候也需要用到你的直觉。你需要对该领域有很好的了解。
了解问题的根源领域对于帮助您执行特征工程至关重要。
盲目应用这些技术,不清楚为什么需要这样做,可能会弊大于利。如上所述,一些技术依赖于找到平衡点。
只有当您理解为什么保留异常值比删除异常值更好,或者为什么分箱是正确的策略时,您才能够开发出具有弹性、灵活性和稳健性的预测模型。
机器学习中的特征工程不仅仅是学习所有技术并加以应用。这是通过练习可以变得更好的事情之一。
你解决的机器学习问题越多,你的特征工程就会变得越好。
这里有一个视频可以帮助您更好地了解特征工程技术。