好的,各位程序猿、攻城狮、算法侠、数据挖掘者们,晚上好!我是你们的老朋友,今晚咱们不聊高并发,不谈微服务,也不研究区块链(最近这玩意儿有点凉…❄️),咱们来聊点接地气的,聊聊数据清理这档子事儿。 今晚的主题是:数值数据清理:异常值检测与处理 各位,我先问大家一个问题:你们有没有见过这样的数据? 某用户的年龄是-10岁?(这怕是返老还童了吧!👶) 某商品的销量是999999999件?(整个宇宙的库存都给你搬来了?🚀) 某地区的平均工资是100万?(我怕是活在平行宇宙…💰) 这些就是数据世界里的“妖魔鬼怪”,它们有个学名,叫做“异常值”(Outliers)。 一、 什么是异常值?它们是怎么来的? 想象一下,你正在参加一个聚会,大家的身高都在1米6到1米8之间。突然,人群中出现了一个身高2米26的姚明!🏀 他绝对是人群中的焦点,这就是一个典型的异常值。 异常值,简单来说,就是那些“鹤立鸡群”、和大部分数据格格不入的家伙。 它们的值远远大于或远远小于数据集中的其他值。 那么,这些“妖魔鬼怪”是怎么来的呢?原因有很多: 人为错误: 比如,数据录入错误,单位搞错,小数点点错位置,或者干脆就是键盘侠 …