据说统计学里有一个现象,给数据加越多维度(比如给一群人记录年龄、性别、身高、体重,这就是四个维度),就越难给数据分类。
如果维度少,比如三维,你可以把每个数据点都放在三维空间中,放一大堆点,你可能会很轻易地发现,有一些点彼此之间很近、聚集成团,另一些点离得很远、可能在远处聚集成了别的团,于是你可以把每个团看成一个类别。
当数据维度很多时,比如成百上千个,你会发现大部分数据点之间距离都差不多(据说这是因为,在高纬度的超球体上,大部分体积都分布在球面附近,球内空旷,因此大部分数据点也分布在球面上,彼此距离就差不多,不会特别显著地分散或者聚集)因此很难简单地分类。
我感觉,这就是给人贴标签的真谛啊!其实人都差不多,又或者人都是很不同的,你只能给人贴很少的标签、把人粗暴地分出个敌我来。如果认真地去了解别人,得到了更多信息,自然就发现这些分类是可笑的。
不过,如果给不同标签加上权重,比如你更关心别人有没有杀过人,而不是有没有吃过臭豆腐,那么可能又会变得容易分类。
但是,权重大的数据难道就很少吗?你真正关心的数据只有十个以内吗?那似乎也不现实。