将定量调查或者其他消费者数据进行聚类分析,再通过交叉分析描述细分市场轮廓是我们常用的方法。 聚类分析可以作为其他多元统计分析的预备过程,先聚类,然后再利用判别分析进一步研究各个群体之间的差异。先通过聚类分析达到简化数据的目的,将众多的个体先聚集成比较好处理的几个类别或子集,然后再进行后续的多元分析。它也可以用于抽样设计中的分层抽样。
对一个数据,既可以对变量(指标)进行分类,也可以对观测值来分类。分类的时候,不一定要事先假定有多少类,也可以完全根据数据自身的规律来分类。一般将变量的聚类分析称为R型聚类,而对观测值聚类称为Q型聚类。
聚类分析中,比较重要的概念涉及到对两个距离概念的认识。搞清楚这两个距离概念对于聚类分析本身具有很大的帮助。按照远近程度来聚类是聚类分析法的要义,那么这个远近究竟指什么呢?一指点与点之间的距离,二是类和类之间的距离。点间距离本身有多个定义方式也即多种运算方法。因此,你只要选择一种算法即可。由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间距离就是类间距离。但是如果一个类包含不止一个点,那么就需要确定类间距离。类间距离是基于点间距离定义的。如两类之间最近点之间的距离可以作为两类间距离,也可以选用最远点的距离,还可以选择各类之间的中心距离。