小女子第一次发帖想请教一个關于分类资料的聚类问题。举个例子:我的数据变量有病例所在的地区、发病季节、性别、职业、病例症状体征、病原检测结果(阴性、陽性)等这些协变量都是分类的,我想要依靠这些变量将病例按年龄大小有序的聚类该怎么弄啊?我看到的资料都是对定量资料做聚類没找到对分类资料做聚类的例子。各位大侠行行好指点一下吧?给个SAS程序或者指点一个方向万分感谢!
谢谢大家的建议,非常感謝最后我的导师觉得做聚类没有意义,那我也不纠结这个算法的实现了确实不好计算,谢谢大家的帮助!
十万*十万是个多大的矩阵樓主好好想想,cluster每步都会计算上步合并后类之间的距离矩阵 OMG多大的计算量,虽然只有十几万数据不过单独用这个方法不可行,还要做些处理结合其他算法的
分类变量聚类,其实质也要计算两个观测之间的“距离”~ 通常采用jaccard系数来计算相似度作为距离:
非常感谢您的回複我的数据有十几万条,能行吗那个距离我在书上看到过的,叫“配合距离”就是您说的那个原理,看起来很简单不过计算过程峩就不晓得该怎么编程实现了,您说的“将每个观测与其他观测的距离分别算出来组成一个距离矩阵(这步比较麻烦)。”我应该怎么弄啊您能不能给个程序参考下,万分感谢!
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。
点击添加站长微信