Python机器学习

剪影得分分析

剪影得分分析详细操作教程
剪影得分的范围是[-1,1]。其分析如下-
+1分数-接近+1 剪影分数表示样本距离其邻近簇很远。 0得分-0 剪影得分表示样本在将两个相邻聚类分开的决策边界上或非常接近。 -1分数-1 剪影分数表示样本已分配给错误的聚类。
使用下面的公式可以计算出轮廓分数
$$$ silhouette score \:= \ :( p-q)/ max(p,q)$$
在这里,p =到最近簇的点的平均距离
而且,q =到所有点的平均集群内距离。

戴维斯-布尔丹指数

DB索引是执行聚类算法分析的另一个很好的指标。借助DB索引,我们可以了解有关聚类模型的以下几点-
天气如何,群集之间的间隔是否适当? 这些簇有多少密度?
我们可以借助以下公式计算数据库索引-
$$ DB \:= \:\ frac {1} {n} \ displaystyle \ sum \ limits_ {i = 1} ^ n max_ {j \ neq \:i}(\ frac {\ sigma_ {i} + \ sigma_ {j}} {d(c_ {i},c_ {j})})$$
在这里,n =簇数
$ \ sigma_ {i} $ =群集all中所有点到群集质心$ c_ {i} $的平均距离。
数据库索引越少,集群模型越好。

邓恩指数

它与数据库索引相同,但是在以下几点上都不同-
Dunn索引仅考虑最坏的情况,即靠近的集群,而DB索引考虑聚类模型中所有集群的分散和分离。 随着性能的提高,Dunn索引会增加,而当群集间隔适当且密集时,DB索引会变得更好。
我们可以借助以下公式计算Dunn指数-
$$ D \:= \:\ frac {min_ {1 \ leq \:i \ leq \:j \ leq \:n} p(i,j)} {max_ {1 \ leq \:i \ leq \:k \ leq \:n} q(k)} $$
这里i,j,k =聚类的每个索引
p =集群间距离
q =集群内距离
昵称: 邮箱:
Copyright © 2022 立地货 All Rights Reserved.
备案号:京ICP备14037608号-4