﻿ 基于改进K-Means算法的手机处理器聚类分析

# 基于改进K-Means算法的手机处理器聚类分析Clustering Analysis of Mobile Processor Based on Improved K-Means Algorithm

Abstract: An improved K-means clustering algorithm is proposed, and 51 mainstream processors in the mobile phone market from 2015 to 2019 are analyzed. Firstly, the elbow method is used to improve the selection of K value in k-means algorithm, and the best K value is obtained. Secondly, the Euclidean distance is used to find the distance from each sample to the cluster center, and all samples are gradually classified into the nearest cluster. Then the new cluster centers are recalculated. If the new cluster centers are the same as the old ones, the operation is stopped. Otherwise, the distance from each sample to the new cluster centers is recalculated and reclassified until the new cluster centers are the same as the old ones. Finally, four clusters are obtained, including 7, 16, 14 and 14 samples, which are divided into high-end, middle-end, middle-low-end and low-end processors according to the original data.

1. 引言

2. 改进K-Means聚类算法

2.1. 传统K-Means聚类算法

K-means聚类算法最早是由Macqueen于1967年提出，K指的是类的个数，即聚类簇数。其基本思想是对给定的样本集，先确定聚类簇数K以及K个聚类中心(均值)，再计算各样本到聚类中心的距离，将其划分到最近中心点所在的簇。K-means是一种迭代算法，大致步骤如下 [8]：

2.2. 手肘法改进K-Means算法

$\text{SSE}={\sum }_{q=1}^{K}{\sum }_{l=1}^{{n}_{q}}{‖{p}_{ql}-{\stackrel{¯}{p}}_{q}‖}^{2}$ (1)

2.3. 计算距离并分配到簇

${z}_{ij}=\frac{{x}_{ij}-{\stackrel{¯}{x}}_{i}}{\sqrt{\frac{1}{n}{\sum }_{j=1}^{n}{\left({x}_{ij}-{\stackrel{¯}{x}}_{i}\right)}^{2}}},j=1,2,\cdots ,n$ (2)

${z}_{ij}$ 是标准化后生成的新数据， ${x}_{ij}$ 为原始数据， ${\stackrel{¯}{x}}_{i}$ 为第i个指标均值，对本文数据而言， $i=1,2,\cdots ,13$

${d}_{jq}=‖{p}_{j}-{\stackrel{¯}{p}}_{q}‖,q=1,2,\cdots ,K$ (3)

3. 运用改进的K-Means聚类算法对手机处理器进行聚类分析

Table 1. Indicators of mobile processor

Figure 1. Elbow method to confirm the optimal K value

Figure 2. K-means clustering results of mobile processor

4个簇中分别包含了7、16、14、14个样本，其中1类处理器的各项指标大多数领先其他类的处理器，可以看出1类为高端处理器，事实上1类中的A12、Kirin980、S855、Exynos9820分别是苹果、华为海思、高通、三星在2019年的旗舰处理器，而A11、S845、Exynos9810则是2018年的旗舰处理器，符合事实。而2类则是中端与旧高端处理器的集合，它们的CPU多核、内存带宽等方面相差不大，但旧高端处理器(如2017年的Kirin970、S835、Exynos8895)在GPU以及网络上行速度、下行速度方面有着明显的领先；而中端处理器(如2019年的Kirin810、S730)在CPU单核、最高摄像头像素方面则领先。4类则是中低端处理器与年代更为久远的高端处理器的集合。3类处理器的各指标大多数落后于其他类的处理器，是低端处理器的集合。

4. 结论

[1] 董骐瑞. k-均值聚类算法的改进与实现[D]: [硕士学位论文]. 长春: 吉林大学, 2015.

[2] 凌静, 江凌云, 赵迎. 结合模拟退火算法的遗传K-Means聚类方法[J]. 计算机技术与发展, 2019, 29(9): 61-65.

[3] 黄晓辉, 王成, 熊李艳, 曾辉. 一种集成簇内和簇间距离的加权k-means聚类方法[J]. 计算机学报, 2019, 42(12): 2836-2848.

[4] 王巧玲, 乔非, 蒋友好. 基于聚合距离参数的改进K-means算法[J]. 计算机应用, 2019, 39(9): 2586-2590.

[5] 唐泽坤, 朱泽宇, 杨裔, 李彩虹, 李廉. 基于距离和密度的d-K-means算法[J]. 计算机应用研究, 2020, 37(6): 1719-1723.

[6] 刘越. K-means聚类算法的改进[D]: [硕士学位论文]. 桂林: 广西师范大学, 2016.

[7] 黄继超. k-means算法若干改进和应用[D]: [硕士学位论文]. 长沙: 中南大学, 2013.

[8] 何晓群. 多元统计分析[M]. 第4版. 北京: 中国人民大学出版社, 2015: 64-65.

[9] 吴广建, 章剑林, 袁丁. 基于K-means的手肘法自动获取K值方法研究[J]. 软件, 2019, 40(5): 167-170.

[10] Liberti, L., Lavor, C., Maculan, N., et al. (2012) Euclidean Distance Geometry and Applications. Quantitative Biology, 56, 3-69.
https://doi.org/10.1137/120875909

Top