带有噪声的应用程序的基于密度的空间聚类。
DBSCAN 是一种聚类算法。给它一个值的集合,算法将它们组织成邻近值的组。
对于我们许多人来说,如果我们熟悉聚类算法,我们就会了解k均值聚类。但k -means 的挑战之一是您需要指定多个集群(“ k ”)才能使用它。很多时候,我们事先并不知道合理的k值是多少。 (事实上,这通常是我们首先想知道的!)
DBSCAN 的优点在于您不必指定多个集群即可使用它。您所需要的只是一个计算值之间距离的函数以及一些关于什么距离被视为“接近”的指导。 DBSCAN 还可以在各种不同的分布上产生比k均值更合理的结果。
import DBSCAN
import simd
let input : [ SIMD3 < Double > ] = [ [ 0 , 10 , 20 ] ,
[ 0 , 11 , 21 ] ,
[ 0 , 12 , 20 ] ,
[ 20 , 33 , 59 ] ,
[ 21 , 32 , 56 ] ,
[ 59 , 77 , 101 ] ,
[ 58 , 79 , 100 ] ,
[ 58 , 76 , 102 ] ,
[ 300 , 70 , 20 ] ,
[ 500 , 300 , 202 ] ,
[ 500 , 302 , 204 ] ]
let dbscan = DBSCAN ( input )
#if swift(>=5.2)
let ( clusters , outliers ) = dbscan ( epsilon : 10 ,
minimumNumberOfPoints : 1 ,
distanceFunction : simd . distance )
#else // Swift <5.2 requires explicit `callAsFunction` method name
let ( clusters , outliers ) = dbscan . callAsFunction ( epsilon : 10 ,
minimumNumberOfPoints : 1 ,
distanceFunction : simd . distance )
#endif
print ( clusters )
// [ [0, 10, 20], [0, 11, 21], [0, 12, 20] ]
// [ [20, 33, 59], [21, 32, 56] ],
// [ [58, 79, 100], [58, 76, 102], [59, 77, 101] ],
// [ [500, 300, 202], [500, 302, 204] ],
print ( outliers )
// [ [ 300, 70, 20 ] ]
将 DBSCAN 包添加到Package.swift
中的目标依赖项中:
import PackageDescription
let package = Package (
name : " YourProject " ,
dependencies : [
. package (
url : " https://github.com/NSHipster/DBSCAN " ,
from : " 0.0.1 "
) ,
]
)
然后运行swift build
命令来构建您的项目。
麻省理工学院
马特(@mattt)