K平均法
出典: フリー百科事典『ウィキペディア(Wikipedia)』
K-平均法 (K-means)、c-平均法 (c-means) とも呼ばれる。
MacQueen,Anderberg,Forgyらにより提案された非階層型クラスタリング手法の1つ。クラスタの平均を用い、与えられたクラスタ数K個に分類することよりMacQueenによりこう呼ばれている。
単純なアルゴリズムで計算することができるため、現在広く用いられている。分類をファジィ化したファジィc-平均法やエントロピー法をはじめ、データ構造を発見するさまざまな応用手法が提案されている。
[編集] アルゴリズムの流れ
K-平均法は一般には以下のような流れで実装される。 なお、ここではデータの数を n クラスタの数を K としておく。
- 各データに対してランダムにクラスタを割り振る。
- 割り振ったデータをもとに各クラスタの中心を計算する。計算は通常割り当てられたデータの各要素の平均(重心)が使用される。
- 各 xi と各 Vj との距離を求め、xi を最も近い中心のクラスタに割り当て直す。
- 上記の処理で全ての xi のクラスタの割り当てが変化しなかった場合は処理を終了する。それ以外の場合は新しく割り振られたクラスタから Vj を再計算して上記の処理を繰り返す。
結果は、冒頭の割り振り方(初期値)に大きく依存することが知られており、 1回の結果が必ずしも最良とは限らないことに留意しなければならない。
[編集] 参考文献
- 宮本定明 『クラスター分析入門 ファジィクラスタリングの理論と応用』 森北出版株式会社、1999年、ISBN 4-627-91651-5