X'inhu k-tfisser Raggruppament?

Tħaffir tad-dejta bl-algoritmu k-means

L-algoritmu ta 'clustering k huwa għodda għat-tagħlim tal-magni u d-data użata biex tgħaqqad l-osservazzjonijiet fi gruppi ta' osservazzjonijiet relatati mingħajr ebda għarfien minn qabel ta 'dawk ir-relazzjonijiet. Permezz tat-teħid ta 'kampjuni, l-algoritmu jipprova juri f'liema kategorija, jew cluster, id-data tappartjeni għaliha, bin-numru ta' raggruppamenti definiti bil-valur k.

L-algoritmu k- means huwa wieħed mit-tekniki sempliċi ta 'raggruppament u huwa komunement użat fl-imaging mediċi, bijometriċi, u oqsma relatati. Il-vantaġġ ta ' k- tfisser raggruppament huwa li jgħidlek dwar id-data tiegħek (billi tuża l-forma mhux issupervizzata) aktar milli għandek għalfejn tagħti struzzjonijiet lill-algoritmu dwar id-data fil-bidu (bl-użu tal-formola sorveljata tal-algoritmu).

Xi drabi jissejjaħ l-Algoritmu ta 'Lloyd's, partikolarment f'ċirkli tax-xjenza tal-kompjuter minħabba li l-algoritmu standard ġie propost l-ewwel minn Stuart Lloyd fl-1957. It-terminu "k-mezzi" ġie maħluq fl-1967 minn James McQueen.

Kif il-k-tfisser Funzjonijiet ta 'l-Algoritmu

L-algoritmu k- means huwa algoritmu evoluzzjonarju li jġib isimha mill-metodu ta 'operazzjoni tiegħu. L-osservazzjonijiet tar-raggruppamenti tal-algoritmi fi gruppi k , fejn k huwa pprovdut bħala parametru tad-dħul. Imbagħad jassenja kull osservazzjoni għal raggruppamenti bbażati fuq il-prossimità tal-osservazzjoni mal-medja tal-cluster. Il-medja tar-raggruppament imbagħad tinħadem mill-ġdid u l-proċess jerġa 'jibda. Hawnhekk kif taħdem l-algoritmu:

  1. L-algoritmu arbitrarjament jagħżel punti k bħala ċ-ċentri tal-cluster inizjali (il-mezzi).
  2. Kull punt fid-dataset jiġi assenjat lill-cluster magħluq, ibbażat fuq id-distanza Euclidean bejn kull punt u kull ċentru tal-cluster.
  3. Kull ċentru ta 'raggruppamenti huwa kkalkulat mill-ġdid bħala l-medja tal-punti f'dak il-grupp.
  4. Il-Passi 2 u 3 jirrepetu sakemm il-clusters jikkonverġu. Il-konverġenza tista 'tkun definita b'mod differenti skont l-implimentazzjoni, iżda normalment tfisser li jew l-ebda osservazzjoni ma tbiddel raggruppamenti meta l-passi 2 u 3 jiġu ripetuti, jew li l-bidliet ma jagħmlux differenza materjali fid-definizzjoni tal-clusters.

L-għażla tan-Numru ta 'Raggruppamenti

Wieħed mill-iżvantaġġi prinċipali li k- tfisser raggruppament huwa l-fatt li trid tispeċifika n-numru ta 'clusters bħala input għall-algoritmu. Kif iddisinjat, l-algoritmu ma jistax jiddetermina n-numru xieraq ta 'clusters u jiddependi fuq l-utent biex jidentifika dan minn qabel.

Pereżempju, jekk kellek grupp ta 'nies li għandhom jiġu miġbura fuq bażi ta' identità binja tas-sessi bħala raġel jew mara, li ssejjaħ l-algoritmu k- means bl-użu tal-input k = 3 jġiegħel lin-nies fi tliet clusters meta tnejn biss, jew l-input ta ' k = 2, jipprovdi aktar tajbin naturali.

Bl-istess mod, jekk grupp ta 'individwi kienu raggruppati faċilment skont l-istat tad-dar u int imsejħa l-algoritmu k- means bl-input k = 20, ir-riżultati jistgħu jkunu ġeneralizzati wisq biex ikunu effettivi.

Għal din ir-raġuni, spiss tkun idea tajba li tesperimenta b'valuri differenti ta ' k biex tidentifika l-valur li l-aħjar taqbel mad-dejta tiegħek. Int tkun tista 'ukoll tesplora l-użu ta ' algoritmi oħra ta 'minjieri tad-data fit-tiftixa tiegħek għal tagħrif miksub mill-magni.