K-кластеризация дегеніміз не?

K-құралдары алгоритмімен деректерді өңдеу

K- кластерлеу алгоритмі деректерді өңдеу және машықтану құралы болып табылады, ол осы қатынастарды алдын-ала білместен байқаулардың тобына бақылау ескертулерін топтастыруға арналған. Таңдау бойынша алгоритм кластердің санына k мәні бойынша анықталатын деректер санатына немесе кластеріне тиесілі екендігін көрсетуге тырысады .

K- құралы алгоритм қарапайым кластерлеу әдістерінің бірі болып табылады және ол әдетте медицинада бейнелеу, биометрия және соған байланысты өрістерде қолданылады. K- кластерлеудің артықшылығы - деректердің басталуындағы алгоритмді (алгоритмнің бақыланатын пішінін қолдана отырып) нұсқау беруден гөрі сіздің деректеріңіз туралы айтады (оның бақылаусыз нысаны).

Бұл кейде Lloyd's Algorithm деп аталады, әсіресе компьютерлік орталарда, себебі 1957 жылы стандартты алгоритм Стюарт Ллойд ұсынған болатын. «K-құралдары» термині 1967 жылы Джеймс МакКуинмен жасалды.

К-құралы алгоритмнің функциялары

K- білдіреді алгоритм - эволюциялық алгоритм, ол өз атауын пайдалану әдісімен. Алгоритм кластерлерін k топтарына бақылау жүргізеді, мұнда k параметрі кіріс параметрі ретінде беріледі. Содан кейін кластердің ортасына бақылаудың жақын болуына негізделген әрбір бақылауды кластерлерге тағайындайды. Кластердің орташа мәндері қайта есептеледі және процесс қайтадан басталады. Алгоритм қалай жұмыс істейді:

  1. Алгоритм бастапқы кластерлік орталықтар (нүкте) ретінде k таңбаларын еріксіз таңдайды.
  2. Деректер жиынындағы әрбір нүкте әрбір нүкте мен әрбір кластер орталығы арасындағы евклидтік қашықтыққа негізделген жабық кластерге тағайындалады.
  3. Әр кластер орталығы сол кластердегі нүктелердің орташа мәніне теңестіріледі.
  4. 2 және 3-қадамдар кластерлер біріктірілгенге дейін қайталанады. Конвергенцияны іске асыруға байланысты басқаша түрде анықталуы мүмкін, бірақ әдетте 2 немесе 3-қадамдар қайталанса, немесе кластерлердің анықтамасында елеулі айырмашылықтар болмаса, байқау ешқандай кластерлерді өзгертпейді дегенді білдіреді.

Кластерлердің санын таңдау

К-кластердің негізгі кемшіліктерінің бірі - кластерлер санын алгоритмге енгізу ретінде көрсету керек. Алгоритм кластерлердің тиісті санын анықтауға қабілетті емес және алдын ала анықтау үшін пайдаланушыға байланысты.

Мысалы, ерлер мен әйелдердің екілік гендерлік сәйкестілігіне негізделетін кластер болуы керек адамдар тобына ие болсаңыз, k = 3 кілтін қолданып алгоритмді шақыра отырып, k = 3- ні пайдаланып, адамдарды екі кластерге екі адам ғана немесе k = 2- нің кірістілігі табиғи түрде жарамды болады.

Сол сияқты, егер адамдар тобы үй жағдайына негізделген болса, оңай кластерленген болса және сіз k = 20 кірісімен k- алгоритмін шақырған болсаңыз, нәтиже тиімді болуы үшін тым жалпыланған болуы мүмкін.

Осы себепті, деректеріңізге сәйкес келетін мәнді анықтау үшін k әртүрлі мәндерімен тәжірибе жасау өте жақсы идея. Сондай-ақ, машина білімдерін іздеуде басқа деректерді өңдеу алгоритмдерін пайдалануды да қаласаңыз болады.