Деректерді топтастырудағы жіктеу

Жіктеу - дәл болжау мен талдау жасауға көмектесу үшін деректер жинау санаттарын тағайындайтын деректерді өңдеу әдісі. Сондай-ақ кейде « шешімді қабылдау» деп аталады, жіктеу өте үлкен деректер жиынтығын тиімді талдау үшін бірнеше әдістердің бірі болып табылады.

Неліктен Жіктеу?

Өте үлкен деректер базасы бүгінгі әлемдегі «үлкен деректерге» айналады. Бірнеше терабайт деректері бар дерекқорды елестетіңіз - терабайт - деректердің бір триллион байтын құрайды.

Facebook тек күнделікті 600 терабайтты жаңа деректерді жібереді (2014 ж. Соңғы мәліметтері бойынша). Үлкен деректердің негізгі міндеті - оны түсіну.

Және айқындылық көлемі - бұл жалғыз проблема емес: үлкен деректер әртүрлі, құрылымдық емес және тез өзгеріп отырады. Аудио және бейне деректерін, әлеуметтік медиа хабарламаларын, 3D деректерін немесе геокеңістіктік деректерді қарастырыңыз. Деректердің бұл түрі оңай санатталмаған немесе ұйымдастырылмаған.

Бұл қиындықты қанағаттандыру үшін пайдалы ақпарат алудың автоматтандырылған әдістері жасалды, олардың ішінде жіктеу .

Жіктеу қалай жұмыс істейді

Техникалық сөйлесу үшін тым алыс қозғалу қаупі бар болса, классификация қалай жұмыс істейтінін талқылап көрейік. Мақсаты - сұраққа жауап беруге, шешуге немесе мінез-құлықты болжауға болатын жіктеу ережелерінің жиынтығын жасау. Бастау үшін белгілі бір атрибуттар жиынтығын және ықтимал нәтижені қамтитын оқу деректерінің жиынтығы жасалады.

Жіктеу алгоритмінің жұмысы - бұл атрибуттардың жиынтығы оның қорытындысына қалай жете алатынын анықтау.

Сценарий : Несие карточкалық компаниясы болашақ несиелік карточка ұсынысын алуға тиіс екенін анықтауға тырысады.

Бұл оның жаттығу деректерінің жиынтығы болуы мүмкін:

Деректерді дайындау
Атауы Жасы Жыныс Жылдық табысы Кредиттік карточка ұсынысы
Джон Ду 25 М $ 39,500 Жоқ
Джейн До 56 F $ 125,000 Ия

Жасы , жынысы және Жылдық кірістің «болжамды» бағаналары кредиттік карточка ұсынысының «болжамды төлсипатының» мәнін анықтайды. Оқу жиынында болжамды атрибуты белгілі. Кейін жіктеу алгоритмі болжамды атрибуттың мәніне қалай қол жеткізілгенін анықтауға тырысады: болжаушылар мен шешім арасында қандай қатынастар бар? Ол болжамды ережелер жиынтығын жасайды, әдетте IF / THEN мәлімдемесі, мысалы:

IF (Жасы 18 ЖӘНЕ Жасы <75) және Жылдық кіріс> 40,000 THEN Credit Card Offer = yes

Әлбетте, бұл қарапайым мысал, ал алгоритм осы жерде көрсетілген екі жазбаға қарағанда әлдеқайда үлкен деректерді таңдауды қажет етеді. Бұдан басқа, болжау ережелері атрибут туралы мәліметтерді жинауға арналған қосымша ережелерді қоса алғанда, әлдеқайда күрделі болуы мүмкін.

Содан кейін алгоритмге талдау үшін деректердің «болжамды жиынтығы» беріледі, бірақ бұл параметр болжамды атрибутты (немесе шешім) жетіспейді:

Предиктор деректері
Атауы Жасы Жыныс Жылдық табысы Кредиттік карточка ұсынысы
Джек Фрост 42 М $ 88,000
Мэри Мюррей 16 F $ 0

Бұл алдын ала анықталған деректер болжау ережелерінің дұрыстығын бағалауға көмектеседі, содан кейін ережелер әзірлеуші ​​болжамдарды тиімді және пайдалы деп есептегенше өзгереді.

Күнделікті жіктелім мысалдары

Жіктеу және деректерді өңдеудің басқа әдістері тұтынушылар ретінде біздің күнделікті тәжірибемізді артта қалдырады.

Ауа райының болжамдары күннің жауын-шашынды, күн сәулесі немесе бұлтты болуы туралы хабарлау үшін классификацияны қолдануы мүмкін. Медицина мамандығы денсаулық жағдайын медициналық нәтижелерді болжау үшін талдай алады. Наиф Байесянның жіктеу әдісінің түрі спамның электрондық пошталарын санаттауға мүмкіндік береді. Алаяқтықты анықтаудан өнім ұсыныстарына дейін, күнделікті деректерді талдап, болжамдар жасайды.