Сізге Bayesian Spam Filtering туралы білу керек

Статистиканың кіріс қалтасын тазалауға қалай көмектесетінін біліңіз

Байес аралық спам сүзгілері мазмұнның негізінде спам болып табылатын хабардың ықтималдығын есептейді. Қарапайым контент-негізделген сүзгілерден айырмашылығы, спецификалық спамның сүзгісі спамнан және жақсы поштаннан үйренеді, нәтижесінде өте жақсы, бейімделетін және тиімді спамға қарсы көзқарас пайда болады, ең бастысы ешқандай жалған позитивтерді қайтарады.

Қалаусыз электрондық поштаны қалай тани аласыз?

Спамды анықтау әдісі туралы ойланыңыз. Әдетте тез қарайды. Сіз спамның қалай көрінетінін білесіз және жақсы поштаның қалай көрінетінін білесіз.

Жақсы поштаға ұқсас спамның ықтималдығы ... нөлге тең.

Мазмұнға негізделген сүзгілерді бағалау бейімделмейді

Автоматты спам сүзгілері де солай жұмыс істеген жағдайда жақсы болмас еді.

Мазмұнға негізделген спам сүзгілерін салыстыру бұны дәл осылай жасауға тырысады. Олар спамға тән сөздер мен басқа да сипаттамаларды іздейді. Әрбір тән элементге балл беріледі және барлық хабар үшін спамның баллы жеке баллдардан есептеледі. Кейбір сүзгі сүзгілері ақиқатты пошта сипаттамаларын іздейді, хабардың соңғы есебін төмендетеді.

Скоринг сүзгілерінің әдісі жұмыс істейді, бірақ бірнеше кемшіліктері бар:

Bayesian спам сүзгілері өздерін жақсы жағынан жақсылап жасаңыз

Bayesian spam сүзгілері де мазмұнды негізделген сүзгілердің бір түрі болып табылады. Олардың көзқарасы қарапайым скорингтік спам сүзгілерінің проблемаларын шеше алмайды, және ол соншалықты түбегейлі. Сүзгі сүзгілерінің әлсіздігі сипаттамалар мен олардың ұпайларының қолмен салынған тізімінде болғандықтан, бұл тізім жойылады.

Оның орнына, Bayesian spam сүзгілері тізімді өздері құрастырады. Ең дұрысы сіз спам ретінде жіктелген электрондық пошталардан бастасаңыз, және басқа жақсы поштаңызды жібересіз. Сүзгілер спамның әр түрлі сипаттамаларының ықтималдығын есептеу үшін, сондай-ақ жақсы поштамен есептеу үшін заңды поштаны және спамды қарастырады.

Байес спам сүзгісі электрондық поштаны қалай тексереді?

Байес спам фильтрінің сипаттамалары келесідей болуы мүмкін:

Егер сөз, мысалы, «декарттық» сөзі спамда ешқашан пайда болмаса да, көбінесе заңды электрондық поштаңызда «Cartesian» спамның нөлге жақын екенін көрсетеді. Екінші жағынан, «тонер», тек қана спамда пайда болады. «Тонер» спамнан табылған ықтималдығы өте жоғары, 1 (100%) төмен емес.

Жаңа хабарлама келіп түскен кезде, оны спам-сүзгінің Байес аралық сүзгісі талдайды және спамның толық хабарламасының ықтималдығы жеке сипаттамалары бойынша есептеледі.

Хабарламада «Cartesian» және «toner» екеуі де бар. Осы сөздерден бізде спам немесе заңды пошта бар ма екен деген белгісіз. Басқа сипаттамалар (үміттенемін және ең алдымен) сүзгіні спам немесе жақсы хат ретінде жіктеуге мүмкіндік беретін ықтималдығын көрсетеді.

Байес спам сүзгілері автоматты түрде біле алады

Енді бізде жіктеу бар, оны сүзгіні одан әрі үйрету үшін қолдануға болады. Бұл жағдайда, жақсы поштаны көрсететін «декретикалық» ықтималдығы төмендейді (егер «Картезиан» және «тонер» екеуі де спам болып табылса), немесе спамның көрсетілуіне «тонер» ықтималдығы қайта қаралуы тиіс.

Бұл авто-бейімдеу техникасын қолдану арқылы Bayesian сүзгілері өздерінің және пайдаланушының шешімдерінен (егер ол сүзгілер арқылы дұрыс шешім түзетсе) біле алады. Bayesian сүзгісінің бейімделуі, олар жеке электрондық пошта пайдаланушылары үшін ең тиімді екеніне көз жеткізеді. Адамдардың көпшілігінің спамның ұқсас сипаттамалары болуы мүмкін болғанымен, заңды пошта барлық адамдарға тән.

Спаммерлер өткен Байес фильтрлерін қалай ала алады?

Құқықтық поштаның сипаттамалары спам-сауал ретінде Байес спамдарын сүзу процесі үшін маңызды. Егер сүзгілер әр пайдаланушы үшін арнайы дайындалған болса, спаммерлердің барлығы (немесе тіпті адамдардың көпшілігінің) спам сүзгілерін айналысатын қиындықтары болады және сүзгілер спаммерлердің барлығына бейімделе алады.

Спаммерлер оларды спам-хабарламаларын әдеттегі электрондық пошта сияқты барлық көрінетін сияқты жақсы көрінетін болса, жақсы дайындалған Bayesian сүзгілерінен өткізеді.

Спаммерлер әдеттегідей электрондық пошта хабарларын жібермейді. Бұл электрондық пошталардың қалаусыз электрондық пошта ретінде жұмыс істемейтіндігіне көз жеткізу керек. Мәселен, қарапайым, мәжбүрлі электрондық пошта хабарлары спам сүзгілерін өткізуге жалғыз мүмкіндік болғанда, олар мұны жасамайды.

Егер спаммерлер көбінесе қарапайым көрінетін электрондық пошталарға ауысса, біз қайтадан біздің кіріс жәшіктерімізде көп спам көреміз және электрондық пошта электрондық пошта баяуша күндерде (немесе тіпті одан да жаман) болғандай бұзылып кетуі мүмкін. Сондай-ақ, ол спамның көптеген түрлеріне арналған нарықты бұзып, ұзақ уақытқа созылмайды.

Күшті индикаторлар Bayesian Spam Filter & Axilles & # 39; Үнемі

Спаммерлердің біреуі әдеттегі мазмұнымен тіпті Bayesian сүзгілерімен жұмыс істеу үшін қабылдануы мүмкін. Байес статистикасының табиғатында, жақсы хатта өте жиі кездесетін бір сөз немесе сипат, кез-келген хабарламаны сүзгі ретінде жорамалдауға арналған спам сияқты көріну үшін маңызды болуы мүмкін.

Егер спаммердер өзіңіздің жақсы мақалаңызды дұрыс анықтайтын жолды табатын болса - мысалы, сіз ашқан хабарларды көру үшін HTML қайтару туралы түбіртектерді пайдалана отырып, олардың біреуін қалаусыз поштаға қосып, Байес фильтрін үйретті.

Джон Грэхэм-Кумминг бұл екі бэйсийлік сүзгілердің бір-біріне қарсы жұмыс істеуіне мүмкіндік беріп, «жақсы» сүзгі арқылы хабарларға ие болатын «жаман» адамға бейімделуге тырысты. Оның айтуынша, ол жұмыс істейді, бірақ бұл процесс уақытты қажет етеді және күрделі. Біз бұл оқиғалардың басым бөлігін, ең болмағанда үлкен көлемде емес, жеке тұлғалардың электрондық пошта сипаттамаларына бейімделмейтінін ойламаймыз. Спаммерлер орнына кейбір тырнақшаларды анықтауға тырысуы мүмкін (орнына кейбір адамдар үшін «Almaden» сияқты мүмкін бе?).

Әдетте, спам әрдайым әдеттегі поштадан өзгеше болады немесе ол спам болмайды.

Төменгі сызық: Байес фильтрациясы оның әлсіздігі болуы мүмкін

Bayesian спам сүзгілері - бұл мазмұн негізіндегі сүзгілер , олар: