Сізге Bayesian Spam Filtering туралы білу керек

by Хайнц Цхабицсер

Статистиканың кіріс қалтасын тазалауға қалай көмектесетінін біліңіз

Байес аралық спам сүзгілері мазмұнның негізінде спам болып табылатын хабардың ықтималдығын есептейді. Қарапайым контент-негізделген сүзгілерден айырмашылығы, спецификалық спамның сүзгісі спамнан және жақсы поштаннан үйренеді, нәтижесінде өте жақсы, бейімделетін және тиімді спамға қарсы көзқарас пайда болады, ең бастысы ешқандай жалған позитивтерді қайтарады.

Қалаусыз электрондық поштаны қалай тани аласыз?

Спамды анықтау әдісі туралы ойланыңыз. Әдетте тез қарайды. Сіз спамның қалай көрінетінін білесіз және жақсы поштаның қалай көрінетінін білесіз.

Жақсы поштаға ұқсас спамның ықтималдығы ... нөлге тең.

Мазмұнға негізделген сүзгілерді бағалау бейімделмейді

Автоматты спам сүзгілері де солай жұмыс істеген жағдайда жақсы болмас еді.

Мазмұнға негізделген спам сүзгілерін салыстыру бұны дәл осылай жасауға тырысады. Олар спамға тән сөздер мен басқа да сипаттамаларды іздейді. Әрбір тән элементге балл беріледі және барлық хабар үшін спамның баллы жеке баллдардан есептеледі. Кейбір сүзгі сүзгілері ақиқатты пошта сипаттамаларын іздейді, хабардың соңғы есебін төмендетеді.

Скоринг сүзгілерінің әдісі жұмыс істейді, бірақ бірнеше кемшіліктері бар:

Сипаттамалардың тізімі сүзгінің инженерлеріне қол жетімді спамнан (және жақсы поштаннан) жасалған. Типтік спамды жақсы түсіну үшін кез-келген адам поштаның электрондық поштасының жүздеген мекен-жайында жиналуы керек. Бұл фильтрлердің тиімділігін әлсіретеді, әсіресе жақсы хаттың сипаттамалары әрбір адам үшін әр түрлі болады , бірақ бұл ескерілмейді.
Іздеуге болатын сипаттамалар көп немесе аз таста қойылған . Егер спаммерлер бейімделуге тырысса (және олардың спамдарын сүзгілерге жақсы хат ретінде көрсетілсе), сүзгілеу сипаттамалары қолмен бұралған болуы тиіс - тіпті үлкен күш.
Әрбір сөзге тағайындалған балл, бәлкім, жақсы бағаға негізделген, бірақ ол әлі ерікті болып табылады. Және сипаттамалар тізіміне ұқсап, ол спамның өзгеретін әлеміне де, жеке пайдаланушының қажеттіліктеріне де бейімделмейді.

Bayesian спам сүзгілері өздерін жақсы жағынан жақсылап жасаңыз

Bayesian spam сүзгілері де мазмұнды негізделген сүзгілердің бір түрі болып табылады. Олардың көзқарасы қарапайым скорингтік спам сүзгілерінің проблемаларын шеше алмайды, және ол соншалықты түбегейлі. Сүзгі сүзгілерінің әлсіздігі сипаттамалар мен олардың ұпайларының қолмен салынған тізімінде болғандықтан, бұл тізім жойылады.

Оның орнына, Bayesian spam сүзгілері тізімді өздері құрастырады. Ең дұрысы сіз спам ретінде жіктелген электрондық пошталардан бастасаңыз, және басқа жақсы поштаңызды жібересіз. Сүзгілер спамның әр түрлі сипаттамаларының ықтималдығын есептеу үшін, сондай-ақ жақсы поштамен есептеу үшін заңды поштаны және спамды қарастырады.

Байес спам сүзгісі электрондық поштаны қалай тексереді?

Байес спам фильтрінің сипаттамалары келесідей болуы мүмкін:

сөздің денесінде сөз, әрине, және
оның тақырыптары (жіберушілер мен хабар жолдары , мысалы!), сонымен қатар
HTML / CSS коды (мысалы, түстер және басқа пішімдеу) сияқты басқа аспектілер
сөз тіркестерін, сөз тіркестерін және
мета туралы ақпарат (мысалы, белгілі бір фраза пайда болса).

Егер сөз, мысалы, «декарттық» сөзі спамда ешқашан пайда болмаса да, көбінесе заңды электрондық поштаңызда «Cartesian» спамның нөлге жақын екенін көрсетеді. Екінші жағынан, «тонер», тек қана спамда пайда болады. «Тонер» спамнан табылған ықтималдығы өте жоғары, 1 (100%) төмен емес.

Жаңа хабарлама келіп түскен кезде, оны спам-сүзгінің Байес аралық сүзгісі талдайды және спамның толық хабарламасының ықтималдығы жеке сипаттамалары бойынша есептеледі.

Хабарламада «Cartesian» және «toner» екеуі де бар. Осы сөздерден бізде спам немесе заңды пошта бар ма екен деген белгісіз. Басқа сипаттамалар (үміттенемін және ең алдымен) сүзгіні спам немесе жақсы хат ретінде жіктеуге мүмкіндік беретін ықтималдығын көрсетеді.

Байес спам сүзгілері автоматты түрде біле алады

Енді бізде жіктеу бар, оны сүзгіні одан әрі үйрету үшін қолдануға болады. Бұл жағдайда, жақсы поштаны көрсететін «декретикалық» ықтималдығы төмендейді (егер «Картезиан» және «тонер» екеуі де спам болып табылса), немесе спамның көрсетілуіне «тонер» ықтималдығы қайта қаралуы тиіс.

Бұл авто-бейімдеу техникасын қолдану арқылы Bayesian сүзгілері өздерінің және пайдаланушының шешімдерінен (егер ол сүзгілер арқылы дұрыс шешім түзетсе) біле алады. Bayesian сүзгісінің бейімделуі, олар жеке электрондық пошта пайдаланушылары үшін ең тиімді екеніне көз жеткізеді. Адамдардың көпшілігінің спамның ұқсас сипаттамалары болуы мүмкін болғанымен, заңды пошта барлық адамдарға тән.

Спаммерлер өткен Байес фильтрлерін қалай ала алады?

Құқықтық поштаның сипаттамалары спам-сауал ретінде Байес спамдарын сүзу процесі үшін маңызды. Егер сүзгілер әр пайдаланушы үшін арнайы дайындалған болса, спаммерлердің барлығы (немесе тіпті адамдардың көпшілігінің) спам сүзгілерін айналысатын қиындықтары болады және сүзгілер спаммерлердің барлығына бейімделе алады.

Спаммерлер оларды спам-хабарламаларын әдеттегі электрондық пошта сияқты барлық көрінетін сияқты жақсы көрінетін болса, жақсы дайындалған Bayesian сүзгілерінен өткізеді.

Спаммерлер әдеттегідей электрондық пошта хабарларын жібермейді. Бұл электрондық пошталардың қалаусыз электрондық пошта ретінде жұмыс істемейтіндігіне көз жеткізу керек. Мәселен, қарапайым, мәжбүрлі электрондық пошта хабарлары спам сүзгілерін өткізуге жалғыз мүмкіндік болғанда, олар мұны жасамайды.

Егер спаммерлер көбінесе қарапайым көрінетін электрондық пошталарға ауысса, біз қайтадан біздің кіріс жәшіктерімізде көп спам көреміз және электрондық пошта электрондық пошта баяуша күндерде (немесе тіпті одан да жаман) болғандай бұзылып кетуі мүмкін. Сондай-ақ, ол спамның көптеген түрлеріне арналған нарықты бұзып, ұзақ уақытқа созылмайды.

Күшті индикаторлар Bayesian Spam Filter & Axilles & # 39; Үнемі

Спаммерлердің біреуі әдеттегі мазмұнымен тіпті Bayesian сүзгілерімен жұмыс істеу үшін қабылдануы мүмкін. Байес статистикасының табиғатында, жақсы хатта өте жиі кездесетін бір сөз немесе сипат, кез-келген хабарламаны сүзгі ретінде жорамалдауға арналған спам сияқты көріну үшін маңызды болуы мүмкін.

Егер спаммердер өзіңіздің жақсы мақалаңызды дұрыс анықтайтын жолды табатын болса - мысалы, сіз ашқан хабарларды көру үшін HTML қайтару туралы түбіртектерді пайдалана отырып, олардың біреуін қалаусыз поштаға қосып, Байес фильтрін үйретті.

Джон Грэхэм-Кумминг бұл екі бэйсийлік сүзгілердің бір-біріне қарсы жұмыс істеуіне мүмкіндік беріп, «жақсы» сүзгі арқылы хабарларға ие болатын «жаман» адамға бейімделуге тырысты. Оның айтуынша, ол жұмыс істейді, бірақ бұл процесс уақытты қажет етеді және күрделі. Біз бұл оқиғалардың басым бөлігін, ең болмағанда үлкен көлемде емес, жеке тұлғалардың электрондық пошта сипаттамаларына бейімделмейтінін ойламаймыз. Спаммерлер орнына кейбір тырнақшаларды анықтауға тырысуы мүмкін (орнына кейбір адамдар үшін «Almaden» сияқты мүмкін бе?).

Әдетте, спам әрдайым әдеттегі поштадан өзгеше болады немесе ол спам болмайды.

Төменгі сызық: Байес фильтрациясы оның әлсіздігі болуы мүмкін

Bayesian спам сүзгілері - бұл мазмұн негізіндегі сүзгілер , олар:

жеке электрондық пошта пайдаланушысының спам мен жақсы поштаны тану үшін арнайы үйретіледі , оларды спаммерлерге тиімді және қиын бейімдеуге мәжбүр етеді.
үнемі және көп күш-жігерсіз немесе қолмен талдаусыз спаммерлердің соңғы үрдістеріне бейімделе алады.
жеке пайдаланушының жақсы поштасын есепке алып , жалған позитивтердің өте төмен мөлшеріне ие болыңыз .
Өкінішке орай, егер бұл Bayesian анти-спам сүзгілеріне соқыр сенім тудырса, ол кездейсоқ қатені одан да күрделі етеді . Қате теріс ( кері пошта сияқты дәлме-дәл іздейтін спам) пайдаланушыларға кедергі келтіретін және бұзатын әлеуеті бар.