X'għandek tkun taf dwar il-filtrazzjoni ta 'spam Bayesian

Skopri kif l-istatistika tgħin biex iżżomm l-inbox tiegħek nadif

Il-filtri Bayesian spam jikkalkulaw il-probabbiltà li messaġġ ikun spam ibbażat fuq il-kontenut tiegħu. B'differenza mill-filtri sempliċi bbażati fuq il-kontenut, il-filtrazzjoni tal-spam Bayesian titgħallem mill-ispam u mill-posta tajba, li tirriżulta f'applikazzjoni kontra l-ispam robusti ħafna, li tadatta u effiċjenti li, aħjar minn hekk, tirritorna bi ftit pożittivi foloz.

Kif Trid Tagħraf Email Junk?

Aħseb dwar kif tiskopri l- ispam . Daqqjar ta 'malajr spiss ikun biżżejjed. Int taf x'tip ta 'spam tidher qiesha, u taf liema posta tajba tidher.

Il-probabbiltà ta 'spam li tħares posta tajba hija ta' madwar ... żero.

L-Għarfien ta 'Filtri Ibbażati fuq Kontenut Ma Jadattawx

Ma jkunx kbir jekk il-filtri awtomatiċi tal-ispam jaħdmu ukoll, wisq?

L-iskanjar tal-filtri tal-ispam ibbażati fuq il-kontenut jipprova biss dak. Huma jfittxu kliem u karatteristiċi oħra tipiċi ta 'spam. Kull element karatteristiku huwa assenjat punteġġ, u punteġġ tal-ispam għall-messaġġ kollu huwa kkalkulat mill-punteġġi individwali. Xi filtri ta 'punteġġ ukoll ifittxu karatteristiċi ta' posta leġittima, li jbaxxu l-punteġġ finali ta 'messaġġ.

L-approċċ tal-filtri ta 'punteġġ jaħdem, iżda għandu wkoll bosta żvantaġġi:

Bayesian Spam Filtri Tweak lilhom infushom, Getting Aħjar u Aħjar

Il-filtri Bayesian spam huma wkoll tip ta 'filtri bbażati fuq il-kontenut. L-approċċ tagħhom ma jneħħix il-problemi ta 'filtri sempliċi ta' punteġġ ta 'l-ispam, għalkemm, u jagħmel dan b'mod radikali. Minħabba li d-dgħjufija tal-filtri ta 'punteġġ hija fil-lista ta' karatteristiċi mibnija manwalment u l-punteġġi tagħhom, din il-lista tiġi eliminata.

Minflok, il-filtri Bayesian spam jibnu l-lista huma stess. Idealment, tibda bil-mazz kbir (kbir) ta 'emails li kklassifikaw bħala spam, u mazz ieħor ta' posta tajba. Il-filtri jħarsu lejn it-tnejn u janalizzaw il-posta leġittima kif ukoll l-ispam biex jikkalkulaw il-probabbiltà ta 'karatteristiċi varji li jidhru fl-ispam, u f'korrispondenza tajba.

Kif Iffiltra Spam ta 'Bayesian Teżamina Email

Il-karatteristiċi ta 'filtru tal-Bayesian spam jistgħu jkunu:

Jekk kelma, "Kartesjana" per eżempju, qatt ma tidher fl-ispam iżda ħafna drabi fl-email leġittimu li tirċievi, il-probabbiltà li "Cartesian" tindika li l-ispam huwa qrib iż-żero. "Toner", min-naħa l-oħra, jidher esklussivament, u ħafna drabi, fl-ispam. "Toner" għandu probabbiltà għolja ħafna li jinstab fl-ispam, mhux ħafna inqas minn 1 (100%).

Meta jasal messaġġ ġdid, jiġi analizzat mill-filtru Bayesian spam, u l-probabbiltà li l-messaġġ komplet ikun spam hija kkalkulata bl-użu tal-karatteristiċi individwali.

Assumi li messaġġ fih kemm "Cartesian" kif ukoll "toner". Minn dawn il-kliem waħedhom għadu mhux ċar jekk għandux spam jew posta leġittima. Karatteristiċi oħra (nisperaw u probabbilment) jindikaw probabbiltà li tippermetti lill-filtru biex jikklassifika l-messaġġ bħala spam jew posta tajba.

Il-filtri Bayesian Spam jistgħu jitgħallmu awtomatikament

Issa li għandna klassifikazzjoni, il-messaġġ jista 'jintuża biex iħarreġ il-filtru aktar lilu nnifsu. F'dan il-każ, jew il-probabbiltà li "Cartesian" tindika posta tajba titbaxxa (jekk il-messaġġ li fih kemm "Cartesian" kif ukoll "toner" jinstab li hu spam), jew il-probabbiltà li "toner" tindika l-ispam għandha terġa 'tiġi kkunsidrata.

Permezz ta 'din it-teknika ta' adattament awtomatiku, il-filtri Bayesian jistgħu jitgħallmu kemm mid-deċiżjonijiet ta 'l-utent kif ukoll minn dawk ta' l-utent (jekk manwalment jikkoreġi żball ħażin mill-filtri). L-adattabilità tal-filtrazzjoni tal-Bayesian tiżgura wkoll li huma l-aktar effettivi għall-utent tal-email individwali. Filwaqt li l-ispam tal-biċċa l-kbira tan-nies jista 'jkollu karatteristiċi simili, il-posta leġittima hija karatteristikament differenti għal kulħadd.

Kif Jistgħu Spammers Niżżel Filtri Bażijani Passati?

Il-karatteristiċi tal-posta leġittima huma daqstant importanti għall-proċess ta 'filtrazzjoni tal-Bayesian spam peress li l-ispam huwa. Jekk il-filtri huma mħarrġa speċifikament għal kull utent, min jispammja se jkollu ħin saħansitra aktar diffiċli jaħdem madwar filtri ta 'kulħadd (jew saħansitra aktar nies) spam, u l-filtri jistgħu jadattaw għal spammers kważi kollha jippruvaw.

L-ispammers jagħmluha biss passat filtri Bayesian imħarrġa tajjeb jekk jagħmlu l-messaġġi spam tagħhom ħarsa perfettament bħall-email ordinarju kulħadd jista 'jikseb.

Spammers normalment ma jibagħtu emails ordinarji bħal dawn. Ejja nassumu li dan huwa minħabba li dawn l-emails ma jaħdmux bħala email junk. Allura, iċ-ċansijiet huma li dawn mhux se jkunu qed jagħmluha meta emails ordinarji u boring huma l-uniku mod biex jagħmluha filtri tal-passat spam.

Jekk spammers jaqilbu għal emails l-aktar ordinarji li jħarsu, madankollu, se naraw ħafna spam fil-kaxxi Inbox tagħna għal darb'oħra, u l-email jista 'jsir tant frustranti kif kien f'jiem pre Bayesian (jew saħansitra agħar). Barra minn hekk, sejjer arrabi s-suq għal ħafna tipi ta 'spam, u għalhekk mhux se jdum għal ħafna żmien.

Indikaturi b'saħħithom Jista 'jkun Filtri Bayesjani ta' l-Ibla 'ta' Achilles & # 39; Heel

Eċċezzjoni waħda tista 'tiġi pperċepita biex min jispammja taħdem permezz tal-filtri Bayesian anke bil-kontenut tas-soltu tagħhom. Huwa fin-natura tal-istatistika Bayesian li kelma jew karatteristika waħda li ħafna drabi tidher f'mail tajjeb tista 'tkun tant sinifikanti li kull messaġġ jista' juri spam simili biex jiġi kklassifikat bħala perżut mill-filtru.

Jekk min jispammja jsib mod biex jiddetermina l-kliem tiegħek b'xejn ta 'ċertu nar billi juża riċevuti ta' ritorn HTML biex jara liema messaġġi fetaħ, pereżempju, jistgħu jinkludu waħda minnhom f'ħażna junk u tilħaqk anke permezz ta ' filtru Bayesian imħarreġ.

John Graham-Cumming ipprova dan billi jħalli żewġ filtri Bayesian jaħdmu kontra xulxin, il-wieħed "ħażin" li jadatta għal liema messaġġi jinstabu li jgħaddu mill-filtru "tajjeb". Huwa jgħid li jaħdem, għalkemm il-proċess jieħu ħafna ħin u kumpless. Ma naħsbux naraw li ħafna minn dan jiġri, għallinqas mhux fuq skala kbira, u mhux imfassla għall-karatteristiċi ta 'l-email ta' l-individwi. Spammers jistgħu (jippruvaw) jidhru xi kliem prinċipali għall-organizzazzjonijiet (xi ħaġa bħal "Almaden" għal xi nies f'IBM forsi?) Minflok.

Normalment, l-ispam ikun dejjem (b'mod sinifikanti) differenti minn posta regolari jew mhux se jkun spam, għalkemm.

Il-Linja tal-Qiegħ: Il-Qawwa tal-Filtrazzjoni Bayesjana Jista 'Jkun Dgħjufija

Il-filtri Bayesian spam huma filtri bbażati fuq il-kontenut li: