HTML

A te spamszűrőd tud sakkozni?

2007.11.12. 23:21 freya-spamblog

Egy érdekes kísérletet találhatunk a dbacl projekt honlapján: vajon lehet egy spamszűrővel sakkozni? A meglepő válasz az, hogy igen! A honlap üzemeltetője, Laird A. Breyer bevezetőjében elmeséli, hogy sok más szakmabelihez hasonlóan ő is készített egy Bayes alapú szűrőt (ő lenne a dbacl), amit kísérletében megtanít sakkozni. A Bayes szűrőket sokan dícsérik azért, mert az első használat után nagyon jó eredményeket tudnak felmutatni. Ez alapján sokan azt gondolják, hogy a jól betanított Bayes szűrő valóban megérti a leveleket és különválogatja a spamet - pedig a valóságban mindössze mintákat hasonlítanak össze szigorú matematikai alapokon. (Ráadásul a megfelelő marketinggel sokak számára teljesen hihetővé válik a tanuló, intelligens spamszűrő, viszont később komoly csalódás éri a téves biztonságérzetű felhasználót... nos, ez egy más lapra tartozik.)

Sakkozó spamszűrő Sakkozó spamszűrő

a megtanított spamszűrő gyorsan megjegyezte a kezdőlépéseket

A sakk kísérlet célja is hasonló: elhitetni, hogy a szűrő megfelelő tanítás után valamilyen intelligens jelét mutatja sakktudásának, még ha a szabályokat nem is ismeri, de a korábbi minták alapján képes lépéseket tenni. A honlap útmutatása alapján minden forráskód elérhető és a tanítás könnyen megismételhető, de ezt csak a Linuxban jártas és a megfelelő matematikai alapokkal rendelkező, vállalkozó kedvű olvasóknak javasoljuk. A minta játszmák alapján pedig a spamszűrő megtanítható sakkozni: az alapokat gyorsan megtanulja, de ahhoz, hogy jól is játszon, még rengeteg fejlesztés lenne szükséges. Bővebb információ: Can a Bayesian spam filter play chess?

3 komment

Címkék: sakk spamszűrő minta játszma bayes dbacl

A bejegyzés trackback címe:

https://spam.blog.hu/api/trackback/id/tr50261277

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Sütő János · http://sj.acts.hu/?p=173 2007.11.14. 01:24:12

Érdekes az ötlet, hogy képesek-e sakkozni a statisztikai spamszűrők, de pár dologgal vitáznék - ha szabad. Ha nagyon le akarjuk egyszerűsíteni a dolgot, a statisztikai szűrők valóban mintákat hasonlítanak össze egy kis matekkal megfűszerezve. De ennél azért egy kicsit többről van szó. 1. A mai, modern statisztikai szűrők valóban megtanulják, hogy milyenek a jó ill. a spam leveleink, ezért is hívják őket tanuló szűrőknek. Ezt a folyamatot úgy képzelhetjük el, mint amikor egy 3 éves gyerek rámutat mindenre, és megkérdezi, hogy “mi ez?”, mi pedig megmondjuk, hogy paradicsom, paprika, alma, dió, stb. Majd egy idő után, amikor már elég sok mindent megmutattunk neki, mi kérdezzük meg őt egy ismeretlen növényre mutatva, hogy “mi ez?”, ő pedig az eddigi ismeretei alapján megmondja, hogy az zöldség vagy gyümölcs. Ha helyesen válaszolt, örülünk, ha nem, akkor korrigáljuk. 2. Amikor egy statisztikai szűrő elolvassa a levelet, akkor nem csak egyszerűen mintákat (precízebben szólva szavakat, kifejezéseket, másképpen tokeneket), hanem koncepciókat (több egymás után következő kifejezést) is képes azonosítani, ez pedig olyan intelligencia, ami már az AI-t közelíti (ld. a sakkozás során képes kiválasztani a lehetséges lépések közül egy megfelelőt kiválasztani). Csak egy példa, hogy miről beszélek. Tegyük fel, hogy van egy rendszeres levelezőpartnerem, akitől sok levelet kapok. A szűrő megtanulja, pl. hogyan szólít meg, mi az ő email címe, neve, mi az aláírása, szokásos szófordulatai, stb. Most jöjjön egy spammer, aki arra számít, hogy ha a barátom nevében küld nekem spamet, az átcsúszik a szűrőn. De vajon tényleg átverheti? Esélye sincs. Mert ugyan szerepel benne a partnerem neve és címe, az én nevem és címem, de az előbb említett koncepciók közül egy se lesz benne. Ezért amikor megnézem a junk folderem, és látom, hogy a barátom levele fennakadt a szűrőn (mert a spamre jellemző koncepciókat, pl. “great night”, “cheap oem”, stb. csont nélkül felismerte), csak nyissuk meg, és látni fogjuk, hogy a szűrőnek volt igaza, és az egy spammertől jött. Én egyszer egy PayPal(-nek látszó) levéllel jártam így. Vagy 2-3 éve fejlesztek egy statisztikai spamszűrőt (és használom is!). Szerintem ennyi idő alatt csalódhattam volna, ha az elv hibás lenne. De folyamatosan 99% feletti pontosságot élvezhetek (novemberben eddig a pillanatig -on állok). Más projektek szintén hasonló (vagy még jobb) eredményről számolnak be, pl. dspam készítőjének rekordja 99.987% (1 hiba 7000 levélből). Szerintem ennyi bőven elég az állítólagos "" cáfolatához....

Ákos 2007.11.14. 10:00:35

természetesen nem azokat a szakembereket érik, akik 2-3 éve fejlesztenek saját statisztikai szűrőt :)

Sütő János · http://sj.acts.hu/ 2007.11.14. 10:48:22

Ez bizonyos. Azonban akár x fejlesztőről, akár z átlag felhasználóról van szó, a felhasználás módja, mikéntje és az eredmény nem különbözik. (Gondolom, az MPP desktop-ot is ugyanúgy használja a fejlesztője, mint egy kezdő felhasználó). Éppen ma reggel olvastam el egy bogofilter felhasználó (egyszerű felhasználó, nem fejlesztő) hozzászólását, aki szintén elérte a 99%-os határt. Szóval nem kell hozzá pilótavizsga.
süti beállítások módosítása