|
Fiume
di posta elettronica inutile - prevenzione e difesa
un Reverendo Inglese del 18° secolo in soccorso
Un
indirizzo di posta elettronica, soprattutto se di pubblico dominio
e malgrado tutte le precauzioni, prima o poi finirà essere
bersaglio di messaggi non richiesti: in gergo si parla di spam.
Questa parola, marchio registrato della Hormel
Foods Corporation, utilizzata nel contesto di Internet designa
dei messaggi commerciali di posta elettronica non sollecitati. A
scanso di equivoci e in un'accezione più ampia, sarebbe più
proprio parlare di junk mail, definendo il fenomeno come messaggi
di posta elettronica non desiderati, indipendentemente dalla loro
natura e dalla loro motivazione. Promesse di guadagni facili, pillole
miracolose, finanziamenti della casa a tassi da sogno, miscugli
mirabolanti che modificheranno radicalmente la nostra vita sessuale,
immagini pornografiche, dati di accesso verso siti a luci rosse
e altre simili offerte fanno parte della realtà indesiderata
e quotidiana delle nostre caselle postali. Esistono reali possibilità
di difesa dal fenomeno, oppure dobbiamo rassegnarci a subire passivamente
questa situazione?
Alcuni
consigli per evitare di finire nell'ingranaggio
Il
sistema di difesa più efficace, e anche quello più
banale, consiste nell'evitare che il proprio recapito elettronico
finisca negli indirizzari pronti da essere bombardati. Comunicare
il proprio email con parsimonia, chiedendo ai propri corrispondenti
di tenerlo unicamente per loro. Prima o poi a qualcuno scapperà,
magari a seguito di un'infezione virale. Rasentando la paranoia,
si potrebbe richiedere di utilizzare il campo bcc (il messaggio
arriva, ma senza mantenere nessuna traccia dei dati del destinatario)
negli scambi.
Altre precauzioni: non pubblicarlo sul proprio sito Internet, non
utilizzarlo nei posting presso USENET, non inserirlo nei programmi,
non fornirlo a siti web (con il pretesto che magari vi invieranno
per posta dati di accesso), utilizzarlo in gruppi di discussione
"fidati" (meglio sarebbe averne uno dedicato allo scopo).
In questi due ultimi casi, fornirlo unicamente se vi vengono offerte
serie garanzie a tutela della vostra privacy.
Utilizzare strategie di mascheramento del proprio indirizzo sullo
stile "pieroNOSPAM@provider.com - rimuovi NOSPAM per scrivermi"
sono espedienti che potrebbero facilmente venir aggirati, anche
da semplici sistemi di ricerca di nuovi recapiti poco evoluti, che
in ogni caso hanno una durata limitata. Qualora esista la necessità
di rendere pubblico il proprio email su un sito Internet, una possibilità
facilmente percorribile e efficace è quella di creare un'immagine
con il proprio recapito: sarà facilmente leggibile e utilizzabile
da un umano, non facilmente decifrabile da sistemi automatici.
E se
dovessero iniziare ad arrivare junk mails? La tentazione di rispondere,
magari su invito del messaggio che indica la via per disiscriversi
dalla fantomatica lista alla quale si risulta iscritti, può
essere grande. Ma è assolutamente da evitare. Per due ragioni:
la prima riguarda il destinatario della protesta: con ogni probabilità
non sarà la persona che ha spedito il messaggio. E anche
un'attenta analisi del percorso fatto dal messaggio per verificarne
l'effettiva provenienza, potrebbe dare scarsi risultati: ipotizzando
che il provider di partenza sia effettivamente quello identificato,
lo stesso non è che prenderà a cuore il reclamo: con
ogni probabilità lo ignorerà, impegnato in altre attività
per lui più importanti.
Il secondo motivo per il quale la risposta o una protesta non sono
efficaci, ma potrebbero addirittura sortire effetti contrari a quello
auspicato, riguarda la natura e l'attività stessa dei messaggi
e dei mittenti. Spesso infatti indirizzi email reali presso i quali
la posta viene attentamente letta, sono molto preziosi e sono venduti
a chi fa questo tipo di "pubblicità". Con la richiesta
di disiscrizione o con il reclamo si farebbe nient'altro che confermare
l'esistenza del recapito, attentamente letto e vagliato, e aumentarne
il suo valore: ed ecco che la valanga s'infoltisce.
Come
muoversi se il proprio indirizzo deve necessariamente essere pubblicato
(ad esempio quale contatto commerciale) oppure se il proprio recapito
è ormai irrimediabilmente "perso" e bombardato?
I
programmi che filtrano la posta
Esistono
dei programmi che setacciano la corrispondenza prima che arrivi
nel nostro programma di posta elettronica preferito. Personalmente
ne ho utilizzato uno fino a qualche tempo fa, basato sulla ricerca
di determinate parole chiave: soggetti dei messaggi, parole del
corpo del testo, mittenti conosciuti come "untori". Questo
sistema presenta però due grandi svantaggi: quello di una
costante necessità di aggiornare i filtri (ad esempio "viagra"
può essere scritto "v i a g r a" oppure "v.i.a.g.r.a",
ingannando di fatto il sistema) e quello di generare facilmente
dei falsi positivi (messaggi effettivamente e legittimamente recapitati,
ma considerati come non desiderati - ad esempio un amico estasiato
per una novità che invia un messaggio con una serie di punti
esclamativi potrebbe facilmente essere interpretato come spazzatura).
Per ovviare parzialmente a questi inconvenienti, sono nati progetti
come "Cloudmark SpamNet", una sorta di rete peer-to-peer
sullo stile di quelle utilizzate per lo scambio di musica o files
in generale, nella quale tutti gli utenti condividono in tempo reale
i dati relativi ai messaggi non desiderati. Queste informazioni
permettono di smistare la posta in arrivo secondo questi dati. Il
limite attuale di questo sistema è che si appoggia unicamente
su un paio di programmi di posta e che non offre un sistema personalizzato
e individuale per filtrare i messaggi.
Le
acque si sono smosse a seguito di un articolo dello scorso agosto.
Paul Graham ha pubblicato un interessante scritto dal titolo "A
Plan for Spam" dove descrive un approccio innovativo nell'affrontare
il problema, pubblicando teoria e algoritmi di funzionamento, grazie
al quale si stanno sviluppando differenti programmi che si servono
di questa sua intuizione. Questi programmi implementano un filtro
adattativo (si affina maggiormente con il suo utilizzo) basato sul
Teorema di Bayes, un Reverendo vissuto nel 18° secolo in Inghilterra.
Praticamente ogni messaggio in arrivo viene scomposto nelle sue
parole e le stesse vengono paragonate, calcolandone la probabilità
statistica, all'insieme delle parole che compongono messaggi ritenuti
indesiderati da quelli ritenuti legittimi. Ogni nuovo messaggio
che arriva arricchisce così la base di dati sui quali fondare
la selezione; esso viene marcato come legittimo o meno in base alla
probabilità che la maggioranza delle parole analizzate siano
statisticamente piuttosto appartenenti a un insieme piuttosto che
a un altro, per poi così essere trattato convenientemente
dal programma di posta elettronica.
Il sistema impara a poco a poco come discriminare la posta: alcuni
applicativi offrono modalità di apprendimento basate su corpus
di messaggi già classificati (ad esempio la propria casella
di posta locale contenente messaggi legittimi), altri imparano man
mano, sulla scorta delle indicazioni dell'utente.In questo secondo
caso, già dopo un centinaio di messaggi, il sistema risulta
particolarmente affidabile. Personalmente, dopo 300 messaggi filtrati,
ho un tasso di falsi positivi veramente esiguo, non paragonabile
al sistema precedente basato su parole chiave.
Il
Reverendo Thomas Bayes, sicuramente aveva tempo e certamente lo
smistare posta elettronica in appropriate categorie nemmeno lo sfiorava
lontanamente. Tre anni dopo la sua morte avvenuta nel 1761 la "Philosophical
Transactions of the Royal Society of London" ha pubblicato
lo scritto Essay
towards solving a problem in the doctrine of chances[PDF], che
sarebbe poi diventato noto come le Statistiche Bayesiane. I sistemi
di filtraggio di cui sopra si basano su una di queste teorie, che
algebricamente può essere così raffigurata:
P(A|B)
= P(A) * P(B|A) / P(B)
La
probabilità che A accada una volta B manifestato (P(A|B))
è la probabilità che A accada (P(A)) per la probabilità
che B accade se A è accaduto (P(B|A)) diviso la probabilità
che B accada (P(B)).
Sul
sito di Paul
Graham si trovano differenti links verso progetti che concretizzano
questa teoria. Personalmente utilizzo il programma POPfile,
multipiattaforma. Si tratta di un progetto open source ancora in
fase di evoluzione, ma che funziona egregiamente. Sfruttando il
Teorema di Bayes, è possibile filtrare e smistare la posta
in varie categorie, istruendo poi in un secondo momento il client
di posta elettronica a trattare le informazioni aggiunte ai messaggi
da POPfile. Un modo veramente efficace e che si raffina con il tempo
per mitigare l'effetto dei messaggi inutili in arrivo, aspettando
che questa massa di posta inutile che circola, che genera costi
non indifferenti, possa venir regolata altrimenti.
Andrea
Invernizzi, 6 novembre 2002
©
2002 Andrea Invernizzi - può essere diffuso e pubblicato
citandone integralmente la fonte.
Scritti pubblicati
|
|