.:echi dalla rete
.:astronomia
.:calcolo --distribuito
.:energie --alternative
.:fotografia
.:informatica

Fiume di posta elettronica inutile - prevenzione e difesa
un Reverendo Inglese del 18° secolo in soccorso

Un indirizzo di posta elettronica, soprattutto se di pubblico dominio e malgrado tutte le precauzioni, prima o poi finirà essere bersaglio di messaggi non richiesti: in gergo si parla di spam. Questa parola, marchio registrato della Hormel Foods Corporation, utilizzata nel contesto di Internet designa dei messaggi commerciali di posta elettronica non sollecitati. A scanso di equivoci e in un'accezione più ampia, sarebbe più proprio parlare di junk mail, definendo il fenomeno come messaggi di posta elettronica non desiderati, indipendentemente dalla loro natura e dalla loro motivazione. Promesse di guadagni facili, pillole miracolose, finanziamenti della casa a tassi da sogno, miscugli mirabolanti che modificheranno radicalmente la nostra vita sessuale, immagini pornografiche, dati di accesso verso siti a luci rosse e altre simili offerte fanno parte della realtà indesiderata e quotidiana delle nostre caselle postali. Esistono reali possibilità di difesa dal fenomeno, oppure dobbiamo rassegnarci a subire passivamente questa situazione?

Alcuni consigli per evitare di finire nell'ingranaggio
Il sistema di difesa più efficace, e anche quello più banale, consiste nell'evitare che il proprio recapito elettronico finisca negli indirizzari pronti da essere bombardati. Comunicare il proprio email con parsimonia, chiedendo ai propri corrispondenti di tenerlo unicamente per loro. Prima o poi a qualcuno scapperà, magari a seguito di un'infezione virale. Rasentando la paranoia, si potrebbe richiedere di utilizzare il campo bcc (il messaggio arriva, ma senza mantenere nessuna traccia dei dati del destinatario) negli scambi.
Altre precauzioni: non pubblicarlo sul proprio sito Internet, non utilizzarlo nei posting presso USENET, non inserirlo nei programmi, non fornirlo a siti web (con il pretesto che magari vi invieranno per posta dati di accesso), utilizzarlo in gruppi di discussione "fidati" (meglio sarebbe averne uno dedicato allo scopo). In questi due ultimi casi, fornirlo unicamente se vi vengono offerte serie garanzie a tutela della vostra privacy.
Utilizzare strategie di mascheramento del proprio indirizzo sullo stile "pieroNOSPAM@provider.com - rimuovi NOSPAM per scrivermi" sono espedienti che potrebbero facilmente venir aggirati, anche da semplici sistemi di ricerca di nuovi recapiti poco evoluti, che in ogni caso hanno una durata limitata. Qualora esista la necessità di rendere pubblico il proprio email su un sito Internet, una possibilità facilmente percorribile e efficace è quella di creare un'immagine con il proprio recapito: sarà facilmente leggibile e utilizzabile da un umano, non facilmente decifrabile da sistemi automatici.

E se dovessero iniziare ad arrivare junk mails? La tentazione di rispondere, magari su invito del messaggio che indica la via per disiscriversi dalla fantomatica lista alla quale si risulta iscritti, può essere grande. Ma è assolutamente da evitare. Per due ragioni: la prima riguarda il destinatario della protesta: con ogni probabilità non sarà la persona che ha spedito il messaggio. E anche un'attenta analisi del percorso fatto dal messaggio per verificarne l'effettiva provenienza, potrebbe dare scarsi risultati: ipotizzando che il provider di partenza sia effettivamente quello identificato, lo stesso non è che prenderà a cuore il reclamo: con ogni probabilità lo ignorerà, impegnato in altre attività per lui più importanti.
Il secondo motivo per il quale la risposta o una protesta non sono efficaci, ma potrebbero addirittura sortire effetti contrari a quello auspicato, riguarda la natura e l'attività stessa dei messaggi e dei mittenti. Spesso infatti indirizzi email reali presso i quali la posta viene attentamente letta, sono molto preziosi e sono venduti a chi fa questo tipo di "pubblicità". Con la richiesta di disiscrizione o con il reclamo si farebbe nient'altro che confermare l'esistenza del recapito, attentamente letto e vagliato, e aumentarne il suo valore: ed ecco che la valanga s'infoltisce.

Come muoversi se il proprio indirizzo deve necessariamente essere pubblicato (ad esempio quale contatto commerciale) oppure se il proprio recapito è ormai irrimediabilmente "perso" e bombardato?

I programmi che filtrano la posta
Esistono dei programmi che setacciano la corrispondenza prima che arrivi nel nostro programma di posta elettronica preferito. Personalmente ne ho utilizzato uno fino a qualche tempo fa, basato sulla ricerca di determinate parole chiave: soggetti dei messaggi, parole del corpo del testo, mittenti conosciuti come "untori". Questo sistema presenta però due grandi svantaggi: quello di una costante necessità di aggiornare i filtri (ad esempio "viagra" può essere scritto "v i a g r a" oppure "v.i.a.g.r.a", ingannando di fatto il sistema) e quello di generare facilmente dei falsi positivi (messaggi effettivamente e legittimamente recapitati, ma considerati come non desiderati - ad esempio un amico estasiato per una novità che invia un messaggio con una serie di punti esclamativi potrebbe facilmente essere interpretato come spazzatura). Per ovviare parzialmente a questi inconvenienti, sono nati progetti come "Cloudmark SpamNet", una sorta di rete peer-to-peer sullo stile di quelle utilizzate per lo scambio di musica o files in generale, nella quale tutti gli utenti condividono in tempo reale i dati relativi ai messaggi non desiderati. Queste informazioni permettono di smistare la posta in arrivo secondo questi dati. Il limite attuale di questo sistema è che si appoggia unicamente su un paio di programmi di posta e che non offre un sistema personalizzato e individuale per filtrare i messaggi.

Le acque si sono smosse a seguito di un articolo dello scorso agosto. Paul Graham ha pubblicato un interessante scritto dal titolo "A Plan for Spam" dove descrive un approccio innovativo nell'affrontare il problema, pubblicando teoria e algoritmi di funzionamento, grazie al quale si stanno sviluppando differenti programmi che si servono di questa sua intuizione. Questi programmi implementano un filtro adattativo (si affina maggiormente con il suo utilizzo) basato sul Teorema di Bayes, un Reverendo vissuto nel 18° secolo in Inghilterra. Praticamente ogni messaggio in arrivo viene scomposto nelle sue parole e le stesse vengono paragonate, calcolandone la probabilità statistica, all'insieme delle parole che compongono messaggi ritenuti indesiderati da quelli ritenuti legittimi. Ogni nuovo messaggio che arriva arricchisce così la base di dati sui quali fondare la selezione; esso viene marcato come legittimo o meno in base alla probabilità che la maggioranza delle parole analizzate siano statisticamente piuttosto appartenenti a un insieme piuttosto che a un altro, per poi così essere trattato convenientemente dal programma di posta elettronica.
Il sistema impara a poco a poco come discriminare la posta: alcuni applicativi offrono modalità di apprendimento basate su corpus di messaggi già classificati (ad esempio la propria casella di posta locale contenente messaggi legittimi), altri imparano man mano, sulla scorta delle indicazioni dell'utente.In questo secondo caso, già dopo un centinaio di messaggi, il sistema risulta particolarmente affidabile. Personalmente, dopo 300 messaggi filtrati, ho un tasso di falsi positivi veramente esiguo, non paragonabile al sistema precedente basato su parole chiave.

Il Reverendo Thomas Bayes, sicuramente aveva tempo e certamente lo smistare posta elettronica in appropriate categorie nemmeno lo sfiorava lontanamente. Tre anni dopo la sua morte avvenuta nel 1761 la "Philosophical Transactions of the Royal Society of London" ha pubblicato lo scritto Essay towards solving a problem in the doctrine of chances[PDF], che sarebbe poi diventato noto come le Statistiche Bayesiane. I sistemi di filtraggio di cui sopra si basano su una di queste teorie, che algebricamente può essere così raffigurata:

P(A|B) = P(A) * P(B|A) / P(B)

La probabilità che A accada una volta B manifestato (P(A|B)) è la probabilità che A accada (P(A)) per la probabilità che B accade se A è accaduto (P(B|A)) diviso la probabilità che B accada (P(B)).

Sul sito di Paul Graham si trovano differenti links verso progetti che concretizzano questa teoria. Personalmente utilizzo il programma POPfile, multipiattaforma. Si tratta di un progetto open source ancora in fase di evoluzione, ma che funziona egregiamente. Sfruttando il Teorema di Bayes, è possibile filtrare e smistare la posta in varie categorie, istruendo poi in un secondo momento il client di posta elettronica a trattare le informazioni aggiunte ai messaggi da POPfile. Un modo veramente efficace e che si raffina con il tempo per mitigare l'effetto dei messaggi inutili in arrivo, aspettando che questa massa di posta inutile che circola, che genera costi non indifferenti, possa venir regolata altrimenti.

Andrea Invernizzi, 6 novembre 2002

 

© 2002 Andrea Invernizzi - può essere diffuso e pubblicato citandone integralmente la fonte.


Scritti pubblicati

 

  Oggi è il 9.5.2008.
Attualmente state visitando il sito in 3 persone.
 
 

Quanto è alto il lago a Locarno?
Aggiornata la sezione meteo: aggiunto un sito di cartine tematiche e uno riguardante l'idrologia elvetica.

 
  Lotta allo Spam
Come difendersi dalla posta elettronica indesiderata. Un Reverendo del 18° secolo in soccorso. Pubblicato nella sezione echi dalla rete.

 

     
 
 
 
::HOME ::CONTATTO ::INTERESSI ::LINKS ::INFORMAZIONI
  ©1995-2007 Andrea Invernizzi