Conocer al enemigo
Antes de explicarte a qué nos enfrentamos, vamos a definir un poco algunos de los elementos más importantes de esta batalla. Spam es el término utilizado en la industria para nombrar a los correos electrónicos de publicidad no solicitada, enviados en bloque y de forma indiscriminada. Es decir, el remitente no tiene ninguna razón concreta para enviar esa serie de emails. ¡Nadie quiere ver su bandeja llena de spam!

Pero no todo el correo no deseado es spam. Por ejemplo, tu puede que recibas newsletter u ofertas de productos concretos como respuesta a haberte dado de alta en una web concreta. Puede que no quieras recibir esos boletines pero no están siendo enviados de forma indiscriminada. Al final y al cabo, hubo un momento en el que te registrarte para conseguirlos. A esto lo llamamos el correo gris porque puede que lo quieras o no lo quieras en tu bandeja de entrada. Por tanto no es correo negro ni blanco.

Nuestra meta por tanto, es eliminar todo el spam que podamos. Pero para ello, tenemos que ser capaces de clasificar el email de contenido del spam. Llamamos buenos emails a aquellos que fueron clasificados como spam de forma errónea, creando un falso positivo.

Así que el verdadero desafío es eliminar todo el spam que sea posible, reduciendo el número de falsos positivos a cero. En cierto sentido, estos dos objetivos son contradictorios por lo que es muy difícil llegar a un balance.