Redacción Excélsior. Las Universidades de Michigan (Estados Unidos) y Ámsterdam (Países Bajos) han colaborado en la
creación de un algoritmo que identifica de forma automática contenido falso en Internet, a través
de la construcción de bases de datos que comparan las diferencias lingüísticas existentes
entre noticias falsas ('fake news') y verdaderas, con una precisión comparable a la de una
persona.
El presente trabajo, al contrario que otros anteriores, no se centra en el uso de noticias satíricas ni
de noticias que han sido comprobadas por organizaciones especializadas. Por el contrario, como
explican sus responsables en el texto de la investigación, publicado en ArXiv, han empleado
noticias falsas y verdaderas para, mediante un sistema de procesamiento de lenguaje natural (NLP
System, en inglés) desarrollar un algoritmo que las pueda diferencias.
Los investigadores han establecido ciertos aspectos necesarios para separar contenido verdadero
y falso dentro de noticias, entre los que destacan tener disponibles ejemplos tanto veraces como
engañosos para comparar, que las noticias estén en formato de texto digital, recoger contenido
que tenga una base de verdad verificable, que los textos a comparar mantengan una extensión y
estructura similares o considerar los factores lingüísticos y culturales, ya que pueden modificar el
contenido de una publicación.
Después de marcar estos parámetros de identificación, los investigadores han creado dos bases de
datos donde recoger las noticias que sirven para configurar el algoritmo. La primera de estas
contiene noticias verdaderas de seis temáticas (deportes, negocios, entretenimiento, política,
tecnología y educación) procedentes de medios de comunicación legítimos, como CNN, New York
Times, entre otros, que los investigadores comprobaron de forma manual. También contiene
noticias falsas procedentes la comunidad de Amazon Mechanical Turk (AMT).
Las noticias falsas se crearon a partir de las noticias verdaderas ya presentes en la base de datos.
Los participantes de AMT retocaron ciertos aspectos de esas noticias, pero manteniendo la
estructura y la mayoría de los rasgos con el objetivo de que permaneciera al máximo el estilo
periodístico para facilitar las comparaciones.
Una vez creada la primera base, se creó la segunda base de datos, integrada exclusivamente por
contenido extraído directamente de la web. El objetivo de esta era encontrar 'fake news' que se
habían generado directamente en Internet. El contenido proviene en gran medida de cuentas de
compañías y personalidades famosas. También se trabajó con dos pares de noticias: con el titular
falso y el legítimo.
Los investigadores realizaron, además, una comparación de eficacia entre la habilidad de las
personas para identificar estas noticias falsas y las del algoritmo. Concluyen así que los humanos
identifican con mayor facilidad las noticias falsas relacionadas con personas famosas, mientras que
el algoritmo detecta con una mayor precisión las noticias falsas relacionadas con temas serios.