4 septiembre, 2022

CopyLeaks de Israel usa inteligencia artificial para detectar plagio e infracciones de derechos de autor. Y ya tiene clientes como la BBC de Londres y la ONU.

Por Brian Blum

Durante la pandemia de COVID-19 el plagio de contenido explotó en todo el mundo a medida que más personas trabajaban desde sus casas y asistían a clases a través de plataformas como Zoom y sin supervisión directa en persona.

Así, la tentación de “tomar” el trabajo de otra persona creció de forma exponencial al igual que las formas cada vez más sofisticadas de copiar el trabajo de otras personas.

Trucos como reemplazar una letra como “o” con un carácter similar en un alfabeto no latino o usar texto “invisible” resaltado en blanco para burlar los programas actuales de detección de derechos de autor se volvieron más comunes.

De acuerdo con una encuesta realizada a 51.000 estudiantes universitarios y de secundaria por el fabricante de software antiplagio CopyLeaks, el porcentaje medio de plagio antes y después del COVID aumentó del 26 al 45 por ciento en los Países Bajos, del 37 al 49 por ciento en Francia y del 42 al 53 por ciento en la India,

“Nuestra solución no es más de lo mismo donde el software verifica una base de datos en busca de palabras y párrafos copiados sino que el uso de inteligencia artificial (IA) no solo compara palabras con otras sino también ‘significado por significado’, explicó Alon Yamin, director ejecutivo de CopyLeaks.

El producto de esta startup de Israel ya es usado por escuelas y organizaciones de todo el mundo, incluidos Macmillan Publishers, la Universidad de Stanford, la BBC, Medium, la Sociedad Nacional del Espacio, las Naciones Unidas, Cisco y Accenture, así como por estudiantes, blogueros y periodistas.

La enorme lista de clientes de CopyLeaks revela no solo de qué forma se puede usar el software sino también qué generalizado se volvió el problema del plagio.

Las escuelas pueden ser el principal “caso de uso” para las herramientas contra el plagio pero las publicaciones y los editores de libros también pueden usar CopyLeaks para asegurarse de que sus redactores no se hayan apropiado de forma indebida o accidental del trabajo de otra persona (a menudo, los periodistas parafrasearán el texto de otro artículo, suponiendo que hicieron hecho suficientes cambios para hacerlo propio. Así, la publicación podría estar sujeta a acciones legales).

Mal uso del contenido

Las empresas que desarrollan páginas web corporativas son otra fuente de clientes potenciales para empresas como CopyLeaks. Ahí el beneficio es inverso: ¿alguien más ha copiado el trabajo de otro?

Esto último es cómo el cofundador y CTO de CopyLeaks, Yehonatan Bitton, encontró su vocación en el espacio “antiplagio”.

En 2013, Bitton desarrollaba contenido para una página web familiar cuando descubrió que los sitios de la competencia lo estaban copiando.

El robo fue frustrante pero, lo que es peor, estas múltiples fuentes de contenido idéntico estaban haciendo descender las clasificaciones de búsqueda de su propia página, lo que impactaba de forma negativa en las ventas.

De ese modo, Bitton buscó una solución de software para detectar ese mal uso del contenido pero no halló ninguna.

Más tarde le planteó a Yamin, su entonces colega de trabajo y compañero graduado de la unidad de inteligencia de señales 8200 de las Fuerzas de Defensa de Israel, la idea de crear algo que pudiera resolver su problema.

Así fue como Yamin jugó un papel decisivo en el desarrollo de algoritmos impulsados ​​por inteligencia artificial y aprendizaje automático para el ejército israelí. Y fue esa tecnología la que se convirtió en la base de CopyLeaks.

Alon Yamin, director ejecutivo, y Yehonatan Bitton, director de tecnología. Foto cortesía de CopyLeaks

Promoción de la autenticidad

La tecnología de CopyLeaks ya descubrió unos 70 millones de casos de infracción de derechos de autor a partir de 75 millones de páginas escaneadas y 58 millones de documentos comparados.

Es que CopyLeaks usa IA para entender la “voz” de un escritor, y eso va más allá de las palabras, “donde las herramientas automatizadas pueden jugar con el texto, cambiar las palabras y su orden, lo que facilita enmascarar el plagio”, le dijo Yamin a ISRAEL21c.

El ejecutivo añadió que incluso si ni una sola palabra es idéntica, es posible detectar si el significado o la estructura de la oración es muy similar. “Eso no está más allá de la capacidad de los lectores humanos, pero podemos hacerlo de forma automatizada a un volumen muy alto”, remarcó.

Y además, lo hace un número creciente de idiomas (actualmente admite más de 100 lenguas, incluidos el hebreo y el hindi).

En ese sentido, CopyLeaks puede ayudar a las escuelas y publicaciones a prevenir la infracción intencional o accidental de los derechos de autor “pero también es una forma de autenticarse y asegurarse de haber parafraseado lo suficiente, que ha atribuido todas sus citas de forma correcta porque nuestro objetivo es promover la autenticidad”. Dijo Yamin.

Un informe de muestra de CopyLeaks. Imagen cortesía de CopyLeaks

La interfaz muestra comparaciones lado a lado del texto original a la izquierda y el texto marcado a la derecha con enlaces a la fuente de donde se extrajo. Los informes se pueden descargar en formato PDF.

“Un escaneo de CopyLeaks en busca de plagio puede tomar desde unos pocos segundos hasta unos minutos dependiendo de factores como el tamaño del documento o la cantidad de resultados”, dijo Yamin.

Bajo demanda o siempre activo

CopyLeaks se puede usar como una licencia comprada por una escuela, institución o publicación; por escritores individuales que pagan según el número de palabras y páginas revisadas; o integrado en un sistema de gestión de aprendizaje (LMS) existente.

La tecnología funciona con la mayoría de los principales LMS, incluidos Moodle, Blackboard, Canvas, Brightspace y Schoology, que cubren alrededor del 90 por ciento de las instituciones académicas.

El software se puede ejecutar bajo demanda (cargando un archivo y haciendo clic en “escanear”) o se puede de forma constante en segundo plano.

El precio va desde diez dólares (unos 34 shekels) al mes por 1.200 páginas al año o hasta 566 dólares (unos 1860 shekels) por 300.000 palabras al mes, 120.000 páginas al año y 30 millones de palabras.

Los precios para las grandes instituciones son personalizados para satisfacer sus necesidades específicas. También hay una prueba gratuita, donde los usuarios pueden probar la plataforma con un límite de diez páginas al mes.

El software admite 25 tipos de archivos, incluidos los de imagen donde los algoritmos de reconocimiento óptico de caracteres (OCR) detectan cualquier contenido ofensivo. Incluso es posible escanear códigos de computadora que los programadores escriben como parte del desarrollo de aplicaciones.

Los clientes pueden establecer qué tan sensible quieren que sea el software (hay seis niveles diferentes).

“Algunos solo se preocupan por el tipo de plagio ‘copiar/pegar’. Allí, la sensibilidad será muy baja. A otros les interesa detectar lo que pueda ser similar (alta sensibilidad). Se puede jugar con eso y ver qué resultados son relevantes para cada uno”, describió Yamin.

Recientemente, CopyLeaks introdujo una nueva herramienta: calificar ensayos escritos con el uso de IA.

“Probamos un piloto con el Ministerio de Educación de Israel. Estábamos a solo un punto de diferencia de los cien puntos en comparación con los calificadores humanos. El sistema es muy preciso y rápido: podemos hacerlo en solo cinco minutos, y es completamente imparcial”, dijo Yamin.

Un problema mundial

CopyLeaks no es la única herramienta de detección de plagio que mantiene a los escritores en alerta.

Turn It In, adquirido en 2019 por Advance Publications en 1.700 millones, es el pionero del sector pero ha estado ocupado adquiriendo competidores más pequeños, lo que llevó a CopyLeaks a un enfrentamiento tipo David contra Goliat.

Sí, CopyLeaks tiene solo 25 personas en sus dos oficinas de Kiryat Shmona en Israel y Stamford, Connecticut (EEUU) para ventas y marketing).

Yamin señaló que CopyLeaks tiene más de 200.000 usuarios mensuales y otros pocos cientos de clientes B2B (empresa a empresa) como editoriales y escuelas.

¿Qué ocurre con las “fábricas de ensayos” que típicamente se encuentran en los campus universitarios? ¿CopyLeaks los sacará del negocio?

“Si alguien le pagó a un tercero para escribir contenido completamente original, eso será difícil de detectar pero si el mismo estudiante envió un ensayo que escribió de forma independiente, CopyLeaks puede comparar la ‘voz’ para ver si es la misma”, admitió Yamin.

Hasta ahora, CopyLeaks se centra en texto e imágenes pero Yamin dijo que en el futuro se escanearán otros medios, incluidos videos con derechos de autor publicados en sitios para compartir archivos.

¿Hay alguna zona geográfica que sea particularmente más infractora de los derechos de autor? “No, es realmente un problema global. Sucede en todas partes”, reveló el empresario.

Cómo detectar un texto plagiado

Los distintos softwares pueden ser la mejor manera de descubrir un texto plagiado pero el ojo humano aún puede captar algunos de los robos más fieros.

Según CopyLeaks, esto es lo que se debe chequear:

Incoherencia en el estilo de escritura o cambios repentinos en los patrones de esta

Variación del estilo de escritura de una palabra a otra o en diferentes párrafos.

Identificar si el documento no se relaciona con el tema en cuestión

Presencia de referencias o fuentes no recomendadas en clase

Desviaciones y cambios en el tema

Diferentes métodos de citación utilizados

Variación de estilo y tamaño de fuente entre párrafos

Múltiples fuentes mencionadas sin ninguna cita.

Sin citas pero con fuentes citadas ampliadas.

Fuente: ISRAEL21c