Mensaje: La IA generativa viola los derechos de autor de los editores de noticiero

Las empresas de inteligencia sintético (por ejemplo, Google, OpenAI) utilizan principalmente contenido de entrada calidad creado por editores de noticiero para entrenar sistemas de inteligencia sintético generativos, que luego compiten directamente con estos editores.

Ese es el argumento central presentado en un nuevo noticia de News Media Alliance (NMA), una asociación comercial de 2.200 editores en Estados Unidos y Canadá.

Por qué nos importa. Desde la presentación de Bing Chat, Google Bard y Search Generative Experience de Google, los editores de todos los tamaños están preocupados por que la búsqueda sea reemplazada por IA generativa, lo que podría tener un impacto devastador en el tráfico orgánico, los ingresos e incluso la imagen de la marca (por ejemplo). , a través de alucinaciones). , como Bing Chat sobre el respaldo del New York Times a Donald Trump como candidato republicano a la presidencia en 2024).

Excavar más hondo: La nueva frontera del contenido visual: guía de marketing para la IA

Lo que pasa. La NMA comparó conjuntos de datos públicos utilizados para entrenar modelos de jerigonza conspicuo (LLM) populares, que impulsan chatbots de IA como ChatGPT, con un conjunto de datos de código rajado de contenido web genérico. Según el noticia, los conjuntos de datos seleccionados utilizaron contenido de noticiero hasta 100 veces más que el conjunto de datos genérico. Todavía se descubrió que los LLM copiaban el jerigonza exacto de los artículos de noticiero. Esto respalda la posición de larga data de la NMA de que Google y otras empresas de tecnología utilizan el trabajo de las organizaciones de noticiero sin avalar por ello.

«Verdaderamente actúa como una sustitución de nuestro trabajo en sí», dijo Danielle Coffey, presidenta y directora ejecutiva de News Media Alliance. New York Times. “Puedes ver que nuestros artículos simplemente son recogidos y regurgitados palabra por palabra. »

Respuesta al noticia. Google y OpenAI se negaron a comentar sobre el noticia. Pero sabemos que Google cree Todo el contenido en línea debe estar disponible para la capacitación en IA. a menos que los editores opten por no participar.

Un cierto control para los editores de prensa. Las empresas de inteligencia sintético seguirán teniendo formas de aceptar al contenido con fines de capacitación (por ejemplo, mediante licencias o rastreo), a menos que haya bloqueado completamente bots como GoogleBot o CCbot (Common Crawl).

Y a posteriori. EL relación (PDF) fue enviado con comentario (PDF) para el Estudio de inteligencia artificial de la Oficina de derechos de autor de EE. UU.. Mientras tanto, la NMA dilación cerrar, en nombre de sus miembros, un acuerdo de atrevimiento con las empresas tecnológicas pertinentes.

¡Consigue MarTech! Todos los días. Injustificado. En tu bandeja de entrada.

Entradas relacionadas

Deja tu comentario