Contenido creado por María Noel Dominguez
Tecnología

Sic

Las IA pueden reproducir novelas casi textuales, según estudios

: Investigaciones revelan que los modelos de lenguaje memorizan más datos de entrenamiento de lo que la industria admite.

24.02.2026 07:31

Lectura: 2'

2026-02-24T07:31:00-03:00
Compartir en

Los principales modelos de inteligencia artificial del mercado pueden generar copias casi textuales de novelas populares cuando son inducidos estratégicamente, según investigaciones recientes citadas por el Financial Times. El hallazgo reabre el debate sobre si los sistemas almacenan, en la práctica, obras protegidas por derechos de autor.

Estudios académicos señalan que modelos desarrollados por OpenAI, Google, Meta, Anthropic y xAI pueden reproducir miles de palabras de libros conocidos bajo ciertas condiciones.

Investigadores de Stanford y Yale lograron extraer fragmentos extensos de títulos como Harry Potter y la piedra filosofal, Juego de Tronos o El Hobbit, solicitando a los modelos completar frases específicas. En algunos casos, la coincidencia con el texto original superó el 70 %.

El núcleo del debate legal

La industria de la IA ha sostenido que sus modelos no almacenan copias de datos de entrenamiento, sino que “aprenden patrones” y producen resultados transformadores. En 2023, Google afirmó ante la Oficina de Derechos de Autor de Estados Unidos que no existe copia alguna de los datos originales dentro de los modelos.

Sin embargo, los nuevos estudios podrían debilitar esa defensa en los tribunales. Expertos en propiedad intelectual advierten que la capacidad de reproducir textos casi íntegros podría constituir evidencia de memorización, con potencial responsabilidad por infracción.

El debate no es abstracto: el año pasado, un tribunal estadounidense consideró que cierto entrenamiento podía calificarse como “uso justo” por su carácter transformador, pero también determinó que almacenar obras pirateadas era inherentemente infractor, lo que llevó a un acuerdo millonario.

En Alemania, una sentencia estableció que OpenAI infringió derechos de autor al memorizar letras de canciones en un caso impulsado por la entidad de gestión GEMA.

¿Por qué memorizan los modelos?

Los investigadores aún no comprenden completamente por qué los modelos memorizan segmentos extensos ni qué proporción de sus datos de entrenamiento podría reflejarse en las respuestas generadas.

Algunos expertos sugieren que la memorización podría estar relacionada con textos muy repetidos o ampliamente difundidos en los conjuntos de datos. Otros plantean que las medidas de seguridad —como bloqueos que impiden reproducir contenido protegido— evidencian que las empresas son conscientes del riesgo.