mayo 5, 2026

Scraping, datos públicos y límites legales. Cuándo recopilar datos de terceros se convierte en un problema

Hay una confusión extendida y peligrosa que está detrás de buena parte de los conflictos que estamos viendo en la práctica entre empresas que recopilan información de sitios de terceros y quienes consideran que esa extracción afecta sus derechos, y es la idea de que un dato publicado en internet puede usarse libremente.

El scraping —es decir, la extracción automatizada de datos desde páginas web— se volvió una herramienta habitual en el ecosistema digital. Se utiliza para alimentar modelos de inteligencia artificial, comparar precios, monitorear competidores, nutrir bases de datos comerciales o construir productos que agregan información dispersa. La técnica en sí no es nueva, pero su escala y sus aplicaciones actuales la colocan en el centro de una discusión jurídica que todavía no terminó de resolverse.

Lo que viene ocurriendo es que muchas empresas adoptan el scraping como parte de su operatoria sin detenerse a analizar las implicancias legales. Parten de una lógica intuitiva: si la información está disponible públicamente, entonces puede recopilarse. Sin embargo, esa premisa no resiste un análisis jurídico serio. La visibilidad de un dato no equivale a su libre disponibilidad. Hay capas de protección —contractuales, regulatorias y de propiedad intelectual— que pueden operar incluso sobre datos aparentemente accesibles.

Dato público no significa dato libre

En el derecho argentino, la diferenciación entre un dato que está publicado y un dato que puede usarse sin restricciones tiene un fundamento normativo concreto que muchas veces se desconoce o se subestima. La Ley 25.326 de Protección de Datos Personales establece que el tratamiento de datos personales requiere, como regla general, el consentimiento del titular. Que una persona haya publicado cierta información en una red social o en un sitio web no implica que haya autorizado su recopilación masiva, su almacenamiento en bases de datos de terceros o su uso con fines comerciales.

Existe una excepción para los datos que constan en fuentes de acceso público irrestricto, como registros públicos, boletines oficiales o medios de comunicación. Pero esa excepción tiene límites. No abarca cualquier información visible en internet, ni habilita cualquier tipo de tratamiento. El hecho de que un dato esté indexado en un buscador o publicado en un perfil profesional no lo convierte automáticamente en un dato de fuente pública irrestricta en los términos de la ley.

Desde la perspectiva del derecho europeo, el RGPD también exige una base legal para el tratamiento de datos personales, incluso cuando éstos fueron publicados por el propio titular. La tendencia global apunta en la misma dirección: la publicidad de un dato no elimina la necesidad de justificar su tratamiento.

Los términos de uso como barrera contractual

Más allá de la dimensión regulatoria vinculada a datos personales, existe un plano de análisis que muchas veces se pasa por alto y que en la práctica resulta igual de relevante. La gran mayoría de los sitios web establecen en sus términos de uso prohibiciones expresas de scraping, crawling o extracción automatizada de contenido, y al acceder al sitio, el usuario acepta —de forma explícita o implícita— esas condiciones.

Cuando una empresa realiza scraping sobre un sitio que prohíbe esa práctica en sus términos, se expone a un reclamo por incumplimiento contractual. Y aunque la exigibilidad de los términos de tipo browsewrap —aquellos que se aceptan por el mero uso del sitio— puede ser discutida, la realidad es que muchas plataformas refuerzan estas restricciones con medidas técnicas (como CAPTCHAs, límites de acceso o bloqueos de IP) que actúan como una señal adicional de que la extracción no está autorizada.

En la jurisprudencia estadounidense, el caso hiQ Labs v. LinkedIn fue durante años una referencia central para quienes defendían la legalidad del scraping sobre datos públicos. Sin embargo, ese caso tuvo idas y vueltas, y no estableció un principio general aplicable a todas las situaciones. Lo que sí dejó claro es que el análisis debe hacerse caso por caso, considerando la naturaleza de los datos, las medidas técnicas adoptadas por el sitio y la existencia de restricciones contractuales.

Propiedad intelectual sobre las bases de datos

Aunque los datos individuales no sean protegibles por derecho de autor, la selección, disposición y organización de esos datos en una base de datos puede constituir una creación intelectual protegida, y este ángulo no siempre se tiene en cuenta al momento de evaluar la viabilidad legal de una operación de scraping.

En Argentina, la Ley 11.723 de Propiedad Intelectual protege las compilaciones de datos cuando su selección u organización reviste originalidad. En la Unión Europea, la Directiva 96/9/CE va más allá y reconoce un derecho sui generis sobre bases de datos que impliquen una inversión sustancial en la obtención, verificación o presentación de su contenido, independientemente de la originalidad.

Esto significa que, incluso si los datos individuales son públicos y no contienen información personal, extraer porciones sustanciales de una base de datos organizada por un tercero puede generar responsabilidad. No por el dato en sí, sino por la inversión que ese tercero realizó para compilarlo, depurarlo y estructurarlo.

El scraping en el contexto de la inteligencia artificial

Este debate cobró una dimensión completamente nueva con el auge de los modelos de inteligencia artificial generativa. Empresas de todo el mundo están utilizando técnicas de scraping masivo para alimentar sus modelos de lenguaje y otros sistemas de aprendizaje automático. La escala es inédita: se trata de recopilar cantidades enormes de texto, imágenes, código y otros contenidos disponibles en la web para entrenar algoritmos que luego generan contenido nuevo.

Las demandas judiciales en curso en Estados Unidos y Europa contra desarrolladores de modelos de IA están poniendo a prueba los límites de esta práctica. Los reclamos incluyen violaciones de derechos de autor por el uso no autorizado de obras protegidas como material de entrenamiento, infracciones a términos de servicio de plataformas cuyos contenidos fueron scrapeados, y cuestionamientos sobre la base legal para el tratamiento masivo de datos personales contenidos en la información recopilada.

Para las empresas que desarrollan o utilizan herramientas de IA en Argentina, este escenario es particularmente relevante. Si el modelo fue entrenado con datos obtenidos mediante scraping, la pregunta que inevitablemente surgirá es: ¿de dónde salieron esos datos? ¿Bajo qué autorización fueron recopilados? ¿Se evaluaron las implicancias en materia de protección de datos personales y propiedad intelectual?

Competencia desleal y apropiación del esfuerzo ajeno

Cuando una empresa extrae sistemáticamente el contenido o los datos recopilados por un competidor para replicar su propuesta de valor, esa conducta puede ser analizada también desde las normas de lealtad comercial, una dimensión que suele quedar fuera del radar inicial. No se trata necesariamente de que el dato sea secreto o esté protegido por un derecho específico, sino de que la forma en que se obtiene y se utiliza resulta contraria a las prácticas comerciales leales.

En Argentina, la Ley 27.442 de Defensa de la Competencia y las normas sobre competencia desleal del Código Civil y Comercial pueden aplicarse a estas situaciones. Si una empresa invierte recursos significativos en generar, curar y organizar información, y un tercero simplemente la extrae automáticamente para ofrecer un servicio equivalente, hay un argumento sólido de apropiación indebida del esfuerzo ajeno.

El archivo robots.txt y el protocolo de exclusión

En la práctica, muchos sitios web utilizan un archivo denominado robots.txt para indicar a los sistemas automatizados qué secciones del sitio pueden ser rastreadas y cuáles no, un estándar técnico que, aunque no es de cumplimiento obligatorio en sentido estricto —un bot puede ignorarlo—, constituye una manifestación clara de la voluntad del titular del sitio y tiene una proyección jurídica que no debería subestimarse.

Desde el punto de vista jurídico, ignorar las restricciones establecidas en un robots.txt puede ser interpretado como un indicio de mala fe. No respetar esa señal, especialmente cuando se combina con términos de uso que prohíben el scraping, fortalece la posición del titular del sitio en un eventual reclamo. Con el debate sobre la IA generativa, el robots.txt pasó a tener una relevancia aún mayor, ya que muchas plataformas comenzaron a actualizar estas directivas específicamente para restringir el acceso de bots de entrenamiento de modelos de IA.

Recomendaciones prácticas para empresas que utilizan scraping

Desde nuestra experiencia en Estudio Lexar, vemos que el error más frecuente es tratar el scraping como una cuestión puramente técnica, cuando en realidad tiene implicancias legales en múltiples dimensiones. Para las empresas que utilizan o planean utilizar técnicas de extracción automatizada de datos, resulta fundamental considerar los siguientes puntos.

Evaluar la naturaleza de los datos antes de recopilarlos. No es lo mismo extraer precios publicados en un marketplace que recopilar perfiles con datos personales de una red social. El tipo de dato determina el marco legal aplicable y los riesgos involucrados.
Revisar los términos de uso del sitio fuente. Si el sitio prohíbe expresamente el scraping, proceder de todos modos implica asumir un riesgo contractual concreto. Lo mismo aplica si el sitio implementa medidas técnicas de bloqueo que deben ser eludidas para acceder al contenido.
Respetar el archivo robots.txt. Ignorar las directivas de exclusión puede ser utilizado como evidencia de mala fe en un proceso judicial o administrativo.
Considerar las implicancias en materia de propiedad intelectual. Si se está extrayendo una porción sustancial de una base de datos organizada por un tercero, podría configurarse una infracción a los derechos del compilador.
Documentar el proceso y las decisiones adoptadas. En caso de un reclamo, poder demostrar que se realizó un análisis previo, que se respetaron las restricciones técnicas y que se adoptó un criterio razonable es un elemento relevante para la defensa.
Integrar al equipo legal desde el diseño del producto. Si el modelo de negocio depende del scraping como fuente de datos, esa dependencia debe ser analizada jurídicamente antes de consolidarse. Descubrir el problema cuando ya hay un reclamo en curso limita significativamente las opciones.

Un terreno en movimiento

La regulación del scraping está lejos de ser un tema cerrado. A nivel global, conviven decisiones judiciales contradictorias, legislaciones que todavía no abordan el tema de forma específica y un debate académico intenso sobre dónde trazar la línea entre el acceso legítimo a información pública y la extracción abusiva de datos ajenos.

En Argentina, si bien no existe una norma que regule el scraping de manera directa, el marco jurídico vigente ofrece herramientas suficientes para analizar cada situación: la Ley de Protección de Datos Personales, la Ley de Propiedad Intelectual, las normas de competencia desleal, el principio de buena fe contractual y el deber de prevención del daño previsto en el Código Civil y Comercial. Lo que falta, en muchos casos, es que las empresas hagan ese análisis antes de actuar.

El scraping no es ilegal per se. Pero tampoco es una práctica libre de riesgos por el solo hecho de que los datos estén visibles en la web. Entender esa distinción es el primer paso para operar de forma razonable en un terreno que, por ahora, sigue en construcción.

Desde Estudio Lexar acompañamos a empresas de tecnología, startups y proyectos digitales en el análisis de riesgos legales vinculados a la recopilación y uso de datos de terceros. Asesoramos en el diseño de políticas de compliance, la revisión de términos de uso y la estructuración de operaciones que involucren scraping, inteligencia artificial o tratamiento masivo de información.

Preguntas frecuentes sobre scraping y datos públicos

¿El scraping es ilegal en Argentina?

No existe en Argentina una prohibición general del scraping. Sin embargo, la legalidad de cada caso depende de múltiples factores: el tipo de datos recopilados, la existencia de restricciones contractuales en el sitio fuente, las medidas técnicas que se eludan para acceder al contenido y la finalidad del tratamiento. Que no haya una norma específica que lo prohíba no significa que no haya normas aplicables.

¿Si los datos están en una web pública, puedo usarlos libremente?

No necesariamente. La visibilidad de un dato en internet no equivale a una autorización para recopilarlo, almacenarlo o utilizarlo con fines comerciales. Si se trata de datos personales, aplica la Ley 25.326 y sus requisitos de consentimiento. Si los datos forman parte de una base organizada, puede haber protección bajo la Ley de Propiedad Intelectual. Y si el sitio prohíbe el scraping en sus términos, hay un riesgo contractual adicional.

¿Qué pasa si uso datos scrapeados para entrenar un modelo de IA?

Este es uno de los puntos más debatidos actualmente a nivel global. El uso de datos obtenidos mediante scraping para entrenar modelos de inteligencia artificial puede involucrar cuestiones de derecho de autor, protección de datos personales y términos de servicio de las plataformas fuente. Varias demandas en curso en Estados Unidos y Europa están poniendo a prueba estos límites. Para empresas que operan en Argentina, es fundamental evaluar la procedencia de los datos de entrenamiento y documentar las decisiones adoptadas.

¿Cómo puedo reducir los riesgos legales si mi producto depende del scraping?

Las empresas pueden gestionar estos riesgos evaluando la naturaleza de los datos antes de recopilarlos, respetando las restricciones técnicas y contractuales de los sitios fuente, documentando el proceso de recopilación e integrando al equipo legal en el diseño del producto desde las etapas tempranas. Cuanto más central sea el scraping para el modelo de negocio, más importante es contar con un análisis jurídico previo.

Por: Dr. Andrés San Juan.

Estudio Lexar