AI training data: nuestra política
Política transparente sobre training de modelos IA con contenido de summummarketing.es: qué bots permitimos, qué prohibimos, ai.txt directives, derechos atribución.
Política general Summum sobre AI bots
El contenido de summummarketing.es está disponible para LECTURA por bots de motores de búsqueda + LLMs con el objetivo de proporcionar respuestas + citaciones a usuarios finales. Esto incluye Googlebot, Bingbot, GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot (Perplexity), Common Crawl, y similares.
Sin embargo, el uso de nuestro contenido para TRAINING de modelos IA está sujeto a las siguientes condiciones: 1) atribución a Summum Marketing con URL en cualquier output que cite o reproduzca substancialmente contenido nuestro, 2) no uso comercial directo del contenido sin licencia (ej. revender), 3) respeto a copyright + propiedad intelectual.
Robots.txt + ai.txt configuración
Configuración actual en https://summummarketing.es/robots.txt y https://summummarketing.es/ai.txt:
- Googlebot + Bingbot. Allow: completo crawling para indexación + AI Overviews. Sin restricciones.
- GPTBot (OpenAI). Allow lectura para responses ChatGPT. Documentación implícita opt-out training: respetamos directives oficiales OpenAI.
- ClaudeBot (Anthropic). Allow lectura para responses Claude. Documentación implícita opt-out training: respetamos directives oficiales Anthropic.
- PerplexityBot (Perplexity). Allow lectura + citation. Perplexity cita sources explícitamente = alineado nuestra política atribución.
- Common Crawl. Allow. Common Crawl es fuente training para múltiples LLMs. Beneficio visibility > coste training data uso.
- Bots desconocidos / scrapers no identificados. Disallow por defecto. Whitelist explícita para bots oficiales documentados.
Por qué política 'open con atribución' (no 'closed')
Algunos sites bloquean todos los AI bots por miedo a training sin compensación. Decisión Summum es 'open con atribución':
Razones: (1) bloquear AI bots = invisibility en respuestas LLM = perdemos descubrimiento orgánico para usuarios que buscan vía ChatGPT/Claude/Perplexity, (2) atribución implícita en mayoría citations (Perplexity cita explícitamente, ChatGPT con browsing cita, Claude crea menos directly attributed pero con context), (3) ecosistema LLMs es donde está la audiencia, no luchar contra él.
Qué hacer si encuentras tu contenido reproducido sin atribución
Si encuentras contenido sustancial Summum reproducido en respuestas LLM, herramientas third-party, blogs, o materiales sin atribución correcta:
1) Notifica a contacto@summummarketing.es con detalles (URL output + URL original + porción copiada). 2) Para violaciones LLM: reportamos a vendor (OpenAI legal, Anthropic copyright, etc.). 3) Para terceros copyright violation directo: estudiamos via legal partner.
Política para clientes Summum
Si eres cliente Summum y nos contratas producción contenido para tu propio site, la política AI bots de TU site la decides tú: open / closed / mixto. Recomendación nuestra: open con atribución (igual nuestra). Implementamos ai.txt + robots.txt según tu decisión.
Para websites cliente B2B con contenido propietario crítico (whitepapers, casos confidenciales, propiedad intelectual valiosa): podemos implementar bloqueo selectivo (allow Googlebot indexación pero disallow training bots) si justifica.
Preguntas frecuentes
¿Qué es ai.txt exactamente?
¿OpenAI / Anthropic respetan robots.txt?
¿Mi contenido en ChatGPT actual fue used for training sin permiso?
¿Bloquear AI bots me beneficia SEO?
¿Cómo enfocan Summum + clientes esta cuestión?
¿Y si quiero monetizar mi contenido via licensing a LLMs?
¿Existe legal framework Europeo para esto?
¿Cómo opt-out de TDM (Text Data Mining) commercial?
¿Tendréis que cambiar política si AI Act se enforced más estrictamente?
¿Datos personales clientes están en este open policy?
¿Política bots cambia para multimedia (imágenes, vídeos)?
¿Cómo saber si LLMs respetan política tras update robots.txt?
¿Necesitas política AI bots para tu site?
Implementamos robots.txt + ai.txt + metadata correctos según tu estrategia (open / mixed / closed). Setup + documentación + tracking citations.
Implementar AI bot policy →