Política bots + opt-out

AI training data: nuestra política

Política transparente sobre training de modelos IA con contenido de summummarketing.es: qué bots permitimos, qué prohibimos, ai.txt directives, derechos atribución.

Permitido
Lectura para citation
GPTBot, ClaudeBot, PerplexityBot leen para citar.
Limitado
Training data
Opt-out parcial via robots + ai.txt.
Required
Atribución
Mencionar 'Summum Marketing' + URL en cita.
Pública
Política
Esta página + ai.txt en raíz dominio.

Política general Summum sobre AI bots

El contenido de summummarketing.es está disponible para LECTURA por bots de motores de búsqueda + LLMs con el objetivo de proporcionar respuestas + citaciones a usuarios finales. Esto incluye Googlebot, Bingbot, GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot (Perplexity), Common Crawl, y similares.

Sin embargo, el uso de nuestro contenido para TRAINING de modelos IA está sujeto a las siguientes condiciones: 1) atribución a Summum Marketing con URL en cualquier output que cite o reproduzca substancialmente contenido nuestro, 2) no uso comercial directo del contenido sin licencia (ej. revender), 3) respeto a copyright + propiedad intelectual.

Robots.txt + ai.txt configuración

Configuración actual en https://summummarketing.es/robots.txt y https://summummarketing.es/ai.txt:

  • Googlebot + Bingbot. Allow: completo crawling para indexación + AI Overviews. Sin restricciones.
  • GPTBot (OpenAI). Allow lectura para responses ChatGPT. Documentación implícita opt-out training: respetamos directives oficiales OpenAI.
  • ClaudeBot (Anthropic). Allow lectura para responses Claude. Documentación implícita opt-out training: respetamos directives oficiales Anthropic.
  • PerplexityBot (Perplexity). Allow lectura + citation. Perplexity cita sources explícitamente = alineado nuestra política atribución.
  • Common Crawl. Allow. Common Crawl es fuente training para múltiples LLMs. Beneficio visibility > coste training data uso.
  • Bots desconocidos / scrapers no identificados. Disallow por defecto. Whitelist explícita para bots oficiales documentados.

Por qué política 'open con atribución' (no 'closed')

Algunos sites bloquean todos los AI bots por miedo a training sin compensación. Decisión Summum es 'open con atribución':

Razones: (1) bloquear AI bots = invisibility en respuestas LLM = perdemos descubrimiento orgánico para usuarios que buscan vía ChatGPT/Claude/Perplexity, (2) atribución implícita en mayoría citations (Perplexity cita explícitamente, ChatGPT con browsing cita, Claude crea menos directly attributed pero con context), (3) ecosistema LLMs es donde está la audiencia, no luchar contra él.

Qué hacer si encuentras tu contenido reproducido sin atribución

Si encuentras contenido sustancial Summum reproducido en respuestas LLM, herramientas third-party, blogs, o materiales sin atribución correcta:

1) Notifica a contacto@summummarketing.es con detalles (URL output + URL original + porción copiada). 2) Para violaciones LLM: reportamos a vendor (OpenAI legal, Anthropic copyright, etc.). 3) Para terceros copyright violation directo: estudiamos via legal partner.

Política para clientes Summum

Si eres cliente Summum y nos contratas producción contenido para tu propio site, la política AI bots de TU site la decides tú: open / closed / mixto. Recomendación nuestra: open con atribución (igual nuestra). Implementamos ai.txt + robots.txt según tu decisión.

Para websites cliente B2B con contenido propietario crítico (whitepapers, casos confidenciales, propiedad intelectual valiosa): podemos implementar bloqueo selectivo (allow Googlebot indexación pero disallow training bots) si justifica.

Preguntas frecuentes

¿Qué es ai.txt exactamente?
ai.txt es propuesta estándar emergente (similar robots.txt) para directives específicas a AI bots sobre training. Aún no estándar W3C oficial; algunos vendors (OpenAI con ai.txt directive en robots.txt) lo implementan. Buena práctica aplicar mientras estándar emerge.
¿OpenAI / Anthropic respetan robots.txt?
Sí, ambos publicly comprometidos a respetar robots.txt directives. ClaudeBot user-agent + opt-out documentation Anthropic. GPTBot user-agent + opt-out OpenAI. Si bloqueas explicitly user-agent en robots.txt, deben respetarlo.
¿Mi contenido en ChatGPT actual fue used for training sin permiso?
ChatGPT GPT-3.5/GPT-4 fueron trained con Common Crawl + datasets web. Posiblemente sí contenido tuyo. Política retroactiva no aplica (lo hecho hecho). Para training futuro tienes control via robots.txt + ai.txt + reporte vendor.
¿Bloquear AI bots me beneficia SEO?
No directamente. Googlebot regular sigue indexando. Bloquear GPTBot solo afecta visibility ChatGPT, no Google search. Pero perder visibility ChatGPT = perder tráfico cualificado growing.
¿Cómo enfocan Summum + clientes esta cuestión?
Para sites educational + content marketing: open con atribución (queremos visibility). Para sites contenido propietario crítico (whitepapers premium, courses paid): closed parcial. Decisión case-by-case con cliente, no política única.
¿Y si quiero monetizar mi contenido via licensing a LLMs?
Algunas grandes editorial firmaron deals: NYT vs OpenAI lawsuit + Reuters/Wall Street Journal deals. Para SMB monetization via LLM licensing no viable individual; sí via plataformas agregadoras (ej. Common Crawl Foundation, BookMark).
¿Existe legal framework Europeo para esto?
AI Act incluye disposiciones sobre datasets training (data quality + governance) pero no copyright directly. Directive 790/2019 sobre TDM (Text and Data Mining) permite opt-out por copyright holders. Implementación nacional España vigente.
¿Cómo opt-out de TDM (Text Data Mining) commercial?
Via robots.txt + metadata explícito en HTML + indicación en términos uso site. Best practice: combinar todas las señales. Vendors bona fide (OpenAI, Anthropic) respetan. Vendors malicious (scrapers anónimos) ignoran independientemente.
¿Tendréis que cambiar política si AI Act se enforced más estrictamente?
Posible. Si AI Act 2027 obliga consentimiento explícito para training data B2C content, ajustaremos. Mientras tanto política 'open con atribución' es óptima ecosistema actual.
¿Datos personales clientes están en este open policy?
NO. Open policy aplica SOLO al contenido público marketing summummarketing.es. Datos personales clientes (emails, leads, info proyectos) son confidential + GDPR-protected + NO accesibles bots. Distinción crítica.
¿Política bots cambia para multimedia (imágenes, vídeos)?
Sí, parcialmente. Para imágenes: imágenes propias (stock pagadas, fotos custom Summum) son copyright + opt-out training específico vía metadata + ai.txt. Para imágenes ilustrativas decorativas (íconos genéricos open source): open.
¿Cómo saber si LLMs respetan política tras update robots.txt?
Tracking 4-8 semanas post-update. Tools tipo Otterly/Profound monitoring si citations cambian post-update. Vendors mainstream (OpenAI/Anthropic) cumplen mayoritariamente. Si detect violations: report a vendor specifically.

¿Necesitas política AI bots para tu site?

Implementamos robots.txt + ai.txt + metadata correctos según tu estrategia (open / mixed / closed). Setup + documentación + tracking citations.

Implementar AI bot policy