robots.txt + Content Signals

Naucz boty AI czego mogą dotykać — a czego nie

Nowy standard robots.txt pozwala Ci osobno zezwolić na indeksowanie przez wyszukiwarki, użycie treści przez AI i trenowanie modeli językowych. Trzy niezależne sygnały, jeden plik, pełna kontrola.

Jak to działa — 3 kroki

Ustaw globalną politykę

Wybierz domyślne zachowanie dla wszystkich botów — trzy Content Signals niezależnie od siebie: search, ai-input, ai-train.

Dostosuj per agent

GPTBot, ClaudeBot, Googlebot-Extended i inne — każdemu możesz nadać własne reguły nadpisujące politykę globalną.

Pobierz i wgraj

Generator buduje gotowy plik z opcjonalnym odniesieniem do Art. 4 Dyrektywy UE 2019/790. Wgrywasz przez FTP do katalogu głównego domeny.

Trzy Content Signals — co każdy oznacza

Klasyczne indeksowanie

Zgoda na indeksowanie przez wyszukiwarki — użytkownik klika w wynik i wraca na Twoją stronę. Nie obejmuje AI Overviews ani RAG.

yes — indeksuj, pokazuj w wynikach no — nie indeksuj tej treści — nie deklaruj (domyślnie yes)

ai-input

Kontekst w odpowiedziach AI

Zgoda na użycie treści w RAG, AI Overviews, Perplexity. Treść cytowana w odpowiedzi — ale nie wpleciona trwale w model.

yes — cytuj moje treści w AI no — nie używaj jako kontekstu — zachowaj prawo do decyzji

ai-train

Trenowanie modeli

Zgoda na włączenie treści do zbiorów treningowych. Treść wpleciona na stałe w wagi modelu — decyzja trudna do cofnięcia.

yes — możesz trenować na moich treściach no — zakaz trenowania (zalecane) — nie deklaruj

Jak wygląda gotowy plik

robots.txt

# robots.txt — twojadomena.pl
# Wygenerowano przez ifox.pl/generator-robots-txt/

# ── Polityka globalna ──────────────────────────────
User-agent: *
Allow: /
X-Content-Signal: search=yes
X-Content-Signal: ai-input=no
X-Content-Signal: ai-train=no

# ── GPTBot (OpenAI) ────────────────────────────────
User-agent: GPTBot
Disallow: /

# ── ClaudeBot (Anthropic) ──────────────────────────
User-agent: ClaudeBot
Allow: /
X-Content-Signal: ai-input=yes

# ── Sitemap ────────────────────────────────────────
Sitemap: https://twojadomena.pl/sitemap.xml

Dlaczego warto to ustawić

🎛️

3 niezależne zgody zamiast jednej

Możesz chcieć być w Google, ale nie chcieć żeby OpenAI trenowało na Twoich tekstach. Teraz możesz wyrazić to wprost — każdy sygnał działa osobno.

⚖️

Deklaracja zgodna z prawem UE

Art. 4 Dyrektywy UE 2019/790 przewiduje możliwość machine-readable opt-out wobec text and data mining. Plik pomaga złożyć taką deklarację technicznie i jasno — wraz z odniesieniem do podstawy prawnej.

🤖

Kontrola per agent

GPTBot, ClaudeBot, Google-Extended, PerplexityBot — każdemu z osobna możesz nadać inne reguły, niezależnie od polityki globalnej.

📈

Punkty w GEO Checkerze

Poprawnie skonfigurowany robots.txt z Content Signals to jeden z filarów audytu agent-readiness. Szybki zysk punktowy w iFox GEO Checkerze.

Najczęstsze pytania

Czym są Content Signals w robots.txt?

Content Signals to nowe nagłówki X-Content-Signal dodawane do pliku robots.txt zgodnie ze standardem Cloudflare/IETF. Pozwalają właścicielowi strony zadeklarować niezależnie: zgodę na indeksowanie przez wyszukiwarki (search), użycie treści w odpowiedziach AI (ai-input) oraz trenowanie modeli językowych (ai-train). Każdy sygnał ma trzy stany: yes, no lub brak deklaracji.

Czy boty faktycznie respektują te sygnały?

Główne boty AI deklarują respektowanie robots.txt — GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended i PerplexityBot oficjalnie honorują dyrektywy w pliku. Content Signals to nowy standard i nie wszystkie boty go jeszcze implementują. Art. 4 Dyrektywy UE 2019/790 przewiduje możliwość machine-readable opt-out wobec text and data mining, jednak skuteczność konkretnej deklaracji zależy od jej treści, wdrożenia, jurysdykcji i rodzaju wykorzystania.

Czy nowy robots.txt zastępuje stary?

To nadal ten sam plik robots.txt w katalogu głównym domeny. Content Signals są dodawane jako nowe nagłówki obok standardowych reguł Allow i Disallow. Boty które nie rozumieją nowych nagłówków po prostu je ignorują — standardowe reguły działają jak zawsze.

Co oznacza "nie deklaruj" przy sygnale?

Pominięcie sygnału w pliku oznacza brak deklaracji — nie jest to ani zgoda, ani zakaz. Z punktu widzenia zarządzania treścią zachowujesz prawo do późniejszej decyzji. Szczególnie przy ai-input — jeśli nie jesteś pewien czy chcesz żeby Twoje treści były cytowane w AI Overviews, lepiej nie deklarować niż wyrazić zgodę której nie możesz łatwo cofnąć.

Czy generator jest darmowy?

Tak, generator robots.txt na iFox.pl jest w pełni darmowy i nie wymaga rejestracji. Wystarczy wypełnić trzy sekcje formularza i pobrać gotowy plik.

Masz już robots.txt? Sprawdź czy działa poprawnie.

GEO Checker weryfikuje czy plik istnieje, czy blokujesz właściwe boty i jaki masz wynik agent-readiness.

Sprawdź w GEO Checkerze →

📄 Generator robots.txt z Content Signals

Wygeneruj plik robots.txt świadomy agentów AI — z polityką dostępu per crawler oraz Content Signals (search, ai-input, ai-train) jako linią w pliku. Zgodne ze standardem Cloudflare/IETF, z odniesieniem do Art. 4 Dyrektywy UE 2019/790.

1. Podstawowe dane

Twoja domena

Sitemap URL (opcjonalnie)

2. Globalna polityka Content Signals

Trzy sygnały, każdy z trzema stanami: Pozwól (yes), Zabroń (no), Nie deklaruj (pomijamy w pliku — zachowujemy prawo do późniejszej decyzji). Ta konfiguracja trafi do User-agent: *. Dla wybranych agentów możesz dostosować osobno (sekcja 3). Czym są Content Signals →

search Klasyczne SEO. Bot indeksuje, użytkownik klika, wraca na stronę. NIE obejmuje AI Overviews.

ai-input RAG, generative search, AI Overviews. Treść jako kontekst w odpowiedziach AI.

ai-train Trenowanie modeli językowych. Treść wpleciona w wagi modelu.

Dołącz blok polityki Cloudflare z odniesieniem do Art. 4 Dyrektywy UE 2019/790 (zalecane)

3. Polityka per agent AI

Dla każdego znanego agenta AI: ustaw politykę dostępu (allow/block/skip). Opcjonalnie kliknij Dostosuj, by nadać własne Content Signals dla tego agenta (override globalnej polityki z sekcji 2).

4. Własne ścieżki

Reguły Allow/Disallow dla wszystkich botów (User-agent: *). Generator posortuje je automatycznie — Allow z dłuższą ścieżką przed Disallow z krótszą.