AI 크롤러는 챗GPT, 퍼플렉시티 같은 생성형 AI가 답변을 만들기 위해 웹페이지를 수집하는 자동 프로그램입니다. 구글 검색봇과 목적이 다릅니다. 검색봇은 순위를 매기려고 읽고, AI 크롤러는 답변에 인용하거나 모델을 학습시키려고 읽어요.
핵심은 세 가지입니다. 첫째, AI 크롤러는 학습용과 인용용 두 종류로 갈립니다. 둘째, 둘을 한꺼번에 막으면 AI 검색 노출도 같이 사라집니다. 셋째, robots.txt 차단은 강제력이 없어서 무시하는 봇도 있어요.
서치폴라리스에서 고객사 사이트의 크롤러 정책을 잡으면서 정리한 내용입니다.
이 글에서 다루는 내용 - AI 크롤러와 일반 검색봇의 차이 - 2026년 주요 AI 크롤러 전체 목록 (GPTBot, PerplexityBot 등) - 학습용 봇과 인용용 봇을 구분해야 하는 이유 - 차단할지 허용할지 결정하는 기준 - robots.txt 설정 후 실제로 검증하는 방법
검색봇과 뭐가 다른가요
구글 검색봇은 페이지를 읽어서 검색 결과 순위에 씁니다. AI 크롤러는 읽은 내용을 두 군데에 써요. 하나는 모델 학습, 하나는 실시간 답변 인용입니다.
이 차이가 중요한 건 통제권 때문입니다. 검색봇은 막으면 검색에서 사라지니까 대부분 허용합니다. AI 크롤러는 "학습엔 쓰기 싫지만 답변엔 인용되고 싶은" 어정쩡한 상황이 생겨요. 그래서 봇을 하나하나 구분해야 합니다.
용어 하나만 짚고 가면, 크롤러와 스크레이퍼는 다릅니다. 크롤러는 robots.txt 규칙을 따르는 게 원칙이고, 스크레이퍼는 규칙을 무시하고 데이터만 긁어가요. AI 회사의 공식 봇은 대부분 크롤러 쪽입니다.
2026년 주요 AI 크롤러 목록
봇은 목적에 따라 두 그룹으로 나뉩니다. 학습용(모델을 훈련시키는 봇)과 인용용(실시간 검색 답변에 쓰는 봇)이에요. 이 구분을 모르고 한 줄로 다 막으면 문제가 생깁니다.
| 봇 이름 | 운영사 | 목적 | robots.txt User-agent |
|---|---|---|---|
| GPTBot | OpenAI | 모델 학습 | GPTBot |
| ClaudeBot | Anthropic | 모델 학습 | ClaudeBot |
| Google-Extended | 제미나이 학습 | Google-Extended | |
| CCBot | Common Crawl | 공개 학습 데이터셋 | CCBot |
| Bytespider | ByteDance | 모델 학습 | Bytespider |
| OAI-SearchBot | OpenAI | 챗GPT 검색 인덱싱 | OAI-SearchBot |
| ChatGPT-User | OpenAI | 사용자 요청 실시간 방문 | ChatGPT-User |
| PerplexityBot | Perplexity | 인덱싱·인용 | PerplexityBot |
| Perplexity-User | Perplexity | 사용자 요청 실시간 방문 | Perplexity-User |
| Claude-User | Anthropic | 실시간 인용 | Claude-User |
위 네 개(GPTBot, ClaudeBot, Google-Extended, CCBot)가 학습용입니다. 나머지는 인용용에 가까워요. OpenAI와 Anthropic은 자사 크롤러 User-agent를 공식 문서에 공개하는데, 봇이 추가되거나 이름이 바뀌기도 하니 적용 전에 한 번 더 확인하세요.
처음 이 목록을 정리할 때는 GPTBot 하나만 막으면 되는 줄 알았어요. 실제로 보니 OpenAI만 봇이 세 종류였습니다.
차단하면 AI 검색에서도 사라집니다
여기서 대부분이 실수합니다. AI가 내 콘텐츠 가져가는 게 싫어서 전부 막았는데, 그러면 챗GPT 검색 답변에서도 우리 브랜드가 빠져요.
학습용 봇을 막는 건 "내 글로 모델 훈련시키지 마"라는 뜻입니다. 인용용 봇을 막는 건 "AI 답변에 나를 인용하지 마"라는 뜻이고요. 둘은 완전히 다른 결정인데, robots.txt에 User-agent: * Disallow: / 한 줄로 막으면 둘 다 닫힙니다.
구글봇을 막아놓고 구글 검색 1위를 기대하는 것과 같아요. 인용용 봇을 막으면 AI 검색 최적화의 출발선 자체가 사라집니다.
그래서 실무에서는 봇을 쪼개서 다룹니다. 학습은 막더라도 인용은 열어두는 식이에요. 이게 GEO 전략의 기본 전제입니다.
그럼 막아야 하나요 열어야 하나요
정답은 콘텐츠 성격에 따라 갈립니다. 우리가 고객사에 적용하는 기준을 매트릭스로 정리하면 이렇습니다.
| 콘텐츠 유형 | 학습용 봇 | 인용용 봇 | 이유 |
|---|---|---|---|
| 마케팅·블로그 콘텐츠 | 허용 | 허용 | AI 노출이 곧 유입. 막을 이유 없음 |
| 유료·회원 전용 콘텐츠 | 차단 | 차단 | 무료로 학습·인용되면 상품 가치 하락 |
| 독자 데이터·리서치 자산 | 차단 | 허용 | 학습엔 안 주되 인용 출처로는 노출 |
| 저작권 민감 (이미지·작품) | 차단 | 선택 | 학습 데이터화 방지가 우선 |
대부분의 B2B·서비스 기업은 첫 번째 줄입니다. 블로그와 제품 설명은 AI가 많이 인용할수록 좋아요. 막을 이유가 거의 없습니다.
반대로 유료 리포트나 데이터베이스를 파는 회사라면 이야기가 다릅니다. 콘텐츠 자체가 상품이니까요.

우리는 마케팅 콘텐츠라면 전체 허용을 추천합니다. AI 검색이 트래픽 채널로 자리 잡는 중인데, 입구를 닫아두는 건 손해예요. ~~사실 막아서 얻는 안도감이 진짜 이유인 경우가 많지만.~~
robots.txt로 막아도 안 막힐 수 있습니다
차단을 결정했다면 한 가지 알아둘 게 있습니다. robots.txt는 법이 아니라 신사협정이에요. 봇이 지키겠다고 약속한 규칙일 뿐, 강제력이 없습니다.
OpenAI나 Anthropic의 공식 봇은 규칙을 따릅니다. 문제는 규칙을 무시하는 봇이나 User-agent를 위장한 스크레이퍼예요. 이건 robots.txt로 못 막습니다.
진짜로 막아야 한다면 서버나 CDN 단에서 차단해야 합니다. Cloudflare 같은 서비스는 AI 봇을 IP·행동 기반으로 걸러내는 기능을 제공해요. robots.txt가 1차 안내문이라면, CDN 차단은 자물쇠입니다.
실제 사례도 있어요. 2025년 Cloudflare는 퍼플렉시티가 robots.txt로 차단된 사이트를 우회해 수집한 정황을 공개했고, 검증된 봇 목록에서 제외했습니다. User-agent와 IP를 바꿔가며 접근했다는 거예요. robots.txt만으로 100% 차단된다고 믿으면 안 되는 이유입니다.
설정한 다음 확인하는 법
robots.txt를 올렸으면 끝이 아닙니다. 실제로 적용됐는지 확인해야 해요. 안 그러면 막혔다고 착각한 채 몇 달을 보냅니다.
가장 빠른 건 브라우저에서 내도메인.com/robots.txt를 직접 여는 겁니다. 의도한 규칙이 그대로 보이면 1차 통과예요.
그다음은 서버 액세스 로그입니다. User-agent에서 GPTBot, PerplexityBot 같은 문자열을 검색해 보세요. 차단한 봇이 200 응답을 받고 있으면 규칙이 안 먹은 겁니다. 허용한 봇이 꾸준히 들어오면 정상이고요.
서치폴라리스 팀이 직접 테스트해보니, robots.txt 문법 오류 하나로 전체 규칙이 무시되는 경우가 제일 많았습니다. 슬래시 위치 하나가 결과를 바꿔요.
크롤러 정책은 llms.txt 설정과 같이 묶어서 관리하면 깔끔합니다. robots.txt가 출입 통제라면, llms.txt는 안내 데스크 역할이에요.
자주 묻는 질문
Q: GPTBot을 차단하면 챗GPT 검색에서 안 보이나요?
GPTBot은 학습용 봇이라 차단해도 챗GPT 검색 노출에는 직접 영향이 적습니다. 검색 노출과 관련된 건 OAI-SearchBot과 ChatGPT-User예요. 노출을 유지하려면 이 두 봇은 열어둬야 합니다.
Q: AI 크롤러를 허용하면 구글 SEO에 손해인가요?
아닙니다. AI 크롤러 허용과 구글 검색 순위는 별개 시스템입니다. Google-Extended를 막아도 일반 구글 검색 색인에는 영향이 없어요. 학습용 봇과 검색 색인봇이 분리돼 있기 때문입니다.
Q: robots.txt를 무시하는 봇은 어떻게 막나요?
robots.txt로는 못 막습니다. Cloudflare 같은 CDN의 AI 봇 차단 기능이나 서버 방화벽에서 IP·User-agent 기반으로 걸러야 해요. 다만 위장 트래픽까지 완벽히 막기는 어렵습니다.
Q: 봇 목록은 어디서 최신으로 확인하나요?
각 운영사 공식 문서가 기준입니다. OpenAI, Anthropic, Google은 자사 크롤러 User-agent를 공식 페이지에 공개해요. 봇 이름이 바뀌기도 하니 정책 적용 전 확인이 안전합니다.
정리하면 결정이 먼저입니다
AI 크롤러는 막느냐 여느냐의 문제가 아니라, 무엇을 막고 무엇을 열지의 문제입니다. 학습용과 인용용을 나눠서 보는 순간 답이 명확해져요.
마케팅 콘텐츠를 운영한다면 열어두는 쪽이 대부분 맞습니다. AI 검색이 다음 검색창이 되는 중이니까요. 그 흐름에서 우리 브랜드가 인용될지 말지는, robots.txt 몇 줄에서 갈립니다. 다음 질문은 하나예요. 우리 사이트는 지금 어느 봇에게 열려 있나요?
자세한 노출 전략은 GEO 최적화 완벽 가이드에서 단계별로 다룹니다.