RAG 게임: 우리 사이트를 AI가 가져가게 만들기

1. citation이 약하다면, 여기서 시작한다

2편에서 A사(국내 주류 1위 브랜드)의 실측 데이터를 봤다. ChatGPT 기준으로 35개 답변 중 33개에서는 — 약 94% — mention도 citation도 없었다. 국내 점유율 1위 브랜드가 그렇다. 더 중요한 질문은 그다음이다. 왜 그런가.

citation이 안 나오는 이유를 많은 마케터가 '콘텐츠 품질 문제'로 먼저 본다. 글이 부족해서, FAQ가 없어서, Schema 마크업이 빠져서. 그래서 콘텐츠부터 손댔다.

틀린 방향은 아니다. 그런데 콘텐츠를 아무리 잘 써도 citation이 안 나오는 경우가 있다. AI가 우리 사이트에 아예 들어오지 못하는 상태일 때다.

RAG 게임에는 두 가지 병목이 있다. 첫 번째는 AI 봇이 사이트에 못 들어오는 입구 문제, 두 번째는 봇이 들어왔는데도 가져갈 단위가 없는 구조 문제다. 둘 중 하나라도 막히면 citation은 안 나온다. 그리고 두 병목은 해결 방법이 다르다.

이 편은 citation이 약한 쪽을 위한 편이다. mention이 약한 쪽은 5편에서 다룬다.

2. 두 병목이 생기는 지점

RAG는 이렇게 작동한다. ChatGPT가 질문을 받으면 Bing 인덱스를 검색하고, 가져온 페이지를 청크(chunk, 답변 생성에 쓰이는 텍스트 조각) 단위로 잘라 읽는다. 그 청크에서 답을 조합하고 출처 URL을 단다.

여기서 막힐 수 있는 지점이 두 군데다. Bing이 우리 페이지를 인덱스에 갖고 있는가 — 입구 문제. 가져온 페이지에서 청크를 뽑아낼 수 있는가 — 구조 문제. 어느 쪽이 막혔느냐에 따라 작업 방향이 달라진다.

3편은 ChatGPT처럼 Bing 인덱스를 쓰는 RAG 엔진을 기준으로 한다. Google AI Search는 같은 Google 인덱스를 쓰는 별도 영역이라 작동 방식이 다르다 — Google 쪽 이야기는 1.5편에서 다뤘다.

3. 병목 1 — 입구 문제: AI 봇이 못 들어오는 경우

입구 문제는 인식하지 못한 채 방치되어 있는 경우가 많다. 사이트가 Google에 잘 잡히니 AI도 당연히 볼 것이라는 가정 때문이다.

그런데 Google 봇과 AI 봇은 다르다. ChatGPT는 Bing 인덱스를 쓰기 때문에 Bing이 우리 사이트를 제대로 크롤하고 있는지가 별도로 중요하다. Google 서치콘솔에 잘 잡힌다고 ChatGPT RAG에서 자동으로 보이지 않는다.

그리고 이건 생각보다 흔하다. 2025년 7월 1일부터 Cloudflare는 신규 도메인에 대해 알려진 AI 크롤러를 기본값으로 차단하기 시작했다. Cloudflare가 전 세계 웹의 약 5분의 1을 보호하니, 사이트 주인이 따로 결정하지 않아도 인프라 단에서 AI 봇이 막혀 있을 수 있다는 뜻이다. 실제로 Cloudflare가 상위 1만 도메인의 robots.txt를 분석했더니, AI 크롤러(GPTBot·ClaudeBot·CCBot)가 가장 자주 차단되는 대상이었다. 의도적으로 막은 곳도 있지만, 자기도 모르게 막혀 있는 경우가 적지 않다.

입구 문제의 대표적 원인은 세 가지다.

robots.txt 차단

robots.txt는 사이트 루트에 있는 텍스트 파일로, 어떤 봇이 어떤 페이지에 접근할 수 있는지 지정하는 규칙이다. 오래된 사이트일수록 언제 설정했는지 기억도 못 하는 규칙이 남아 있다. 확인 방법은 간단하다. 브라우저 주소창에 우리사이트주소/robots.txt를 직접 입력하면 된다. Disallow: /가 루트에 걸려 있으면 봇이 사이트 전체에 못 들어오는 상태다. 참고로 AI 크롤러는 학습용·검색용·실시간용으로 역할이 나뉘는데, ChatGPT citation에 직접 관여하는 건 검색 인덱싱 봇(OAI-SearchBot)이다. 어떤 봇이 정확히 어떤 상태인지 세부 해석은 기술 진단 영역이지만, robots.txt에 'Disallow'가 걸려 있는지 정도는 마케터가 직접 확인할 수 있다.

JS 렌더링 의존

핵심 텍스트가 JavaScript로 그려지면 봇이 빈 페이지를 볼 수 있다. 사람은 브라우저가 JavaScript를 실행하니 글이 다 보이지만, AI 봇은 실행하지 않거나 다 그려지기 전에 가져가는 경우가 많다. 크롬 개발자도구(F12)에서 JavaScript를 끈 채 사이트를 열어, 주요 텍스트가 그대로 보이는지로 방향을 잡을 수 있다. 정확한 렌더링 검증은 기술 진단 영역이다.

사이트 속도·구조 문제

페이지가 너무 느리거나 3~4단계 깊이에 묻혀 있으면 크롤 우선순위에서 밀린다. 참고로 상위 1만 도메인 중 robots.txt 파일이 있는 곳은 약 37%뿐이다 — 그만큼 입구 관리 자체가 방치되어 있다는 뜻이기도 하다.

4. 병목 2 — 구조 문제: 들어왔는데 가져갈 게 없는 경우

봇이 들어와도 청크로 뽑아낼 단위가 없으면 citation은 안 나온다. RAG 연구들이 공통적으로 지적하는 게 이 지점이다 — 청킹 품질이 RAG 성능을 좌우한다(Stankovic, 2026). 구조 문제는 세 가지로 나타난다.

단락이 청크 단위로 안 쪼개져 있다

한 단락에 여러 주제가 섞여 있으면 AI가 깔끔한 청크로 뽑지 못한다. 한 단락 = 한 주제가 기본이다.

결론이 뒤에 있다 (BLUF 부재)

BLUF(Bottom Line Up Front)는 핵심 결론을 맨 앞에 두는 구조다. 서론부터 길게 깔고 결론이 마지막에 나오면, AI가 답을 조합할 때 그 청크를 고르기 어렵다. 첫 문장에 답이 있어야 인용 가능성이 올라간다. 구체적인 Before/After 변환 예시는 4편에서 다룬다.

수치·데이터가 없다

같은 주제의 두 청크 중 AI는 수치·통계·구체적 데이터가 있는 쪽을 우선 인용한다. Princeton GEO 논문이 실험으로 확인한 패턴이다. "효과가 있다"보다 "3.2배 효과가 있다"가, "많은 기업이 적용한다"보다 "3,981개 도메인 분석 결과"가 더 인용되기 쉽다.

5. 마케터가 직접 볼 수 있는 것, 기술 진단이 필요한 것

직접 확인 가능

/robots.txt에서 Disallow 규칙 확인
JavaScript 끈 상태에서 주요 텍스트가 남는지 확인
중요 페이지가 내비게이션·사이트맵에서 바로 닿는지
단락당 주제가 하나인지, 각 단락이 핵심 답으로 시작하는지
수치·데이터 유무

기술 진단 필요

봇별 차단 상태 세부 해석(OAI-SearchBot, GPTBot 등)
JS 렌더링 검증 — 봇이 실제로 무엇을 보는지
크롤 예산·페이지 도달 경로, Bing Webmaster Tools 실제 크롤 상태

방향은 마케터도 잡을 수 있다. 정밀 진단은 다르다. 특히 봇이 실제로 들어오고 있는지는 서버 로그가 있어야 알 수 있고, 그건 기술 진단 없이는 어렵다.

6. 순서가 있다

입구 문제와 구조 문제는 동시에 있을 수 있다. 입구 문제가 있다면 구조 작업 전에 먼저 해결해야 한다. 봇이 못 들어오는 상태에서 콘텐츠를 다듬어도 RAG에 반영이 안 된다. robots.txt를 직접 열어보는 게 첫 단계인 이유다 — 5분짜리 확인이 몇 주치 콘텐츠 작업의 낭비를 막는다.

7. 이 글의 한 줄

citation이 약한 이유는 두 가지 병목 중 하나다 — AI 봇이 사이트에 못 들어오는 입구 문제, 아니면 들어와도 가져갈 단위가 없는 구조 문제. 입구부터 열고, 그다음 구조를 다듬는다. RAG 게임은 우리 사이트 안에서 끝난다.

다음 편(4편, 6월 19일)에서는 구조 문제를 실제로 고치는 방법 — 기존 콘텐츠를 RAG 친화적으로 바꾸는 5가지 변환 패턴을 Before/After로 보여준다.

참고 자료

Aggarwal, P., Murahari, V., Rajpurohit, T., Kalyan, A., Narasimhan, K., & Deshpande, A. (2024). GEO: Generative Engine Optimization. Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '24), 5–16.
Cloudflare (2025). Control content use for AI training with Cloudflare’s managed robots.txt 및 Year in Review 2025 (상위 1만 도메인 robots.txt 분석).
Stankovic, M. (2026). Cross-Document Topic-Aligned Chunking for Retrieval-Augmented Generation. arXiv:2601.05265.