1. citation이 약하다면, 여기서 시작한다
2편에서 A사(국내 주류 1위 브랜드)의 실측 데이터를 봤다. ChatGPT 기준으로 35개 답변 중 33개에서는 — 약 94% — mention도 citation도 없었다. 국내 점유율 1위 브랜드가 그렇다. 더 중요한 질문은 그다음이다. 왜 그런가.
citation이 안 나오는 이유를 많은 마케터가 '콘텐츠 품질 문제'로 먼저 본다. 글이 부족해서, FAQ가 없어서, Schema 마크업이 빠져서. 그래서 콘텐츠부터 손댔다.
틀린 방향은 아니다. 그런데 콘텐츠를 아무리 잘 써도 citation이 안 나오는 경우가 있다. AI가 우리 사이트에 아예 들어오지 못하는 상태일 때다.
RAG 게임에는 두 가지 병목이 있다. 첫 번째는 AI 봇이 사이트에 못 들어오는 입구 문제, 두 번째는 봇이 들어왔는데도 가져갈 단위가 없는 구조 문제다. 둘 중 하나라도 막히면 citation은 안 나온다. 그리고 두 병목은 해결 방법이 다르다.
이 편은 citation이 약한 쪽을 위한 편이다. mention이 약한 쪽은 5편에서 다룬다.
2. 두 병목이 생기는 지점
RAG는 이렇게 작동한다. ChatGPT가 질문을 받으면 Bing 인덱스를 검색하고, 가져온 페이지를 청크(chunk, 답변 생성에 쓰이는 텍스트 조각) 단위로 잘라 읽는다. 그 청크에서 답을 조합하고 출처 URL을 단다.
여기서 막힐 수 있는 지점이 두 군데다. Bing이 우리 페이지를 인덱스에 갖고 있는가 — 입구 문제. 가져온 페이지에서 청크를 뽑아낼 수 있는가 — 구조 문제. 어느 쪽이 막혔느냐에 따라 작업 방향이 달라진다.
3편은 ChatGPT처럼 Bing 인덱스를 쓰는 RAG 엔진을 기준으로 한다. Google AI Search는 같은 Google 인덱스를 쓰는 별도 영역이라 작동 방식이 다르다 — Google 쪽 이야기는 1.5편에서 다뤘다.
3. 병목 1 — 입구 문제: AI 봇이 못 들어오는 경우
입구 문제는 인식하지 못한 채 방치되어 있는 경우가 많다. 사이트가 Google에 잘 잡히니 AI도 당연히 볼 것이라는 가정 때문이다.
그런데 Google 봇과 AI 봇은 다르다. ChatGPT는 Bing 인덱스를 쓰기 때문에 Bing이 우리 사이트를 제대로 크롤하고 있는지가 별도로 중요하다. Google 서치콘솔에 잘 잡힌다고 ChatGPT RAG에서 자동으로 보이지 않는다.
그리고 이건 생각보다 흔하다. 2025년 7월 1일부터 Cloudflare는 신규 도메인에 대해 알려진 AI 크롤러를 기본값으로 차단하기 시작했다. Cloudflare가 전 세계 웹의 약 5분의 1을 보호하니, 사이트 주인이 따로 결정하지 않아도 인프라 단에서 AI 봇이 막혀 있을 수 있다는 뜻이다. 실제로 Cloudflare가 상위 1만 도메인의 robots.txt를 분석했더니, AI 크롤러(GPTBot·ClaudeBot·CCBot)가 가장 자주 차단되는 대상이었다. 의도적으로 막은 곳도 있지만, 자기도 모르게 막혀 있는 경우가 적지 않다.
입구 문제의 대표적 원인은 세 가지다.
robots.txt 차단
robots.txt는 사이트 루트에 있는 텍스트 파일로, 어떤 봇이 어떤 페이지에 접근할 수 있는지 지정하는 규칙이다. 오래된 사이트일수록 언제 설정했는지 기억도 못 하는 규칙이 남아 있다. 확인 방법은 간단하다. 브라우저 주소창에 우리사이트주소/robots.txt를 직접 입력하면 된다. Disallow: /가 루트에 걸려 있으면 봇이 사이트 전체에 못 들어오는 상태다. 참고로 AI 크롤러는 학습용·검색용·실시간용으로 역할이 나뉘는데, ChatGPT citation에 직접 관여하는 건 검색 인덱싱 봇(OAI-SearchBot)이다. 어떤 봇이 정확히 어떤 상태인지 세부 해석은 기술 진단 영역이지만, robots.txt에 'Disallow'가 걸려 있는지 정도는 마케터가 직접 확인할 수 있다.
JS 렌더링 의존
핵심 텍스트가 JavaScript로 그려지면 봇이 빈 페이지를 볼 수 있다. 사람은 브라우저가 JavaScript를 실행하니 글이 다 보이지만, AI 봇은 실행하지 않거나 다 그려지기 전에 가져가는 경우가 많다. 크롬 개발자도구(F12)에서 JavaScript를 끈 채 사이트를 열어, 주요 텍스트가 그대로 보이는지로 방향을 잡을 수 있다. 정확한 렌더링 검증은 기술 진단 영역이다.
사이트 속도·구조 문제
페이지가 너무 느리거나 3~4단계 깊이에 묻혀 있으면 크롤 우선순위에서 밀린다. 참고로 상위 1만 도메인 중 robots.txt 파일이 있는 곳은 약 37%뿐이다 — 그만큼 입구 관리 자체가 방치되어 있다는 뜻이기도 하다.
4. 병목 2 — 구조 문제: 들어왔는데 가져갈 게 없는 경우
봇이 들어와도 청크로 뽑아낼 단위가 없으면 citation은 안 나온다. RAG 연구들이 공통적으로 지적하는 게 이 지점이다 — 청킹 품질이 RAG 성능을 좌우한다(Stankovic, 2026). 구조 문제는 세 가지로 나타난다.
단락이 청크 단위로 안 쪼개져 있다
한 단락에 여러 주제가 섞여 있으면 AI가 깔끔한 청크로 뽑지 못한다. 한 단락 = 한 주제가 기본이다.
결론이 뒤에 있다 (BLUF 부재)
BLUF(Bottom Line Up Front)는 핵심 결론을 맨 앞에 두는 구조다. 서론부터 길게 깔고 결론이 마지막에 나오면, AI가 답을 조합할 때 그 청크를 고르기 어렵다. 첫 문장에 답이 있어야 인용 가능성이 올라간다. 구체적인 Before/After 변환 예시는 4편에서 다룬다.
수치·데이터가 없다
같은 주제의 두 청크 중 AI는 수치·통계·구체적 데이터가 있는 쪽을 우선 인용한다. Princeton GEO 논문이 실험으로 확인한 패턴이다. "효과가 있다"보다 "3.2배 효과가 있다"가, "많은 기업이 적용한다"보다 "3,981개 도메인 분석 결과"가 더 인용되기 쉽다.
5. 마케터가 직접 볼 수 있는 것, 기술 진단이 필요한 것
직접 확인 가능
/robots.txt에서 Disallow 규칙 확인- JavaScript 끈 상태에서 주요 텍스트가 남는지 확인
- 중요 페이지가 내비게이션·사이트맵에서 바로 닿는지
- 단락당 주제가 하나인지, 각 단락이 핵심 답으로 시작하는지
- 수치·데이터 유무
기술 진단 필요
- 봇별 차단 상태 세부 해석(OAI-SearchBot, GPTBot 등)
- JS 렌더링 검증 — 봇이 실제로 무엇을 보는지
- 크롤 예산·페이지 도달 경로, Bing Webmaster Tools 실제 크롤 상태
방향은 마케터도 잡을 수 있다. 정밀 진단은 다르다. 특히 봇이 실제로 들어오고 있는지는 서버 로그가 있어야 알 수 있고, 그건 기술 진단 없이는 어렵다.
6. 순서가 있다
입구 문제와 구조 문제는 동시에 있을 수 있다. 입구 문제가 있다면 구조 작업 전에 먼저 해결해야 한다. 봇이 못 들어오는 상태에서 콘텐츠를 다듬어도 RAG에 반영이 안 된다. robots.txt를 직접 열어보는 게 첫 단계인 이유다 — 5분짜리 확인이 몇 주치 콘텐츠 작업의 낭비를 막는다.
7. 이 글의 한 줄
citation이 약한 이유는 두 가지 병목 중 하나다 — AI 봇이 사이트에 못 들어오는 입구 문제, 아니면 들어와도 가져갈 단위가 없는 구조 문제. 입구부터 열고, 그다음 구조를 다듬는다. RAG 게임은 우리 사이트 안에서 끝난다.
다음 편(4편, 6월 19일)에서는 구조 문제를 실제로 고치는 방법 — 기존 콘텐츠를 RAG 친화적으로 바꾸는 5가지 변환 패턴을 Before/After로 보여준다.
참고 자료
- Aggarwal, P., Murahari, V., Rajpurohit, T., Kalyan, A., Narasimhan, K., & Deshpande, A. (2024). GEO: Generative Engine Optimization. Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '24), 5–16.
- Cloudflare (2025). Control content use for AI training with Cloudflare’s managed robots.txt 및 Year in Review 2025 (상위 1만 도메인 robots.txt 분석).
- Stankovic, M. (2026). Cross-Document Topic-Aligned Chunking for Retrieval-Augmented Generation. arXiv:2601.05265.