우리 브랜드는 AI 답변에서 어떻게 보이는가

1. 직접 해보기 전에는 모른다

1편을 읽고 나서 가장 먼저 하고 싶어지는 건 이거다 — ChatGPT에 우리 브랜드 이름을 검색해보는 것.

그런데 무엇을 보고 있는지 모르는 채로 검색하면, 어떤 답이 나와도 해석이 안 된다.

브랜드 이름이 나왔다 — 좋은 건가?
링크가 달렸다 — 이건 다른 건가?
오늘은 나왔는데 내일은 안 나온다 — 왜지?

GEO 측정이 SEO 측정과 다른 핵심은 여기 있다. SEO는 Google Search Console을 열면 숫자가 있다. 노출 수, 클릭 수, 평균 순위. 우리가 직접 만들 필요가 없다. GEO는 그 숫자판이 없다. 우리가 직접 쿼리를 던지고, 답변을 읽고, 흔적을 분류해야 한다.

그리고 분류할 때 반드시 두 가지를 나눠야 한다. 1편에서 다뤘던 그 두 가지 — mention(파라미터 지식의 흔적)과 citation(RAG의 흔적). 이 둘을 구분하지 않고 그냥 "AI에 나왔다 / 안 나왔다"로만 보면, 어디를 작업해야 하는지 알 수 없다.

이번 편은 그 측정을 직접 해보는 방법이다. 그리고 측정 결과를 어떻게 해석하는지까지.

2. mention과 citation은 다른 흔적이다

측정을 시작하기 전에 두 흔적의 차이를 다시 명확하게 짚어두자.

mention(언급)은 AI가 답변 본문에 우리 브랜드 이름을 쓴 것이다. 출처 링크가 없다. 모델이 학습 시점에 쌓은 파라미터 지식에서 꺼낸 기억이라, 어느 한 페이지를 인용한 게 아니다. ChatGPT가 "이 분야에서 알려진 회사들은 X, Y, Z입니다"라고 쓸 때 — URL 없이 이름만 언급하는 게 mention이다.

citation(인용)은 답변 옆에 [1], [2] 같은 각주가 달리고 우리 URL이 출처로 연결된 것이다. AI가 답변 생성 시점에 실시간으로 검색하고 우리 페이지의 내용을 가져왔다는 뜻이다. RAG의 흔적이다.

같은 답변에서 둘 다 나올 수도 있다. 이름도 언급되고 URL도 출처로 달리는 경우. 반대로 이름은 없는데 URL만 달리는 경우도 있다. 측정할 때는 이 네 가지 경우를 구분해서 기록해야 한다.

케이스	mention	citation	의미
A	✅	✅	파라미터 + RAG 모두 작동
B	✅	❌	파라미터 기억에만 등장
C	❌	✅	RAG로만 인용됨
D	❌	❌	두 방식 모두 흔적 없음

이 분류가 왜 중요한지는 측정 결과를 보면 바로 알게 된다.

3. 자가 측정 워크플로우 — 5단계

1단계: 쿼리 목록 만들기

측정은 쿼리 목록에서 시작한다. 우리 잠재 고객이 AI에 던질 법한 질문 10~20개를 모은다.

"국내 [우리 업종] 추천 업체"
"[특정 문제] 해결할 수 있는 회사"
"[우리 업종] 고를 때 뭘 비교해야 해"
"[우리 업종]에서 믿을 만한 곳 어디야"

쿼리 목록은 브랜드 이름을 넣지 않은 것 위주로 만들어야 한다. 브랜드 이름을 직접 검색하면 거의 항상 나온다 — 그건 측정이 아니라 확인이다. 정작 중요한 건 우리를 모르는 잠재 고객이 쓸 법한 쿼리에서 얼마나 자연스럽게 등장하는가다.

2단계: ChatGPT와 Gemini 분리해서 측정

1편에서 봤듯, 모델마다 mention과 citation 비중이 다르다. ChatGPT는 citation 비율이 높고(87%), Gemini는 mention 비율이 높다(83.7%). 같은 쿼리를 두 모델에 던지면 완전히 다른 답이 나올 수 있다.

모델을 나눠서 기록하지 않으면 숫자가 섞인다. 측정 스프레드시트에 모델 컬럼을 반드시 만들어야 하는 이유다. ChatGPT는 웹 검색 기능이 켜진 상태(기본값)에서 측정한다.

3단계: 답변 기록 및 분류

쿼리마다 답변 전체를 복사해서 저장한다. 스크린샷보다 텍스트 복사가 낫다 — 나중에 재측정할 때 비교가 필요하다.

우리 브랜드 이름이 본문에 등장하는가 → mention 기록
우리 URL이 각주 또는 출처로 달렸는가 → citation 기록
답변 몇 번째 문단에 등장하는가 → 위치 기록 (앞일수록 좋다)
경쟁 브랜드는 몇 개 등장하는가 → 상대적 가시성 기록

이 네 가지를 행(쿼리) × 열(모델, 날짜, 케이스 A/B/C/D, 위치, 경쟁 브랜드 수) 형태로 정리한다.

4단계: 주 1회 재측정

한 번 측정으로는 아무것도 알 수 없다. 같은 쿼리, 같은 모델이어도 답변이 매번 달라진다. 최소 3~5번, 주 1회 간격으로 같은 쿼리 목록을 반복해서 돌려야 한다. "이번 주에 나왔다"와 "꾸준히 나온다"를 구분할 수 있어야 한다.

5단계: mention율과 citation율 계산

mention율 = mention(B + A 케이스) 쿼리 수 ÷ 전체 쿼리 수
citation율 = citation(C + A 케이스) 쿼리 수 ÷ 전체 쿼리 수

예: 10개 쿼리에서 mention이 3번, citation이 1번 나왔다면 — mention율 30%, citation율 10%.

4. 실측 사례: 국내 주류 브랜드 A사

크림웍스의 사례를 하나 공유한다. 국내 주류 1위 브랜드 A.

측정 조건: ChatGPT(웹 검색 켜짐), Gemini 각각 / 쿼리 7개 × 5라운드 = 35개 답변 / 2026년 4월 기준.

	ChatGPT	Gemini
mention율	3%	14%
citation율	3%	3%
케이스 A (mention + citation)	0%	3%
케이스 D (흔적 없음)	94%	83%

여기서 눈에 띄는 숫자는 맨 아래 행이다.

점유율 1위 브랜드도, 쿼리의 약 90%에서는 AI 답변에 아예 등장하지 않는다.

ChatGPT 기준으로 35개 답변 중 33개에서 mention도 citation도 없다. Gemini도 83%가 D 케이스다. "우리는 어느 정도 노출되겠지"라는 막연한 기대가 실제 측정 앞에서는 그대로 무너진다.

이게 측정을 해야 하는 이유다. 느낌이 아니라 숫자로 봐야 어디서 손을 댈지 보인다.

5. 측정 결과를 어떻게 해석하나

숫자가 나왔다. 이제 이 숫자가 뭘 말하는지 판단해야 한다.

비교 기준: 글로벌 패턴

1편에서 소개한 Indig 데이터를 기준점으로 쓸 수 있다. ChatGPT는 브랜드 등장 시 citation 비율이 87%고, Gemini는 mention 비율이 83.7%다. 다만 이 수치는 모델 업데이트마다 달라진다. 방향을 잡는 데 참고하면 된다.

ChatGPT에서 citation율이 기대보다 낮다 — RAG가 우리 사이트를 잘 가져오지 못하고 있다는 신호다. 사이트가 AI 봇에 잘 읽히는지, 콘텐츠 구조가 청크 단위로 인용되기 좋은지 봐야 한다. (3편에서 다룬다.)

Gemini에서 mention율이 기대보다 낮다 — 파라미터 기억에 우리 브랜드가 충분히 새겨져 있지 않다는 신호다. 우리 사이트 안이 아니라 외부 인터넷에서 작업해야 하는 게임이다. (5편에서 다룬다.)

두 모델에서 D 케이스가 80% 이상이다 — 두 게임 모두 작업이 필요하다. 3편부터 따라가면 방향이 잡힌다.

비율보다 패턴을 본다

숫자 자체보다 중요한 게 있다. mention율과 citation율의 비율 차이다.

A사 사례처럼 ChatGPT와 Gemini 모두 mention율과 citation율이 한 자릿수라면 — 두 게임 모두 거의 작동하지 않는다는 신호다. 어느 한쪽을 먼저 작업할 단계가 아니라, 둘 다 손을 대야 하는 상황이다.

반대로 mention율은 높은데 citation율이 낮다면 — 파라미터 기억은 있는데 RAG가 우리 사이트를 잘 못 가져오는 패턴이다. 이 경우엔 3편 RAG 작업이 먼저다.

두 숫자를 따로 보지 말고, 둘의 관계로 봐야 방향이 보인다.

6. 변동성 다루기 — 어제 나왔다고 오늘도 나오는 게 아니다

자가 측정을 처음 해본 마케터들이 가장 당황하는 순간이 있다. 어제 분명히 우리 브랜드가 답변에 나왔는데, 오늘 같은 질문을 다시 던지면 없다.

이건 오류가 아니다. AI 답변의 구조적 특성이다. 생성형 AI는 같은 쿼리에 대해 매번 동일한 답을 내놓지 않는다. RAG 방식에서도 그 시점의 웹 색인 상태에 따라 검색되는 청크가 달라진다.

여기서 쿼리 수만큼 중요한 게 라운드 수다. 쿼리 10개를 1번 돌리면 10개 데이터다. 같은 쿼리를 5라운드 돌리면 50개가 된다. AI 답변의 변동성을 통제하려면 쿼리를 몇 개 만드느냐보다, 같은 쿼리를 몇 번 반복하느냐가 더 중요할 수 있다.

첫째, 단일 측정을 믿지 않는다. 한 번 나왔다고 "됐다"가 아니다. 같은 쿼리를 최소 3~5라운드 돌려서 나온 비율로 기록한다. "5라운드 중 2~3회 mention" — 이게 "1회 mention"보다 훨씬 신뢰할 수 있는 데이터다.

둘째, 시간 간격을 둔다. 같은 날 10번 돌리는 것보다 주 1회 간격으로 3~5번 돌리는 게 낫다. 모델 업데이트나 웹 색인 변화를 반영할 수 있다.

셋째, 변동성 자체를 기록한다. 어떤 쿼리는 항상 나오고, 어떤 쿼리는 가끔만 나온다. "항상 나오는 쿼리"가 우리 브랜드의 진짜 GEO 강점이다. 이 패턴을 알면 작업 우선순위가 보인다.

7. 이 측정의 한계

자가 측정으로 알 수 있는 것과 알 수 없는 것을 구분해야 한다.

알 수 있는 것 — 우리 브랜드가 AI 답변에 등장하는지 여부, mention인지 citation인지, 어느 모델에서 더 강한지, 어느 쿼리에서 꾸준히 나오는지. 이 정도면 작업 방향을 잡기엔 충분하다.

알 수 없는 것 — 세 가지 벽이 있다. 첫째는 표본이다. 쿼리 10~20개는 잠재 고객이 실제로 던지는 수백, 수천 가지의 일부일 뿐이다. 둘째는 원인이다. citation이 낮게 나왔을 때 콘텐츠 문제인지 기술적 문제인지 자가 측정으로는 구분할 수 없다. 셋째는 시점이다. 모델 업데이트 후엔 같은 쿼리의 결과가 달라진다.

간단한 진단은 지금까지 다룬 방법으로 직접 할 수 있다. 측정 결과를 갖고 무엇을 해야 하는지는 3편부터 다룬다.

8. 이 글의 한 줄

mention율과 citation율을 분리해서 측정하면, 어디를 작업해야 하는지 보인다. 잘 되고 있다고 느끼는 브랜드도 대부분의 쿼리에서는 AI에 등장하지 않는다. 느낌이 아니라 숫자로 봐야 방향이 잡힌다.

참고 자료

Aggarwal, P., Murahari, V., Rajpurohit, T., Kalyan, A., Narasimhan, K., & Deshpande, A. (2024). GEO: Generative Engine Optimization. Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '24), 5–16.
Indig, K. (2026, April). The ghost citation problem. Growth Memo. Semrush AI Toolkit 데이터 기반 (3,981 도메인, 115 프롬프트, 14개국, 4개 AI 엔진).