Question 1

LLM 컨텍스트 윈도우 1M 토큰은 전부 신뢰할 수 있나요?

Accepted Answer

아닙니다. 광고된 1M 토큰 컨텍스트는 기술적으로 입력 가능한 한계이지만, needle-in-haystack 실험에서 후반부로 갈수록 정보 회수율이 급격히 저하되는 것이 확인되었습니다. 실제 신뢰할 수 있는 구간(실효 구간)은 모델마다 다르며, GPT-4.1(1M) 기준 실효 구간은 약 200K 토큰으로 추정됩니다.

Question 2

토큰 수를 어떻게 추정하나요?

Accepted Answer

언어에 따라 다른 계수를 적용합니다. 영어는 1단어 ≈ 1.3토큰, 한국어는 1단어 ≈ 2.2토큰, 혼합은 1.7토큰입니다. 한국어는 BPE 토크나이저가 형태소 단위로 세분화하기 때문에 영어보다 토큰 수가 더 많이 나옵니다.

Question 3

Gemini 2.5 Pro 2M 모델은 정말 2M 토큰을 다 쓸 수 있나요?

Accepted Answer

Google의 내부 벤치마크에서는 우수한 성능을 보고하지만, 독립적인 외부 검증 데이터가 매우 부족합니다. 보수적 추정으로 실효 신뢰 구간을 500K 토큰으로 설정했습니다. 중요한 추론 작업에서는 전체 2M 구간을 균등하게 신뢰하기 어렵습니다.

Question 4

실효 구간이 낮은 모델에서 긴 문서를 다루려면 어떻게 해야 하나요?

Accepted Answer

중요한 정보는 문서 앞부분이나 끝부분에 배치하세요(LIM 효과). 또는 RAG(검색 증강 생성) 방식으로 관련 청크만 추출하여 컨텍스트를 줄이는 것이 효과적입니다. 실효 구간이 넓은 Claude Opus 4나 Gemini 2.5 Pro를 선택하는 것도 방법입니다.

Question 5

needle-in-haystack(NIAH) 실험이란 무엇인가요?

Accepted Answer

긴 문서(haystack) 중간 임의의 위치에 핵심 정보(needle)를 숨겨두고, LLM이 그 정보를 얼마나 잘 회수하는지 측정하는 벤치마크입니다. 컨텍스트 길이와 삽입 위치(깊이)에 따른 회수율을 2D 히트맵으로 시각화합니다. 광고된 컨텍스트 윈도우와 실제 성능 간의 괴리를 드러내는 대표적인 평가 방법입니다.

The 1M Token Lie

Per-Model Effectiveness Analysis