2025. 4. 25. 19:47ㆍ연구/AI
약간 과거자료이긴 하지만, 작년 말에 우연찮게 알게 된 4o와 추론모델 o1 사이의 컨텍스트량 차이를 체험해본 경험이 있어서 썰을 풀어본다.
나는 작년 여름부터 AI 이미지 연구도 하고있어서 ComfyUI를 사용하고 있는데, 이전에 한 번 남이 만든 커스텀 워크플로우를 사용하다가 내가 만든 워크플로우로 이전을 하려고 했다. 그런데, 커스텀 워크플로우는 아예 ComfyUI상에 표시되는 노드 자체가 모양이 달라서 내가 원하는 값을 찾을 수가 없었다. 결국은 이 워크플로우의 코드 .json파일을 그대로 분석을 해봐야겠다는 생각이 들었다.
ComfyUI를 모르는 사람도 많을테니, 대충 어떤 개념인지 조금 쉽게 풀어서 설명하려면, 남이 만든 딸기케이크에서 딸기 양이 얼마나 들어가는지 궁금해서 하나 하나 골라내서 몇개인지 세어보려는데, 어떤 건 슬라이스 되어있고, 또 어떤 건 다져서 넣어놔가지고 정확한 개수를 알 수가 없는 상황이라 저울(GPT)에 무게를 달아보는 상황이라고 생각하면 된다.
나는 처음에는 4o에만 물어봐도 충분할 거라고 생각했다. 정확한 컨텍스트량을 모르기도 했고, 내가 복사한 코드의 양이 무려 6만 6천자나 된다는 사실도 몰랐다.
그래서 일단 코드를 때려넣고, 내가 원하는 것을 찾아달라고 요청했다.
그러나 결과는 실망스러웠다. 이미 뭘 해달라고 초장에 다 써놨는데, '어떤 작업을 도와드릴까요?'라고 대답을 하는 모습이라니...
내가 붙여 넣은 건 6만6천자나 되는 텍스트였으니 분명 어마어마한 양이기는 하지만, 실제로 4o가 지원한다고 알려진 토큰량보다는 적은 양이다.
몇 번 더 같은 질문을 시도해봤지만, 코드 속에서 필요한 내용을 찾는걸 아예 못하거나 질문 자체를 잊어버리는 등의 삽질만 반복했다.
결국은 o1을 통해서 문제를 해결했다. 4o로 시도했던 몇 번의 삽질이 무색할 정도로 o1은 아주 훌륭하게 내가 주문한 것을 찾아내주었다.
나는 o1이 추론모델이고 시간도 많이 걸리니까 당연히 더 많은 토큰을 사용할 줄 알았다. 그러나 지금 이 글을 쓰면서 검색해보니, 실제 토큰 사용량은 두 모델이 동일하다는 글과 그렇지 않다는 글이 있어서 혼란스럽다.
아무튼 실제 사용해봤을 때는 확실한 차이가 존재했으니 그렇다고 알아두면 될듯!
참고로 Gemini 2.5가 타 모델 대비 압도적인 컨텍스트량을 자랑하는데, 이건 요즘 글쓰면서 확실히 실감이 되는 것 같다. Claude는 컨텍스트량을 늘리면서 급격히 성능이 저하되는 것이 느껴져서 요즘은 말투 다듬기 정도로만 쓰는데, Gemini는 말투부분에서는 Claude보다 부족하지만, 문장 재구성할 때 꽤나 도움받고 있는 상황.
마지막으로 지금은 어떻게 바뀌었을까 궁금해서 4o에게 시켜봤더니 이게 웬걸??? 한번에 성공했다!
추가 검색을 해보니, 모델 자체의 컨텍스트량도 o1이 다소 높기는 하지만, 무엇보다도 요금제별 UI에서 입력받아 처리할 수 있는 양의 제한을 둔다는 듯 하다. 아무래도 29,000원 요금제를 내면서 적은 제한으로 쓰는 사용자와 호출할때마다 제 값을 내며 쓰는 API 이용자의 차이를 둔 것 같다.
OpenAI가 유저들 모르게 잠수함 패치를 계속 하는듯 하다. 꼭 새 모델 뿐만 아니라 기존 모델들의 성능도 지속적으로 향상되는 듯싶다!
'연구 > AI' 카테고리의 다른 글
실험일지 - AI로 글자수를 "정확히" 세는 법 (5) | 2025.05.16 |
---|---|
실험일지 - AI검색할 때 뭘 사용할까? (0) | 2025.05.07 |
실험일지 - Claude에 드디어 웹검색이 추가되었다! (3) | 2025.05.03 |
Monday의 말투를 따라하는 토론봇을 만들어보았다. (0) | 2025.04.19 |
ChatGPT가 Monday라는 녀석을 내놓았다. (1) | 2025.04.18 |