헤매어도 한 걸음씩

OpenAI o1 Pro 소개 본문

ML&DL

OpenAI o1 Pro 소개

ritz 2024. 12. 22. 15:01

 

OpenAI 에서 12일간 "12 Days of OpenAI (링크) " 로 라이브스트리밍을 진행했습니다. 

이때 ChatGPT Pro 와 o1 Pro 모드를 공개했는데요, 관련 내용을 요약 및 정리한 글입니다.

(ChatGPT Pro는 새로운 모델이 아니라, 월 $200의 프리미엄 구독 플랜입니다. 이 플랜을 통해 o1 Pro 모드를 사용할 수 있습니다.)

가볍게 읽어주시면 좋을 것 같습니다:) 

 


 

What Is o1 Pro Mode?

OpenAI o1 Pro 소개 자료 : https://openai.com/index/introducing-chatgpt-pro/

 

ChatGPT Pro는 OpenAI가 12월 초 출시한 프리미엄 요금제(월 $200) 입니다. o1 Pro 모드는 ChatGPT Pro에서 제공되는 주요 모델로 기존 o1 모델을 강화한 버전인데요, 정확도와 추론능력을 향상시켰다고 합니다.

OpenAI의 라이브 스트리밍 발표에 따르면, o1 Pro 모드는 특히 고도화된 수학, 복잡한 코딩, 과학 연구 등 높은 연산 능력을 요구하는 작업에서 유용합니다. 또 기존 o1 모델의 멀티모달 입력 처리와 고급 이미지 이해 기능을 그대로 유지하면서 더 강력한 처리 능력을 제공합니다.

다만, 복잡한 작업을 처리하는 동안 응답 시간이 길어질 수 있기 때문에 ChatGPT는 진행 상황을 시각적으로 보여주는 상태창을 제공합니다. 이를 통해 모델이 정확하고 포괄적인 답변을 생성하는 과정을 실시간으로 확인할 수 있습니다.

출처 : OpenAI

 

 

o1 Pro 모드가 특별한 이유는 크게 두 가지로 나눌 수 있는데요, 심층적인 사고 과정과 추론 단계에서의 자원 집중입니다.

 

1. 강화 학습과 단계별 사고 과정

O1 Pro 모드의 핵심은 답변을 빠르게 내놓기보다는 더 많은 시간을 들여 깊게 생각한다는 점입니다. 이를 강화학습, CoT 로 실현했습니다.

2. 추론 단계에서 더 많은 자원 활용

O1 Pro 모드는 연산 자원을 효율적으로 활용하는 데 초점을 둡니다. 모델이 답변을 생성할 때 더 많은 계산 능력을 투입해, 가능한 답안을 더 폭넓게 탐색하고 최적의 결과를 찾아냅니다.

쉽게 말해, 더 오래 "생각"할 수 있도록 도와주는 셈입니다. OpenAI의 데이터를 보면, 연산 자원이 늘어날수록 복잡한 시험(예: AIME)에서 모델의 성능이 얼마나 향상되는지 확인할 수 있습니다.

출처 : OpenAI

특히 추론 단계에서 자원을 늘릴 때 정확도가 눈에 띄게 좋아지는데요, 이는 모델이 더 많은 시간을 들여 정보를 처리하면 더 나은 결과를 얻을 수 있음을 보여줍니다.

 

 

 

o1 Pro Mode 벤치마크 성능

O1 Pro 모드는 수학, 코딩, 과학 등 깊은 추론과 문제 해결 능력이 요구되는 분야에서 테스트를 거쳤습니다.

 

수학 (AIME 2024)

  • 미국 고등학생 대상의 AIME 수학 대회는 고난도의 문제 해결 능력을 평가합니다.
    → o1 Pro 모드는 o1과 o1-preview를 크게 능가하며 탁월한 성과를 보였습니다.

코딩 (Codeforces)

  • 코드포스는 알고리즘과 프로그래밍 문제를 해결하는 대회입니다.
    → 코딩 능력에서 강력한 성과를 냈지만, o1 대비 큰 차이는 없었습니다.

과학 (GPQA Diamond)

  • PhD 수준의 과학 질문을 해결하는 이 벤치마크는 과학적 개념 이해와 논리적 추론 능력을 테스트합니다.
    → O1 Pro 모드가 우수한 성능을 보였지만, o1과의 차이는 크지 않았습니다.

출처 : OpenAI

 

 

 

사실 위 결과만 놓고 봤을 때 추론능력에 있어서의 성능향상은 o1과 크게 차이가 있다고 보이진 않아요.

저도 직접 사용해보진 않았지만, o1 pro 모드가 의미 있는 이유는 아래 이어질 신뢰성 평가 부분인 것 같습니다.

 

 

4/4 reliability evaluation

4/4 Reliability는 동일한 질문에 4번 연속 정확히 답해야 성공으로 간주하는 평가 방식입니다. 모델의 일관성과 신뢰성을 평가하기 위해 해당 평가방식이 적용되었습니다.

 

여기서 o1 Pro 모드가 o1 및 o1-preview와 뚜렷한 차이를 보입니다. 수학, 코딩, 과학 모두에서 더 높은 정확성/일관성을 입증했다고 볼 수 있습니다.

출처 : OpenAI

 

 

o1 Pro 모드의 성과는 단순히 높은 정확도를 넘어, 일관된 성능을 제공한다는 점에서 의미가 있는 것 같습니다. 과학 연구, 복잡한 코딩, 법률 분석처럼 정확성이 중요한 작업에서 믿을 수 있는 도구가 될 가능성을 보여줍니다.

아래는 관련 use case 입니다.

 

 

o1 Pro Mode - Use Cases

아래는 OpenAI 에서 제안된 내용을 요약/번역했습니다.

 

1. 과학 연구

복잡한 데이터셋 분석, 가설 개발 및 실험 설계 등에서 활용 가능
논문 검토, 데이터 분석, 보고서 작성 같은 반복적인 작업을 자동화해 연구자의 창의적이고 전략적인 작업에 집중할 시간 제공

 

2. 금융 모델링 및 예측
복잡한 금융 데이터를 분석하고 트렌드를 파악하며, 신뢰도 높은 예측을 통해 투자 결정을 돕고 리스크 관리 강화

 

3. 법률 리서치 및 사례 검토
방대한 법률 문서와 판례를 분석해 핵심 정보를 요약하고 관련 판례를 찾아 전략 수립을 지원

 

4. 의료 진단 및 치료 계획
의료 데이터를 분석해 잠재적 진단과 치료 방안을 제안, 정확한 진단과 환자 맞춤형 치료 계획에 기여

 

5. 코딩
코드 성능 병목 현상 분석 및 최적화 제안
디버깅 지원, 복잡한 알고리즘 구현, 코드 리팩토링, 문서화 자동화 등 개발자의 작업 효율을 극대화

 

6. 사기 탐지 및 보안 시스템
패턴 분석과 이상 탐지를 통해 위협을 정확히 식별하고 사기 방지 및 보안 체계 강화

 

그 외에 개인적으로 찾아본 내용으로는, 머신러닝 모델에 사용될 대규모 데이터셋 구축 등에 사용될 수 있다고 합니다. 

일반 유저는 플러스 요금제로도 충분할 것 같습니다!!