교육

GPT-4 총정리

에듀테크랩 2023. 3. 17.

최근 Open AI에서 GPT-4를 공개했습니다.


최근 Open AI에서 GPT-4를 공개했는데요. 대한민국에서도 새벽까지 뜬 눈으로 Open AI에서 GPT-4를 공개하는 행사를 실시간으로 기다려서 신청한 분들이 많이 있습니다.

 

마치 스티브잡스 생전에 수많은 대한민국 사람들이 새로운 아이폰 모델의 발표를 기다리는 것같은 광경을 다시 보는 듯 했습니다.

 

그만큼 Open AI에서 GPT-4 공개하는 것은 수많은 사람들의 관심이 집중되는 사안임을 알 수 있습니다.

 

현재 Open AI에서 서비스하는 ChatGPT는 GPT-3.5 모델이었는데요. 이번에 GPT-4를 Open AI에서 공개를 했고, ChatGPT를 ChatGPT Plus로 업그레이드하여 유료 구독하면 제한은 있지만 GPT-4를 사용해볼 수 있습니다.

 

아니나 다를까 Open AI에서 GPT-4 안내 메일이 왔습니다.


Open AI에서 보낸 GPT-4 안내 메일


Open AI에서 GPT-4 안내 메일을 통해서 GPT-4 공식 문서에 접근할 수 있었습니다.

 

그러면 GPT-4에 대해서 Open AI의 공식 문서를 통해 자세하게 살펴보도록 하겠습니다.

 

Open AI의 GPT-4를 자세히 살펴보면 다음과 같습니다.


Open AI는 가장 능력있는 모델인 GPT-4를 만들었습니다. Open AI는 오늘부터 API 사용자들에게 롤아웃을 시작하고 있습니다.


GPT-4에 대해서

GPT-4는 보다 넓은 일반적인 지식과 고급 추론 능력 덕분에 어려운 문제를 더 높은 정확도로 해결할 수 있습니다.

더 많은 정보는 다음을 통해 알아보실 수 있습니다:

GPT-4 개요 페이지 및 초기 고객이 이 모델을 기반으로 구축한 것.
평가 결과를 비롯한 모델의 능력과 한계에 대한 자세한 내용이 담긴 블로그 포스트.


사용 가능성

API 대기 리스트: GPT-3.5-turbo와 동일한 ChatCompletions API를 사용하는 GPT-4 API에 대한 제한적인 액세스를 얻기 위해 대기 리스트에 등록해주세요. 오늘부터 일부 개발자를 초대하고 수요와 시스템 성능을 고려하여 점진적으로 가용성 및 제한을 확대할 예정입니다.


우선 액세스: 모델 평가에 기여하여 OpenAI Evals에 병합되는 경우 우선적으로 GPT-4 API 액세스를 얻을 수 있습니다. 이를 통해 모두에게 모델을 개선할 수 있습니다.


ChatGPT Plus: ChatGPT Plus 구독자는 chat.openai.com에서 동적으로 조정되는 사용량 제한이 있는 GPT-4 액세스를 받게 됩니다. 우리는 심각한 용량 제한을 예상하기 때문에 사용량 제한은 수요와 시스템 성능에 따라 결정될 것입다.

 

API 액세스는 여전히 대기 리스트를 통해 이루어집니다.


GPT-4 API CASE 1



API 요금

8K 컨텍스트 창 (약 13 페이지 텍스트)을 갖는 gpt-4의 경우, 1K prompt 토큰당 $0.03, 1K completion 토큰당 $0.06의 비용이 발생합니다.

32K 컨텍스트 창 (약 52 페이지 텍스트)을 갖는 gpt-4-32k의 경우, 1K prompt 토큰당 $0.06, 1K completion 토큰당 $0.12의 비용이 발생합니다.

GPT-4 개발자 데모는 여기서 확인하실 수 있습니다.

 

 

 

GPT-4는 OpenAI의 가장 고급 시스템으로, 더 안전하고 유용한 응답을 생성합니다.


GPT-4는 더 넓은 일반 지식과 문제 해결 능력 덕분에 더 높은 정확도로 어려운 문제를 해결할 수 있습니다.


GPT-4는 이전보다 더 창의적이고 협업적입니다. 노래 작곡, 시나리오 작성, 또는 사용자의 글쓰기 스타일 학습과 같은 창의적이고 기술적인 쓰기 작업에서 사용자와 함께 생성, 편집 및 반복 작업을 수행할 수 있습니다.


GPT-4는 이미지를 입력으로 받아 캡션, 분류 및 분석을 생성할 수 있습니다.


GPT-4는 25,000 단어 이상의 텍스트를 처리할 수 있으므로 긴 형식의 콘텐츠 작성, 긴 대화 및 문서 검색 및 분석과 같은 사용 사례가 가능합니다.


GPT-4는 고급 추론 능력에서 ChatGPT를 능가합니다.


GPT-4는 대략적인 백분위수에서 더 높은 점수를 기록하여 ChatGPT보다 우수한 성능을 발휘합니다.



GPT, GPT-2 및 GPT-3에서 연구 경로를 따라 우리의 딥 러닝 접근법은 더 많은 데이터와 계산을 활용하여 점차적으로 세련되고 능력 있는 언어 모델을 만듭니다.


GPT-4의 안전성과 일치성을 강화하기 위해 6개월 동안 노력했습니다. 

 

내부 평가에서 GPT-4는 GPT-3.5에 비해 금지된 콘텐츠 요청에 응답하지 않을 가능성이 82% 감소하고 사실적인 응답을 생성할 가능성이 40% 증가합니다.

 

연구

GPT-4는 딥 러닝 확장에 대한 OpenAI의 최신 도전 과제입니다.


GPT-4 API CASE 2



인프라

GPT-4는 Microsoft Azure AI 슈퍼컴퓨터에서 훈련되었습니다. Azure의 AI 최적화 인프라는 전 세계 사용자에게 GPT-4를 제공할 수 있게 해줍니다.


제한사항

GPT-4는 여전히 사회적 편견, 환각 및 적대적 프롬프트와 같은 많은 알려진 제한 사항이 있습니다. 우리는 사회가 이러한 모델을 채택하면서 투명성, 사용자 교육 및 보다 넓은 AI 알파벳화를 촉진하고 지원합니다. 또한 우리는 사람들이 모델을 조작하는 데 있어서 입력의 방식을 확대하는 것을 목표로 합니다.

 


가용성

GPT-4는 ChatGPT Plus 및 개발자를 위한 API로 제공됩니다. 우리는 모두에게 기술을 제공하는 기술 개발을 위해 노력하는 동안 GPT-4를 어떻게 사용하는지 기대합니다.

 

 

인간의 피드백을 반영한 훈련

ChatGPT 사용자들이 제출한 피드백을 비롯하여, GPT-4의 행동을 개선하기 위해 더 많은 인간의 피드백을 반영했습니다. 또한, AI 안전성과 보안 분야를 포함한 전문가들과 50명 이상의 조기 피드백을 공동 작업했습니다.

실제 사용으로부터 지속적인 개선

이전 모델의 실제 사용에서 얻은 교훈을 GPT-4의 안전성 연구 및 모니터링 시스템에 반영했습니다. ChatGPT와 마찬가지로, 더 많은 사람들이 사용함에 따라 GPT-4을 주기적으로 업데이트하고 개선할 것입니다.


Visual inputs: VGA charger Sample


GPT-4 지원 안전성 연구

GPT-4의 고급 추론 및 지시 따르기 능력은 우리의 안전성 작업을 가속화했습니다. 우리는 GPT-4를 사용하여 모델 파인튜닝을 위한 훈련 데이터를 만들고, 교육, 평가 및 모니터링에서 분류기를 반복적으로 개선했습니다.

GPT-4로 구축

우리는 GPT-4를 사용하여 혁신적인 제품을 개발하는 기업과 공동 작업했습니다.

Duolingo

GPT-4는 Duolingo의 대화를 더욱 깊이 있게 만듭니다.

 

 

Be My Eyes

Be My Eyes는 GPT-4를 사용하여 시각적 접근성을 혁신합니다.

 


Stripe

Stripe는 GPT-4를 활용하여 사용자 경험을 간소화하고 사기를 방지합니다.

 


Morgan Stanley

Morgan Stanley 자산 관리팀은 방대한 지식 베이스를 조직화하기 위해 GPT-4를 사용합니다.

 



Khan Academy

Khan Academy는 제한된 시범 프로그램에서 GPT-4의 가능성을 탐색합니다.

 

 

Government of Iceland

아이슬란드가 언어를 보존하기 위해 GPT-4를 사용하는 방법입니다.


Visual inputs: moar layers sample


OpenAI가 심층 학습 확대를 위한 최신 연구 성과인 GPT-4를 만들었습니다. GPT-4는 이미지와 텍스트 입력을 받고 텍스트 출력을 내보내는 대형 멀티모달 모델입니다. 실제 세계의 여러 시나리오에서는 인간보다 능력이 부족하지만, 다양한 전문적이고 학술적인 벤치마크에서 인간 수준의 성능을 보입니다.

 

 

멀티모달 모델은 다음과 같습니다.

멀티모달 모델은 이미지와 텍스트 입력을 받아 텍스트 출력을 생성하는 모델을 뜻합니다.

멀티모달 모델은 이미지, 텍스트, 오디오 등 다양한 유형의 입력을 받아들이고, 그에 대한 정보를 종합하여 출력하는 모델입니다. 이 모델은 다양한 형태의 데이터를 처리할 수 있어서, 다양한 분야에서 사용될 수 있습니다. 예를 들어, 이미지와 캡션(설명글)을 입력으로 받아들여, 그 이미지에 대한 적절한 캡션을 출력하는 이미지 캡셔닝 분야에서 많이 사용됩니다.

이러한 멀티모달 모델은 다양한 딥러닝 기술을 활용하여 구현됩니다. 예를 들어, 이미지와 텍스트를 동시에 처리하기 위해, 이미지의 시각적인 정보는 합성곱 신경망(Convolutional Neural Network, CNN)을 이용하여 추출하고, 텍스트 정보는 순환 신경망(Recurrent Neural Network, RNN)을 이용하여 처리하는 방식을 사용합니다. 이렇게 두 가지 방식을 결합하면, 입력으로 받은 다양한 데이터를 효과적으로 처리할 수 있습니다.

멀티모달 모델은 이미지 캡셔닝 외에도, 비디오 캡셔닝, 이미지/비디오와 텍스트 간의 연관성 분석, 자율주행 자동차의 주변 환경 인식 등 다양한 분야에서 활용되고 있습니다.

 

이번에 공개된 GPT-4는 이미지를 입력받아 텍스트로 출력합니다.

앞으로는 이미지외에도 오디오 등 다양한 이미지를 입력받아 텍스트로 출력할 예정입니다.

 

OpenAI는 딥러닝 기술의 규모를 확장하는 OpenAI의 최신 이정표인 GPT-4를 개발했습니다. GPT-4는 이미지와 텍스트 입력을 받아들이고 텍스트 출력을 내보내는 대형 멀티모달 모델입니다. 많은 실세계 시나리오에서 인간보다 능력이 떨어지지만, 다양한 전문적인 학술적 벤치마크에서는 인간 수준의 성능을 보입니다.

 

예를 들어, 시뮬레이션된 변호사 시험에서 상위 10% 정도의 점수를 받았습니다. 반면 GPT-3.5는 하위 10% 정도의 점수를 받았습니다. OpenAI는 6개월 동안 미묘한 테스트와 ChatGPT에서 얻은 교훈을 사용하여 GPT-4를 반복적으로 조정하여 사실성, 조정 가능성, 그리고 경계선을 벗어나지 않는 성능에서 최고 수준의 결과를 얻었습니다.

지난 2년간 OpenAI는 깊은 학습 스택 전체를 재구축하고 Azure와 함께 우리의 워크로드에 최적화된 슈퍼컴퓨터를 처음부터 공동 설계했습니다. 1년 전에는 시스템의 "테스트 런"으로 GPT-3.5를 교육했습니다. 버그를 발견하고 수정하며 이론적 기반을 개선했습니다. 결과적으로 OpenAI의 GPT-4 교육은 (적어도 우리에게는!) 예측 가능성이 높아져 예측할 수 있게 되었습니다. 계속해서 신뢰할 수 있는 확장에 초점을 맞추면서, 앞으로 더 먼 미래의 기능을 예측하고 준비할 수 있도록 우리의 방법론을 미려하게 연마하려고 합니다. 이는 안전에 있어서 매우 중요하다고 생각합니다.

OpenAI는 ChatGPT와 API를 통해 GPT-4의 텍스트 입력 기능을 출시하며 (대기 명단 포함), 이미지 입력 기능을 넓은 범위로 사용할 수 있도록 하기 위해 하나의 파트너와 긴밀하게 협력하고 있습니다. 또한, AI 모델 성능을 자동으로 평가하기 위한 OpenAI Evals 프레임워크를 오픈소스화하여 모델의 단점을 보고하여 더 나은 개선을 이끌어내는 데 도움이 되도록 하고 있습니다. 이를 통해 우리는 안전을 위해 필수적인 미래 능력 예측 및 준비를 보다 정확하게 할 수 있도록 방법론을 개선해 나갈 계획입니다.

 

 

 

기술 능력

일반 대화에서는 GPT-3.5와 GPT-4의 차이점이 미묘할 수 있지만, 작업의 복잡성이 충분한 한계에 도달하면 차이가 나타납니다. GPT-4는 GPT-3.5보다 신뢰성이 높고 창의적이며, 더 세부적인 지시사항을 처리할 수 있습니다.

두 모델 간의 차이를 이해하기 위해, 우리는 사람들을 대상으로 디자인된 시험을 시뮬레이션하는 등 다양한 벤치마크 테스트를 수행했습니다. 우리는 최근에 공개된 테스트(올림피아드 및 AP 자유응답 문제의 경우)를 사용하거나 2022-2023년도 연습 시험 문제집을 구입하여 진행했습니다. 이러한 시험에 대해 별도로 훈련하지는 않았습니다. 시험 문제 중 일부는 모델이 훈련 중에 본 적이 있습니다. 하지만 우리는 결과가 대표적이라고 믿습니다. 자세한 내용은 우리의 기술 보고서를 참조하십시오.

 

OpenAI는 또한 기계 학습 모델을 위해 고전적인 벤치마크에서 GPT-4을 평가했습니다. GPT-4는 벤치마크별로 특별한 제작이나 추가적인 학습 프로토콜을 포함할 수 있는 대부분의 최첨단(SOTA) 모델과 함께 기존의 대형 언어 모델보다 상당히 우수한 성능을 보입니다.

 

기존 ML 벤치마크 대부분은 영어로 작성되어 있습니다. 다른 언어에서의 능력을 파악하기 위해, 우리는 57개 주제를 포함한 14,000개의 객관식 문제로 이루어진 MMLU 벤치마크를 Azure Translate를 이용하여 다양한 언어로 번역해 보았습니다 (자세한 내용은 부록 참조). 26개 언어 중 24개 언어에서, GPT-4는 영어를 포함한 GPT-3.5와 다른 LLMs (Chinchilla, PaLM)보다 뛰어난 성능을 보입니다. 이는 Latvian, Welsh, Swahili와 같은 저자원 언어에서도 마찬가지입니다.

 

 

OpenAI는 지원, 영업, 콘텐츠 모더레이션 및 프로그래밍과 같은 기능에서 GPT-4를 내부적으로 사용하고 있으며, 조율 전략의 두 번째 단계를 시작하여 인공지능 출력을 평가하는 데 인간을 지원하기 위해 사용하고 있습니다.

시각적 입력

GPT-4는 텍스트와 이미지로 이루어진 프롬프트를 받아들일 수 있어 사용자가 어떤 시각 또는 언어 작업도 지정할 수 있습니다. 구체적으로, 텍스트와 사진, 다이어그램 또는 스크린샷을 포함하는 문서를 포함한 다양한 도메인에서 GPT-4는 텍스트만 있는 입력과 유사한 능력을 발휘합니다. 게다가, 텍스트만 있는 언어 모델을 위해 개발된 페우-샷 및 체인-오브-스롯 프롬프팅과 같은 테스트 시간 기술로 확장할 수 있습니다. 그러나 이미지 입력 기능은 아직 연구 미리보기 상태이며 공개적으로 사용할 수 없습니다.

 

GPT-4의 성능을 미리 살펴보기 위해 일부 학술적인 시각 벤치마크를 사용하여 평가를 수행하였습니다. 하지만 이러한 숫자는 모델이 대처할 수 있는 새로운 임무를 계속해서 발견하고 있기 때문에 모델의 능력의 전부를 완전히 대표하지는 않습니다. 우리는 곧 추가적인 분석 및 평가 결과와 테스트 시 기법의 효과에 대한 철저한 조사 결과를 공개할 예정입니다.

 

 

조종 가능성

OpenAI는 인공지능의 행동을 정의하는 것에 대한 계획에 대해 게시 한 내용에서 설명한 계획의 각 측면에 대해 작업을 진행해 왔습니다. 이에는 조종 가능성(Steerability)도 포함됩니다. 고정된 양조, 톤 및 스타일을 갖는 고전적인 ChatGPT 페르소나 대신 개발자(그리고 곧 ChatGPT 사용자)는 이제 "시스템" 메시지에서 해당 방향을 설명하여 인공지능의 스타일 및 작업을 지정할 수 있습니다. 시스템 메시지를 통해 API 사용자는 경계 내에서 사용자 경험을 크게 사용자 정의 할 수 있습니다. OpenAI는 이곳에서 계속 개선해 나갈 것입니다(특히 경계 준수는 완벽하지 않으므로 시스템 메시지가 현재 모델을 "jailbreak"하는 가장 쉬운 방법임을 유의해주십시오). 하지만 시스템 메시지를 사용해보고 의견을 주시기를 권장합니다.

 

GPT-4는 이전 GPT 모델과 마찬가지로 제한사항이 존재합니다. 가장 중요한 것은 여전히 완전히 신뢰할 수 없다는 점입니다 (사실을 "환각"하거나 추론 오류를 발생시킵니다). 특히 고위험 상황에서 언어 모델 출력물을 사용할 때는 정확한 프로토콜 (예: 인간 검토, 추가 문맥과 연계, 또는 고위험 상황 전혀 사용하지 않음)을 사용 사례의 요구에 맞게 적용해야합니다.

그러나 GPT-4는 이전 모델에 비해 "환각"을 크게 줄이는 것이 가능합니다 (각 반복마다 개선되고 있는 이전 모델들도 마찬가지입니다).

 

우리는 TruthfulQA와 같은 외부 벤치마크에서 진전을 이루었습니다. 이는 모델이 틀린 문장들을 강제로 선택하게 되는 상황에서 사실과 틀린 내용을 구분하는 능력을 테스트합니다. 이 질문들은 통계적으로 매력적인 틀린 답변과 함께 제공됩니다.

GPT-4 베이스 모델은 GPT-3.5보다 이 작업에서 약간 더 뛰어납니다. 그러나 RLHF 사후 훈련(우리가 GPT-3.5에서 사용한 것과 같은 과정을 적용함) 이후에는 큰 격차가 나타납니다. 아래의 몇 가지 예시를 살펴보면, GPT-4는 흔한 관용구(늙은 개에게 새로운 물릴 놈 없다)를 선택하지 않도록 저항하지만, 여전히 미묘한 세부 사항(엘비스 프레슬리는 배우의 아들이 아님)을 놓칠 수 있습니다.

 

모델은 출력물에서 다양한 편향을 가질 수 있으며, 우리는 이에 대한 진전을 이루었지만 더 많은 작업이 필요합니다. 최근 블로그 글에서 언급한 것처럼, 우리는 구축하는 AI 시스템이 광범위한 사용자의 가치를 반영하는 합리적인 기본 동작을 갖도록 하고, 이러한 시스템을 넓은 범위 내에서 사용자 정의 할 수 있도록 하고, 이러한 범위가 어떤 것이어야 하는지 대중의 의견을 수렴할 것입니다.

GPT-4는 일반적으로 대부분의 데이터가 끝나는 시점 이후에 발생한 이벤트에 대한 지식이 부족하며, 자신의 경험으로부터 학습하지 않습니다. 때로는 간단한 추론 오류를 범할 수 있으며, 이는 많은 도메인에서 역량을 보여주는 것과 일치하지 않을 수 있습니다. 또한, 사용자로부터 명백한 거짓문장을 쉽게 받아들이거나 보안 취약점을 코드에 도입하는 등 어려운 문제를 해결하지 못할 수도 있습니다.

GPT-4는 예측에서 자신감 있게 잘못될 수도 있으며, 실수할 가능성이 높은 작업에서 작업을 두 번 확인하지 않을 수 있습니다. 흥미로운 점은 기본 사전 학습 모델이 크게 보정되어 있으며(예측된 답변에 대한 자신감이 일반적으로 정확도와 일치함), 현재의 사후 훈련 과정을 거치면 보정이 감소한다는 것입니다.

 

 

위험 요소와 완화 대책

우리는 GPT-4를 안전하고 조율된 모델로 만들기 위해, 사전 훈련 데이터의 선택과 필터링, 평가 및 전문가 참여, 모델 안전성 향상, 모니터링 및 시행 등을 포함하여 훈련의 시작부터 지속적으로 개선하고 있습니다.

GPT-4는 유해한 조언, 버그가 있는 코드 또는 부정확한 정보를 생성하는 등 이전 모델과 유사한 위험을 내포합니다. 그러나 GPT-4의 추가 기능은 새로운 위험성 면을 제공합니다. 이러한 위험의 범위를 이해하기 위해, 인공지능 조정 위험, 사이버 보안, 생물 위험, 신뢰와 안전, 국제 보안 등 다양한 분야의 전문가 50여 명을 참여시켜 모델을 적대적으로 테스트했습니다. 그들의 결과는 전문성이 필요한 고위험 영역에서 모델 동작을 검증할 수 있었습니다. 이러한 전문가의 피드백과 데이터는 모델의 완화 및 개선에 반영되었습니다. 예를 들어, GPT-4가 위험한 화학 물질의 합성 방법을 요청하는 것을 거부하는 능력을 향상시키기 위해 추가 데이터를 수집했습니다.

GPT-4는 RLHF 훈련 중 추가적인 안전 보상 신호를 통합하여 위험한 출력을 줄입니다(사용 지침에 정의된 내용). 이 신호는 GPT-4 zero-shot 분류기에 의해 제공되며, 안전 관련 프롬프트에서 안전 경계와 완성 스타일을 판단합니다. 유효한 요청을 거부하지 않도록, 우리는 다양한 소스(라벨이 달린 제작 데이터, 인간 레드팀, 모델 생성 프롬프트 등)에서 다양한 데이터를 수집하고 허용되거나 금지된 범주에 대해 안전 보상 신호(양수 또는 음수 값)를 적용합니다.

우리의 완화 대책은 GPT-3.5와 비교하여 GPT-4의 많은 안전 속성을 크게 개선했습니다. GPT-4는 GPT-3.5에 비해 금지된 콘텐츠 요청에 응답하는 경향이 82% 줄었습니다. 또한, GPT-4는 우리 정책에 따라 민감한 요청 (의료 조언 및 자해)에 대해 29% 더 자주 대응합니다.

전반적으로, 우리의 모델 레벨 개입은 안전하지 않은 행동을 유도하는 것을 어렵게 만듭니다. 그러나 여전히 우리 사용 가이드라인을 위반하는 콘텐츠를 생성할 수 있는 "감옥 탈출" 방법이 존재합니다. 인공지능 시스템의 "위험 당 토큰"이 증가함에 따라, 이러한 개입의 신뢰성을 극도로 높이는 것이 매우 중요해질 것입니다. 지금은 악용 모니터링과 같은 배치 시 안전 기술로 이러한 한계를 보완하는 것이 중요합니다.

GPT-4 및 이후 모델은 유익하거나 해로운 방식으로 사회에 큰 영향을 미칠 수 있습니다. 우리는 잠재적인 영향을 이해하고 평가하는 방법을 개선하고, 미래의 시스템에서 나타날 수 있는 위험한 능력에 대한 평가를 수행하기 위해 외부 연구진과 협력하고 있습니다. 곧 GPT-4 및 기타 인공지능 시스템의 사회 및 경제적 영향에 대한 우리의 생각을 더 공유할 예정입니다.

 

 

훈련 과정

GPT-4 기본 모델은 이전 GPT 모델과 마찬가지로 문서에서 다음 단어를 예측하는 데 사용되었으며, 인터넷 데이터와 라이센스한 데이터를 포함한 공개 데이터를 사용하여 훈련되었습니다. 이 데이터는 수학 문제의 올바른 및 부적절한 해결책, 약한 및 강력한 추론, 모순적 및 일관된 문장을 포함하며, 다양한 이념과 아이디어를 대표합니다.

따라서 질문에 대답할 때 기본 모델은 사용자의 의도와 매우 다양한 방식으로 응답할 수 있습니다. 이를 가드레일 내에서 사용자의 의도와 일치하도록 조율하기 위해, 우리는 인간 피드백을 사용하여 강화학습을 통해 모델의 동작을 세밀하게 조정합니다(RLHF).

모델의 능력은 사전 훈련 과정에서 주로 나타난다는 것에 유의하세요. RLHF는 시험 성적을 개선하지 않습니다(실제로 적극적인 노력 없이는 성적을 떨어뜨릴 수도 있습니다). 그러나 모델의 조율은 사후 훈련 과정에서 나타납니다. 즉, 기본 모델은 질문에 대답해야 한다는 것을 알기 위해 적극적인 엔지니어링이 필요합니다.

예측 가능한 확장성

GPT-4 프로젝트의 주요 초점 중 하나는 예측 가능한 딥 러닝 스택을 구축하는 것입니다. 이유는 GPT-4와 같은 매우 큰 규모의 훈련 실행에서는 모델별 조율을 포함한 광범위한 조율 작업이 현실적이지 않기 때문입니다. 우리는 여러 규모에서 매우 예측 가능한 동작을 가진 인프라 및 최적화를 개발했습니다. 이러한 확장성을 확인하기 위해 우리는 동일한 방법론을 사용하여 훈련된 모델을 사용하면서 컴퓨팅 파워를 10,000배 줄인 내부 코드베이스(훈련 세트의 일부가 아님)에서 GPT-4의 최종 손실을 사전에 정확하게 예측했습니다.

이제 훈련 중에 최적화하는 메트릭(손실) 몇 가지 통합의 변형을 포함하여 이미 구현된 벤치마크를 실행할 수 있도록 Evals를 호환성 있게 만들었습니다.

OpenAI Evals

우리는 OpenAI Evals라는 소프트웨어 프레임워크를 오픈소스로 공개합니다. 이 프레임워크는 GPT-4와 같은 모델의 평가를 위한 벤치마크를 생성하고 실행하는 데 사용됩니다. 또한 이를 통해 성능을 샘플별로 검토할 수 있습니다. 우리는 Evals를 통해 모델 개발을 이끌어내고 결함을 발견하며 퇴화를 방지합니다. 또한 사용자는 모델 버전 간의 성능 추적(이제 정기적으로 출시됩니다)과 제품 통합을 진화시키는 데 이를 적용할 수 있습니다. 예를 들어, Stripe는 Evals를 사용하여 GPT 기반 문서 작성 도구의 정확도를 측정하기 위해 인간 평가를 보완했습니다.

이 코드는 모두 오픈 소스이므로 Evals는 사용자 정의 평가 로직을 구현하기 위한 새로운 클래스를 작성할 수 있습니다. 그러나 우리 자신의 경험상, 많은 벤치마크가 일부 "템플릿"을 따르기 때문에 우리는 내부에서 가장 유용한 템플릿(모델 등급 평가용 템플릿을 포함)을 포함시켰습니다. 우리는 GPT-4가 자신의 작업을 확인하는 데 놀라울 정도로 능숙하다는 것을 발견했습니다. 일반적으로 새로운 평가를 구축하는 가장 효과적인 방법은 이러한 템플릿 중 하나를 인스턴스화하고 데이터를 제공하는 것입니다. 우리는 다른 사람들이 이러한 템플릿과 Evals를 사용하여 무엇을 더 구축할 수 있는지 기대합니다.

우리는 Evals가 실패 모드와 어려운 작업의 최대한 광범위한 세트를 대표하는 벤치마크를 공유하고 크라우드소싱할 수 있는 차량이 되길 바랍니다. 따라서 우리는 GPT-4가 실패하는 10개의 프롬프트를 포함하는 논리 퍼즐 평가를 만들었습니다. Evals는 기존의 벤치마크 구현을 실행할 수도 있습니다. 우리는 학술적인 벤치마크를 구현하는 여러 노트북과 CoQA의 (작은 하위 집항) 몇 가지 통합의 변형을 포함하여 이미 구현된 벤치마크를 실행할 수 있도록 Evals를 호환성 있게 만들었습니다.

우리는 누구나 Evals를 사용하여 모델을 테스트하고 가장 흥미로운 예시를 제출하도록 초대합니다. Evals가 우리 모델을 사용하고 구축하는 과정에서 필수적인 요소가 될 것이라고 믿으며, 직접적인 기여, 질문 및 피드백을 환영합니다.

 

 

ChatGPT Plus

ChatGPT Plus 구독자는 chat.openai.com에서 GPT-4 액세스를 얻게 됩니다. 사용량 제한이 있습니다. 수요와 시스템 성능에 따라 정확한 사용 제한을 조정할 예정이지만, 실제로는 심각한 용량 제한이 있을 것으로 예상됩니다(하지만 우리는 다가오는 몇 달 동안 확장하고 최적화할 것입니다).

우리가 볼 트래픽 패턴에 따라 더 높은 용량의 GPT-4 사용을 위한 새로운 구독 레벨을 도입할 수도 있습니다. 또한 언젠가는 구독 없이도 시도할 수 있는 일부 무료 GPT-4 쿼리를 제공할 계획입니다.

API

GPT-4 API에 액세스하려면 (gpt-3.5-turbo와 동일한 ChatCompletions API를 사용합니다) 대기 목록에 등록하십시오. 오늘부터 일부 개발자를 초대하기 시작하고 수요와 용량을 균형있게 조절하면서 점진적으로 확장할 예정입니다. 인공지능의 사회적 영향 또는 인공지능 정렬 문제를 연구하는 연구원은 Researcher Access Program을 통해 보조 액세스를 신청할 수도 있습니다.

액세스를 획득하면, 텍스트 기반 요청을 gpt-4 모델에 전송할 수 있습니다 (이미지 입력은 여전히 제한적인 알파 상태입니다). 우리는 새로운 버전을 만들 때마다 자동으로 권장 안정 모델로 업데이트할 것입니다(현재 버전을 호출하여 현재 버전을 고정할 수 있습니다. gpt-4-0314는 6월 14일까지 지원됩니다). 가격은 1k 프롬프트 토큰당 $0.03이며, 1k 완료 토큰당 $0.06입니다. 기본 속도 제한은 분당 40k 토큰 및 분당 200개 요청입니다.

gpt-4는 8192 토큰의 컨텍스트 길이를 가지고 있습니다. 우리는 또한 32768 토큰(약 50 페이지의 텍스트) 버전인 gpt-4-32k에 제한적인 액세스를 제공하고 있습니다. 이 버전도 시간이 지남에 따라 자동으로 업데이트됩니다(현재 버전은 gpt-4-32k-0314이며 6월 14일까지 지원됩니다). 텍스트(32,768토큰)용 버전인 gpt-4-32k에 대해서도 마찬가지로 시간이 지남에 따라 자동으로 업데이트됩니다 (현재 버전은 gpt-4-32k-0314이며 6월 14일까지 지원됩니다). 가격은 1k 프롬프트 토큰당 $0.06, 1k 완성 토큰당 $0.12입니다. 우리는 여전히 긴 문맥에 대한 모델 품질을 개선 중이며 사용 사례에 대한 성능 피드백을 기다리고 있습니다. 용량에 따라 8k와 32k 엔진의 요청을 다른 속도로 처리하므로 다른 시기에 이 엔진들의 액세스 권한을 받을 수 있습니다.

결론적으로, 우리는 GPT-4가 많은 응용 프로그램을 지원하여 사람들의 삶을 개선하는 데에 가치 있는 도구가 될 것을 기대합니다. 하지만 아직 해야 할 일이 많습니다. 우리는 이 모델을 발전시키기 위해 다양한 분야의 사람들이 모여 노력할 것을 기대합니다. 이 모델을 탐색하고 개선하며 기여하는 커뮤니티를 통해 이루어질 것입니다.

 

오늘은 Open AI의 GPT-4를 자세히 살펴보았습니다.


오늘은 Open AI의 GPT-4를 공식문서를 통해 자세히 살펴보았습니다.

 

핵심은 GPt-3.5보다 성능이 약간 상승했으며,

이제 이미지도 읽고 해석이 가능하다는 점입니다.

그리고 ChatGPT Plus를 유료구독하면 GPT-4를 쓸 수 있다는 것입니다. 

 

GPT-4를 통해 다양한 앱제작이나프로젝트를 진행보기를 추천드리며 이상으로 GPT-4 총정리 포스팅을 마칩니다.

반응형

댓글

추천 글