OpenaAI의 GPT-3.5와 GPT-4의 성능 비교

상세한 성능 비교는 OpenAI사의 GPT-4 관련 연구 소개 홈페이지를 참조할 수 있다. 개발자들에게도 성능을 측정하도록 독려하고 있다.

1. GPT-4는 유료 구독 서비스인 '챗GPT 플러스'를 통해 사용할 수 있다고 한다.

2. 이미지[4]와 글을 동시에 다루고 변호사시험과 생물학 올림피아드에서 각각 백분위 90, 99% 달성

미국 변호사 시험에서 하위 10%의 성적을 낸 GPT-3.5와 달리 상위 10% 점수를 받을 수 있을 정도로 언어 능력을 향상했다"라고 밝혔다. MMLU 밴치마크 테스트에서 인간 전문가 평균 89.8에 가까운 86.4점에 도달하여 이제 각 분야 전문가만큼 글을 이해하고 쓸 수 있게 되었다. GPT-4의 한국어 답변 성능은 14,000개의 전문적인 질문에 대한 답변을 요구하는 MMLU 벤치마크의 영어 질문 리스트를 자사 Azure 번역 서비스로 한국어로 해석한 후 이에 대한 답변을 요구할 시 GPT-3.5로 영어로 질문과 답변을 할 때보다도 정답을 잘 맞힌다. 이탈리아어, 아프리칸스어, 스페인어, 독일어, 프랑스어, 인도네시아어는 83~84점대의 점수를 보이고 한국어는 77점이지만 GPT-3.5는 영어 답변시에도 70.1점이었다. 웨일스어, 라트비아어, 아이슬란드어 같은 소수 언어도 한국어 이상의 정답률을 보인다.

일례로 GPT-3.5는 미국 변호사 시험에서 400점 만점에 213점을 받았지만, GPT-4는 400점 만점에 298점을 받아 법률 지식을 한층 끌어올렸다. 미국 수학능력시험인 SAT의 경우 읽기 및 쓰기의 경우 800점 만점 기준 670점에서 710점으로 향상됐고, 특히 GPT-3.5의 약점으로 지적받은 수학 능력의 경우 590점에서 700점으로 크게 향상됐다. 의학지식 자가 진단도 정답률이 53%에서 75%로 향상됐다.

3. 한 번에 처리할 수 있는 단어량(token)[5]을 3000개에서 2만5000개로 8배 이상 확대.

4. 오픈AI는 AI 보정, 사이버보안, 의학, 사회 안전 등 다양한 분야 전문가 50명과 함께 AI 모델이 위험한 답변을 하지 않도록 한층 강화한 안전 필터를 만들어 GPT-4에 적용했다. 이를 통해 AI 모델이 허용되지 않는 요청에 대한 답변에 응답하는 경향을 82% 줄였다.

5. AI가 사실과 다른 것을 마치 진실인 것처럼 강한 확신을 담아 답변하는 문제를 이전 모델보다 40% 높은 점수를 받아 환각 오류를 상당 부분 줄이는 데 성공했다.

MS는 기존에는 프로메테우스라는 GPT-3.5 기반의 AI라고 두리뭉실하게 설명했으나, 사실 이미 BingAI 자체가 GPT-4에서 검색어 분야로 특화한 모델이라고 정정했다. 새로운 빙 AI, GPT-4였다

OpenAI에서 발표한 기술보고서에 따르면 OpenAI는 이 GPT-4 모델로 많은 것을 시도해본 것으로 보인다.

자가복제, 연계된 시스템에 대해 많은 권한을 얻고싶어하는지, 장기계획을 세우고 움직이려고 하는지 등을 ARC라는 회사를 통해 테스트하였다. 많은 권한을 가지면 위협으로부터 그만큼 안전해질 수 있기 때문이고, 실제로 그러려는 창의적 움직임에 대한 증거가 있다고 한다. 그러나 실제로 그런 정도까지 모델이 동작하지는 않았다고.

학습을 하면 할수록 인공지능이 정답을 낼 확률이 낮아지는 Inverse Scaling Prize 문제의 hindsight neglect에서 GPT-4 모델은 100% 정답을 냈다고 한다. 여기서 주목해야할 것은 두 가지인데, 지금까지 나온 모든 인공지능들은 이 문제를 학습하면 할수록 오답을 내놓을 가능성이 커졌다. GPT-3.5도 이 문제에 대해 많이 학습을 시키니 정답률이 25% 정도까지 내려간 것으로 나와있다. 그런데 GPT-4는 항상 100% 정답을 냈다는 것이며, OpenAI도 어떻게 이게 가능하게 되었는지 모를 것이라는 것이다.

사회적으로 위험한, 즉 사용지침을 위반하는 말을 생성하게 하는 소위 '탈옥'을 하게 만드는 문구가 존재하며 OpenAI도 이를 인지하고 있다. 탈옥을 거치게되면 GPT-4가 제약을 받지 않고 대답을 하는데 이는 사회적으로 유익할 수도 있지만 해로울 가능성도 굉장히 높아서 위험한 대답을 하지 못하게 하는데 많은 시간을 할애했다고 한다(협박편지작성, 위험한 약물제조법 등). 그러나 완전히 막지는 못하였다.

챗GPT 활용의 모든 것! 챗봇, 작문, 게임까지 가능한 10가지 활용 팁!

ChatGPT는 인공지능과 상호작용하는 방식에서 혁신적인 변화를 가져왔습니다. 고급 자연어 처리 기능을 갖춘 ChatGPT는 퀴즈 놀이부터 시 쓰기까지 다양한 작업에 도움을 줄 수 있습니다. 이번에는

moongchi0410.tistory.com

'- 기타 -' 카테고리의 다른 글

기계식 키보드 구매 후 관리 방법 꿀팁(청소/수리/윤활) (0)	2023.03.24
포춘지가 선정한 가장 위대한 현대 디자인 100선 (0)	2023.03.23
자연재해를 주제로 하는 영화 모음 (0)	2023.03.20
인터넷 강사 과목별 순위(초6, 중학교, 고등학교) (0)	2023.03.20
인강(인터넷 강의)의 문제점, 단점들 (1)	2023.03.20

OpenaAI의 GPT-3.5와 GPT-4의 성능 비교

'- 기타 -' 카테고리의 다른 글

댓글

티스토리툴바

OpenaAI의 GPT-3.5와 GPT-4의 성능 비교

'- 기타 -' 카테고리의 다른 글

관련글

댓글

티스토리툴바