본문 바로가기
- 기타 -

GPT-3.5와 GPT-4의 성능 비교

by 채소아빠 2023. 3. 16.

1. GPT-4는 유료 구독 서비스인 '챗GPT 플러스'를 통해 사용할 수 있다고 한다.

2. 이미지와 글을 동시에 다루고 변호사시험과 생물학 올림피아드에서 각각 백분위 90, 99% 달성

미국 변호사 시험에서 하위 10%의 성적을 낸 GPT-3.5와 달리 상위 10% 점수를 받을 수 있을 정도로 언어 능력을 향상했다"라고 밝혔다. MMLU 밴치마크 테스트에서 인간 전문가 평균 89.8에 가까운 86.4점에 도달하여 이제 각 분야 전문가만큼 글을 이해하고 쓸 수 있게 되었다.

일례로 GPT-3.5는 미국 변호사 시험에서 400점 만점에 213점을 받았지만, GPT-4는 400점 만점에 298점을 받아 법률 지식을 한층 끌어올렸다. 미국 수학능력시험인 SAT의 경우 읽기 및 쓰기의 경우 800점 만점 기준 670점에서 710점으로 향상됐고, 특히 GPT-3.5의 약점으로 지적받은 수학 능력의 경우 590점에서 700점으로 크게 향상됐다. 의학지식 자가 진단도 정답률이 53%에서 75%로 향상됐다.

3. 한 번에 처리할 수 있는 단어량을 3000개에서 2만5000개로 8배 이상 확대

4. 오픈AI는 AI 보정, 사이버보안, 의학, 사회 안전 등 다양한 분야 전문가 50명과 함께 AI 모델이 위험한 답변을 하지 않도록 한층 강화한 안전 필터를 만들어 GPT-4에 적용했다. 이를 통해 AI 모델이 허용되지 않는 요청에 대한 답변에 응답하는 경향을 82% 줄였다.

5. AI가 사실과 다른 것을 마치 진실인 것처럼 강한 확신을 담아 답변하는 문제를 이전 모델보다 40% 높은 점수를 받아 환각 오류를 상당 부분 줄이는 데 성공했다.


생성형 인공지능(AI) 챗GPT 개발사인 오픈 AI가 14일(현지 시간) ‘인간 수준의 능력’을 갖춘 최신 인공지능 툴을 공개했다.

오픈 AI는 이날 대규모 AI 언어 모델(LLM)인 GPT-4를 출시했다고 밝혔다. 앞서 공개된 후 전 세계적으로 인기를 끈 챗GPT에 적용된 GPT-3.5의 업그레이드 버전이다.

오픈 AI는 GPT-4 모델이 많은 전문적인 시험에서 인간 수준의 능력을 보여줬다고 설명했다. GPT-4는 미국 모의 변호사 시험에서 90번째, 대학 입학 자격시험인 SAT 읽기와 수학 시험에서는 각각 93번째, 89번째 백분위수를 기록하며 상위 10% 수준의 성적을 냈다. 기존의 챗GPT의 경우 변호사 시험 등에서 하위 10% 정도의 성과를 기록했다. 오픈 AI 측은 “평소 대화에서는 GPT-3.5와 차이가 크게 나지 않을 수 있다”면서도 “더 미묘한 명령들을 처리할 수 있다”라고 말했다. 이어 “기존 버전보다 틀린 답이나 주제를 벗어난 답을 하는 경우가 적어 표준화된 시험에서 인간보다 더 좋은 성적을 낼 것”이라고 덧붙였다.



GPT-4의 또 다른 강점으로 사진에 기반한 질문에도 답변하는 이미지 입력 기능이 꼽혔다. 오픈AI는 해당 기능이 시각장애인에게 도움이 될 것으로 기대했다. 공개된 사례 중 하나로, 풍선에 무거운 추를 단 사진을 제시한 후 줄을 자르면 어떻게 될지 질문하자 GPT-4는 풍선이 하늘로 날아갈 것이란 답을 내놨다.

한편 마이크로소프트(MS)는 이날 새로운 검색 엔진 빙(Bing)에GPT-4를 탑재한다고 밝혔다. 오픈 AI는 GPT-4 모델을 학습시키기 위해 MS의 클라우드 서비스 애저를 활용했다. MS는 2019년부터 오픈 AI에 대한 투자를 단행해 왔으며, 올해 초 100억 달러(약 13조 원) 규모로 추정되는 투자를 발표했다.

다만 GPT-4 역시 이전 버전과 마찬가지로 허위 정보를 구분하지 못하는 한계를 가진 것으로 평가됐다. 오픈AI 측은 GPT-4 출시 전 여러 문제점을 확인하기 위해 스트레스 테스트를 진행했다며 “GPT-4가 편견이 담긴 혐오 발언 등 해로운 콘텐츠를 생성할 수 있으며, 화학 무기 개발 등 불법 행위에 악용될 정보 등을 제공할 수 있다”라고 우려했다.

댓글