상세한 성능 비교는 OpenAI사의 GPT-4 관련 연구 소개 홈페이지를 참조할 수 있다. 개발자들에게도 성능을 측정하도록 독려하고 있다.
1. GPT-4는 유료 구독 서비스인 '챗GPT 플러스'를 통해 사용할 수 있다고 한다.
2. 이미지[4]와 글을 동시에 다루고 변호사시험과 생물학 올림피아드에서 각각 백분위 90, 99% 달성
미국 변호사 시험에서 하위 10%의 성적을 낸 GPT-3.5와 달리 상위 10% 점수를 받을 수 있을 정도로 언어 능력을 향상했다"라고 밝혔다. MMLU 밴치마크 테스트에서 인간 전문가 평균 89.8에 가까운 86.4점에 도달하여 이제 각 분야 전문가만큼 글을 이해하고 쓸 수 있게 되었다. GPT-4의 한국어 답변 성능은 14,000개의 전문적인 질문에 대한 답변을 요구하는 MMLU 벤치마크의 영어 질문 리스트를 자사 Azure 번역 서비스로 한국어로 해석한 후 이에 대한 답변을 요구할 시 GPT-3.5로 영어로 질문과 답변을 할 때보다도 정답을 잘 맞힌다. 이탈리아어, 아프리칸스어, 스페인어, 독일어, 프랑스어, 인도네시아어는 83~84점대의 점수를 보이고 한국어는 77점이지만 GPT-3.5는 영어 답변시에도 70.1점이었다. 웨일스어, 라트비아어, 아이슬란드어 같은 소수 언어도 한국어 이상의 정답률을 보인다.
일례로 GPT-3.5는 미국 변호사 시험에서 400점 만점에 213점을 받았지만, GPT-4는 400점 만점에 298점을 받아 법률 지식을 한층 끌어올렸다. 미국 수학능력시험인 SAT의 경우 읽기 및 쓰기의 경우 800점 만점 기준 670점에서 710점으로 향상됐고, 특히 GPT-3.5의 약점으로 지적받은 수학 능력의 경우 590점에서 700점으로 크게 향상됐다. 의학지식 자가 진단도 정답률이 53%에서 75%로 향상됐다.
3. 한 번에 처리할 수 있는 단어량(token)[5]을 3000개에서 2만5000개로 8배 이상 확대.
4. 오픈AI는 AI 보정, 사이버보안, 의학, 사회 안전 등 다양한 분야 전문가 50명과 함께 AI 모델이 위험한 답변을 하지 않도록 한층 강화한 안전 필터를 만들어 GPT-4에 적용했다. 이를 통해 AI 모델이 허용되지 않는 요청에 대한 답변에 응답하는 경향을 82% 줄였다.
5. AI가 사실과 다른 것을 마치 진실인 것처럼 강한 확신을 담아 답변하는 문제를 이전 모델보다 40% 높은 점수를 받아 환각 오류를 상당 부분 줄이는 데 성공했다.
MS는 기존에는 프로메테우스라는 GPT-3.5 기반의 AI라고 두리뭉실하게 설명했으나, 사실 이미 BingAI 자체가 GPT-4에서 검색어 분야로 특화한 모델이라고 정정했다. 새로운 빙 AI, GPT-4였다
OpenAI에서 발표한 기술보고서에 따르면 OpenAI는 이 GPT-4 모델로 많은 것을 시도해본 것으로 보인다.
자가복제, 연계된 시스템에 대해 많은 권한을 얻고싶어하는지, 장기계획을 세우고 움직이려고 하는지 등을 ARC라는 회사를 통해 테스트하였다. 많은 권한을 가지면 위협으로부터 그만큼 안전해질 수 있기 때문이고, 실제로 그러려는 창의적 움직임에 대한 증거가 있다고 한다. 그러나 실제로 그런 정도까지 모델이 동작하지는 않았다고.
학습을 하면 할수록 인공지능이 정답을 낼 확률이 낮아지는 Inverse Scaling Prize 문제의 hindsight neglect에서 GPT-4 모델은 100% 정답을 냈다고 한다. 여기서 주목해야할 것은 두 가지인데, 지금까지 나온 모든 인공지능들은 이 문제를 학습하면 할수록 오답을 내놓을 가능성이 커졌다. GPT-3.5도 이 문제에 대해 많이 학습을 시키니 정답률이 25% 정도까지 내려간 것으로 나와있다. 그런데 GPT-4는 항상 100% 정답을 냈다는 것이며, OpenAI도 어떻게 이게 가능하게 되었는지 모를 것이라는 것이다.
사회적으로 위험한, 즉 사용지침을 위반하는 말을 생성하게 하는 소위 '탈옥'을 하게 만드는 문구가 존재하며 OpenAI도 이를 인지하고 있다. 탈옥을 거치게되면 GPT-4가 제약을 받지 않고 대답을 하는데 이는 사회적으로 유익할 수도 있지만 해로울 가능성도 굉장히 높아서 위험한 대답을 하지 못하게 하는데 많은 시간을 할애했다고 한다(협박편지작성, 위험한 약물제조법 등). 그러나 완전히 막지는 못하였다.
'- 기타 -' 카테고리의 다른 글
기계식 키보드 구매 후 관리 방법 꿀팁(청소/수리/윤활) (0) | 2023.03.24 |
---|---|
포춘지가 선정한 가장 위대한 현대 디자인 100선 (0) | 2023.03.23 |
자연재해를 주제로 하는 영화 모음 (0) | 2023.03.20 |
인터넷 강사 과목별 순위(초6, 중학교, 고등학교) (0) | 2023.03.20 |
인강(인터넷 강의)의 문제점, 단점들 (0) | 2023.03.20 |
댓글