생성형 AI가 세상을 바꿀 기세다. 이들 서비스는 몇 가지 간단한 명령어로 프레젠테이션을 만들고 비디오를 편집하고 글을 쓴다. 주요 생성형 AI 서비스가 얼마나 흥미로운지, 또 얼마나 사용자에게 도움이 될지 살펴보자.
ChatGPT의 성공으로 AI, 특히 생성형 AI에 대한 관심이 높다. Computerwoche는 생성형 AI에 관심 있는 독자라면 살펴봐야 할 몇 가지 툴과 서비스를 소개한다. 일부 서비스는 사용자의 일상 작업을 개선해 주며, 어떤 서비스는 그 자체로 멋지다.
에디터가 책상에 앉아 파리를 잡고 있는 모습을 그려달라고 했다. 달리가 이 프롬프트로 그린 그림이다.
비휴먼(bHuman) : 개인화된 비디오 대량 발송
마케팅이나 영업일을 하고 개인화된 비디오를 대량으로 전송하고 싶다면? 비휴먼은 이미 만들어진 동영상에 개별적인 음성이나 기타 요소를 통합해 발송할 수 있으며, 수신자는 메일이 자신에게만 온 것처럼 느낄 수 있다. 사용자는 기본적으로 고객, 파트너 또는 다른 소비자의 관심을 끌 산업별 기능별 템플릿을 사용할 수 있으며, 비디오 내에서 고객의 이름을 말하면 AI가 수신자를 자동으로 입력하도록 할 수도 있다.
이 서비스로 개인화된 대량 이메일을 보낼 수 있으며, 잠재고객 발굴이나 고객 지원 등의 여러 주제에 맞는 템플릿을 제공한다. 예를 들어, 전자상거래 업체가 “김영희님, 안녕하세요. 김영희 님의 장바구니가 차 있는데, 아직 구매를 완료하지 않으신 것 같습니다. …” 같은 내용의 비디오를 한 번만 제작해 수많은 고객에게 개인적으로 보낼 수 있다. 이런 동영상을 이메일 마케팅 설루션이나 고객의 이름이 있는 파일과 통합할 수 있으며, 사용자가 준비한 동영상에서 고객 이름 부분을 AI가 채워준다. 음성은 일반인은 구별할 수 없을 정도로 사용자의 음성을 재현한다.
브라우즈 AI(Browse AI) : 웹사이트 모니터링
이 웹 사이트 스크레이퍼 서비스는 사용자가 웹페이지의 변화를 지속적으로 모니터링하고 별도의 코딩이나 API를 만들지 않고도 콘텐츠를 추출할 수 있도록 해준다. 예를 들어 사전 구축된 봇을 사용해 링크드인의 회사 정보나 구인 정보, 구글 워크스페이스 마켓플레이의 앱 목록, 아마존의 특정 상품 검색 결과, 국가별 구글 트렌즈 등을 가져올 수 있다.
브라우즈 AI는 웹 사이트에서 변화하는 콘텐츠와 가격을 지속적으로 파악하는 데 매우 유용하다. 웹사이트가 API를 제공하지 않거나 잘못된 API를 제공해도 상관없다. 사용자는 데이터 추출에 필요한 API를 쉽게 만들 수 있으며, 이를 원하는 콘텐츠를 추적하는 데 사용할 수 있다.
ChatGPT : 지시대로 만드는 텍스트와 프로그램
긴 설명이 필요없는 서비스이다. ChatGPT는 스스로 다양한 종류의 텍스트를 쓰고 프로그램 코드를 작성할 수 있으며, 소프트웨어 코드를 디버깅할 때도 유용하다. ChatGPT가 간단한 질문에 빠르고 정확하게 대답하기 때문에 마이크로소프트는 자사의 검색엔진과 다양한 오피스 애플리케이션에 통합하고 있다.
클립드롭(ClipDrop) : 지능형 디자인 도우미
AI 툴 클립드롭은 스스로 “디자인 도우미”라고 설명한다. 노출이나 색상, 화질 등을 최적화해 이미지의 품질을 개선하며, 필요하면 배경도 없애 준다. 물론 클립드롭이 제공하는 기능은 그 이상으로 다양하다. 몇 번의 클릭만으로 개별 개체, 사람, 텍스트 또는 결함을 이미지에서 삭제할 수 있으며, 바꾸기 기능으로 사람이나 물체를 새 배경 앞에 투사할 수 있다. 클립드롭은 iOS와 안드로이드용 앱으로도 이용할 수 있다.
컴포즈 AI(Compose AI) : 이메일 응답
컴포즈 AI는 구글 크롬 브라우저용 확장 프로그램으로, 이메일에 더 빨리 응답할 수 있도록 지원하는 것이 핵심 기능이다. 동작 방식은 ChatGPT와 유사하다. 예를 들어, "지금은 바쁘지만 다음 주에 회신할 것이라고 볼프강에게 전해줘”라는 프롬프트에 대응해 컴포즈 AI가 정교한 회신 이메일을 작성한다. 또 시간이 지나면서 사용자의 메일 작성 방식까지 학습해 더 자연스러운 응답 메일을 작성한다.
달리(DALL-E2) : 설명에 따라 그림 그리기
ChatGPT만큼이나 잘 알려진 생성형 AI로, 사용자의 설명을 듣고 지시에 따라 새로운 그림을 그려준다. 물론 결과물은 프롬프트, 즉 사용자의 설명이 얼마나 정확하고 타당한지에 따라 달라진다. 또한, 사용자의 이미지를 업로드하고 달리에게 수정을 요청할 수도 있다.
데스크립트 오버덥 : 음성 복제
데스크립트 오버덥은 음성을 정확하게 복제하는 데 많이 사용되는 오디오 및 비디오 편집 소프트웨어 중 하나이다. 사실적인 음성 복제 기능은 다소 섬찟한데, 당장 할머니에게 전화해 곤경에 처한 손자를 가장해 돈을 요구하는 전화를 조심하라고 경고하고 싶은 수준이다.
사용자는 최소 10분 이상, 이상적으로는 30~180분 분량의 구어가 포함된 음성 녹음으로 AI를 훈련시켜야 한다. 모델이 완성되면 사용자는 화면에서 음성의 텍스트를 편집해 자신의 목소리, 즉 복제한 음성으로 읽을 수 있다. 학습에 사용한 데이터 외에 새로 추가된 단어는 듣는 사람이 차이를 느끼지 못하는 방식으로 음성의 텍스트에 통합된다. 또한 다양한 전문가 음성을 제공해 사용자의 동영상을 보다 전문적으로 만드는 데 활용할 수 있다.
D-ID.com : 실시간 비디오 제작
D-ID.com의 AI 지원 동영상 플랫폼인 크리에이티브 리얼리티(Creative Reality Studio)는 쉽고 빠르게 동영상을 제작하는 데 안성맞춤이다. 사용자는 실사 이미지나 일러스트로 그린 얼굴을 아바타로 선택하고, 듣기 좋은 목소리를 고른 다음, 아바타가 낭독할 텍스트를 입력하기만 하면 된다. 사용자 자신의 사진을 업로드해 말하는 동영상을 만들 수도 있다. 스테이블 디퓨전(Stable Diffusion)의 텍스트 투 이미지(Text to Image) 기능을 사용해 아바타를 직접 만들 수도 있다.
동영상은 MP4 형식으로 최대 5분 길이로 제공되는데, D-ID.com의 유료 API 사용자는 최대 10분 길이의 동영상을 만들 수 있다. 텍스트는 언어 파일로 업로드하거나 직접 입력할 수 있으며, GPT3 편집기를 사용해 자동으로 생성할 수도 있다. 현재 119개 언어를 지원한다.
듀러블(Durable) : 30초 만에 웹 사이트 구축
듀러블은 AI를 이용해 텍스트, 이미지 및 연락처 양식이 있는 간단한 웹사이트를 30초 만에 구축할 수 있다고 자신한다. 사용자가 비즈니스의 종류와 회사 또는 사람의 이름을 입력하면, AI는 적절한 이미지, 설명 및 요소로 웹 사이트 디자인을 제안한다. 또한 광고 메시지를 자동으로 생성하는 데 사용할 수 있는 구글 광고 작성기(Google Ad Writer) 같은 기능도 제공한다.
카이버(Kaiber) : 설명만 하면 만들어지는 애니메이션
카이버는 사용자의 입력 내용을 시각적 애니메이션으로 변환한다. 간단히 아이디어를 설명하고, 필요하다면 사진만 업로드하면 된다. 신규 등록 고객에게는 5개 정도의 비디오를 생성할 수 있는 50 크레디트를 무료로 제공하는데, 체험용으로 생성한 애니메이션은 워터마크가 표시된다. 상업적으로 사용할 수 있는 애니메이션을 생성하려면, 유료 표준 계정을 설정해야 한다.
미드저니(Midjourney) : 텍스트를 고품질 이미지로
아직은 베타 단계에 있는 미드저니도 텍스트 설명으로 이미지를 생성하는데, 종종 고품질의 사실적인 작품을 만들어 낸다. 몇 가지 전제조건이 있는데, 미드저니를 이용하려면 무료 커뮤니케이션 및 채팅 앱인 디스코드를 설치해야 한다. 또 생성된 이미지는 원칙적으로 다른 사용자가 리믹스할 수 있다. 배타적인 권리가 필요하다면, 유료 서비스를 이용해야 한다.
미드저니는 이미 여러 곳에서 그래픽 아티스트와 디자이너의 작업을 보완하거나 대체하는 데 사용되고 있다. 모든 생성형 AI의 활용 방안이 그렇듯이, 프롬프트가 결과물의 품질을 좌우한다. 프롬프트가 정확할수록 더 나은 결과를 얻을 수 있는데, 미드저니는 자사 웹 사이트에서 텍스트 프롬프트를 포함해 최고의 창작물을 전시하고 있다.
노션 AI(Notion AI) : 지능형 협업
많은 사용자가 워크스페이스 플랫폼 노션으로 프로젝트와 작업을 구성한다. 여기서 문서를 만들고, 데이터베이스를 관리하고, 프로젝트 성과를 추적하고, 다른 사람들과 협업할 수 있다. 노션 AI는 노션 플랫폼에 문서 작성, 편집, 브레인스토밍 및 요약을 도와주는 지능형 도우미를 제공한다. ChatGPT와 마찬가지로 노션 AI는 주제의 초안을 작성하고 특정 측면에 대한 아이디어 목록을 제공하며, 텍스트의 표현 및 문법을 확인하고 긴 텍스트를 번역 및 요약한다.
픽토리(Pictory) : 비디오 편집을 위한 만능 툴
AI 기반 영상 편집 툴 픽토리는 원치 않는 시퀀스나 컷을 잘라내는 등 비디오의 빠른 후처리에 유용하다. 버튼 하나 누르는 것으로 긴 비디오에서 하이라이트를 선택해 짧은 예고편은 만들 수 있으며, 릴패스트(Reelfast) 기술을 이용해 스크립트나 블로그 게시물도 비디오로 변환할 수 있다. 텍스트를 자동으로 비디오에 표시할 수 있으며, 필요한 경우 번역도 가능하다. 무엇보다도 픽토리는 사용자가 이 모든 작업을 특별한 기술 지식 없이 처리할 수 있도록 해준다.
Rewind.ai : 맥에서만 가능한 되감기 기능
리와인드(Rewind)는 “인생의 검색 엔진”이라고 광고하지만, 애플 맥에서만 사용할 수 있다는 제약이 있다. 사용자가 컴퓨터에서 수행하는 모든 작업은 맥 또는 외장 하드 드라이브에 기록되는데, 시청한 비디오부터 방문한 웹 사이트, 사용자를 위해 특별히 제작된 콘텐츠 등 모든 것을 타임라인에서 추적할 수 있다. 예를 들어 사용자는 3주 전 특정 시간에 무엇을 했는지 언제든지 확인할 수 있다.
리와인드는 기본 MacAPI 및 OCR을 사용해 화면의 내용을 분석하며, 줌이나 팀즈 회의도 필요에 따라 보존한다. 이를 위해 리와인드는 강력한 AI 기반 압축 기술을 사용하는데, 기록된 데이터는 최대 3,750배로 압축된다. 이런 방식으로 평범한 하드 드라이브에 몇 년치 컴퓨터 기록을 저장할 수 있다.
런웨이(Runway) : 손쉬운 동영상 조작
런웨이를 이용해 보면, 딥페이크에 대한 우려가 과장이 아니라는 것을 이해하게 된다. 런웨이는 다양한 AI 솔루션을 제공하는데, 지금은 비디오 편집을 위한 차세대 툴로 주목을 받고 있다. 런웨이를 사용하면 렌더링 된 요소를 자신의 이미지로 교체하거나 조작해 기존 비디오를 전혀 다른 비디오로 만들 수 있다.
런웨이는 조만간 새로운 생성형 AI 모델인 젠1(Gen-1)을 출시할 계획인데, 새 모델은 확산 모델을 활용해 비디오 합성을 더 높은 수준으로 개선하는 것이 목표이다. 사용자는 서로 다른 여러 모드를 이용해 취향에 따라 비디오를 조작할 수 있다.
스테이블 디퓨전(Stable Diffusion) : PC에서 이용하는 텍스트 투 이미지
스테이블 디퓨전은 딥러닝 기반의 텍스트 투 이미지 생성기이다. 달리나 미드저니와 마찬가지로 텍스트설명을 기반으로 이미지를 생성한다. 하지만 달리나 미드저니가 클라우드를 통해서만 액세스 할 수 있는 것과 달리, 스테이블 디퓨전은 코드와 무료로 사용할 수 있는 모델을 사용자의 하드웨어에서 직접 실행할 수 있다. 그래픽 메모리가 8GB 이상인 GPU만 있으면 된다. 무엇보다도 스테이블 디퓨전은 훨씬 저렴하고 학습용으로 유명인의 이미지나 노골적인 콘텐츠를 더 자유롭게 활용할 수 있다. 이미지 해상도도 1024x1024픽셀로 달리보다 더 높다.
신세시아(Synthesia) : 전문가를 위한 빠른 비디오 제작
예를 들어 무언가를 설명하기 위해 간단한 비디오를 빠르게 만들고 싶다면, 신세시아 웹사이트에서 유료아바타 중 하나를 선택하고 원하는 텍스트를 입력하면 아바타가 설명을 시작한다. 연 1,000달러를 내면 자신의 얼굴로 만든 개인화된 아바타를 이용할 수 있는데, 이 아바타 역시 10~15분 정도면 만들고 훈련할 수 있다.
신세시아는 셔터스톡(Shutterstock)의 이미지와 그래픽, 배경 음악, MP4 비디오까지 통합할 수 있어 비디오 형식의 프레젠테이션에 안성맞춤이다. 다국어 사용도 지원하며, 라이선스 비용은 1인당 월 26달러부터 시작한다.
토움(Tome) : 버튼 하나로 만드는 프리젠테이션
지친 상태에서 프레젠테이션을 만들어야 한다면, 토움에게 일을 맡겨보자. 템플릿을 선택하고 가능한 한 정확하게 프롬프트를 입력하면, 마치 마법처럼 프레젠테이션이 화면에 나타납니다(현재는 영어만 지원). 이 툴은 오픈 AI의 ChatGPT를 사용해 텍스트를 생성하고 달리를 사용해 이미지를 생성한다. 제작 후에 사용자가 편집 툴을 이용해 프리젠테이션을 맞춤형으로 수정할 수 있다. 어쨌든 Tome.ai는 기본 프리젠테이션을 디자인할 수 있으며, 사용자는 작업 시간을 아낄 수 있다.
발리(VALL-E) : 3초 만에 음성 복제
마이크로소프트의 AI 모델 발리는 오픈AI의 달리에서 따온 이름이 틀림없지만, 이미지 대신 목소리를 흉내 낸다. 특히 발리는 학습 템플릿으로 단 몇 초의 음성 샘플만 있으면 된다. 이 도구는 약 6만 시간의 영어 언어 데이터로 학습했으며, 화자의 어조와 감정도 흉내 낼 수 있다. 발리는 아직 일반에 공개되지 않았다. 초기 보고서에 따르면, 결과의 품질은 교육 데이터의 범위에 따라 달라진다.
'- 기타 -' 카테고리의 다른 글
역대 전세계 영화 흥행 기록(물가상승률 적용) (0) | 2023.02.28 |
---|---|
ChatGPT를 더 원하는 대로 쓰는법(Top-p 파라미터) (0) | 2023.02.27 |
영화 타이타닉 최종 후보였던 배우들 (0) | 2023.02.27 |
비극의 실미도, 684 북파공작원 부대 창설부터 최후까지 전말 (0) | 2023.02.27 |
세계에서 가장 비싼 총기 TOP 10 (0) | 2023.02.27 |
댓글