Google Gemini: 새로운 생성 AI 플랫폼에 대해 알아야 할 모든 것 |테크크런치

2024-01-12 07:59:02

Google의 차세대 생성 AI 모델 제품군인 Gemini에 대한 소란이 무엇인지 궁금하십니까?다음은 최신 정보를 얻을 수 있는 편리한 정보입니다.

illustration featuring Google's Bard logo

이미지 크레딧:테크크런치

Google은 최근 대대적으로 데뷔한 새로운 생성 AI 플랫폼인 Gemini를 통해 새로운 물결을 일으키려고 노력하고 있습니다.그러나 Gemini는 몇 가지 측면에서 유망한 것처럼 보이지만 다른 측면에서는 부족합니다.그렇다면 쌍둥이자리는 무엇입니까?어떻게 사용할 수 있나요?그리고 그것이 경쟁에서 어떤 역할을 합니까?

최신 Gemini 개발 내용을 더 쉽게 따라갈 수 있도록 이 편리한 가이드를 준비했습니다. 이 가이드는 새로운 Gemini 모델 및 기능이 출시될 때마다 계속 업데이트됩니다.

쌍둥이자리란 무엇인가요?

Gemini는 Google의 것입니다.오랫동안 약속된, Google의 AI 연구소인 DeepMind와 Google Research에서 개발한 차세대 생성 AI 모델 제품군입니다.세 가지 맛이 있습니다:

제미니 울트라, 플래그십 Gemini 모델
제미니 프로, '라이트' 쌍둥이자리 모델
제미니 나노, 다음과 같은 모바일 장치에서 실행되는 더 작은 '증류' 모델입니다.픽셀 8 프로

모든 Gemini 모델은 기본적으로 다중 모드로 학습되었습니다. 즉, 단순한 텍스트 이상의 기능을 사용하고 작업할 수 있습니다.그들은 다양한 오디오, 이미지, 비디오, 대규모 코드베이스 세트 및 다양한 언어로 된 텍스트에 대해 사전 훈련을 받고 미세 조정되었습니다.

이는 Gemini를 Google 자체의 대규모 언어 모델과 같은 모델과 차별화하는 것입니다.LaMDA, 이는 텍스트 데이터에만 학습되었습니다.LaMDA는 텍스트 이외의 것(예: 에세이, 이메일 초안 등)을 이해하거나 생성할 수 없습니다. 하지만 Gemini 모델의 경우에는 그렇지 않습니다.이미지, 오디오, 기타 양식을 이해하는 능력은 여전히 제한되어 있지만 없는 것보다는 낫습니다.

Bard와 Gemini의 차이점은 무엇인가요?

이미지 크레딧:Google

구글, 증명하다다시 한 번브랜딩 능력이 부족하다는 점은 처음부터 Gemini가 Bard와 별개이고 구별된다는 점을 분명히 밝히지 않았습니다.Bard는 단순히 특정 Gemini 모델에 액세스할 수 있는 인터페이스입니다. Gemini 및 기타 GenAI 모델용 앱이나 클라이언트로 생각하면 됩니다.반면 Gemini는 앱이나 프런트엔드가 아닌 모델 제품군입니다.독립형 Gemini 경험은 없으며 앞으로도 없을 것입니다.OpenAI의 제품과 비교하자면 Bard는채팅GPT, OpenAI는 인기 있는 대화형 AI 앱이며 Gemini는 이를 지원하는 언어 모델에 해당합니다. ChatGPT의 경우 GPT-3.5 또는 4입니다.

덧붙여서, Gemini는 또한 완전히 독립되어 있습니다.이미지-2, 회사의 전반적인 AI 전략에 적합할 수도 있고 적합하지 않을 수도 있는 텍스트-이미지 모델입니다.걱정하지 마세요. 이 문제로 혼란스러워하는 사람은 당신뿐만이 아닙니다!

쌍둥이자리는 무엇을 할 수 있나요?

Gemini 모델은 다중 모드이기 때문에 이론적으로 음성 기록부터 이미지 및 비디오 캡션 작성, 예술 작품 생성에 이르기까지 다양한 작업을 수행할 수 있습니다.이러한 기능 중 아직 제품 단계에 도달한 기능은 거의 없지만(자세한 내용은 나중에 설명) Google은 머지 않은 미래의 어느 시점에 이 모든 기능과 그 이상을 약속합니다.

물론 회사의 말을 그대로 받아들이는 것은 다소 어렵습니다.

Google심각하게 미달배송됨원래 Bard 출시와 함께.그리고 최근에는 깃털이 휘날리기도 했어요Gemini의 능력을 보여주겠다고 주장하는 동영상과 함께그것은 심하게 조작된 것으로 밝혀졌고 어느 정도 열망적이었습니다.쌍둥이자리~이다, 기술 대기업의 공로로 오늘날 어떤 형태로든 제공되지만 다소 제한된 형태입니다.

하지만 Google이 주장에 대해 어느 정도 진실을 밝힌다고 가정하면, Gemini 모델의 다양한 계층이 출시된 후 수행할 수 있는 작업은 다음과 같습니다.

제미니 울트라

다른 모델의 기반이 되는 '기초' 모델인 Gemini Ultra를 사용해 본 사람은 거의 없으며, 지금까지는 소수의 Google 앱 및 서비스를 사용하는 '선택된 고객'에 불과합니다.Google의 가장 큰 모델이 보다 광범위하게 출시되는 올해 말까지는 이러한 상황이 변하지 않을 것입니다.Ultra에 관한 대부분의 정보는 Google이 주도하는 제품 데모에서 가져온 것이므로 가볍게 받아들이는 것이 가장 좋습니다.

Google은 Gemini Ultra가 물리학 숙제와 같은 일을 돕고, 워크시트에서 문제를 단계별로 해결하고, 이미 입력된 답변에서 발생할 수 있는 실수를 지적하는 데 사용될 수 있다고 말합니다.Gemini Ultra는 특정 문제와 관련된 과학 논문을 식별하는 것과 같은 작업에도 적용될 수 있습니다. Google은 해당 논문에서 정보를 추출하고 차트를 다시 만드는 데 필요한 공식을 생성하여 차트를 '업데이트'한다고 말합니다.더 최근 데이터.

Gemini Ultra는 앞에서 언급한 것처럼 기술적으로 이미지 생성을 지원합니다.하지만 Google에 따르면 이 기능은 출시 시 모델의 제품화된 버전에 적용되지 않을 것입니다. 아마도 메커니즘이 다음과 같은 앱보다 더 복잡하기 때문일 것입니다.채팅GPT이미지를 생성합니다.메시지를 이미지 생성기에 공급하는 대신(예:DALL-E 3, ChatGPT의 경우) Gemini는 중간 단계 없이 기본적으로 이미지를 출력합니다.

제미니 프로

Gemini Ultra와 달리 Gemini Pro는 오늘 공개적으로 제공됩니다.하지만 혼란스럽게도 그 기능은 사용 위치에 따라 달라집니다.

Google은 Gemini Pro가 텍스트 전용 형식으로 처음 출시된 Bard에서 이 모델이 LaMDA보다 추론, 계획 및 이해 기능이 향상되었다고 말합니다.독립적인공부하다Carnegie Mellon과 BerriAI 연구원들은 Gemini Pro가 OpenAI보다 실제로 더 낫다는 사실을 발견했습니다.GPT-3.5더 길고 복잡한 추론 체인을 처리하는 데 있습니다.

그러나 연구에 따르면 모든 대규모 언어 모델과 마찬가지로 Gemini Pro는 특히 여러 자리와 관련된 수학 문제로 어려움을 겪고 있습니다.사용자는 많은 예를 발견했습니다나쁜 추론과 실수.누가 최신 오스카상을 수상했는지와 같은 간단한 쿼리에 대해 많은 사실적 오류가 발생했습니다.Google은 개선을 약속했지만 언제 출시될지는 확실하지 않습니다.

Gemini Pro는 텍스트를 입력으로 받아들이고 텍스트를 출력으로 생성하는 Google의 완전 관리형 AI 개발자 플랫폼인 Vertex AI의 API를 통해서도 사용할 수 있습니다.추가 엔드포인트인 Gemini Pro Vision은 텍스트를 처리할 수 있습니다.그리고사진 및 비디오를 포함한 이미지 및 OpenAI 라인에 따른 출력 텍스트비전이 포함된 GPT-4모델.Vertex AI에서 Gemini Pro 사용

이미지 크레딧:쌍둥이자리Vertex AI 내에서 개발자는 미세 조정 또는 '접근' 프로세스를 사용하여 Gemini Pro를 특정 컨텍스트 및 사용 사례에 맞게 맞춤설정할 수 있습니다.Gemini Pro는 특정 작업을 수행하기 위해 외부 타사 API에 연결할 수도 있습니다.

2024년 초... Vertex 고객은 Gemini Pro를 활용하여 맞춤형 대화 음성 및 채팅 에이전트(예: 챗봇)를 지원할 수 있습니다.

또한 Gemini Pro는 Vertex AI에서 검색 요약, 추천 및 답변 생성 기능을 구동하는 옵션이 되어 다양한 소스(예: OneDrive, Salesforce)의 양식(예: PDF, 이미지)에 걸쳐 문서를 그려 쿼리를 충족합니다.

이미지 크레딧:쌍둥이자리

앱 및 플랫폼 개발자를 위한 Google의 웹 기반 도구인 AI Studio에는 Gemini Pro를 사용하여 자유 형식, 구조화된 채팅 프롬프트를 생성하기 위한 워크플로가 있습니다.개발자는 Gemini Pro와 Gemini Pro Vision 엔드포인트 모두에 액세스할 수 있으며 모델 온도를 조정하여 출력의 창의적 범위를 제어하고 예를 제공하여 톤과 스타일 지침을 제공하고 안전 설정을 조정할 수도 있습니다.

제미니 나노

Gemini Nano는 Gemini Pro 및 Ultra 모델보다 훨씬 작은 버전이며 작업을 서버로 보내는 대신 (일부) 휴대폰에서 직접 실행할 수 있을 만큼 효율적입니다.지금까지 Pixel 8 Pro에서는 녹음기 요약과 Gboard의 스마트 답장이라는 두 가지 기능을 지원합니다.

사용자가 버튼을 눌러 오디오를 녹음하고 복사할 수 있는 녹음기 앱에는 녹음된 대화, 인터뷰, 프레젠테이션 및 기타 내용에 대한 Gemini 기반 요약이 포함되어 있습니다.사용자는 신호나 Wi-Fi 연결을 사용할 수 없는 경우에도 이러한 요약을 볼 수 있으며 개인정보 보호를 위해 이 과정에서 휴대전화 외부로 데이터가 전송되지 않습니다.

Gemini Nano는 Google의 키보드 앱인 Gboard에도 있습니다.개발자 미리보기.여기에는 메시지 앱에서 대화할 때 다음에 하고 싶은 말을 제안하는 데 도움이 되는 스마트 답장이라는 기능이 탑재되어 있습니다.이 기능은 처음에는 WhatsApp에서만 작동하지만 2024년에는 더 많은 앱에 적용될 것이라고 Google은 말합니다.

Gemini가 OpenAI의 GPT-4보다 나은가요?

쌍둥이자리 가족이 어떻게 지내는지 알 방법이 없어요정말Google은 올해 후반에 Ultra를 출시할 때까지 계속해서 노력했지만 회사는 일반적으로 OpenAI의 GPT-4인 최첨단 기술에 대한 개선을 주장했습니다.

Google은 Gemini Ultra가 대규모 언어 모델 연구 및 개발에 사용되는 널리 사용되는 학술 벤치마크 32개 중 30개에서 현재의 최첨단 결과를 능가한다고 주장하면서 벤치마크에서 Gemini의 우월성을 여러 차례 강조했습니다.회사에서는 Gemini Pro가 GPT-3.5보다 콘텐츠 요약, 브레인스토밍, 글쓰기 등의 작업에 더 능숙하다고 말합니다.

그러나 벤치마크가 실제로 더 나은 모델을 나타내는지 여부에 대한 질문을 제쳐두고 Google이 지적하는 점수는 OpenAI의 해당 모델보다 약간 더 나은 것으로 보입니다.그리고 앞서 언급한 대로 초기 인상이 좋지 않은 경우도 있었습니다.사용자그리고학자Gemini Pro는 기본적인 사실을 틀리는 경향이 있고, 번역에 어려움을 겪고, 잘못된 코딩 제안을 제공한다는 점을 지적합니다.

Gemini의 가격은 얼마입니까?

Gemini Pro는 Bard와 현재로서는 AI Studio 및 Vertex AI에서 무료로 사용할 수 있습니다.

그러나 Gemini Pro가 Vertex에서 미리 보기를 종료하면 모델 비용은 문자당 $0.0025이고 출력 비용은 문자당 $0.00005입니다.Vertex 고객은 1,000자(약 140~250단어)당 비용을 지불하고 Gemini Pro Vision과 같은 모델의 경우 이미지당 비용($0.0025)을 지불합니다.

500단어 기사에 2,000자가 포함되어 있다고 가정해 보겠습니다.해당 기사를 Gemini Pro로 요약하는 데는 5달러의 비용이 듭니다.한편, 생성 비슷한 길이의 기사 비용은 $0.1입니다.

Gemini를 어디에서 시험해 볼 수 있나요?

제미니 프로

Gemini Pro를 가장 쉽게 경험할 수 있는 곳은음유 시인.Pro의 정밀 조정 버전은 현재 미국에서 영어로 텍스트 기반 Bard 쿼리에 응답하고 있으며, 추가 언어와 지원 국가가 곧 출시될 예정입니다.

제미니 프로는 역시얻기 쉬운API를 통해 Vertex AI에서 미리보기로 제공됩니다.API는 당분간 '한도 내에서' 무료로 사용할 수 있으며 유럽을 포함한 38개 언어 및 지역은 물론 채팅 기능, 필터링 등의 기능도 지원합니다.

다른 곳에서는 Gemini Pro를 사용할 수 있습니다.설립하다AI스튜디오에서이 서비스를 사용하여 개발자는 프롬프트와 Gemini 기반 챗봇을 반복한 다음 API 키를 얻어 앱에서 사용하거나 더 완전한 기능을 갖춘 IDE로 코드를 내보낼 수 있습니다.

개발자를 위한 Duet AI, 코드 완성 및 생성을 위한 Google의 AI 기반 지원 도구 제품군은 앞으로 몇 주 안에 Gemini 모델을 사용하기 시작할 예정입니다.그리고 Google은 2024년 초 같은 시기에 Chrome 및 Firebase 모바일 개발 플랫폼용 개발 도구에 Gemini 모델을 도입할 계획입니다.

제미니 나노

Gemini Nano는 Pixel 8 Pro에 탑재되어 있으며 향후 다른 기기에서도 지원될 예정입니다.Android 앱에 모델을 통합하는 데 관심이 있는 개발자는 다음을 수행할 수 있습니다.가입하다Â 미리 살펴보세요.

최신 개발 상황을 이 게시물에 반영하겠습니다.