この1年で生成AIの開発がとても進んでいますね。今回は私も利用させて頂いている「Gemini」についてご紹介します。Geminiの特徴、バージョン、使用方法、料金体系、そして他のAIモデルとの比較について確認して行きます。
Geminiとは?
Googleの新しいAIモデル「Gemini」は、テキスト、音声、画像、動画など多種類の情報を瞬時に理解し、組み合わせて推論・処理できる「マルチモーダルモデル」です。世界で広く利用されている主要なベンチマークで高い成績を出しており、「GPT-3.5」を上回るパフォーマンスを持つとされています。
Geminiのバージョン
Geminiには、異なるデバイスでの使用に適した3種類のバージョンが存在します。
- Gemini Pro: Googleのデータセンターで実行される最先端のバージョン。AIチャットボット「Bard」の最新バージョンで使用されています。
- Gemini API: 開発者向けのAPIで、Google AI StudioやVertex AIを介して利用可能です。
- Gemini Pro Vision: テキストと画像を入力として受け入れ、テキスト出力を行うモデルです。
使用方法
Gemini Proは、Google AI StudioまたはVertex AIのGemini APIを介して利用可能です。Google AI Studioは、1分あたり60リクエストの無料枠を提供し、簡単な操作で使い始めることができます。
料金体系
Gemini Pro APIは、2024年初頭まで無料で利用出来る様です。その後の料金は、テキスト1000文字入力につき$0.00025、1画像入力ごとに$0.0025、1000文字出力ごとに$0.0005となっていく予定です。
Gemini Pro VisionとGPT-4Vの比較
Gemini Pro VisionとGPT-4Vの比較では、Gemini Pro Visionは画像内の物体の詳細な情報を提供するのに対し、GPT-4Vは画像全体の様子や雰囲気について詳細な説明を行うという違いがあります。ただし、画像認識の精度に関してはGPT-4Vの方が優れているとの指摘もあります。
私が比較使用して感じたのは、AIチャットボットとしては他のAIの質問の回答より相対的に文章が詳細かつ早い印象を受けました。とても頼れるAIモデルだと思います。
今後の展望
今後のGemini Proのアップデートや、より高性能なバージョンであるGemini Ultraのリリースが予定されています。また、Googleの他のサービスにも組み込まれることが期待されており、使用の幅が広がることが予測されます。
まとめ
Gemini Proは、そのマルチモーダル性能と手頃な料金体系により、幅広い分野での使用が期待されています。現在の無料期間を活用して、この新しいAIモデルの可能性を探るのも良いでしょう。また、今後のGeminiのアップデートや新バージョンのリリースにも注目が集まります。
google Gemini https://deepmind.google/technologies/gemini/#introduction