ChatGPTのGPT-4o（ジーピーティーフォーオー/オムニ）とは？使い方・できること

起業直後の全法人に届く
起業･資金調達国内No.1メディア

ログイン

ログアウト

ホーム >

起業 >

起業家向けニュース >

ChatGPTのGPT-4o（ジーピーティーフォーオー/オムニ）とは？使い方・できること

更新日：2024年5月23日

起業家向けニュース

ChatGPTのGPT-4o（ジーピーティーフォーオー/オムニ）とは？読み方は？無料で使える？料金は？

ChatGPTの進化が止まりません。ChatGPTの開発元である米OpenAI社が、2024年5月13日にChatGPTの新モデル、「GPT-4o（ジーピーティーフォーオー/オムニ」を発表しました。その驚異的な性能が、連日X（旧Twitter）で話題に上っています。

では、ChatGPTは、新モデル「GPT-4o」になり、何が変わったのか、できるようになったことは何かなど、使い方もあわせてご紹介します。

※この記事を書いている「創業手帳」ではさらに充実した情報を分厚い「創業手帳・印刷版」でも解説しています。無料でもらえるので取り寄せしてみてください

この記事の目次

ChatGPTのGPT-4o（ジーピーティーフォーオー/オムニ）とは？読み方は？無料で使える？料金は？
ChatGPTのGPT-4o（ジーピーティーフォーオー/オムニ）とは？他の生成AIと比較した性能は？読み方は？
ChatGPT-4o（ジーピーティーフォーオー/オムニ）は無料で使える？料金は？
ChatGPT-4o（ジーピーティーフォーオー/オムニ）の使い方
そもそもChatGPTとは？
ChatGPTのGPT-4とGPT-4o（ジーピーティーフォーオー/オムニ）は何が違う？できること・ビジネス活用事例
GPT-4o（ジーピーティーフォーオー/オムニ）を活用しましょう

ChatGPTのGPT-4o（ジーピーティーフォーオー/オムニ）とは？他の生成AIと比較した性能は？読み方は？

「GPT-4o（ジーピーティーフォーオー/オムニ」は、生成AI・ChatGPTの最新モデルです。正式名称・呼び方は「ジーピーティーフォーオムニ」ですが、「ジーピーティーフォーオー」とも読まれています。

そもそも、ChatGPTはテキストベースの生成AIとして開発されました。もともとの仕様は、文章で何か質問・要求をすると、その質問・要求に応じた文章を返してくれるものでした。

ところが、ChatGPTのモデルが「GPT-3」から「GPT-4」に進化すると、文章以外の入力もできるようになりました。例えば、画像を読み取って、画像の意味を文章で出力してくれるようになったのです。「文章→文章」以外にも、「画像→文章」のようなことができるような性質を、「マルチモーダル」といいます。

「GPT-4」の初期のモデルにおいては、この「マルチモーダル」機能について、一般公開されていて使えるのは「画像→文章」のみでした。しかし、今回のアップデートによる「GPT-4o」では、「動画→文章」「音声→文章」「音声→音声」のように、さまざまな入力・出力形態が可能になり、より「マルチモーダル」な性質に磨きがかかりました。

「オムニ（omni）」とはあまねく、すべてという意味で、これはマルチモーダル性能に磨きをかけたことと、よりさまざまな言語での能力が向上したことを端的に表現しています。

他にも、「GPT-4」の初期モデルから、さまざまな性能が向上しています。以下は、OpenAI社が公式で表明している、さまざまな競合生成AIと比較した性能表です。

「GPT-4o」が、初期モデルの「GPT-4」よりも能力において優れていることがわかる他、さまざまな生成AIと比較しても、能力が高いことがわかります。

項目	GPT-4o	GPT-4（初期版）	Gemini Ultra 1.0	Gemini Pro 1.5	Claude 3 Opus	Llama3 400b
マルチタスクにおける言語理解能力（MMLU (%)）	88.7	85.6	81.9	86.1	85.8	86.1
一般常識に基づく質問応答能力（GPCQA (%)）	53.6	50.4	35.7	48.0	N/A	N/A
数学力（MATH (%)）	76.6	60.1	42.5	57.8	58.5	53.2
コード生成の正確さ（HumanEval ）	90.2	84.9	74.4	71.9	84.1	67.0
複数ステップの算術的な推論能力（MGSM (%)）	90.5	90.7	74.5	80.9	79.0	82.4
複数段落にわたる推論能力（DROP (f1)）	86.0	83.1	78.2	81.8	83.5	82.4

より高度な能力を持つようになったChatGPT、「GPT-4o」は、多くのビジネスに実装されていくでしょう。

ChatGPT-4o（ジーピーティーフォーオー/オムニ）は無料で使える？料金は？

「GPT-4o（ジーピーティーフォーオー/オムニ」は、無料でも使えます。今の時点では、5時間ごとに10回使える、と言われています。5時間経つと、また10回使えるようになります。

また、これまでは有料版のユーザーしか使えなかった「GPTs」「Webブラウジング」「Python実行」といった機能も、無料で使えるようになるといいますが、まだ「GPTs」は使えないようです。

有料の「Plus」版では、3時間ごとに最大80回まで、最新モデル「GPT-4o」を使えます。

以下に、有料の「Plus」と、無料ユーザーで、それぞれどんな機能が使えるのかまとめました。

項目	Plus（有料）	無料
GPT-4o	3時間ごとに80回	5時間ごとに10回
データ分析	○	○
画像解析・ファイルアップロード	○	○
Webからの情報取得	○	○
GPTストア	○	○
画像生成	○	×
音声会話	○	×
GPTs	○	×

ChatGPT-4o（ジーピーティーフォーオー/オムニ）の使い方

ChatGPTの「GPT-4oジーピーティーフォーオー/オムニ」の使い方をご紹介します。

無料モデルの場合は、使ってみると、既に「GPT-4o」のモデルが選択されています。これを5時間で10回連続で使うと、GPT-3.5のモデルのみ利用できるようになります。

一方、ChatGPTの有料版「Plus」では、以下のようにモデル選択のリストから、「GPT-4o」を選択できます。3時間ごとに80回まで「GPT-4o」を利用できます。

そもそもChatGPTとは？

ChatGPTは、米OpenAI社が開発した生成AIです。ChatGPTは、GPT（Generative Pre-trained Transformer）シリーズの一部であり、特にGPT-4に基づいています。このモデルは、自然言語処理タスクを支援するために設計されており、会話の生成、質問への回答、テキストの要約、翻訳、クリエイティブなコンテンツの生成など、さまざまな言語関連タスクに対応します。

ChatGPTの特徴として、人間のように自然な会話を行うことができ、質問応答、ストーリーテリング、技術サポートなど、多目的なタスクに対応可能です。また、インターネット上の多様なテキストデータで事前訓練されているため、広範な知識を持っています。ユーザーの入力に基づいて柔軟に応答し、指示に従って多くの異なるタスクを実行できるのも大きな特徴です。

ChatGPTの利用例としては、カスタマーサポートにおける自動応答システム、教育における学生の質問への回答や教育資料の生成、クリエイティブライティングにおける詩や物語の生成、アイデアのブレインストーミング、プログラミング支援におけるコードの生成やデバッグのサポートなどが挙げられます。

技術的背景として、ChatGPTはトランスフォーマーネットワークというニューラルネットワークアーキテクチャを基盤としており、巨大なデータセットで事前学習され、その後特定のタスク向けに微調整されています。このアプローチにより、高度な言語理解能力と生成能力を持つことが可能になります。ChatGPTは、ユーザーのニーズに合わせて適応し、さまざまな応答を提供することができるため、幅広い分野での活用が期待されています。

ChatGPTのGPT-4とGPT-4o（ジーピーティーフォーオー/オムニ）は何が違う？できること・ビジネス活用事例

これまでのGPT-4と、GPT-4oで変化したことについて、以下でご紹介します。

返答速度の劇的な向上

「GPT-4o」は、音声入力に対して最短で232ミリ秒、平均で320ミリ秒という非常に高速な応答が可能になりました。この応答速度は、人間の返答スピードに非常に近く、ユーザーとのよりスムーズで自然なインタラクションを実現します。

日本語における能力向上

「GPT-4o」が英語以外の言語、特に日本語における性能を大幅に向上させたことです。従来のGPTモデルは、主に英語のデータで訓練されていたため、日本語などの非英語言語での性能にはまだ改善の余地がありました。しかし、「GPT-4o」では、日本語を含む多言語データでの訓練が強化され、日本語の言語理解と生成の性能が大きく向上しました。

音声入力がついに可能に。議事録作成に威力を発揮

「GPT-4o」の大きな進歩の1つは、音声入力に対応したことです。これにより、ユーザーはテキストだけでなく、音声を使ってChatGPTとやり取りができるようになります。

この音声入力機能を活用することで、例えば、ユーザーがスポーツの試合中継をChatGPTに見せて、そのスポーツのルールを説明してもらうといったことが可能になります。ChatGPTは、音声で提供された情報を理解し、それに基づいて適切な応答を生成することができます。

この新しい音声モードは、「GPT-4o」の新機能の1つとして、今後数週間でα版（アルファ版）としてリリースされる予定です。

「GPT-4o」は音声データから話者を識別した上で、各話者の発言を文字起こしすることもできます。つまり、会議や打ち合わせの音声を入力するだけで、「GPT-4o」が自動的に誰が何を話したのかを識別し、それぞれの発言を文字起こしして記録してくれるのです。
さらに、「GPT-4o」は各話者の感情分析も可能です。話者の声のトーンや言葉の選択から、その発言が肯定的なのか、否定的なのか、中立なのかを判断することができます。これにより、会議の雰囲気や参加者の反応を記録に残すことができます。
また、「GPT-4o」は同時通訳機能も備えています。多言語の会議であっても、GPT-4oが各話者の発言を即座に翻訳し、文字起こしすることができます。これにより、言語の壁を越えたコミュニケーションが可能になります。
これらの機能を総合的に見ると、「GPT-4o」は議事録作成ツールとして非常に強力であると言えます。話者識別、文字起こし、感情分析、同時通訳といった機能を一つのAIが担うことで、会議の記録と分析を大幅に効率化できます。
従来の議事録作成ツールは、主に文字起こしに特化していましたが、GPT-4oはそれに加えて話者識別や感情分析まで行えるため、より詳細で文脈を捉えた議事録を作成できます。これにより、会議の内容をより深く理解し、フォローアップやアクションプランの策定に役立てることができるでしょう。

GPTの画像・文字認識が超強化

「GPT-4o」では、これまで苦手とされていた日本語の文字認識が大幅に強化されました。
また、「GPT-4o」では画像生成機能も向上しています。GPT-4oは視覚的なストーリー生成にも対応しており、生成した画像に一貫性を持たせることが可能になりました。従来の画像生成では、画像が崩壊してしまうことが多々ありましたが、今回のアップデートにより一貫性が改善されました。
例えば、「GPT-4o」を使えば、ロボットがタイプライターで日記を記す様子など、多様なビジュアルコンテンツを生成できます。生成された画像は、個々の要素が独立しているのではなく、全体として一貫したストーリーを描写しています。これにより、GPT-4oは豊かな表現力を持つAIとして進化を遂げました。
「GPT-4o」の日本語文字認識と画像生成の強化は、日本のユーザーにとって大きなメリットをもたらします。領収書の自動処理や、ビジュアルコンテンツの作成など、これまで手間のかかっていた作業を効率化できるようになります。
また、一貫性のある画像生成は、ストーリーテリングや説明などの場面で効果的です。GPT-4oが生成する画像は、テキストによる説明を視覚的に補完し、理解を深めるのに役立ちます。

Google DriveとMicrosoft OneDriveからのファイルアップロード機能が利用可能に

「GPT-4o」の新機能の1つとして、Google DriveとMicrosoft OneDriveからのファイルアップロード機能が利用可能になりました。
この機能により、ユーザーは自分のGoogle DriveやMicrosoft OneDrive上に保存されているファイルを直接ChatGPTにアップロードできるようになります。これにより、ユーザーは自分の文書、表計算シート、プレゼンテーションなどをシームレスにChatGPTに読み込ませ、それらのファイルに関する質問やタスクをChatGPTに依頼できるようになります。
例えば、ユーザーがGoogle Drive上の報告書をChatGPTにアップロードし、その内容を要約するように依頼することができます。また、Microsoft OneDrive上の表計算シートをアップロードし、データ分析や可視化をChatGPTに依頼することもできます。
このファイルアップロード機能は、ChatGPTをユーザーの業務フローにより深く統合することを可能にします。ユーザーは、自分の業務で使用するファイルを直接ChatGPTに読み込ませることで、より効率的かつ効果的にChatGPTを活用できるようになります。