出直し!! ドミノ塾: つないでみよう：#14）GPT4o で画像認識

2024/07/15

2024 年 5 月に OpenAI から新たしい AI モデル GPT4o が発表されました。

この連載『つないでみよう』の最初のネタが GPT3.5 でした。昨年 10 月末ごろでしたが、それから半年ちょっと。その間、GPT4、そして今回の GPT4o とバージョンアップしています。

早く記事にしないと新バージョンでなくなってしまいそうなので、急ぎます...

さて、その GPT4o にはさまざま特徴があるのですが、私が興味を持ったのは画像入力に対応したことです。これを利用すると、画像の説明を AI にさせることが可能になります。もちろん API からも利用可能です。今回はこれを題材に最新モデル GPT4o を利用してみましょう！

API の利用方法

OpenAI の API を利用するには事前登録が必要です。登録時に無料枠がありますが、その後は有償となります。

登録方法は第 1 回で紹介しています。バージョンアップで画面は多少変化していますが、必要な作業は同じようです。登録してAPIキーを準備しましょう。なお、API キーは共通です。同じキーで GPT3.5 も GPT4o も利用できます。過去のキーをお持ちの方はそのまま流用できます。

API をコールする URL にあたるエンドポイントのアドレスも同じです。

POST https://api.openai.com/v1/chat/completions

GPT4o を使用するには POST する JSON でモデルを指定するだけです。

{
"model": "gpt-4o-2024-05-13",
"messages": [
・・・

作成するアプリのイメージ

今回作成するサンプルアプリの画面は次のような感じです。

質問を調整しながら何度も送信できるよう、リクエストを自由に入力できるようにします。また、今回は AI の役割を指示する機能を付けて、回答の精度向上を狙います。

フォームの作成

最初にフォームを作成します。重要なのは［リクエストの内容］の部分です。

タイトルと概要はビューに表示するための項目となっています。また、紫色の文字は非表示です（1行目はフォーム名を転記）。

また、フォーム下部に API に送信した JSON と受信した JSON のフィールドを作成します。デバッグ用のフィールドなので、不要になったら削除しましょう。

フォームができたら、このフォームの文書を表示するビューを作っておきましょう。

次回の予告

今回は、GPT4o に接続する準備を行いました。次回からはこれらを利用して GPT4o に接続する部分を作成します。

前回

出直し!! ドミノ塾