2024/07/15

つないでみよう:#14)GPT4o で画像認識 - 準備作業

2024 年 5 月に OpenAI から新たしい AI モデル GPT4o が発表されました。

この連載『つないでみよう』の最初のネタが GPT3.5 でした。昨年 10 月末ごろでしたが、それから半年ちょっと。その間、GPT4、そして今回の GPT4o とバージョンアップしています。

早く記事にしないと新バージョンでなくなってしまいそうなので、急ぎます...


さて、その GPT4o にはさまざま特徴があるのですが、私が興味を持ったのは画像入力に対応したことです。これを利用すると、画像の説明を AI にさせることが可能になります。もちろん API からも利用可能です。今回はこれを題材に最新モデル GPT4o を利用してみましょう!


API の利用方法

OpenAI の API を利用するには事前登録が必要です。登録時に無料枠がありますが、その後は有償となります。

登録方法は 第 1 回 で紹介しています。バージョンアップで画面は多少変化していますが、必要な作業は同じようです。登録してAPIキーを準備しましょう。なお、API キーは共通です。同じキーで GPT3.5 も GPT4o も利用できます。過去のキーをお持ちの方はそのまま流用できます。

API をコールする URL にあたるエンドポイントのアドレスも同じです。

POST  https://api.openai.com/v1/chat/completions

GPT4o を使用するには POST する JSON でモデルを指定するだけです。

{
   "model": "gpt-4o-2024-05-13",
   "messages": [
         ・・・


作成するアプリのイメージ

今回作成するサンプルアプリの画面は次のような感じです。

質問を調整しながら何度も送信できるよう、リクエストを自由に入力できるようにします。また、今回は AI の役割を指示する機能を付けて、回答の精度向上を狙います。


フォームの作成

最初にフォームを作成します。重要なのは[リクエストの内容]の部分です。


タイトルと概要はビューに表示するための項目となっています。また、紫色の文字は非表示です(1行目はフォーム名を転記)。

また、フォーム下部に API に送信した JSON と受信した JSON のフィールドを作成します。デバッグ用のフィールドなので、不要になったら削除しましょう。


フォームができたら、このフォームの文書を表示するビューを作っておきましょう。


次回の予告

今回は、GPT4o に接続する準備を行いました。次回からはこれらを利用して GPT4o に接続する部分を作成します。


前回 連載:つないでみよう 次回


0 件のコメント:

コメントを投稿