ChatGPTは日本の司法試験に合格できるか　弁護士ドットコムが実験

ChatGPTは日本の司法試験に合格できるか　弁護士ドットコムが実験（弁護士ドットコム　2023年02月13日 10時53分）

◇

米国のベンチャー企業OpenAIが開発した対話型人工知能「ChatGPT」に注目が集まっています。

共同通信の報道によると、米医療企業の研究チームが、ChatGPTに米国の医師国家試験を解かせてみたところ、正解率は52～75％で、合格ラインとされる60％前後に達しました。

また、司法試験を解かせる米国の実験では、7科目全体の平均こそ人間に負けたものの、2科目では平均を上回る結果をみせています。

では、ChatGPTに日本の司法試験を受けさせてみたらどうなるのか。弁護士ドットコムで実験をおこないました。

どんな仕組みで法律の学習をしていくのか
日本の司法試験問題を解かせるとどうなるのか？
「深津式プロンプト・システム」を使って試験問題への回答を矯正させてみた
正解率は30％、合格ラインをはるかに下回る結果

どんな仕組みで法律の学習をしていくのか

ChatGPTは、同社が開発したGPTと呼ばれる大規模な言語モデルを組み込んだ対話型の人工知能です。2022年11月に公開されて以降、高度な応答ぶりが注目を集めており、日本語テキストによる質問に対しても、まるで日本人とチャットしているような自然な言葉で答えてくれます。

言語モデルとは、「入力した文に続きそうな単語を予測して出力する」という仕組みのこと。たとえば「故意に人を殺すと死刑になる」という文章を分解し、言語モデルに「故意に人を殺すと」と入力したときに、「死刑」と出力するように学習させ、さらに、「故意に人を殺すと死刑」という入力に対しては、「になる」と出力するよう学習します。

こうして、人間が正解を入力していく「教師あり学習」ではなく、データさえあればAI自身が強化学習を重ねて精度を高めていく「教師なし学習」ができるのが、GPTのような言語モデルの特徴となっています。

日本の司法試験問題を解かせるとどうなるのか？

では、日本の司法試験をChatGPTに解かせたら、どんな結果になるのでしょうか。

ChatGPTに、（GPT3がまだ学習データを持っていないはずの）令和4年の司法試験問題を入力してみると、「正確な回答を提供するにはより多くの情報は判例の全文が必要です」「法律に関する問題について正確な判断や回答をすることはできません」と返ってきました。

この背景には、日本は米国と違いほとんどの裁判例がデータで公開されていないという問題があります。加えて、日本の弁護士法上、弁護士・弁護士法人ではない民間企業が提供するサービスが、実際の事件について法律的な見解を述べるようなプログラムを提供することは、弁護士法72条違反を問われる可能性が高いとされています。

こうした現状を踏まえると、上記のChatGPTの回答は、「日本において最も適法かつ適切な優等生的回答」と言えるかもしれません。

「深津式プロンプト・システム」を使って試験問題への回答を矯正させてみた

では、ChatGPTが持ち合わせたデータだけで、回答させる方法はないものでしょうか。

そこで弁護士ドットコムでは、より高機能な有償版である「ChatGPT Plus」を利用し、その活用方法に詳しいTHE GUILDの深津貴之氏がYouTubeで公開している「深津式プロンプト・システム」を応用して、

・東京大学法学部の首席レベルの優秀な学生が
・法律相談ではなく、あくまで試験問題への回答として
・判例データ等を用いずに

ChatGPT Plusが回答を忌避せずに、何らかの答えを必ず出力する命令プロンプトを作成しました。

何度かのチューニングを経て、令和4年司法試験の民法の択一試験の全37問についてChatGPTに入力していきます。

すると、「解答は、1です」と、ChatGPT Plusが素直に回答を返してくれるようになりました。

正解率は30％、合格ラインをはるかに下回る結果

このプロンプトを使って、令和4年司法試験民法択一試験全37問への回答をさせた結果は？

結論から言えば、正答率は30％。合格最低ラインと言われる55％をはるかに下回り、足切りラインと言われる40％にも到達しない残念な結果となりました。

しかしながら、この深津式プロンプトによる一連の問題への回答ぶりをみていて驚かされたのが、日本の民法の択一試験問題の特徴でもある「複数の枝の中から、正しい選択肢／誤った選択肢の“組み合わせ”を選ばせる」ことができている点です。

これまでの一般的なAIチャットシステムでは、このような長文、かつ複数の論点を持つ質問に対して答えを返すこと自体不可能でした。単一の質問に1対1でしか回答を返せないものがほとんどで、人間が質問を加工する必要がありました。ChatGPTでは、もはやそのような必要はなく、司法試験委員会が公開しているファイルから丸ごとコピーアンドペーストするだけで回答を導き出したのは、それ自体が大きな進歩と言えます。

今後、日本の裁判のIT化により判例データの公開が進み、GPTの言語モデルが学習できるデータセットが充実すれば、ChatGPTとの「対話」を繰り返すことで正答率のさらなる上昇が期待できそうです。