はじめに:バージョンで変わるレビューの質

ChatGPTは現在、複数のモデル(主にGPT-3.5とGPT-4)が選択可能であり、いずれもコードレビュー用途で活用されつつある。
だが「どちらでも大差ない」という前提で使うと、思わぬ誤用や誤信を招くことになる。
本記事では、実際に同じコードを与えてレビューさせたときに、GPT-3.5とGPT-4の出力がどう違うのかを比較し、その差異をレビューアーとしてどう捉えるべきかを論じる。

GPT-3.5とGPT-4の技術的な違い

OpenAIによれば、GPT-3.5は高速で低コストだが浅めの推論、GPT-4はより深い理解と精度の高い応答が可能なモデルとして設計されている。
コード処理においてもこの違いは顕著であり、GPT-4は構造的な文脈保持や設計意図の補完が得意とされる。

モデル 特徴 精度 処理速度 コスト感
GPT-3.5 軽量・応答高速 中程度(文法・構文寄り) 非常に高速 安価
GPT-4 重厚・文脈保持に強い 高(設計・目的志向) やや遅め 高め

:::

LLMとは

LLM(Large Language Model)とは、大量のテキストデータをもとに学習された自然言語処理モデルである。GPT-3.5やGPT-4は、OpenAIが提供するLLMの代表格。

ケース比較1:関数の命名に対するコメント

コード

function handler(input) {
  const result = calculate(input);
  return result;
}

GPT-3.5の出力

Comment
@AI: The function name 'handler' is too generic. Consider a more descriptive name.

GPT-4の出力

Comment
@AI: 'handler' is a common placeholder name. In this context, since the function delegates to 'calculate', consider renaming it to reflect the operation, such as 'calculateAndReturn'.

コメント評価

  • GPT-3.5:単純な一般論にとどまっており、具体的な代替案なし
  • GPT-4:構造と命名意図を把握し、関数内容に即した具体的命名提案を提示

ケース比較2:エラーハンドリングの網羅性

コード

try {
  doSomething();
} catch (e) {
  console.log("error");
}

GPT-3.5の出力

Comment
@AI: Avoid using console.log for error handling.

GPT-4の出力

Comment
@AI: While using console.log can aid debugging, it's insufficient for robust error handling in production. Consider logging the error with context or rethrowing it depending on the application's fault tolerance policy.

コメント評価

  • GPT-3.5:通り一遍の指摘で終わり
  • GPT-4:利用目的を前提にしつつ改善案を複数提示しており、レビューとしての価値が高い

ケース比較3:リファクタリング提案の質

コード

const result = [];
for (let i = 0; i < arr.length; i++) {
  result.push(arr[i] * 2);
}

GPT-3.5の出力

Comment
@AI: Consider using map() instead of for loop for better readability.

GPT-4の出力

Comment
@AI: Using `map()` could enhance readability and express intent more clearly. For example:

> const result = arr.map(x => x * 2);

Be cautious if side effects exist inside the loop, which `map` doesn't handle well.

コメント評価

  • GPT-3.5:短くても伝わるが表層的
  • GPT-4:代替コードを提示しつつ、副作用の考慮点まで触れている

検証まとめ:GPT-4のコメントはレビューアーに近づいている

GPT-3.5は「lint + 表面的スタイルレビュー」に近く、
GPT-4は「意図・設計・文脈レビュー」に近い。

項目 GPT-3.5 GPT-4
スタイル指摘
命名補完
文脈理解
設計指摘 ×
誤指摘率
コスト効率

どう使い分けるべきか?

利用シーンごとの推奨
  • PRコメントのたたき台を素早く欲しい → GPT-3.5で十分
  • アーキテクチャや設計視点も加味したい → GPT-4を検討
  • 新人レビューに足りない視点を補いたい → GPT-4の文脈理解が有効
  • 高速に処理したいバルクレビュー → GPT-3.5がコストパフォーマンスに優れる
導入コストとのバランス

レビュー精度はGPT-4の方が高いが、常時使用にはコスト制限がネックになる場面もある。
全プロジェクトで一律にGPT-4を採用するのではなく、重要なPR・設計レビュー・初回設計レビューのみGPT-4を使うハイブリッド運用が現実的。

注意:バージョン間の評価は定期的に見直すこと

GPT-3.5やGPT-4のモデル精度や挙動は、OpenAIのアップデートで変化する可能性がある。
一度比較して終わりではなく、半年〜1年に一度は精度検証を行うことが推奨される。

まとめ:レビューアーが見るべき“モデルごとの得意・不得意”

  • GPT-3.5は早くてコスト効率が良いが、浅い指摘に留まりやすい
  • GPT-4は深い文脈理解と設計レベルの助言ができるが、重くて高い
  • どちらを使うにしても「レビューアーが最終判断を担う」姿勢は変わらない

コードレビューをAIに補助させる場合、モデルの特性を理解し、そのレビュー出力をどう扱うかが肝要である。

単なる出力差の比較ではなく、「このモデルをレビューのどの工程で、どう使えば人間の判断を助けるのか?」
この視点で、バージョン選定と活用設計を行うことが、レビュー精度と効率の両立につながる。