タスクに適した AI モデルの選択

GitHub Copilot の AI モデルの比較

GitHub Copilot は、さまざまな能力を持つ複数の AI モデルをサポートします。選ぶモデルによって、Copilot Chat とコード補完の回答の品質と関連性は影響を受けます。待機時間が少ないモデルや、特定のタスクではハルシネーションが少ない、またはパフォーマンスが高いモデルがあります。

この記事は、使用できるモデルを比較し、各モデルの長所を理解し、タスクに最適なモデルを選ぶ際に役立ちます。実際のタスクを使ったさまざまなモデルのガイダンスについては、「さまざまなタスクを使った AI モデルの比較」を参照してください。

最適なモデルはユースケースによって異なります。

コストとパフォーマンスのバランスを取る場合は、GPT-4.1 またはまたは Claude 3.5 Sonnet を試してください。
深い推論や複雑なコーディングの課題には、o3、GPT-4.5、または Claude 3.7 Sonnet を試してください。
マルチモーダル入力とリアルタイムパフォーマンスを求める場合は、Gemini 2.0 Flash または GPT-4o を試してください。

以下の一覧のモデル名をクリックすると、その長所とユースケースの詳細な概要にジャンプできます。

Note

モデルごとに Premium リクエストの乗数が異なるため、毎月の使用許容量がどの程度使われるかに影響する可能性があります。詳細については、「Premium リクエストについて」を参照してください。

GPT-4o

OpenAI GPT-4o は、テキストと画像をサポートするマルチモーダルモデルです。リアルタイムで回答し、軽量の開発タスクや Copilot Chat の会話プロンプトに適しています。

GPT-4o は､以前のモデルと比較して、多言語コンテキストでのパフォーマンスが向上しており、視覚的なコンテンツを解釈するときに高い能力を発揮します。 GPT-4 Turbo レベルのパフォーマンスを低い待機時間とコストで実現できるため、多くの一般的な開発者のタスクに適した既定の選択肢となります。

GPT-4o の詳細については、OpenAI のドキュメントを参照してください。

ユースケース

GPT-4o は、速度、応答性、汎用推論を利用する一般的な開発タスクに最適な既定の選択肢です。幅広い知識、高速な繰り返し、または基本的なコードの理解が必要なタスクに取り組んでいる場合は、GPT-4o が最適なモデルである可能性があります。

長所

次の表は、GPT-4o の長所をまとめたものです。

タスク	説明	GPT-4o が適している理由
コードの説明	コードブロックの実行内容またはロジックについて説明します。	迅速かつ正確な説明。
コードのコメント追加と文書化	コメントとドキュメントを生成または調整します。	明確で簡潔な説明を記述します。
バグ調査	エラーの簡単な説明または提案を取得します。	迅速な診断分析情報を提供します。
コードスニペットの生成	小規模で再利用可能なコードを生成します。	高品質の結果を迅速に提供します。
多言語のプロンプト	英語以外のプロンプトまたは識別子を使います。	多言語の理解力が向上しました。
画像ベースの質問	ダイアグラムまたはスクリーンショット (画像入力がサポートされている場合) について質問します。	視覚的な推論をサポートします。

その他のオプション

次の表は、代替モデルの方が適している場合をまとめたものです。

タスク	説明	別のモデルの方が適している理由
複数ステップの推論またはアルゴリズム	複雑なロジックを設計するか、複数ステップの問題を分解します。	GPT-4.5 または Claude 3.7 Sonnet は、より優れた段階的思考を提供します。
複雑なリファクター	大規模なコードベースをリファクターするか、複数の相互依存ファイルを更新します。	GPT-4.5 は、コンテキストとコードの依存関係をより強固に処理します。
システムレビューまたはアーキテクチャ	構造、パターン、またはアーキテクチャ上の決定を詳細に分析します。	Claude 3.7 Sonnet または GPT-4.5 は、より詳細な分析を提供します。

GPT-4.1

Note

現在、Copilot Chat 内の GPT-4.1 はパブリックプレビュー段階であり、変更される可能性があります。

OpenAI の最新モデルである GPT-4.1 が GitHub Copilot と GitHub Models で使用できるようになりました。これにより、OpenAI の最新モデルをコーディングワークフローで利用できます。このモデルは GPT-4o を全面的に上回り、コーディング、指示のフォロー、長いコンテキストの理解が大幅に向上します。いっそう大きなコンテキストウィンドウを持ち、2024 年 6 月に更新された知識カットオフを備えています。

OpenAI では、以下に関して開発者から直接得られたフィードバックに基づき、実際の使用のために GPT-4.1 が最適化されています: フロントエンドのコーディング、余分な編集の削減、形式の確実なフォロー、応答の構造と順序付けへの準拠、一貫性のあるツールの使用など。このモデルは、速度、応答性、汎用推論を利用する一般的な開発タスクに最適な既定の選択肢です。

ユースケース

GPT-4.1 は、OpenAI の GPT-4o モデルの改良版です。このモデルは、速度、応答性、汎用推論を利用する一般的な開発タスクに最適な既定の選択肢です。広範な知識、高速な反復、または基本的なコード理解を必要とするタスクに取り組んでいる場合、GPT-4.1 は GPT-4o よりも大幅に改善されます。

長所

次の表は、GPT-4.1 の長所をまとめたものです。

タスク	説明	GPT-4.1 が適している理由
コードの説明	コードブロックの実行内容またはロジックについて説明します。	迅速かつ正確な説明。
コードのコメント追加と文書化	コメントとドキュメントを生成または調整します。	明確で簡潔な説明を記述します。
バグ調査	エラーの簡単な説明または提案を取得します。	迅速な診断分析情報を提供します。
コードスニペットの生成	小規模で再利用可能なコードを生成します。	高品質の結果を迅速に提供します。
多言語のプロンプト	英語以外のプロンプトまたは識別子を使います。	多言語の理解力が向上しました。

その他のオプション

タスク	説明	別のモデルの方が適している理由
複数ステップの推論またはアルゴリズム	複雑なロジックを設計するか、複数ステップの問題を分解します。	GPT-4.5 または Claude 3.7 Sonnet は、より優れた段階的思考を提供します。
複雑なリファクター	大規模なコードベースをリファクターするか、複数の相互依存ファイルを更新します。	GPT-4.5 は、コンテキストとコードの依存関係をより強固に処理します。
システムレビューまたはアーキテクチャ	構造、パターン、またはアーキテクチャ上の決定を詳細に分析します。	Claude 3.7 Sonnet または GPT-4.5 は、より詳細な分析を提供します。

GPT-4.5

OpenAI GPT-4.5 は、推論、信頼性、コンテキストの理解を改善しています。複雑なロジック、高品質のコード生成、または微妙な意図の解釈を伴う開発タスクに適しています。

GPT-4.5 は、GPT-4o と比較すると、複数ステップの推論、長文のコンテンツ、複雑な問題解決において、より一貫性のある結果を生成できます。 GPT-4o や他の小規模なモデルよりも待機時間とコストが若干高くなる可能性があります。

GPT-4.5 の詳細については、OpenAI のドキュメントを参照してください。

ユースケース

GPT-4.5 は、複数のステップを含むタスク、コードをより深く理解する必要があるタスク、または微妙な違いを適切に処理する会話モデルのメリットが得られるタスクにとって最適な選択肢です。

長所

次の表は、GPT-4.5 の長所をまとめたものです。

タスク	説明	GPT-4.5 が適している理由
コードのドキュメント	README ファイルの下書き、または技術的な説明。	最小限の編集で、明確でコンテキストに富んだ文章を生成します。
複雑なコードの生成	完全な関数、クラス、または複数ファイルのロジックを作成します。	より優れた構造、整合性を実現し、論理エラーが少なくなります。
バグ調査	エラーを追跡し、複数ステップの issue を実行します。	状態を維持し、ステップ全体にわたって信頼性の高い推論を提供します。
意思決定のプロンプト	ライブラリ、パターン、アーキテクチャの長所と短所を比較検討します。	バランスが取れた、コンテキストに応じた推論を提供します。

その他のオプション

次の表は、代替モデルの方が適している場合をまとめたものです。

タスク	説明	別のモデルの方が適している理由
高速な繰り返し	プロンプトの迅速なやり取りやコードの微調整。	GPT-4o は、軽量のタスクに対しては同等の品質でより高速に回答します。
コスト重視のシナリオ	パフォーマンスとコストの比率が重要なタスク。	GPT-4o または o4-mini の方がコスト効率が高くなります。

o1

OpenAI o1 は、最適なソリューションを見つけるための複雑な複数ステップのタスクと深い論理的推論をサポートする古い推論モデルです。

o1 の詳細については、OpenAI のドキュメントを参照してください。

ユースケース

o1 は、深い論理的推論が必要なタスクに適しています。 Copilot には複雑なロジックを推論する機能があり、問題を明確で実行可能なステップに分割することができます。このため、o1 は特にデバッグに適しています。その内部推論は、元のプロンプトを超えて問題のより広範なコンテキストを調べることができます。また、明示的に言及されていない特殊なケースや根本原因を明らかにすることができます。

長所

次の表は、o1 の長所をまとめたものです。

タスク	説明	o1 が適している理由
コードの最適化	パフォーマンスが不可欠なコードまたはアルゴリズムコードを分析して改善します。	深い推論と、明らかではない改善点の特定に優れています。
複雑なシステムのデバッグ	パフォーマンスのボトルネックや複数ファイルの issue を分離して修正します。	段階的な分析と高い推論の正確性を提供します。
構造化コードの生成	再利用可能な関数、型指定された出力、または構造化された回答を生成します。	関数呼び出しと構造化された出力をネイティブにサポートします。
分析の要約	ログ、ベンチマーク結果、またはコードの動作を解釈します。	生データを明確で実用的な分析情報に変換します。
コードのリファクタリング	既存のシステムの保守性とモジュール性を向上させます。	意図的かつコンテキストを認識した提案を適用します。

その他のオプション

次の表は、代替モデルの方が適している場合をまとめたものです。

タスク	説明	別のモデルの方が適している理由
素早い繰り返し	プロンプトの迅速なやり取りやコードの微調整。	GPT-4o または Gemini 2.0 Flash は、軽量のタスクに対して高速に回答します。
コスト重視のシナリオ	パフォーマンスとコストの比率が重要なタスク。	基本的なユースケースでは、o4-mini または Gemini 2.0 Flash の方がコスト効率が高くなります。

o3

Note

現在、Copilot Chat 内の o3 はパブリックプレビュー段階であり、変更される可能性があります。

OpenAI o3 は、o シリーズの中で最も高性能な推論モデルです。深いコーディングワークフローや複雑な複数ステップのタスクに最適です。 o3 の詳細については、OpenAI のドキュメントを参照してください。

ユースケース

o3 は、深い論理的推論が必要なタスクに適しています。 Copilot には複雑なロジックを推論する機能があり、問題を明確で実行可能なステップに分割することができます。このため、o3 はデバッグに特に適しています。その内部推論は、元のプロンプトを超えて問題のより広範なコンテキストを調べることができます。また、明示的に言及されていない特殊なケースや根本原因を明らかにすることができます。

長所

次の表は、o3 の長所をまとめたものです。

タスク	説明	o3 が適切な理由
コードの最適化	パフォーマンスが不可欠なコードまたはアルゴリズムコードを分析して改善します。	深い推論と、明らかではない改善点の特定に優れています。
複雑なシステムのデバッグ	パフォーマンスのボトルネックや複数ファイルの issue を分離して修正します。	段階的な分析と高い推論の正確性を提供します。
構造化コードの生成	再利用可能な関数、型指定された出力、または構造化された回答を生成します。	関数呼び出しと構造化された出力をネイティブにサポートします。
分析の要約	ログ、ベンチマーク結果、またはコードの動作を解釈します。	生データを明確で実用的な分析情報に変換します。
コードのリファクタリング	既存のシステムの保守性とモジュール性を向上させます。	意図的かつコンテキストを認識した提案を適用します。

その他のオプション

次の表は、代替モデルの方が適している場合をまとめたものです。

タスク	説明	別のモデルの方が適している理由
素早い繰り返し	プロンプトの迅速なやり取りやコードの微調整。	GPT-4o または Gemini 2.0 Flash は、軽量のタスクに対して高速に回答します。
コスト重視のシナリオ	パフォーマンスとコストの比率が重要なタスク。	基本的なユースケースでは、o4-mini または Gemini 2.0 Flash の方がコスト効率が高くなります。

o3-mini

OpenAI o3-mini は、待機時間とリソース使用量を低く抑えながらコーディングパフォーマンスを実現するように設計された、高速でコスト効率の高い推論モデルです。 o3-mini は、コーディングベンチマークで o1 を上回り、回答時間は o1-mini と同等です。 Copilot は、OpenAI の "中程度" の推論作業を使うように構成されています。

o1 の詳細については、OpenAI のドキュメントを参照してください。

ユースケース

o3-mini は、単純なコーディングの質問や反復的なコーディングの質問に対して、迅速かつ信頼性の高い回答を必要とする開発者に適しています。その速度と効率は、軽量の開発タスクに最適です。

長所

次の表は、o3-mini の長所をまとめたものです。

タスク	説明	o3-mini が適している理由
リアルタイムのコード提案	基本的な関数とユーティリティを作成または拡張します。	正確かつ簡潔な提案で迅速に回答します。
コードの説明	コードブロックの実行内容またはロジックについて説明します。	明確な言葉による高速かつ正確な要約。
新しい概念を学ぶ	プログラミングの概念やパターンについて質問します。	役立つ、わかりやすい説明と素早いフィードバックを提供します。
迅速なプロトタイプ作成	小さなアイデアを試したり、単純なコードロジックをすばやくテストしたりします。	反復的なフィードバックに対する高速かつ低待機時間の回答。

その他のオプション

次の表は、代替モデルの方が適している場合をまとめたものです。

タスク	説明	別のモデルの方が適している理由
深い推論タスク	複数ステップの分析またはアーキテクチャ上の決定。	GPT-4.5 または o1 は、より構造化された徹底的な推論を提供します。
クリエイティブな、または長文のタスク	ドキュメントの作成、大規模なコードベース全体のリファクタリング。	o3-mini は、大規模なモデルと比べて表現力と構造化の点で劣ります。
複雑なコードの生成	完全な関数、クラス、または複数ファイルのロジックを作成します。	モデルが大規模になるほど、複雑さと構造をより確実に処理できます。

o4-mini

Note

現在、Copilot Chat 内の o4-mini はパブリックプレビュー段階であり、変更される可能性があります。

OpenAI o4-mini は、o シリーズの中で最も効率的なモデルです。待機時間とリソース使用量を低く抑えながらコーディングパフォーマンスを発揮するように設計された、コスト効率に優れた推論モデルです。

o4 の詳細については、OpenAI のドキュメントを参照してください。

ユースケース

o4-mini は、単純なコーディングの質問や反復的なコーディングの質問に対して、迅速かつ信頼性の高い回答を必要とする開発者に適しています。その速度と効率は、軽量の開発タスクに最適です。

長所

次の表は、o4-mini の長所をまとめたものです。

タスク	説明	o4-mini が適している理由
リアルタイムのコード提案	基本的な関数とユーティリティを作成または拡張します。	正確かつ簡潔な提案で迅速に回答します。
コードの説明	コードブロックの実行内容またはロジックについて説明します。	明確な言葉による高速かつ正確な要約。
新しい概念を学ぶ	プログラミングの概念やパターンについて質問します。	役立つ、わかりやすい説明と素早いフィードバックを提供します。
迅速なプロトタイプ作成	小さなアイデアを試したり、単純なコードロジックをすばやくテストしたりします。	反復的なフィードバックに対する高速かつ低待機時間の回答。

その他のオプション

次の表は、代替モデルの方が適している場合をまとめたものです。

タスク	説明	別のモデルの方が適している理由
深い推論タスク	複数ステップの分析またはアーキテクチャ上の決定。	GPT-4.5 または o3 は、より構造化された徹底的な推論能力を備えています。
クリエイティブな、または長文のタスク	ドキュメントの作成、大規模なコードベース全体のリファクタリング。	o4-mini は、より大規模なモデルに比べて表現力や構造化が劣っています。
複雑なコードの生成	完全な関数、クラス、または複数ファイルのロジックを作成します。	モデルが大規模になるほど、複雑さと構造をより確実に処理できます。

Claude 3.5 Sonnet

Claude 3.5 Sonnet は、開発者の日常的なタスク向けに設計された高速でコスト効率の高いモデルです。 Claude 3.7 Sonnet のような深い推論機能はありませんが、迅速な回答、明確な要約、基本的なロジックを必要とするコーディングタスクでは優れたパフォーマンスを発揮します。

Claude 3.5 Sonnet の詳細については、Anthropic のドキュメントを参照してください。 Copilot での Claude の使用の詳細については、「Copilot Chat で Claude Sonnet を使う」を参照してください。

ユースケース

Claude 3.5 Sonnet は、ドキュメントの作成、言語固有の質問への回答、定型コードの生成など、日常的なコーディングのサポートに適しています。タスクを過度に複雑にすることなく、役立つ直接的な回答を提供します。コストに制約のある環境で作業している場合は、Claude 3.5 Sonnet を使うことをお勧めします。Claude 3.7 Sonnet と同じタスクの多くで安定したパフォーマンスを発揮しますが、リソース使用量は大幅に少なくなります。

長所

次の表は、Claude 3.5 Sonnet の長所をまとめたものです。

タスク	説明	Claude 3.5 Sonnet が適している理由
コードの説明	コードブロックの実行内容またはロジックについて説明します。	迅速かつ正確な説明。
コードのコメント追加と文書化	コメントとドキュメントを生成または調整します。	明確で簡潔な説明を記述します。
簡単な言語の質問	構文、慣用句、または機能固有の質問をします。	迅速かつ正確な説明を提供します。
コードスニペットの生成	小規模で再利用可能なコードを生成します。	高品質の結果を迅速に提供します。

その他のオプション

次の表は、代替モデルの方が適している場合をまとめたものです。

タスク	説明	別のモデルの方が適している理由
複数ステップの推論またはアルゴリズム	複雑なロジックを設計するか、複数ステップの問題を分解します。	GPT-4.5 または Claude 3.7 Sonnet は、より優れた段階的思考を提供します。
複雑なリファクター	大規模なコードベースをリファクターするか、複数の相互依存ファイルを更新します。	GPT-4.5 または Claude 3.7 Sonnet は、コンテキストとコードの依存関係をより堅牢に処理します。
システムレビューまたはアーキテクチャ	構造、パターン、またはアーキテクチャ上の決定を詳細に分析します。	Claude 3.7 Sonnet または GPT-4.5 は、より詳細な分析を提供します。

Claude 3.7 Sonnet

Claude 3.7 Sonnet は Anthropic の最先端モデルです。 Claude 3.7 Sonnet は、大規模または複雑なコードベース全体の構造化された推論を必要とする開発タスクに優れている強力なモデルです。その推論に対するハイブリッドアプローチは、必要なときには迅速に回答できると同時に、より深いタスクに対しては、より時間をかけた段階的な分析をサポートします。

Claude 3.7 Sonnet の詳細については、Anthropic のドキュメントを参照してください。 Copilot での Claude の使用の詳細については、「Copilot Chat で Claude Sonnet を使う」を参照してください。

ユースケース

Claude 3.7 Sonnet は、ソフトウェア開発ライフサイクルで最初の設計からバグ修正、メンテナンス、最適化に至るまで、優れています。コンポーネント間のコンテキストを理解することが重要な、複数ファイルのリファクタリングまたはアーキテクチャ計画に特に適しています。

長所

次の表は、Claude 3.7 Sonnet の長所をまとめたものです。

タスク	説明	Claude 3.7 Sonnet が適している理由
複数ファイルのリファクタリング	大規模なコードベース全体の構造と保守性を向上させます。	複数ステップのロジックを処理し、ファイル間のコンテキストを保持します。
アーキテクチャの計画	小規模なクエリから戦略的な作業まで、複雑な混合タスクをサポートします。	きめ細かい "思考" コントロールは、各タスクのスコープに適応します。
機能開発	フロントエンド、バックエンド、API レイヤー全体にわたる機能を構築して実装します。	構造化された推論と信頼性の高い補完によりタスクをサポートします。
アルゴリズムの設計	複雑なアルゴリズムを設計、テスト、最適化します。	必要に応じて、ラピッドプロトタイピングと深い分析のバランスを取ります。
分析情報	概要とコードの動作の詳細を組み合わせます。	ハイブリッド推論により、ユーザーのニーズに基づいてモデルを切り替えられます。

その他のオプション

次の表は、代替モデルの方が適している場合をまとめたものです。

タスク	説明	別のモデルの方が適している理由
素早い繰り返し	プロンプトの迅速なやり取りやコードの微調整。	GPT-4o は、軽量のタスクに対してより高速に回答します。
コスト重視のシナリオ	パフォーマンスとコストの比率が重要なタスク。	基本的なユースケースでは、o4-mini または Gemini 2.0 Flash の方がコスト効率が高くなります。 Claude 3.5 Sonnet は、より安価でシンプルでありながら、同様のタスクには十分に対応できます。
軽量プロトタイピング	最小限のコンテキストによる迅速なやり取りのコードの繰り返し。	Claude 3.7 Sonnet は、過剰なエンジニアリングや不要な複雑さをもたらす可能性があります。

Gemini 2.0 Flash

Gemini 2.0 Flash は、リアルタイムの対話型アプリケーション向けに最適化された Google の高速マルチモーダルモデルです。視覚的な入力とエージェントによる推論を利用します。 Copilot Chat の Gemini 2.0 Flash により、高速な回答とクロスモーダル理解が可能になります。

Gemini 2.0 Flash の詳細については、Google のドキュメントを参照してください。 Copilot での Gemini の使用について詳しくは、「Copilot Chat での Gemini の使用」をご覧ください。

ユースケース

Gemini 2.0 Flash は画像入力をサポートしているため、開発者は、UI の検査、図の分析、レイアウトのデバッグなどのタスクに視覚的なコンテキストを取り入れることができます。このため、Gemini 2.0 Flash は、画像ベースの入力が問題解決を促進するシナリオに特に役立ちます。たとえば、Copilot に依頼して、アクセシビリティの問題について UI スクリーンショットを分析したり、レイアウトの視覚的なバグを理解できるようにしたりします。

長所

次の表は、Gemini 2.0 Flash の長所をまとめたものです。

タスク	説明	Gemini 2.0 Flash が適している理由
コードスニペットの生成	小規模で再利用可能なコードを生成します。	高品質の結果を迅速に提供します。
フィードバックループを設計する	スケッチ、ダイアグラム、視覚的な下書きから提案を得る	視覚的な推論をサポートします。
画像ベースの分析	ダイアグラムまたはスクリーンショット (画像入力がサポートされている場合) について質問します。	視覚的な推論をサポートします。
フロントエンドプロトタイピング	視覚要素を含む UI またはワークフローを構築およびテストする	マルチモーダル推論と軽量コンテキストをサポートします。
バグ調査	エラーの簡単な説明または提案を取得します。	迅速な診断分析情報を提供します。

その他のオプション

次の表は、代替モデルの方が適している場合をまとめたものです。

タスク	説明	別のモデルの方が適している理由
複数ステップの推論またはアルゴリズム	複雑なロジックを設計するか、複数ステップの問題を分解します。	GPT-4.5 または Claude 3.7 Sonnet は、より優れた段階的思考を提供します。
複雑なリファクター	大規模なコードベースをリファクターするか、複数の相互依存ファイルを更新します。	GPT-4.5 は、コンテキストとコードの依存関係をより強固に処理します。

タスク	説明	Gemini 2.5 Pro が適している理由
複雑なコードの生成	完全な関数、クラス、または複数ファイルのロジックを作成します。	より優れた構造、整合性を実現し、論理エラーが少なくなります。
複雑なシステムのデバッグ	パフォーマンスのボトルネックや複数ファイルの issue を分離して修正します。	段階的な分析と高い推論の正確性を提供します。
科学的研究	データを分析し、科学的専門分野全体にわたる分析情報を生成します。	多くの調査機能を用いた複雑な分析をサポートします。
長いコンテキストの処理	広範なドキュメント、データセット、またはコードベースを分析します。	長いコンテキスト入力を効果的に処理します。

その他のオプション

次の表は、代替モデルの方が適している場合をまとめたものです。

タスク	説明	別のモデルの方が適している理由
コスト重視のシナリオ	パフォーマンスとコストの比率が重要なタスク。	基本的なユースケースでは、o4-mini または Gemini 2.0 Flash の方がコスト効率が高くなります。

タスクに適した AI モデルの選択

この記事の内容