この記事の要約
2022年、26歳の研究者Jason WeiがGoogle Brainで発見したChain-of-Thought(CoT)は、AI開発の常識を覆しました。PaLM 540Bでも17.9%だった算数問題の精度が、たった8個の例題追加で58.1%に跳ね上がる——数千億円の計算資源より、プロンプトの工夫が効果的だったのです。2026年現在、引用14,000件超。o1→o3/o4-mini、DeepSeek-R1とCoTは「プロンプト技法」から「モデルの内蔵能力」へ進化し、忠実性(Faithfulness)論争も活発化。スケール戦争→プロンプト戦争→推論スケーリング戦争へ、AI研究の転換点を追います。
2022年1月、Google Brainのオフィス。
26歳の研究者Jason Weiは、ディスプレイに表示された数字を何度も見つめ直していた。
GSM8K(小学生レベルの算数問題)
GPT-3(175Bパラメータ): 17.9%
PaLM(540Bパラメータ): 17.9%
「3倍のパラメータで、精度は変わらない?」
当時のAI業界は「スケール戦争」の真っ只中だった。大きいモデルに勝つには、もっと大きいモデルが必要——誰もがそう信じていた。しかし、数千億円を投じた巨大モデルが、小学生レベルの算数で17.9%しか正解できない。
Weiは、ある仮説を試してみることにした。
「AIに『考える過程』を見せたら、どうなるだろう?」
8個の例題を作成し、それぞれに「途中の計算過程」を書き加えた。そして、PaLMに同じ問題を解かせた。
GSM8K精度
標準プロンプト: 17.9%
Chain-of-Thought: 58.1%
+40.2ポイント。約3倍の性能向上。
この瞬間、AI開発の「常識」が逆転した。大きいモデルを作るために数千億円を投じるのではなく、「プロンプトを変えるだけで勝てる」——そんな時代の始まりだった。
本記事の表記について
本記事では、2022年にGoogleが発表したChain-of-Thought(CoT)プロンプティングの論文を解説します。なぜ「段階的に考えさせる」だけでAIの性能が3倍に向上するのか、その秘密に迫ります。
シリーズ記事一覧 AIエージェント論文おすすめ11選
| 項目 | 内容 |
|---|---|
| トピック | Chain-of-Thought Prompting |
| カテゴリ | 論文解説 |
| 難易度 | 初級〜中級 |
| 発表 | NeurIPS 2022(Google) |
| arXiv | 2201.11903 |
💡 この先の展開
まずはCoTの「魔法」の仕組みを見てみよう。驚くほどシンプルな原理が、AIの推論能力を覚醒させた。
CoTの核心は非常にシンプルです。「答えを出す前に、考える過程を出力させる」というだけです。しかし、このシンプルなアイデアがLLMの推論能力を大きく引き出しました。
Chain-of-Thoughtの概念図Q: カフェでコーヒーを3杯とケーキを2個買いました。
コーヒーは1杯400円、ケーキは1個500円です。合計はいくらですか?
A: 2200円
LLMはいきなり答えを出そうとします。単純な問題なら正解できますが、複雑になると間違いやすくなります。
Q: カフェでコーヒーを3杯とケーキを2個買いました。
コーヒーは1杯400円、ケーキは1個500円です。合計はいくらですか?
A: まず、コーヒーの合計を計算します。
コーヒー3杯 × 400円 = 1200円
次に、ケーキの合計を計算します。
ケーキ2個 × 500円 = 1000円
最後に、全体の合計を計算します。
1200円 + 1000円 = 2200円
答え: 2200円
途中の計算過程を明示的に出力させることで、LLMは各ステップを正確に実行できるようになります。
Standard PromptingとChain-of-Thoughtの比較Few-shot CoTは、推論過程を含む例を数個提示してからタスクを与える方法です。
[例1]
Q: ロジャーはテニスボールを5個持っています。
テニスボールが3缶入ったパックを2つ買いました。
各缶には3個のボールが入っています。彼は今何個のボールを持っていますか?
A: ロジャーは最初に5個のボールを持っていました。
各缶には3個のボールが入っていて、2缶買ったので、
3 × 2 = 6個のボールを追加で手に入れました。
5 + 6 = 11個
答え: 11個
[例2]
Q: (別の例題と推論過程)
[本題]
Q: あなたが解きたい問題...
「Let's think step by step」と一言添えるだけで、Few-shotの例なしでもCoTが発動する発見です(Kojima et al., 2022)。
Q: カフェでコーヒーを3杯とケーキを2個買いました。
コーヒーは1杯400円、ケーキは1個500円です。合計はいくらですか?
Let's think step by step.
これだけでLLMは自動的に段階的な推論を始めます。
| 観点 | Few-shot CoT | Zero-shot CoT |
|---|---|---|
| 準備コスト | 例題の作成が必要 | 一言添えるだけ |
| 精度 | より高い | やや劣る |
| 適用範囲 | 特定タスクに最適化 | 汎用的 |
| 推奨場面 | 重要なタスク | プロトタイプ・軽量な用途 |
💡 この先の展開
では、具体的にどれくらい性能が上がるのか?数字で見ると、その「魔法」の威力がよくわかる。
論文では、複数の算術・推論ベンチマークで検証が行われました。
| 手法 | 精度 |
|---|---|
| Standard Prompting | 17.9% |
| Chain-of-Thought | 58.1% |
| 改善幅 | +40.2% |
| 手法 | 精度 |
|---|---|
| Standard Prompting | 17.7% |
| Chain-of-Thought | 93.0% |
| 改善幅 | +75.3% |
| 手法 | 精度 |
|---|---|
| Standard Prompting | 63.1% |
| Chain-of-Thought | 79.0% |
| 改善幅 | +15.9% |
興味深いことに、CoTの効果はモデルサイズが大きいほど顕著になります。
| モデルサイズ | Standard | CoT | 改善幅 |
|---|---|---|---|
| 8B | 4.5% | 5.3% | +0.8% |
| 62B | 12.3% | 33.0% | +20.7% |
| 540B (PaLM) | 17.9% | 58.1% | +40.2% |
小さなモデルではCoTの効果は限定的です。しかし、100B以上のモデルで劇的な効果が現れます。これは創発的能力(Emergent Ability)と呼ばれる現象の一例です。
CoT論文が発表された2022年当時、OpenAIのGPT-3(175B)が最強のLLMとして君臨していました。しかし、Googleが2022年4月に発表したPaLM(540B)は、パラメータ数で3倍の規模を誇ります。
しかし、標準プロンプトでは差がつかなかった。
| モデル | パラメータ数 | 標準プロンプト | CoTプロンプト | 改善幅 |
|---|---|---|---|---|
| GPT-3 | 175B | 17.9% | 約40%台(推定) | +20%台 |
| PaLM | 540B | 17.9% | 58.1% | +40.2% |
つまり、「大きいモデル」だけでは性能は上がらなかった。
しかし、CoTを組み合わせることで、PaLMは初めてその真価を発揮した。この事実は、AI開発の方向性に大きな問いを投げかけた。
「パラメータ数を3倍にするために数千億円を投じるより、プロンプトを工夫する方が効率的なのでは?」
この問いが、後の「プロンプトエンジニアリング」ブームの引き金となった。
モデルサイズとCoT効果の関係💡 この先の展開
100B以上のモデルで「突然」効果が出る——この現象には名前がある。創発的能力(Emergent Ability)だ。なぜこんなことが起きるのか?
人間が複雑な計算をするとき、紙に途中式を書きます。CoTはこれと同じ原理です。
LLMは生成したテキストを次のトークン予測に使えます。そのため、途中結果を「外部メモリ」として活用できます。
複雑な問題を小さなステップに分解すると、各ステップは単純な処理になります。
Chain-of-Thought推論プロセス複雑な問題: 「3杯 × 400円 + 2個 × 500円」
↓ 分解
ステップ1: 「3 × 400 = ?」 → 1200
ステップ2: 「2 × 500 = ?」 → 1000
ステップ3: 「1200 + 1000 = ?」 → 2200
途中経過が可視化されることで、モデル自身がエラーを発見・修正しやすくなります。
ステップ1: 3 × 400 = 1200 OK
ステップ2: 2 × 500 = 100 ...あれ、計算が間違っている
2 × 500 = 1000 OK
LLMの学習データには、教科書や解説サイトなど「段階的な説明」が多く含まれています。CoTプロンプトは、そうした学習データのパターンを引き出していると考えられます。
CoTは「推論」に特化したテクニックです。これを行動(Action)と組み合わせたのがReActです。
| 観点 | CoT | ReAct |
|---|---|---|
| 対象 | 推論タスク | 推論 + 行動タスク |
| 外部ツール | 使用しない | 使用する |
| ループ | 一方向 | Thought-Action-Observation |
| 適用例 | 数学、論理問題 | 検索、計算、API呼び出し |
ReActの「Thought」部分は、まさにCoTの推論プロセスです。
[Thought] ユーザーは東京の明日の天気を知りたがっている。
天気APIを使って情報を取得する必要がある。
[Action] weather_api(location="Tokyo", date="tomorrow")
[Observation] 明日の東京: 晴れ、最高気温15度、最低気温8度
CoTが「考える力」を与え、ReActがそれを「行動する力」と結合したと言えます。
📖 このセクションについて
実装の詳細コードを含みます。技術的な実装に興味がない方は次のセクションまで読み飛ばしてOKです。
やっていること: OpenAI APIに「ステップバイステップで考えて」という指示を追加するだけ
<details> <summary>💻 実装コードを見る(スキップ可・技術者向け)</summary>import openai
def cot_prompt(question):
prompt = f'''
質問: {question}
この問題をステップバイステップで考えてください。
各ステップで何を計算しているか説明し、最後に答えを出してください。
'''
response = openai.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": prompt}],
temperature=0
)
return response.choices[0].message.content
# 使用例
question = "ある店で、りんご5個とみかん8個を買いました。りんごは1個120円、みかんは1個80円です。1000円札で払うとお釣りはいくらですか?"
answer = cot_prompt(question)
print(answer)
ステップ1: りんごの合計金額を計算します。
りんご5個 × 120円 = 600円
ステップ2: みかんの合計金額を計算します。
みかん8個 × 80円 = 640円
ステップ3: 購入金額の合計を計算します。
600円 + 640円 = 1240円
ステップ4: お釣りを計算します。
1000円では足りないため、お釣りは出ません。
むしろ240円不足しています。
答え: 1000円札では240円不足するため、お釣りは出ません。
CoTを使うことで、「1000円では足りない」という重要な気づきも得られています。
💡 この先の展開
ここまでCoTの「魔法」を見てきた。しかし、学会はこの論文をどう評価したのか?実は、意外な反応があった。
CoT論文は2022年1月にarXivで公開され、同年12月のNeurIPS 2022で発表された。
NeurIPS 2022では、13本のOutstanding Paper(最優秀論文賞)が選出された。しかし、CoT論文は含まれなかった。
なぜか?当時の学会には、以下のような懐疑的な見方があったと考えられる。
1. 忠実性(Faithfulness)の問題
CoTの推論過程が、実際のモデルの内部計算を反映していない可能性が指摘された。
2. モデルサイズ依存
100億パラメータ以下のモデルでは逆効果になることが明らかだった。
3. 分布シフトへの脆弱性
訓練データと異なるタスクでは急激に性能が低下することが懸念された。
学会の評価とは裏腹に、CoT論文はAI業界に革命を起こした。
引用数の爆発的増加:
後続研究の連鎖:
2026年現在の評価:
CoTの概念は2022年の論文発表から4年で大きく進化した。「プロンプト技法」として始まったCoTは、いまや推論モデルのアーキテクチャそのものに組み込まれている。
| モデル | 企業 | 発表 | CoTの実装方法 |
|---|---|---|---|
| o1 | OpenAI | 2024年9月 | 強化学習でCoTを訓練、非公開の「内部思考」 |
| o3 | OpenAI | 2025年4月 | 推論時間スケーリング+ツール統合+画像推論 |
| o4-mini | OpenAI | 2025年4月 | 軽量版推論モデル、コスト効率重視 |
| DeepSeek-R1 | DeepSeek | 2025年1月 | 純粋な強化学習でCoT能力を獲得、<think>タグで思考過程を公開 |
特筆すべきはDeepSeek-R1のアプローチだ。671Bパラメータ(推論時37Bアクティベート)のMoEモデルに、人間のラベルなしで強化学習を適用。モデルが自発的にCoT的推論パターン(自己検証・反省・戦略切り替え)を獲得した。これはCoTが「教える」ものではなく、十分な学習環境があれば「自然発生する」能力であることを示唆している。
従来のスケーリングは「訓練時の計算量を増やす」ことだった。o3やDeepSeek-R1は、推論時に「考える時間」を増やすことで性能を向上させる。
従来のスケーリング: より大きいモデルを訓練 → 性能向上
推論時間スケーリング: 同じモデルで「より長く考える」 → 性能向上
OpenAIは「o3に長く考えさせると、性能が上がり続ける」と報告。これはCoTの原理——途中過程を明示的に生成させることで推論能力が向上する——を極限まで押し進めた結果である。
2025〜2026年、CoTの忠実性(Faithfulness)に関する研究が活発化した。
批判的な研究:
反論する研究:
この論争は現在進行中だが、一つの合意が形成されつつある:CoTは「モデルの本当の思考過程」ではなく、「推論性能を向上させるための計算パターン」として捉えるべきだということだ。
CoTの進化:プロンプトから推論モデルへ💡 この先の展開
学会では賛否両論だった。しかし、この論文の主著者は、批判を乗り越えて次のステージへ進んだ。その「人間ドラマ」を見てみよう。
CoT論文の主著者Jason Weiのキャリアは、AI研究の激動を象徴している。
2020年: Dartmouth College卒業
2020-2023年: Google Brain研究員
2023-2025年: OpenAI研究員
"Don't do chain of thought purely via prompting, train models to do better chain of thought using RL." (プロンプトだけでCoTをやるな。強化学習でモデルに「より良いCoT」を訓練しろ)
CoTを「プロンプトの技」から「モデルの内蔵能力」へ進化させる——それがo1で実現された。自ら発見した技術を、自ら次のステージへ昇華させたのだ。
2025年-現在: Meta Superintelligence Labs研究員
CoT論文が発表された2022年は、AI業界が「スケール戦争」の頂点にあった時期だ。
| モデル | パラメータ数 | 発表時期 | 企業 |
|---|---|---|---|
| GPT-3 | 175B | 2020年6月 | OpenAI |
| Gopher | 280B | 2021年12月 | DeepMind |
| PaLM | 540B | 2022年4月 |
PaLMは、780億トークンで訓練され、6,144個のTPUチップを使用した当時最大規模のモデルだった。計算資源だけで数十億円規模の投資である。
しかし、Weiの発見は衝撃的だった。
「たった8個の例題を追加するだけで、540Bパラメータモデルの性能が3倍になる」
つまり、数千億円の計算資源を追加投入するより、プロンプトを工夫する方が効率的だったのだ。
この発見は、AI開発の方向性を大きく変えた。「大きいモデルを作る」から「既存のモデルを賢く使う」へ——プロンプトエンジニアリングの時代の幕開けである。
Weiは名門Dartmouth College出身。リベラルアーツ教育を重視し、コンピュータサイエンス専攻でありながら、中東史など専攻外の授業も多数受講したという。
また、学部時代には医療画像解析の研究にも携わっており、「AIをどう人間に理解させるか」という問題意識を早くから持っていた。
「AIに考え方を教える」という発想は、こうした「理系×文系」の融合から生まれた可能性がある。技術だけでなく、「人間がどう学ぶか」という教育学的な視点がCoTのアイデアにつながったのかもしれない。
いいえ。CoTが効果的なのは主に以下のタスクです。
単純な事実の検索や創作タスクでは効果が限定的です。
はい、効果があります。「ステップバイステップで考えてください」「順番に説明してください」などのフレーズで同様の効果が得られます。
はい。出力トークン数が増えるため、APIコストは増加します。ただし、精度向上による再試行の減少を考えると、総合的には効率的な場合が多いです。
非推論モデル(GPT-4o、Claude 3.5 Sonnetなど)では、CoTプロンプトは依然として有効です。一方、推論モデル(o3、o4-mini、DeepSeek-R1など)ではCoTが内蔵されているため、追加のCoTプロンプトは不要です。小さなモデル(100B未満)では効果が限定的です。
はい、併用できます。Few-shot例の提示、ロールプレイ(「あなたは数学の専門家です」)、出力フォーマット指定などと組み合わせることで、さらに精度を高められます。
モデルの種類による。 Wharton Generative AI Labsのレポート(2025年)では、推論モデルでのCoTプロンプトの価値低下が指摘されている。
理由:
2026年3月時点の推奨:
| モデル種別 | 例 | CoTプロンプト | 推奨 |
|---|---|---|---|
| 非推論モデル | GPT-4o、Claude 3.5 Sonnet | 有効 | 「ステップバイステップで考えて」を追加 |
| 推論モデル | o3、o4-mini、DeepSeek-R1 | 不要 | モデルに任せる。追加指示は逆効果の可能性 |
| 小規模モデル | 100B未満 | 逆効果の可能性 | 使用を避ける |
つまり、CoTの概念は「プロンプト技法」から「モデルの内蔵能力」へ進化しており、使い方が根本的に変わっている。
Chain-of-Thought(CoT)は、LLMに「考えるプロセスを出力させる」というシンプルなアイデアで、推論能力を飛躍的に向上させた画期的な手法です。
本記事はネクサフローのAI研究シリーズの一部です。
この記事の著者

代表取締役
早稲田大学卒業後、ソフトバンク株式会社にてAI活用やCEO直下案件のプロジェクトマネージャーに従事。その後、不動産スタートアップPit in株式会社の創業、他スタートアップでの業務改善・データ活用を経験後、2023年10月、株式会社ネクサフローを創業し代表取締役CEO就任。
次に読む

静的なAIエージェントから自己進化型システムへ。本論文は「システム入力」「エージェントシステム」「環境」「最適化器」の4コンポーネントで構成される統一フレームワークを提案し、継続的に改善するAIエージェントの技術体系を包括的に解説。

A-MEMは、LLMエージェントに人間のような長期記憶を与えるフレームワークで、記憶の保存・検索・更新を自律的に行います。NeurIPS 2025に採択され被引用数は150を超え、ICLR 2026ではエージェントメモリ専門ワークショップが開催されるなど、この分野の急成長を牽引しています。Mem0・Letta等の実装フレームワークとの比較も含め、エージェントメモリの全体像を解説します。

CMU・NYU発の新概念Epiplexityを解説。シャノンエントロピーの限界を超え、計算制約下のAI学習可能性を定量化。データ拡張・カリキュラム学習・LLM汎用能力の3つのパラドックスを統一的に解決する。