Reasoning Models & Deep Research

Inference-time scaling, chain-of-thought, tree of thoughts, reward modeling, and deep research pipelines.

Reasoning Foundations

Reasoning Model Overview (o-family, R1)

Inference-Time Scaling & Budgeted Deliberation

Chain-of-Thought & Self-Consistency

Tree of Thoughts & Verifier-Guided Search

Training-Time Reasoning: STaR & RL with Verifiers

Reward Modeling: ORM & PRM

Deep Research Pipeline Design

Web Search + Reasoning Integration

Self-Refinement & Meta-CoT

RL Environments for LLM Training