Reasoning models — korshunov.ai

Reasoning models Page 1 / 35

d-OPSD: On-policy Self-distillation for Diffusion LLMs

d-OPSD is the first on-policy self-distillation framework designed for diffusion LLMs. It uses self-generated answers as suffix conditioning and step-level supervision, enabling efficient post-training with only about 10% of RLVR's optimization steps while outperforming RLVR and SFT baselines on four reasoning benchmarks.

arxiv arXiv cs.CL · 8d ago

RubricsTree: Scalable Evaluation Framework for Personal Health Agents

RubricsTree introduces a hierarchical taxonomy of over 100 clinically-verifiable Boolean rubrics, evolved from 4,000 real user queries via human-in-the-loop curation. It enables scalable, expert-aligned evaluation of personal health agents by dynamically routing queries to relevant rubrics and outperforms baseline methods in alignment, context sensitivity, and model performance gains of up to 66% on HealthBench.

arxiv arXiv cs.CL · 8d ago

Looped World Models Achieve 100x Parameter Efficiency

Looped World Models (LoopWM) introduce a looped architecture that iteratively refines latent environment states using a parameter-shared transformer. This approach achieves up to 100x parameter efficiency over conventional world models by adapting computation depth to each prediction step, offering a new scaling dimension for world simulation.

arxiv arXiv cs.CL · 8d ago

ZPPO: Teacher in Prompts, Not Gradients

Zone of Proximal Policy Optimization (ZPPO) integrates teacher knowledge directly into prompts rather than policy gradients. It uses Binary and Negative Candidate-included Questions to surface student failure modes and amplifies learning through a prompt replay buffer, achieving superior performance on hard questions across student scales, especially at smaller model sizes.

arxiv arXiv cs.CL · 8d ago

Darshana Graph: A Corpus for Comparative Indian Philosophy

Darshana Graph presents a corpus of over 125,000 text records from Hindu, Buddhist, and Jain philosophical sources. It includes a unique subset of 8,500 aligned records from 18 commentators across five schools, enabling cross-commentator comparison. The corpus supports stylometric analysis and a large language model pipeline that extracts philosophical concept relationships, revealing disagreement patterns and extraction limitations.

d-OPSD: On-policy Self-distillation for Diffusion LLMs

RubricsTree: Scalable Evaluation Framework for Personal Health Agents

Looped World Models Achieve 100x Parameter Efficiency

ZPPO: Teacher in Prompts, Not Gradients

Darshana Graph: A Corpus for Comparative Indian Philosophy

ReLAR: Reinforcement-Guided Latent Refinement for Stable LLM Reasoning

Domain-Validity-Gated Metamorphic Testing for SciML Surrogates

NMF with Topological Regularisation for Interpretable Bases

Preference-Based Trajectory Evaluation for Agentic Systems

CARLOS: Deep RL for Continuous-time Optimal Stopping

Reversal Q-Learning: A New Off-Policy RL Algorithm

ST-CND Framework for Early Warning of Geographic Tipping Points

Credit-in-Event: Re-Anchoring Event Credit in Dynamics Models

LLM Features Can Hurt GNNs via Concatenation Interference

SelFix: Root-Selecting Fixed-Point Inversion for Rectified Flows via Trajectory Straightness

SkillMigrator: Transferable Interaction Patterns for Web Agent Efficiency

Risk Decomposition Framework for Pre-Hoc Fine-Tuning Prediction

Physics-Constrained Neural Networks Improve Weather Forecasting

TUNEAHEAD Predicts Fine-tuning Performance Before Training

Learnable Graph Patches for Feature Heterogeneity