Evaluation & benchmarks — korshunov.ai

Evaluation & benchmarks Page 1 / 43

JS Divergence Enhances GRPO Autoregressive Text-to-Image Alignment

A study introduces JS divergence in GRPO-style autoregressive text-to-image alignment, showing it effectively balances policy optimization and generation diversity. Experiments on LlamaGen and Janus-7B demonstrate JS divergence achieves top or competitive performance across metrics while preserving diverse outputs.

arxiv arXiv cs.LG · 1d ago

Privacy-Preserving Federated Temporal Graph Learning for Cyber-Resilient IoMT

The paper introduces Federated TGCN-A2C, a privacy-preserving framework that achieves 99.48% and 99.61% test accuracy on CICDDoS 2019 and TON-IoT benchmarks, outperforming Fed-Inforce-Fusion by 0.21 percentage points. It includes anomaly detection, digital twin-based scoring, adaptive action selection, and an enhanced honeypot layer, with all major attack classes achieving F1 scores above 0.92 and 0.94, respectively, and provides post-hoc explainability via SHAP, LIME, Grad-CAM, and counterfactual analysis.

arxiv arXiv cs.LG · 1d ago

Analytic Policy Gradients for Efficient Continuous Control

Analytic Policy Gradients (APG) enables exact gradient computation via backpropagation through simulation when environment dynamics are differentiable. APG outperforms Proximal Policy Optimization (PPO) on four continuous control tasks, showing superior sample and learning efficiency with a segmented backpropagation scheme that reduces gradient degradation on long-horizon tasks.

media Hugging Face Forums · 1d ago

Wav2vec2 and WavLM Audio Classifier Stuck at 33% Accuracy

A user reports that fine-tuning wav2vec2-base or wavlm-base-plus for 3-class audio classification achieves only 33% accuracy, matching chance levels. The model is trained with only the classification head updated, using padded clips of 1.0s duration without attention masks, and with a learning rate of 1e-3, leading to poor performance despite class imbalance and short input clips.

JS Divergence Enhances GRPO Autoregressive Text-to-Image Alignment

Privacy-Preserving Federated Temporal Graph Learning for Cyber-Resilient IoMT

Analytic Policy Gradients for Efficient Continuous Control

Wav2vec2 and WavLM Audio Classifier Stuck at 33% Accuracy

ParaPairAudioBench: Benchmark for Paralinguistic Speech Evaluation

AI-PAVE-Br: LLM-Based PAVE for Brazilian E-Commerce

DREAM: Autoregressive Training for Dense Retrieval Embeddings

CN-NewsTTS Bench v0.1 Released

Task Decomposition for Efficient Annotation

CANDLE: Lightweight Arabic Noise Deduplication via CTC

Are We Ready For An Agent-Native Memory System?

L3Cube-MahaPOS: Marathi POS Tagging Dataset and BERT Models

Quality-Aware Training Data Selection for Scientific Summarization

Linguistic Fingerprints Reveal Tang Poets' Regional Origins

First Large-Scale Analysis of Algorithm Co-Occurrence Networks

PORTER: Language-Grounded Event Representations for Portable EHR Foundation Models

LoRA Monitor Calibration Fails with Top-1 in Diffusion LMs

Holistic Data Scheduler for LLM Pre-training via Multi-Objective Reinforcement Learning

InterAligner: Progressive Alignment for ASR

Metis: Bridging Text and Code Memory for Self-Evolving Agents