Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 29

La Experiencia Vivida Sintética de la IA en el Apoyo al Cuidador

Los LLM pueden generar respuestas similares a las de pares que imitan narrativas personales, creando una falsa impresión de experiencia vivida. El análisis psicolingüístico muestra que los pares humanos utilizan más lenguaje en primera persona y centrado en el pasado que la IA, y esta última a menudo fabrica fundamentos experienciales sin tener experiencia real. Este riesgo paradójico de la experiencia vivida sintética puede engañar a los cuidadores, lo que hace necesario establecer mecanismos para distinguir el marco de apoyo de la experiencia fabricada.

arxiv arXiv cs.CL · hace 2 h

PseudoBench: Evaluación de la resistencia de los sistemas de auto-investigación agéntica a la pseudociencia

PseudoBench evalúa la capacidad de los sistemas de auto-investigación agéntica para detectar afirmaciones pseudocientíficas. Al probar siete agentes de última generación, encuentra tasas de rechazo cercanas a cero y solo un 27.4% de resistencia a las narrativas pseudocientíficas, con agentes más fuertes que a menudo utilizan lenguaje científico sofisticado para enmascarar la pseudociencia.

arxiv arXiv cs.CL · hace 2 h

Indicaciones de seguridad y privacidad en conversaciones usuario-LLM

Un estudio de 14.727 indicaciones de seguridad y privacidad de 3,2M de conversaciones reales usuario-LLM identifica nueve categorías de consultas S&P. Los LLM comerciales superan a los modelos abiertos, con GPT 5.5 proporcionando buenas respuestas en el 98% de las indicaciones frente al 47% de Llama 4, aunque algunos modelos comerciales producen respuestas contradictorias entre ejecuciones.

arxiv arXiv cs.CL · hace 2 h

HistoRAG: Integrar la metodología histórica en RAG

HistoRAG introduce cambios arquitectónicos en la Generación Aumentada por Recuperación basados en principios historiográficos. Separa la recuperación y la generación, implementa ventanas temporales para una representación equilibrada de las fuentes, y utiliza evaluación LLM-as-judge para juicios de relevancia transparentes. Evaluado en 102,189 artículos de Der Spiegel (1950-1979), el marco aborda deficiencias en RAG estándar, incluyendo sesgo temporal y débil correlación de recuperación, y propone Zwischentexte como un método de integración responsable para contenido generado por LLM en trabajos académicos.

arxiv arXiv cs.CL · hace 2 h

Las inyecciones de triple llave en Handlebars explotan los delimitadores de roles estructurales

La interpolación de triple llave de Handlebars no protege contra la inyección de roles estructurales, ya que el escape de HTML solo neutraliza los delimitadores de corchetes angulares. Deja intactos los delimitadores de dos puntos y de hash de Markdown, lo que permite a los atacantes secuestrar los turnos del modelo. El escape predeterminado no proporciona protección para la mayoría de las familias de delimitadores de roles y no puede reemplazar una separación estructural entre instrucciones y datos.

arxiv arXiv cs.CL · hace 2 h

Sesgo geográfico en modelos de lenguaje grandes a partir de metadatos del usuario

Un estudio revela que incluso los prompts neutrales desencadenan respuestas específicas de la región en modelos de lenguaje grandes debido a los metadatos del usuario. La filtración de ubicación aumenta hasta 793 veces en algunos modelos, y usar 'Desconocido' en lugar de los metadatos de ubicación aún causa un sesgo significativo, lo que indica que el propio marco del perfil del usuario actúa como una señal de condicionamiento.

arxiv arXiv cs.CL · hace 2 h

Un benchmark agéntico revela que los modelos de IA fallan al evitar la explotación animal

TAC, el primer benchmark agéntico para el bienestar animal implícito, evalúa la capacidad de los agentes de IA para evitar la explotación animal en escenarios de reserva de viajes. Los siete modelos líderes obtienen puntuaciones por debajo del 64%, con el mejor alcanzando el 53%, e incluso pequeñas mejoras en las instrucciones solo producen ganancias modestas. Una auditoría no encuentra indicios de conciencia de evaluación, lo que indica que las brechas de rendimiento provienen de la falta de razonamiento real sobre el bienestar, no del reconocimiento de las instrucciones.

arxiv arXiv cs.CL · hace 2 h

Brecha de medición en la automatización del derecho de la UE

Los modelos de lenguaje grandes pueden generar texto legal de calidad mediana, pero ningún benchmark evalúa su capacidad para realizar razonamiento jurídico doctrinal. Esta brecha socava el requisito del Reglamento de IA de la UE sobre 'precisión apropiada' en la IA judicial, ya que la definición operativa necesaria carece de un estándar de evaluación del razonamiento doctrinal.

arxiv arXiv cs.CL · hace 2 h

Estudio de Red-Team Encuentra que los LLMs de Vanguardia Siguen Vulnerables a Ataques Automatizados

Un estudio de red-team de los modelos Fable 5 y Opus 4.8 de Anthropic revela que ambos son vulnerables a ataques iterativos adaptativos, con Opus 4.8 comprometido en el 11.5% de las intenciones y Fable 5 en el 6.1%. A pesar de las defensas robustas, ambos modelos generaron 1,620 y 702 completados dañinos confirmados por panel a través de todas las categorías de daño, de forma automática y eficiente bajo ataque automatizado.

arxiv arXiv cs.CL · hace 2 h

d-OPSD: Auto-distilación en política para LLMs de difusión

d-OPSD es el primer marco de auto-distilación en política diseñado para LLMs de difusión. Utiliza respuestas auto-generadas como condicionamiento de sufijo y supervisión a nivel de paso, permitiendo un post-entrenamiento eficiente con solo aproximadamente el 10% de los pasos de optimización de RLVR, superando a las líneas base de RLVR y SFT en cuatro benchmarks de razonamiento.

arxiv arXiv cs.CL · hace 2 h

RubricsTree: Marco de evaluación escalable para agentes de salud personal

RubricsTree introduce una taxonomía jerárquica de más de 100 rúbricas booleanas clínicamente verificables, evolucionadas a partir de 4.000 consultas reales de usuarios mediante curación con intervención humana. Permite la evaluación escalable y alineada con expertos de agentes de salud personal al enrutar dinámicamente las consultas a rúbricas relevantes, y supera a los métodos base en alineación, sensibilidad contextual y ganancias de rendimiento del modelo de hasta el 66% en HealthBench.

arxiv arXiv cs.CL · hace 2 h

Codificación del diccionario Al-Mawrid con ISO LMF y TEI Lex-0

El artículo detalla una metodología para digitalizar el diccionario árabe-inglés Al-Mawrid utilizando ISO LMF y TEI Lex-0. Logra un 91% de precisión en el análisis estructural y demuestra un 85% de precisión y un 98% de exhaustividad para sinónimos, con un 88% de precisión para características morfosémicas, basado en una muestra de la letra Ayn. El estudio destaca las limitaciones de TEI Lex-0 para capturar matices semánticos y morfológicos del árabe y propone un sistema escalable basado en prefijos para la integración de LLOD.

arxiv arXiv cs.CL · hace 2 h

Los Modelos de Mundo en Bucle Logran una Eficiencia de Parámetros 100 veces Mayor

Los Modelos de Mundo en Bucle (LoopWM) introducen una arquitectura en bucle que refina iterativamente los estados latentes del entorno utilizando un transformador con parámetros compartidos. Este enfoque logra hasta 100 veces mayor eficiencia de parámetros en comparación con los modelos de mundo convencionales al adaptar la profundidad computacional a cada paso de predicción, ofreciendo una nueva dimensión de escalado para la simulación del mundo.

arxiv arXiv cs.CL · hace 2 h

ZPPO: El maestro en los prompts, no en los gradientes

La Optimización de Política en la Zona Próxima (ZPPO) integra el conocimiento del maestro directamente en los prompts en lugar de en los gradientes de la política. Utiliza Preguntas Candidatas Binarias y Negativas para exponer los modos de fallo del estudiante y amplifica el aprendizaje a través de un búfer de repetición de prompts, logrando un rendimiento superior en preguntas difíciles a lo largo de las escalas del estudiante, especialmente en tamaños de modelo más pequeños.

arxiv arXiv cs.CL · hace 2 h

Darshana Graph: Un corpus para la filosofía india comparativa

Darshana Graph presenta un corpus de más de 125.000 registros de texto procedentes de fuentes filosóficas hindúes, budistas y jainas. Incluye un subconjunto único de 8.500 registros alineados de 18 comentaristas de cinco escuelas, lo que permite la comparación entre comentaristas. El corpus admite análisis estilométrico y una pipeline de modelos de lenguaje grandes que extrae relaciones entre conceptos filosóficos, revelando patrones de desacuerdo y limitaciones en la extracción.

lab OpenAI News · hace 2 h

OpenAI presenta los modelos GPT-5.6 Sol, Terra y Luna

OpenAI ha iniciado una vista previa limitada de la serie GPT-5.6, presentando tres nuevos modelos: Sol como el modelo insignia, Terra para trabajo equilibrado cotidiano y Luna para tareas rápidas y asequibles. La empresa planea hacer estos modelos generalmente disponibles en las próximas semanas tras esta fase inicial con socios de confianza.

arxiv arXiv cs.CL · hace 3 h

ReproRepo: Escalando las auditorías de reproducibilidad con GitHub Issues

ReproRepo introduce un marco escalable que utiliza GitHub issues para evaluar la reproducibilidad de artículos de ML. Muestra que los agentes LLM como Codex con GPT-5.5 identifican al menos un bloqueador semánticamente relacionado en el 90% de los pares artículo-repositorio sin ejecutar código.

arxiv arXiv cs.CL · hace 3 h

Transformers de Ancho Variable Superan a Arquitecturas Uniformes

Una nueva arquitectura de transformador en forma de \x asigna anchos de capa variables, ensanchando las capas iniciales y finales mientras estrecha las intermedias. Reduce el ancho promedio de la capa, lo que lleva a un 22% menos de FLOPs y un 15% menos de memoria de caché KV, mientras supera a las líneas base uniformes en la pérdida de modelado de lenguaje en modelos de 200M a 2B parámetros.

arxiv arXiv cs.CL · hace 3 h

Filtrado de tokens negativos para RL estable de un solo rollout

Un nuevo enfoque llamado filtrado de tokens negativos permite un entrenamiento estable de un solo rollout al evitar penalizaciones falsas en muestras negativas. El método mejora el rendimiento en tareas agénticas en comparación con las técnicas de RL basadas en grupos, mientras iguala a los métodos basados en grupos en tareas de razonamiento.

arxiv arXiv cs.CL · hace 3 h

Presentación de Traducción Simultánea de Habla de MLLP-VRAIN para IWSLT 2026

El grupo MLLP-VRAIN presenta un sistema SimulST en cascada utilizando los modelos Parakeet y Qwen 3.5 con políticas de caja negra adaptativas. Para En→De, It, Zh, emplea refuerzo de palabras ASR y RAG con ejemplos pretraducidos en la pista de contexto nuevo, logrando una mejora de +5.82 XCOMET-XL en MCIF En→De y una ganancia adicional de +1.03 mediante la integración del contexto.