Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 29

ForecastBench-Sim: Benchmark de pronóstico en mundo simulado

ForecastBench-Sim es un benchmark de pronóstico en mundo simulado que utiliza ejecuciones del juego Freeciv. Permite pronósticos continuos o binarios en horizontes arbitrarios, con mundos de intervención para preguntas causales y resultados raros, y proporciona retroalimentación inmediata y resoluble para evaluar el razonamiento probabilístico en entornos dinámicos.

arxiv arXiv cs.CL · hace 1 h En vivo

La Red de Sincronización Frustrada supera a los Transformers

La Red de Sincronización Frustrada (FSN) logra una pérdida de validación menor que un transformer RoPE-SwiGLU en cada época en tareas de texto y código a nivel de caracteres. Con un millón de parámetros, FSN converge a una pérdida de validación de 1.5953 ± 0.0014, superando la pérdida convergida del transformer de 1.611. Esta ventaja persiste hasta cuatro millones de parámetros, con evaluaciones en curso más allá de esa escala.

arxiv arXiv cs.CL · hace 1 h En vivo

TW-LegalBench: Evaluando LLMs en la Ley de Taiwán

TW-LegalBench introduce un benchmark que utiliza el corpus legal público de Taiwán para evaluar el rendimiento de los modelos de lenguaje grandes en la ley taiwanesa. Incluye más de 16,000 preguntas de opción múltiple, 117 preguntas de ensayo abiertas con rúbricas de puntuación y más de 14,000 instancias de predicción de fallos. La evaluación muestra que los mejores modelos superan los umbrales de aprobación de los abogados (11%) pero se quedan cortos en el nivel de jueces/fiscales (1-2%), y tienen dificultades con las citas precisas de artículos legales en las predicciones de sentencias.

arxiv arXiv cs.CL · hace 1 h En vivo

Los LLM tienen dificultades para capturar la discriminación de ítems en evaluaciones de lectura

Un estudio descubre que los modelos de lenguaje grandes no logran medir de manera confiable la discriminación de ítems en evaluaciones de comprensión lectora. Aunque algunos modelos muestran una alineación débil con las puntuaciones calibradas por humanos —que oscilan entre 0.152 y 0.241—, los LLM actuales no capturan adecuadamente cómo los ítems de evaluación distinguen a estudiantes de diferentes niveles de competencia.

arxiv arXiv cs.CL · hace 1 h En vivo

Morpheus: Tokenizador y embebido neuronal para turco

Morpheus es un tokenizador y embebido de palabras neuronal consciente de la morfología para turco que preserva el texto original mediante codificación y decodificación sin pérdidas. Logra la menor cantidad de bits por carácter (1.425), mejora la alineación morfológica (Macro-F1 de MorphScore 0.61) y utiliza un 19% menos de memoria GPU que los tokenizadores de subpalabras con vocabulario de 64K. Los embebidos congelados de Morpheus superan a BGE-M3 y BERTurk en recuperación léxica, con MAP de familia raíz de 0.85 y ROC-AUC de 1.00.

arxiv arXiv cs.CL · hace 1 h En vivo

LegalWorld: Entorno de ciclo de vida para agentes legales

LegalWorld modela el litigio civil chino como una cadena causalmente conectada de cinco etapas, basada en 75.309 sentencias. Incluye infraestructura reutilizable para mantener la consistencia entre las etapas y permite que LongJud-Bench evalúe el rendimiento de los agentes en todas las fases, revelando brechas significativas de capacidad entre los modelos en diferentes tareas legales.

arxiv arXiv cs.CL · hace 1 h En vivo

La edición de vectores de salida reduce la memorización en LLMs

Un nuevo método llamado edición de vectores de salida modifica mínimamente los vectores de salida de las neuronas MLP para suprimir secuencias memorizadas en modelos de lenguaje grandes, logrando hasta un 87.9% de supresión en OLMo-7B. Este enfoque supera la anulación de activaciones neuronales por un factor de 2.7 y funciona en cuatro modelos de 36-7B parámetros, con tasas de éxito que escalan con el tamaño del modelo y muestran un rendimiento consistente entre arquitecturas.

arxiv arXiv cs.CL · hace 1 h En vivo

SAMA: Marco unificado para la aumento de datos multimodales con pocos recursos

SAMA introduce un marco unificado que genera datos sintéticos de alta fidelidad y conscientes de la tarea al alinear anclas semánticas entre modalidades. Utiliza un Modelo de Lenguaje Multimodal Grande con Múltiples Expertos Colaborativos, con adaptadores compartidos y específicos de la tarea, y emplea un mecanismo de Difusión Preservadora de Anclas para la síntesis de imágenes, garantizando consistencia semántica mientras diversifica los contextos visuales. Experimentos extensos muestran que SAMA supera a los métodos más avanzados en MNER, MRE y MEE bajo condiciones de pocos recursos.

arxiv arXiv cs.CL · hace 1 h En vivo

DICE mejora la recuperación de documentos largos con agregación de evidencia por fragmentos

DICE, un método sin entrenamiento, divide los documentos largos en fragmentos, los codifica de forma independiente y agrega los resultados en un solo vector. Reduce el Índice de Dilución de Evidencia en el 92,8 % de los casos en LongEmbed, mejorando significativamente el rendimiento de recuperación para segmentos superiores a 4k tokens en cuatro backbones.

arxiv arXiv cs.CL · hace 1 h En vivo

RedactionBench: Un benchmark para la privacidad contextual en IA

RedactionBench introduce un benchmark anotado manualmente de 200 documentos diversos en 11 dominios para evaluar la redacción que preserva la privacidad. Cuenta con R-Score, una métrica a nivel de caracteres que trata las redacciones semánticamente similares por igual y reduce el sesgo derivado de las elecciones de formato. Las evaluaciones humanas revelan un desacuerdo significativo en las redacciones contextuales (47.7% de consenso), destacando la naturaleza subjetiva de la privacidad y motivando la necesidad de benchmarks estandarizados y conscientes del contexto.

arxiv arXiv cs.CL · hace 1 h En vivo

HandwritingAgent: Síntesis de escritura a mano impulsada por lenguaje en SVG

HandwritingAgent sintetiza escritura a mano natural en formato SVG sin entrenamiento específico de estilo. Utiliza un modelo de razonamiento grande para generar secuencias de trazos en un lienzo en cuadrícula, condicionado por la entrada de texto y una imagen de referencia de estilo, lo que permite una generación de escritura a mano eficiente, controlable y generalizable.

arxiv arXiv cs.CL · hace 1 h En vivo

Las métricas basadas en LLM mejoran la evaluación de la significancia clínica en radiología

Un estudio introduce métricas ligeras e interpretables que afilan el límite entre errores clínicamente significativos y variaciones inofensivas en los informes de radiología. Estas métricas superan a los grandes LLM médicos y compiten con modelos propietarios, habiéndose demostrado que el entrenamiento de un solo paso es eficaz para despliegues sensibles al costo. El ajuste de dos pasos no mejora consistentemente el rendimiento y desvía el enfoque de la detección de errores hacia la robustez.

arxiv arXiv cs.CL · hace 1 h En vivo

GateMem: Evaluación de la gobernanza de memoria en agentes de memoria compartida con múltiples principios

GateMem presenta un benchmark para agentes de memoria compartida con múltiples principios, evaluando utilidad, control de acceso y olvido activo en los dominios médico, de oficina, educativo y doméstico. Ningún método logra un rendimiento sólido en los tres aspectos de gobernanza; el uso de prompts de contexto largo ofrece los mejores resultados a alto costo, mientras que los enfoques basados en recuperación y memoria externa reducen el costo pero aún sufren fugas de información.

arxiv arXiv cs.CL · hace 1 h En vivo

La receta de datos mejora el razonamiento de contexto largo en LLMs

Un enfoque centrado en los datos mejora el razonamiento de contexto largo en modelos de lenguaje grandes, utilizando ocho conjuntos de datos curados con 14K ejemplos en tareas de recuperación, síntesis multi-evidencia y razonamiento. Al combinarse con entrenamiento GRPO basado mínimamente en resultados, logra ganancias promedio de +7.2 a +6.4 puntos en siete benchmarks, superando los conjuntos de entrenamiento RL previos, y mejora el rendimiento agénico en +4.8 y +7.0 puntos en GAIA y BrowseComp respectivamente.

arxiv arXiv cs.CL · hace 1 h En vivo

ScholarSum: Resumen abstractivo estudiante-profesor mediante razonamiento con grafos de conocimiento

ScholarSum introduce un marco de grafo de conocimiento jerárquico que emula un proceso estudiante-profesor para la resumización científica. Genera resúmenes fluidos y consistentes con los hechos, primero estructurando los documentos en unidades semánticas y luego refinando borradores mediante recuperación de evidencia y revisión iterativa por un componente similar a un profesor. Los experimentos muestran que ScholarSum supera a los métodos existentes en completitud y fidelidad factual.

arxiv arXiv cs.CL · hace 1 h En vivo

ImpSH mejora la detección de discurso de odio implícito en múltiples dominios

ImpSH, un marco basado en tripletes, alinea publicaciones con declaraciones implícitas y utiliza negativos semi-duros delimitados por contexto para mejorar la detección de discurso de odio implícito. Las evaluaciones en IHC, SBIC y DynaHate muestran que ImpSH supera a los métodos contrastivos supervisados estándar en configuraciones de dominio cruzado, con mayor estabilidad de representación y reducción de falsos negativos bajo cambios de dominio.

arxiv arXiv cs.CL · hace 1 h En vivo

Difusión estructurada aproximada para etiquetado de secuencias

Un nuevo método utiliza difusión para entrenar CRFs en secuencias completas de etiquetas, condicionando sobre etiquetas ruidosas. Al combinarse con inferencia aproximada, reduce el error de etiquetado POS en un 16.5%.

arxiv arXiv cs.CL · hace 1 h En vivo

Destilación con datos sintéticos para análisis de sentimiento financiero

Un marco transfiere conocimiento de modelos grandes ajustados por instrucciones a otros compactos utilizando datos sintéticos generados mediante estructuración de pocos ejemplos. La selección de semillas basada en agrupamiento produce ejemplos sintéticos más representativos que el muestreo aleatorio, permitiendo que los modelos compactos logren un rendimiento sólido con mínima etiquetación humana. En texto financiero complejo y ruidoso, el modelo estudiante supera al modelo maestro, mientras se mantiene competitivo en texto formal.

arxiv arXiv cs.CL · hace 1 h En vivo

Recomendaciones contrafactuales guiadas por rúbrica para la comunicación médica

Un nuevo pipeline utiliza modelos de lenguaje para recomendar cambios mínimos e interpretables en características de la comunicación paciente-médico como el tono y la personalización. Estos cambios aumentan los comentarios positivos predichos en un promedio del 6.41% y son no negativos para el 93.31% de los casos, sin alterar el contenido médico.

arxiv arXiv cs.CL · hace 1 h En vivo

RPCL mejora la extracción de pares emoción-causa multimodales

RPCL, un marco de trabajo solo de entrenamiento, mejora la confianza en los pares de extracción de pares emoción-causa multimodales al imponer márgenes de confianza discriminativos y estables. Supera a un modelo base en ECF, MECAD y MEC4 entre 2.58 y 2.83 puntos porcentuales en F1 de par e mejora el AUPRC medio de pares en todos los conjuntos de datos, con una separación más fuerte entre pares de referencia y negativos difíciles.