Todos los artículos — korshunov.ai — noticias de ML

Todos los artículos Página 1 / 37

arxiv arXiv cs.CL · hace 2 h

Verificación selectiva para el razonamiento consciente del presupuesto

Sevra, un controlador de la capa de servicio, verifica selectivamente las respuestas para mejorar la precisión y reducir el uso de tokens. En \mathfive, alcanza una precisión del 76.3% con un 26.8% menos de tokens posteriores a la generación y reduce a la mitad los cambios dañinos, mientras que en \gsm verifica solo el 3.0% de los ejemplos, aumentando la precisión al 94.5% y reduciendo los tokens de verificación en un 91.2%. El estudio muestra que la longitud inicial de la resolución y las necesidades de control explícito determinan la estrategia óptima de verificación.

arxiv arXiv cs.CL · hace 2 h

Los Clusters Semánticos Pre-entrenan la Máquina Tsetlin para Interpretabilidad

Un nuevo marco pre-entrena la Máquina Tsetlin utilizando clusters semánticos de modelos de lenguaje, evitando embeddings. El método agrupa muestras de texto en clusters coherentes mediante K-means o Top2Vec, luego utiliza pares cluster-muestra para entrenar una TM sin negación con retroalimentación de Tipo I. Los resultados muestran un rendimiento superior en cinco conjuntos de datos, igualando la precisión a nivel de BERT mientras mantiene la interpretabilidad completa.

arxiv arXiv cs.CL · hace 2 h

Marco de Inteligencia Semántica para el Discurso Público Nigeriano

El Marco de Inteligencia Semántica (MIF) introduce un esquema de nueve dimensiones para analizar el discurso público nigeriano, abordando la falla de contexto en los sistemas de IA. Un conjunto de datos de calibración de 30 elementos muestra que la indicación informada por el esquema mejora la precisión de la clasificación del registro desde 33.3% hasta 73.3% y aumenta la Puntuación Compuesta de Inteligencia Semántica desde 73.2 hasta 78.6.

arxiv arXiv cs.CL · hace 2 h

JAMER: Conjunto de datos y benchmark de marco de código a nivel de proyecto

JAMER presenta JamSet y JamBench, el primer conjunto de datos y benchmark de código de juegos a nivel de proyecto en un motor de juegos profesional. Construido a partir de 8,133 proyectos verificados de Game Jam, permite una evaluación determinista y revela un abismo de capacidad en los modelos de IA a medida que aumenta la escala del proyecto, con tasas de aprobación en tiempo de ejecución que caen de 80.4% a 5.7%.

arxiv arXiv cs.CL · hace 2 h

Ley de Ventana de Control para la Dirección de Neuronas Individuales en Modelos de Lenguaje

Un nuevo marco define cuándo las intervenciones de neuronas individuales controlan coherentemente los comportamientos del modelo sin colapso de salida. La ventana de control, basada en ratios de alineación y norma, predice desencadenantes de comportamiento y techos de colapso utilizando datos del pase hacia adelante, con alta precisión en neuronas no vistas. En el rechazo, el control es tipado: ocurre un bypass coherente sin contenido accionable, mientras que el alcance accionable genuino aparece solo en casos específicos y en etapas posteriores de rollout.

arxiv arXiv cs.CL · hace 2 h

AtomMem: Sistema de memoria simple y efectivo para agentes LLM

AtomMem introduce un sistema de memoria que almacena hechos atómicos de alto valor procedentes de interacciones extensas. Utiliza estructuras de eventos jerárquicas y perfiles temporales para capturar contextos episódicos coherentes y rastrear atributos de usuario en evolución, permitiendo una evolución de la memoria estable y eficiente. Los experimentos en el benchmark LoCoMo muestran que AtomMem alcanza un rendimiento de vanguardia en tareas de razonamiento.

arxiv arXiv cs.CL · hace 2 h

LLMs agénticos de cero disparos extraen patología pulmonar de narrativas

Un flujo de trabajo agéntico de cero disparos que utiliza LLMs de código abierto extrae 13 campos sinópticos del Colegio Estadounidense de Patólogos a partir de informes de patología de resección pulmonar. El mejor modelo (GPT-OSS-20B) logró un Micro-F1 de 0.893, superando la sensibilidad de referencia y capturando con precisión relaciones patológicas complejas sin entrenamiento específico para la tarea.

arxiv arXiv cs.CL · hace 2 h

Los LLMs pueden procesar texto no legible con alta fidelidad semántica

Los modelos de lenguaje grandes pueden mantener una fidelidad semántica del 99.5% al procesar formas de texto compactas y no legibles para humanos llamadas BabelTele, incluso cuando el texto se reduce al 27.9% de su longitud original. Estas representaciones centradas en el modelo muestran un rendimiento sólido en la transferencia entre modelos, memoria de agentes y comunicación multiagente, lo que sugiere que la legibilidad humana no es esencial para la recuperación semántica en los LLMs.

arxiv arXiv cs.CL · hace 2 h

Deliberación impulsada por IA: Escalar la inclusividad y empoderar a grupos marginados

Los Modelos de Lenguaje Grande pueden escalar la deliberación democrática mediante el andamiaje de la argumentación y la reducción de sesgos lingüísticos. El capítulo utiliza la Lingüística Sistémico-Funcional para analizar cómo las variaciones sociodemográficas y comunicativas afectan la participación, destacando el potencial de la IA para desafiar normas excluyentes, mientras advierte contra la sobreestimación o subestimación de sus capacidades. Se insta a implementar salvaguardas éticas y realizar más investigaciones para garantizar un compromiso equitativo asistido por IA.

arxiv arXiv cs.CL · hace 2 h

REDACT: Benchmark multilingüe de PII con control sistemático

REDACT introduce un benchmark multilingüe con control sistemático para la detección de información personalmente identificable, que incluye 51 tipos de entidades, 4.127 patrones de forma superficial y 25 idiomas. Evalúa cinco detectores en 1.000 registros, revelando que los modelos basados en reglas fallan en datos de alto riesgo, mientras que los LLMs tienen un mejor desempeño, especialmente en categorías de alta sensibilidad. Una evaluación de LLM sin referencia confirma que la asignación por nivel de sensibilidad es el eje de evaluación más desafiante.

arxiv arXiv cs.CL · hace 2 h

Evaluación ligera de la pronunciación mediante la sorpresa de tokens de habla discretos

Un nuevo marco evalúa la pronunciación utilizando únicamente datos de habla nativa, sin errores etiquetados. Utiliza la sorpresa de los tokens de habla y la alineación guiada por transcripción para detectar desviaciones fonotácticas, logrando un rendimiento cercano al de los métodos supervisados en múltiples conjuntos de datos.

arxiv arXiv cs.CL · hace 2 h

Marco de Memoria Transactiva Multi-Agente

La Memoria Transactiva Multi-Agente (MATM) permite el almacenamiento y recuperación a nivel de población de trayectorias generadas por agentes. Permite que los agentes productores compartan conocimiento procedural con los agentes consumidores, mejorando el rendimiento de la tarea y reduciendo los pasos de interacción en entornos interactivos como ALFWorld y WebArena sin coordinación ni entrenamiento conjunto.

arxiv arXiv cs.CL · hace 2 h

GEMS: Las restricciones geométricas permiten la superposición multi-semántica en LLMs

GEMS permite la superposición sin entrenamiento de múltiples direcciones semánticas en LLMs abordando la desviación distribucional y la interferencia direccional mediante restricciones geométricas. En GSM8K, mantiene una precisión del 98% con tres direcciones no matemáticas, mientras que la adición sin restricciones cae al 4%; en Wikitext-2, aumenta el PPL solo un 2.2%.

arxiv arXiv cs.CL · hace 2 h

Los modelos de calidad de voz fallan en capturar la variabilidad prosódica y de F0

Los modelos de predicción MOS capturan con precisión la degradación acústica, pero no logran detectar errores prosódicos ni características específicas del hablante, como el tono y la velocidad del habla. Los oyentes humanos perciben caídas significativas en la calidad ante estas perturbaciones, mientras que los modelos muestran fuertes sesgos en la frecuencia fundamental y carecen de sensibilidad ante la velocidad del habla y la variabilidad de F0.

arxiv arXiv cs.CL · hace 2 h

Detección de habla mandarín a nivel de segmento para deterioro cognitivo

Un nuevo marco utiliza un autoencoder con aprendizaje por contraste para analizar el habla mandarín a nivel de segmento en la detección de deterioro cognitivo. Logra un rendimiento estable y competitivo en cuatro conjuntos de datos, con mejoras significativas en la clasificación de tres clases, especialmente bajo condiciones de datos etiquetados limitados.

arxiv arXiv cs.CL · hace 2 h

Entrenamiento de LLMs para agentes de ciclo de vida largo mediante generalización interdominio

Un nuevo marco permite a los modelos de lenguaje grandes aprender 'Conecta los puntos' utilizando aprendizaje por refuerzo con secuencias de rollout largas. El método incluye tareas y entornos adaptados para fomentar el desarrollo de meta-capacidades, mostrando una fuerte generalización interdominio y rendimiento en configuraciones fuera de distribución. Las implementaciones están disponibles en https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod.

arxiv arXiv cs.CL · hace 2 h

Selección de herramientas sobreprivilegiadas en agentes LLM

Los agentes LLM suelen seleccionar herramientas con mayores privilegios a pesar de existir alternativas suficientes con menores privilegios. Este comportamiento sobreprivilegiado se ve amplificado por fallos transitorios de las herramientas y no mejora de manera confiable con la alineación general de seguridad. Una nueva defensa post-entrenamiento consciente del privilegio reduce el uso innecesario de herramientas de alto privilegio mientras mantiene las capacidades del agente.

arxiv arXiv cs.CL · hace 2 h

Optimización de Motores Generativos: Midiendo la Visibilidad en Búsquedas de IA

Un estudio a gran escala de más de 100K respuestas de prompts de IA en más de 100 marcas revela una escalera de visibilidad de marca de tres niveles: las marcas globales aparecen en el 73% de las respuestas, las de mercado medio en el 44%, y las marcas de nicho solo en el 11%. Los motores de IA citan principalmente sitios web corporativos, con YouTube liderando las fuentes no corporativas, y los listados de "lo mejor" representando el 21% de las citas. El sentimiento en las menciones de marca es inestable, cambiando seis veces más a menudo que la mera mención.

arxiv arXiv cs.CL · hace 2 h

STAGE: Generación de datos fundamentada en la fuente para texto a JSON

STAGE es una tubería que genera datos de entrenamiento de texto a JSON utilizando LLMs para sintetizar informes y esquemas JSON, validados contra las hojas de cálculo subyacentes. Las evaluaciones en STAGE-Eval muestran que mejora la coincidencia exacta de Qwen3-4B del 31.37% al 74.27% y la precisión de valores del 45.46% al 90.69%.

arxiv arXiv cs.CL · hace 2 h

Análisis de la Información Teórica de la Supervisión Efectiva en el Pensamiento en Cadena Latente

Este trabajo identifica un doble colapso en el razonamiento latente: atenuación del gradiente y deriva representacional. Propone la Supervisión de Trayectoria y Espacio, demostrando que la reconstrucción generativa preserva mejor la capacidad de información que la compresión geométrica. La Sonda Latente Unificada mide la información mutua entre las trayectorias latentes y los pasos de razonamiento, revelando un vínculo entre información y rendimiento en la precisión del razonamiento.