BERTomelo: Tu mejor amigo codificador en portugués
Este artículo presenta BERTomelo, un codificador monolingüe de próxima generación específicamente optimizado para el idioma portugués utilizando la arquitectura ModernBERT.
Este artículo presenta BERTomelo, un codificador monolingüe de próxima generación específicamente optimizado para el idioma portugués utilizando la arquitectura ModernBERT.
Los autores adaptan el sistema de traducción de código abierto IndicTrans2-1B para manejar el registro conversacional en 21 idiomas indios utilizando únicamente conjuntos de datos públicos. Al combinar la experiencia repetida con la sopa de modelos, logran mejoras significativas en las métricas automáticas sin degradar el rendimiento en tareas de dominio general.
Un estudio de 22 modelos de lenguaje grandes de peso abierto revela que, si bien la fuerza de la evidencia clínica puede recuperarse a partir de las activaciones y el texto del modelo, los grados explícitamente declarados por los modelos no son mejores que el azar. Los investigadores analizaron 45.134 afirmaciones clínicas armonizadas en cuatro niveles de grados de evidencia para probar si los modelos registran y expresan la fuerza de la evidencia de manera distinta a la verdad factual.
Los investigadores investigan la brecha distribucional entre el habla sintética y real en sistemas de reconocimiento automático del habla (ASR) basados en LLM, analizando una arquitectura SLAM-ASR. Identifican que las señales discriminativas que separan ambos tipos de datos se concentran en las capas iniciales a medias del backbone del modelo.
Este artículo presenta un marco de descodificación continua para modelos de lenguaje de difusión enmascarada (MDLMs) que reinterpretar la predicción de máscaras como predicción de estado limpio para inducir un flujo continuo en el espacio de incrustaciones de entrada. Al permitir que los tokens acumulen progreso parcial y permanezcan revisables, el método aborda los compromisos prematuros inherentes a los regímenes estándar de desenmascaramiento binario.
ThinkProbe es un marco para el análisis estructural de las trazas de razonamiento de modelos de lenguaje grandes, convirtiéndolas en Grafos de Pensamiento dirigidos con ocho tipos de nodos y seis tipos de aristas. Deriva un perfil cognitivo de cinco dimensiones basado en 19 métricas a través de una pipeline completamente no generativa que combina segmentación basada en reglas y vinculación semántica discriminativa.
Este estudio investiga el grado en que los codificadores de texto modernos capturan teorías psicológicas del afecto evaluando doce modelos lanzados recientemente a través de tres marcos de emoción establecidos. La investigación compara el rendimiento a nivel de palabra y a nivel de oración utilizando tanto tareas de regresión como de clasificación.
Este estudio evalúa si los Modelos de Lenguaje Multimodal a gran escala (MLLMs) pueden realizar la denominación localizada de conceptos bajo condiciones estrictas de zero-shot, asignando etiquetas a regiones de cajas delimitadoras. Los autores proponen un protocolo de evaluación reproducible para la Denominación de Conceptos que incluye prompts de conjunto cerrado y una estrategia basada en similitud de incrustaciones para espacios de etiquetas grandes.
Los investigadores presentan el Ajuste Fino Evolutivo (EFT), un paradigma de entrenamiento intermedio que enseña a los Modelos de Lenguaje Grandes a evolucionar soluciones en diversas tareas, convirtiendo trayectorias de búsqueda evolutiva en supervisión. Este enfoque aborda la limitación de métodos anteriores que descartan la experiencia acumulada, permitiendo a los modelos reutilizar capacidades de descubrimiento en lugar de resolver nuevos problemas desde cero.
AB-RAG es un marco de trabajo libre de entrenamiento y agnóstico al backbone que ajusta dinámicamente los esfuerzos de recuperación basándose en una estimación de confianza derivada de la certeza del modelo, el acuerdo entre la respuesta y la evidencia recuperada, y la varianza de las puntuaciones de recuperación. Este enfoque permite a los sistemas decidir si detenerse o recuperar más evidencia dentro de un presupuesto fijo sin reentrenar el modelo de lenguaje subyacente.
Este estudio investiga si los modelos de lenguaje reconocen cuándo están siendo evaluados, un factor crítico para la seguridad de la IA ya que puede hacer que los modelos alteren su comportamiento estratégicamente. Utilizando 11 modelos de peso abierto de las familias Qwen 2.5, Gemma 2 y Llama 3.2, los investigadores analizaron cómo se manifiesta la conciencia de evaluación en diferentes tamaños de modelo.
Los autores presentan una regla de cribado pre-registrada que determina antes de la implementación si vale la pena construir un bucle externo evolutivo sobre los parámetros de una red neuronal en comparación con una alternativa barata de un solo disparo. La regla calcula una métrica de recuperación R, definida como la mejor ganancia de un solo disparo dividida por la mejor ganancia de cualquier método barato, y prescribe omitir el bucle externo cuando R es mayor o igual al 90%.
Un estudio con 815 participantes examinó si usar un lenguaje similar al humano para describir la inteligencia artificial altera la percepción pública en comparación con descripciones neutrales.
Los autores presentan DistilledGemma, un sistema eficiente para la extracción de relaciones persona-lugar a partir de artículos de periódicos históricos multilingües en inglés, alemán y francés. El enfoque utiliza una tubería de destilación de conocimiento en tres etapas para equilibrar la precisión de clasificación con la eficiencia computacional.
Los autores presentan Atribución de Datos Mecanística Simbólica (SMDA), un marco que atribuye pares de entrenamiento a las políticas simbólicas interpretables que gobiernan el comportamiento del modelo, cerrando la brecha entre los circuitos mecanísticos y las decisiones de alto nivel.
El artículo presenta TraceRetain, un marco ligero para memoria externa acotada en agentes LLM congelados que puntúa y elimina entradas basándose en características interpretables como éxito y redundancia. El estudio evalúa cómo las políticas de retención impactan el rendimiento cuando se utiliza memoria externa para aumentar los modelos de lenguaje.
El artículo aborda la limitación del uso de "sorpresa bayesiana" estática en AutoDiscovery, introduciendo creencias de LLM informadas por evidencia, donde los priors se actualizan con evidencia de hipótesis anteriores para calcular una surprisal no estacionaria. Los autores encuentran que la generación aumentada por recuperación basada en incrustaciones sobre descubrimientos previos anticipa mejor los posteriors finales e identifican el 37.5% de las sorpresas estáticas como espurias.
Un estudio realiza un benchmark de diez sistemas OCR en texto Devanagari, revelando que los modelos de lenguaje-visión OCR especializados son frágiles bajo degradación y que un alto rendimiento en inglés no predice la precisión en scripts indios.
Los investigadores proponen Modelos de Lenguaje de Difusión Multi-Bloque (MBD-LMs) para extender la generación de texto por difusión de un solo bloque, descodificando concurrentemente un conjunto en ejecución de bloques consecutivos para lograr paralelismo inter-bloque. El enfoque cierra la brecha entre los estados de entrenamiento e inferencia mediante un método post-entrenamiento llamado Forzamiento Maestro Multi-Bloque (MultiTF).
Los investigadores presentan PolicyGuard, un verificador de sub-agente diseñado para mejorar la adherencia a políticas en agentes LLM mediante el razonamiento sobre el contexto completo del diálogo, en lugar de depender de verificaciones externas de argumentos individuales. Este enfoque aborda las limitaciones de los métodos de salvaguarda anteriores que a menudo subestiman la necesidad de correcciones específicas de la conversación y la confirmación explícita del usuario.