Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 127

Modelos de lenguaje de ADN: Una evaluación del preentrenamiento para tareas de ajuste fino

Este estudio evalúa las ganancias de rendimiento de los modelos de lenguaje de ADN basados en transformadores como DNABERT2 en comparación con enfoques convencionales como ConvNova, abordando específicamente el alto costo del preentrenamiento. Investiga si estas mejoras justifican la sobrecarga computacional y analiza el impacto de la tokenización por Pares de Bytes (BPE) en tareas genómicas.

arxiv arXiv cs.CL · hace 6 h

Estimación de direcciones de género gramatical en incrustaciones contextuales bajo contextos controlados y naturales

Este estudio aborda la confusión entre el género gramatical y el sesgo semántico social en modelos de lenguaje contextuales para idiomas con género como el español, proponiendo un marco para desentrañar estas dimensiones. Los autores construyen conjuntos de datos equilibrados utilizando plantillas controladas y contextos naturales de Wikipedia para estimar las direcciones de género mientras suprimen la contaminación.

arxiv arXiv cs.CL · hace 6 h

CORTEX: Organización de alta calidad de corpora a escala web mediante un grafo de corpus ontológico

Los autores presentan Cortex, un marco que transforma la construcción de corpora a escala web desde el filtrado plano de documentos hacia una organización estructurada del conocimiento utilizando un Grafo de Corpus Ontológico (OCG). Esta estructura de tres capas unifica contenido refinado por calidad, una ontología jerárquica ligera y alineación entre dominios para abordar los crecientes requisitos de datos de los modelos de lenguaje grandes.

arxiv arXiv cs.CL · hace 6 h

DAIN: Red de Interacción Dinámica Basada en Agentes para el Razonamiento Multimodal Eficiente y Colaborativo

Los investigadores presentan la Red de Interacción Dinámica Basada en Agentes (DAIN), un marco que reconceptualiza la fusión multimodal como un proceso colaborativo dinámico de múltiples agentes, en lugar de depender de arquitecturas estáticas. DAIN utiliza un Meta-Controlador consciente del contexto para programar dinámicamente la activación dispersa de agentes especializados y orquesta una comunicación comprimida para la construcción de consenso.

arxiv arXiv cs.CL · hace 6 h

Prevenir es Precaución: Cuando el Embedding No Secuencial se Convierte en un Detector de Anomalías

Este artículo analiza los embeddings multimodales a nivel de oración no secuenciales, centrándose en el modelo SONAR, para demostrar que dimensiones específicas del embedding son sensibles a perturbaciones y pueden indicar anomalías de decodificación. Al aprovechar la consistencia entre la codificación y decodificación sucesivas, los autores construyen con éxito un detector de anomalías preciso.

arxiv arXiv cs.CL · hace 7 h

Antes de pensar, aprende a decidir: Enrutamiento proactivo para el razonamiento visual eficiente

Los autores proponen PRP, un Paradigma de Enrutamiento Proactivo que acelera la inferencia en grandes modelos multimodales mediante la toma de decisiones tempranas a través de la evaluación conjunta de la competencia del modelo borrador y del modelo objetivo. Este enfoque aborda el cuello de botella de establecer señales confiables de dificultad de consulta en entornos multimodales sin depender de ajustes finos supervisados sensibles a los datos ni de probabilidades de tokens posteriores al proceso.

arxiv arXiv cs.CL · hace 7 h

EvalSafetyGap: Un marco híbrido de encuesta y concepto para fallos de seguridad en la evaluación de LLM

Este artículo aborda el problema compartido de medición en la evaluación de LLM y la seguridad de IA, donde las puntuaciones de los benchmarks a menudo mejoran mientras que las propiedades de seguridad latentes permanecen difíciles de verificar. Introduce EvalSafetyGap, un marco híbrido de encuesta y concepto que combina síntesis sistemática de evidencia con una auditoría estructurada de diez modelos.

arxiv arXiv cs.CL · hace 7 h

CaresAI en CT-DEB26: Detección de errores de dosificación en ensayos clínicos mediante incrustaciones de transformadores específicos del dominio y modelos de clasificación

Este estudio evalúa el uso de incrustaciones de transformadores específicas del dominio combinadas con modelos clásicos de aprendizaje automático para detectar errores de dosificación en protocolos de ensayos clínicos. La investigación tiene como objetivo mejorar la seguridad del paciente y la integridad del ensayo identificando errores de medicación prevenibles temprano mediante el análisis de representación textual.

arxiv arXiv cs.CL · hace 7 h

Comparación del reconocimiento humano y automático de habla continua disártrica neerlandesa: Un estudio de caso

Este estudio comparó el rendimiento de reconocimiento de oyentes humanos frente a tres sistemas ASR comerciales de última generación (Whisper-large-V3, Google Chirp 3 y Omnilingual) sobre habla continua leída y espontánea en neerlandés de un solo hablante con disartria severa.

arxiv arXiv cs.CL · hace 7 h

Aterrizaje del razonamiento de LLM bajo evidencia de grafos incompletos

Este artículo presenta un marco teórico para aterrizar las trayectorias de razonamiento de modelos de lenguaje grandes al depender de evidencia de grafos de conocimiento incompletos en lugar de estados de verdad completos.

arxiv arXiv cs.CL · hace 7 h

Sistema Multi-Agente que Aprovecha LLMs de Código Abierto para Mitigar Amenazas de Desinformación

Este artículo propone un sistema multi-agente novedoso que emula los procesos de toma de decisiones de los anotadores humanos para detectar y desmentir la desinformación, logrando resultados superiores en comparación con modelos de lenguaje grandes individuales como GPT-4 y GPT-3.5.

arxiv arXiv cs.CL · hace 7 h

¿Cuándo se acepta un borrador? Una teoría de la aceptación en el descodificación especulativa

Este artículo desarrolla una teoría para regímenes de descodificación especulativa que utilizan descodificación codiciosa (greedy), reglas de aceptación relajadas o conjuntos de candidatos basados en árboles, en lugar de los entornos estocásticos que preservan la distribución estudiados en la literatura existente. Los autores caracterizan las regiones de rechazo como conjuntos de nivel inferior de la distribución objetivo para derivar requisitos exactos de divergencia KL y cotas precisas basadas en márgenes para varios criterios de aceptación.

arxiv arXiv cs.CL · hace 7 h

DialogPII: Un conjunto de datos multilingüe de transcripciones de diálogo sintéticas para detectar información personal

Los investigadores presentan DialogPII, un conjunto de datos multilingüe de transcripciones de diálogo sintéticas diseñado para apoyar el desarrollo y la evaluación de sistemas automáticos para detectar información personalmente identificable. Este recurso aborda preocupaciones de privacidad en dominios sensibles proporcionando datos anotados en 11 idiomas y ocho escenarios de interacción.

arxiv arXiv cs.CL · hace 7 h

Mejora del ASR débilmente supervisado a gran escala mediante filtrado y selección

Los autores proponen un enfoque de entrenamiento novedoso para el reconocimiento automático del habla (ASR) de extremo a extremo que aborda las etiquetas ruidosas y la falta de especificidad de dominio en conjuntos de datos débilmente supervisados a gran escala. El método implica un preentrenamiento en el conjunto de datos completo, un preentrenamiento continuado en un subconjunto filtrado basado en la tasa de error de caracteres (CER), y un ajuste fino en muestras acústicamente similares de ese subconjunto.

media r/LocalLLaMA · hace 8 h

Qwen3.6-27B con 3-Critic Harness iguala la calidad de frontera

Un usuario probó Qwen3.6-27B (8-bit) junto a GLM5.2 utilizando un harness de codificación que emplea tres críticos—revisión de código, revisión de pruebas y Playwright e2e—para validar la calidad de la salida.

arxiv arXiv cs.CL · hace 8 h

DriftGuard: Detección multi-monitor consciente de la seguridad y adaptación selectiva para la moderación de toxicidad en evolución

Este artículo presenta DriftGuard, un marco que combina la detección de deriva con múltiples monitores y la actualización selectiva de modelos para abordar la toxicidad en evolución en sistemas de moderación automatizada. El sistema rastrea cambios específicos relevantes para la seguridad, como la deriva de daño a la identidad y la deriva de riesgo tóxico, en lugar de depender únicamente de cambios distribucionales globales.

arxiv arXiv cs.CL · hace 8 h

5ting en la Tarea 8 de SemEval-2026: RAG multi-turn end-to-end fuerte mediante reranking basado en LLM y control de fidelidad

Los autores presentan 5ting, un sistema diseñado para la Tarea 8 de SemEval-2026 (MTRAGEval) que evalúa sistemas de Generación Aumentada por Recuperación (RAG) multi-turn. El sistema aborda desafíos como la deriva del contexto, la subespecificación y el riesgo de alucinación combinando recuperación densa con reranking basado en LLM y control de fidelidad.

arxiv arXiv cs.CL · hace 8 h

El voto mayoritario silencia los valores de la minoría: Desacuerdo entre anotadores en el límite entre odio/ofensivo en HateXplain

El estudio demuestra que colapsar el desacuerdo entre anotadores en etiquetas de voto mayoritario durante la anotación de discurso de odio no es neutral, ya que el 42.6% de todo el desacuerdo se concentra específicamente en el límite entre odio/ofensivo. Este patrón indica que los anotadores aplican diferentes umbrales para determinar dónde comienza el odio, creando un problema estructural en cómo se define la verdad fundamental.

arxiv arXiv cs.CL · hace 8 h

Traducción de documentos que preserva la estructura mediante un pipeline de LLM multi-etapa: Un estudio de caso en maratí

Este artículo presenta un marco para traducir documentos gubernamentales de maratí a inglés que mantiene la fidelidad del diseño y la integridad estructural, abordando las limitaciones de los sistemas existentes que descuidan el formato. El sistema integra OCR consciente del diseño, extracción de texto basada en coordenadas, traducción con LLM y reconstrucción HTML para garantizar la alineación espacial y la consistencia jerárquica.

arxiv arXiv cs.CL · hace 8 h

Clasificación de conceptos matemáticos con conjuntos de votación de LLM en Mathswitch

El proyecto de código abierto Mathswitch importa registros de conceptos matemáticos desde fuentes como Wikidata y Wikipedia, vinculando registros que se refieren al mismo concepto sin reorganizar el contenido original. Para abordar el ruido en los datos importados, como elementos no matemáticos o ambiguos, los autores prueban si un conjunto de votación de jueces LLM puede filtrar eficazmente este ruido.