Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 125

Etiquetado de datos de entrenamiento para coincidencia de entidades usando modelos de lenguaje grandes

Este artículo investiga el uso de modelos de lenguaje grandes como modelos maestros en flujos de trabajo de destilación de conocimiento para etiquetar automáticamente datos de entrenamiento para modelos estudiantes más pequeños en tareas de coincidencia de entidades. El estudio evalúa varias estrategias de selección de pares, modelos maestros y estudiantes, y métodos de postprocesamiento en cinco conjuntos de referencia estándar.

media Hugging Face Forums · hace 3 h

AgentSeal: Una auditoría de disponibilidad de corpus para SWE-bench Pro

La herramienta de auditoría AgentSeal v5 evaluó la disponibilidad pública de los artefactos en el benchmark SWE-bench Pro para evaluar riesgos potenciales de contaminación. El estudio encontró que, si bien 12 instancias mostraban una superposición de contenido determinista y 76 repositorios eran miembros probables del corpus, la mayoría de las pruebas consistían en replicación pública con fecha desconocida en lugar de contaminación pre-cutoff demostrada.

lab Google — The Keyword (AI) · hace 3 h

Desbloqueando la próxima era de productividad del Reino Unido: Construir una nación de pioneros de IA

Google UK ha publicado su último Informe de Impacto Económico que detalla estrategias para ayudar a más personas a desbloquear los beneficios de las tecnologías impulsadas por IA en el país.

arxiv arXiv cs.CL · hace 4 h

LAMP: Marco agencial basado en Lean con MCP y Reparación de Pruebas

Los investigadores presentan LAMP, un marco multiagente que sintetiza pruebas verificadas por el kernel de Lean 4 para la Combinatoria sobre Palabras proporcionando conocimiento estructurado del dominio a través de una ontología. Este enfoque aborda la falta de lemas especializados en probadores existentes entrenados principalmente con datos de Mathlib.

arxiv arXiv cs.CL · hace 4 h

Los impactos de seguridad heterogéneos del ajuste fino multilingüe benigno

Un estudio empírico exhaustivo revela que el ajuste fino de modelos de lenguaje grandes con datos multilingües benignos aumenta significativamente su tendencia a cumplir con prompts adversarios inseguros, un fenómeno denominado deriva de seguridad multilingüe. La investigación demuestra que los resultados de seguridad son altamente sensibles tanto al idioma utilizado para el ajuste fino como al idioma de evaluación, con tasas de cumplimiento que se cuadruplican en ciertos entornos.

arxiv arXiv cs.CL · hace 4 h

wav2VOT: Estimación automática del tiempo de inicio de voz, duración del cierre y realización de explosión con wav2vec2

El artículo presenta wav2VOT, una herramienta para la estimación automática del tiempo de inicio de voz, la duración del cierre y la realización de explosión que aprovecha el modelo wav2vec2. Aborda la necesidad de herramientas precisas de anotación de habla en la investigación fonética al demostrar cómo los grandes modelos de habla pueden aplicarse a estas tareas específicas.

arxiv arXiv cs.CL · hace 4 h

Análisis de compatibilidad de licencias de corpora para lenguas africanas con pocos recursos

Este artículo audita el origen de las licencias de más de veinte familias de corpus utilizadas en PLN africano, revelando que, aunque las licencias Creative Commons dominan las publicaciones, sus reglas de compatibilidad rara vez se aplican. Los autores construyen una matriz de compatibilidad de seis niveles y la aplican a tres lenguas de estudio de caso: Kituba/Munukutuba, Zarma y Moore.

arxiv arXiv cs.CL · hace 4 h

Atención de contexto largo gestionada por memoria: Un estudio preliminar de memoria local a la solicitud editable

Este estudio investiga la atención de contexto largo gestionada por memoria separando un núcleo recurrente o disperso rápido de ranuras de memoria local a la solicitud explícitas y editables, junto con una recuperación dispersa en tiempo de consulta. La investigación tiene como objetivo abordar las limitaciones de los métodos de atención lineales, recurrentes y dispersos existentes para gestionar cuándo se deben escribir, sobrescribir, proteger o descartar los hechos.

arxiv arXiv cs.CL · hace 4 h

PASTA: Un enfoque de paráfrasis y autoentrenamiento para la actualización de conocimientos en LLM

Este artículo presenta PASTA, un marco diseñado para integrar información factual detallada de artículos de noticias en Modelos de Lenguaje Grande (LLM) para abordar el desafío de la actualización de conocimientos. El enfoque combina aumento de datos, generación de preguntas y respuestas, y un novedoso proceso de autoaprendizaje de Optimización Directa de Preferencia (DPO) para habilitar la sobrescritura de conocimientos y la supresión de alucinaciones.

arxiv arXiv cs.CL · hace 4 h

MedEvoEval: Evaluación de la evolución continua de agentes médicos mediante episodios clínicos simulados

Los autores presentan MedEvoEval, un marco de evaluación longitudinal ejecutable diseñado para evaluar la evolución continua de agentes médicos a través de episodios clínicos ambulatorios simulados. Este sistema va más allá de las evaluaciones estáticas al rastrear cómo los agentes adquieren evidencia, utilizan recursos y refinan su toma de decisiones a lo largo de múltiples interacciones.

arxiv arXiv cs.CL · hace 4 h

Puentes latentes para respuesta de preguntas multitable

Los autores presentan GRAB, una arquitectura constructor-codificador-puente diseñada para la respuesta de preguntas sobre tablas que eleva los datos relacionales a un grafo heterogéneo y los codifica mediante paso de mensajes. El método transfiere señales a un modelo de lenguaje grande congelado a través de un pequeño conjunto de tokens latentes condicionados por la consulta, proporcionando una representación estructural compacta mientras preserva las capacidades generales de razonamiento del LLM.

arxiv arXiv cs.CL · hace 5 h

FinInvest-GTCN: Modelado causal temporal-gráfico explicable para la optimización de decisiones de inversión con conciencia de riesgo

Los investigadores presentan FinInvest-GTCN, una Red Temporal-Causal-Gráfica diseñada para optimizar las decisiones de inversión en capital de riesgo abordando desafíos como datos heterogéneos y series temporales no estacionarias. El modelo redefine la tarea desde la recomendación de contenido hasta la evaluación cuantitativa de riesgo-retorno, utilizando un codificador de grafos relacionales, fusión temporal multiescala y una cabeza de decisión causal para generar predicciones interpretables.

arxiv arXiv cs.CL · hace 5 h

EVLA: Un Asistente Multimodal Consciente de la Electrificación para el Razonamiento y Control de Conducción Fundamentado en lo Físico

Los autores presentan el Asistente Electro-Visual-Lingüístico (EVLA), un marco que integra la comprensión multimodal de escenas con la percepción en tiempo real del estado electromecánico de un tren motriz electrificado para mejorar las decisiones de conducción. Este enfoque aborda la limitación de los modelos visuales-lingüísticos existentes que tratan la dinámica del vehículo como una caja negra, incorporando restricciones físicas y objetivos de optimización.

arxiv arXiv cs.CL · hace 5 h

A3M: Aprendizaje adaptativo, adversarial y multiobjetivo para licitación estratégica en subastas repetidas

El marco A3M aborda los desafíos del aprendizaje de la estrategia de oferta en subastas repetidas de múltiples unidades mediante la integración de aprendizaje por refuerzo profundo adaptativo, razonamiento adversarial y diseño de recompensas multiobjetivo. Utiliza una arquitectura base actor-crítico y modelado de oponentes para optimizar la estrategia frente a adversarios no estacionarios mientras equilibra utilidad, ingresos y equidad.

arxiv arXiv cs.CL · hace 5 h

Agrupación de representaciones no supervisadas como defensa contra ataques de envenenamiento en sistemas de clasificación de comandos de voz

Este artículo propone una defensa basada en filtrado contra ataques de envenenamiento con etiquetas sucias en sistemas de clasificación de comandos de voz, agrupando representaciones no supervisadas para identificar y eliminar datos de entrenamiento envenenados.

arxiv arXiv cs.CL · hace 5 h

Más allá de la media: fidelidad en tres ejes para alinear simuladores de encuestas basados en LLM a partir de datos piloto pequeños

Este estudio investiga si los modelos de lenguaje grandes pueden recuperar las características estadísticas de una población más amplia utilizando únicamente una pequeña muestra piloto de respuestas humanas. Los autores descomponen esta recuperación en tres ejes: fidelidad estructural, fidelidad marginal y fidelidad individual.

arxiv arXiv cs.CL · hace 5 h

¿Pueden los LLM contratar con equidad? Sesgo racial en el cribado de currículums

Una auditoría de catorce modelos de lenguaje grandes convencionales revela un cambio significativo en el sesgo racial dentro de los algoritmos de cribado de currículums en los últimos años. Mientras que los modelos de 2023 reproducen brechas a favor de los blancos en las llamadas de retorno, todos los modelos lanzados en 2024 o posterior muestran ya sea brechas nulas o reversiones significativas a favor de los negros.

arxiv arXiv cs.CL · hace 5 h

AgriTune-R: Un marco reproducible para el ajuste fino de LLMs en agricultura

El artículo presenta AgriTune-R, un marco reproducible y auditable diseñado para adaptar modelos de lenguaje grandes de propósito general a aplicaciones agrícolas específicas. Este enfoque aborda la naturaleza específica del dominio y crítica en seguridad de la agricultura integrando gobernanza de datos, evaluación de expertos y restricciones de evidencia para prevenir consejos no confiables.

arxiv arXiv cs.CL · hace 5 h

BERTomelo: Tu mejor amigo codificador en portugués

Este artículo presenta BERTomelo, un codificador monolingüe de próxima generación específicamente optimizado para el idioma portugués utilizando la arquitectura ModernBERT.

arxiv arXiv cs.CL · hace 5 h

Adaptación de dominio conversacional de IndicTrans2 mediante experiencia repetida y sopas de modelos

Los autores adaptan el sistema de traducción de código abierto IndicTrans2-1B para manejar el registro conversacional en 21 idiomas indios utilizando únicamente conjuntos de datos públicos. Al combinar la experiencia repetida con la sopa de modelos, logran mejoras significativas en las métricas automáticas sin degradar el rendimiento en tareas de dominio general.