Todos los artículos
media r/LocalLLaMA · hace 2 h

Benchmarks de V620 modificada con firmware W6800 en eBay

Una V620 modificada flasheada con firmware W6800 habilita la salida mini-DisplayPort pero desactiva algunos núcleos de cómputo, a pesar de tener relojes de refuerzo más altos. Los benchmarks muestran que Vulkan supera a ROCm en tareas de grupos de tensores (TG), mientras que ROCm es más rápido en el procesamiento de prompts (PP) a profundidades de contexto más largas, con ganancias de rendimiento significativas en configuraciones Q4_K_XL.

media r/LocalLLaMA · hace 2 h

Manera más barata de ejecutar GLM 5.x localmente sin memoria unificada

Un usuario explora métodos rentables para ejecutar GLM 5.x localmente usando cuantización de 4 bits, como IQ4_XS, sin depender de memoria unificada. Las opciones incluyen configuraciones solo con CPU como Sapphire Rapids ES con DDR5, descarga a múltiples GPUs o modelos de tamaño similar. El usuario ejecuta un sistema con 5900X + 128GB DDR4 + 7900XT 20GB, manejando exitosamente Minimax 2.7 en Q4_K_S y Qwen 3.6 27B en IQ4_XS.

arxiv arXiv cs.CL · hace 2 h

Los LLM predicen demencia y depresión a partir del habla clínica

Un estudio utiliza modelos de lenguaje grandes de peso abierto para evaluar la gravedad de la demencia y la depresión a partir de entrevistas clínicas. Los LLM logran una predicción precisa de la depresión en zero-shot (MAE 0.60) y una evaluación mejorada de la demencia con extracción de características (MAE 0.78), reduciendo los errores hasta un 35%. Las transcripciones enriquecidas con pausas coinciden con las transcripciones humanas, apoyando los flujos de trabajo de detección automatizada para trastornos neuropsiquiátricos.

arxiv arXiv cs.CL · hace 2 h

LegalHalluLens: Auditoría de alucinaciones en IA legal

LegalHalluLens introduce un marco para auditar alucinaciones de IA en contextos legales mediante el análisis de perfiles de alucinación tipificados en cuatro categorías de afirmaciones. Revela una brecha de 38-40 puntos entre las afirmaciones obligatorias/numéricas y temporales, y muestra que dos sistemas con tasas de alucinación idénticas del 52% pueden tener direcciones de riesgo opuestas. El marco utiliza un Índice de Dirección de Riesgo y pipelines de debate calibrados para reducir las detecciones fabricadas en un 45% y mejorar la responsabilidad en el despliegue de IA legal.

arxiv arXiv cs.CL · hace 2 h

ProvenanceGuard: Verificación de factualidad consciente de la fuente para agentes LLM basados en MCP

ProvenanceGuard introduce un verificador consciente de la fuente para agentes LLM basados en MCP que detecta la confluencia entre fuentes al enrutar afirmaciones a fuentes de evidencia específicas y comparar la atribución declarada con la propiedad real de la fuente. Logra una F1 por bloque de 0.802 y una precisión de fuente de 0.858 en 260 afirmaciones elegibles por fuente, superando a las líneas base ciegas a la fuente, y detecta todos los intercambios de atribución inyectados en 50 pruebas clínicas.

arxiv arXiv cs.CL · hace 2 h

La Experiencia Vivida Sintética de la IA en el Apoyo al Cuidador

Los LLM pueden generar respuestas similares a las de pares que imitan narrativas personales, creando una falsa impresión de experiencia vivida. El análisis psicolingüístico muestra que los pares humanos utilizan más lenguaje en primera persona y centrado en el pasado que la IA, y esta última a menudo fabrica fundamentos experienciales sin tener experiencia real. Este riesgo paradójico de la experiencia vivida sintética puede engañar a los cuidadores, lo que hace necesario establecer mecanismos para distinguir el marco de apoyo de la experiencia fabricada.

arxiv arXiv cs.CL · hace 2 h

PseudoBench: Evaluación de la resistencia de los sistemas de auto-investigación agéntica a la pseudociencia

PseudoBench evalúa la capacidad de los sistemas de auto-investigación agéntica para detectar afirmaciones pseudocientíficas. Al probar siete agentes de última generación, encuentra tasas de rechazo cercanas a cero y solo un 27.4% de resistencia a las narrativas pseudocientíficas, con agentes más fuertes que a menudo utilizan lenguaje científico sofisticado para enmascarar la pseudociencia.

arxiv arXiv cs.CL · hace 2 h

HistoRAG: Integrar la metodología histórica en RAG

HistoRAG introduce cambios arquitectónicos en la Generación Aumentada por Recuperación basados en principios historiográficos. Separa la recuperación y la generación, implementa ventanas temporales para una representación equilibrada de las fuentes, y utiliza evaluación LLM-as-judge para juicios de relevancia transparentes. Evaluado en 102,189 artículos de Der Spiegel (1950-1979), el marco aborda deficiencias en RAG estándar, incluyendo sesgo temporal y débil correlación de recuperación, y propone Zwischentexte como un método de integración responsable para contenido generado por LLM en trabajos académicos.

arxiv arXiv cs.CL · hace 2 h

Las inyecciones de triple llave en Handlebars explotan los delimitadores de roles estructurales

La interpolación de triple llave de Handlebars no protege contra la inyección de roles estructurales, ya que el escape de HTML solo neutraliza los delimitadores de corchetes angulares. Deja intactos los delimitadores de dos puntos y de hash de Markdown, lo que permite a los atacantes secuestrar los turnos del modelo. El escape predeterminado no proporciona protección para la mayoría de las familias de delimitadores de roles y no puede reemplazar una separación estructural entre instrucciones y datos.

arxiv arXiv cs.CL · hace 2 h

Sesgo geográfico en modelos de lenguaje grandes a partir de metadatos del usuario

Un estudio revela que incluso los prompts neutrales desencadenan respuestas específicas de la región en modelos de lenguaje grandes debido a los metadatos del usuario. La filtración de ubicación aumenta hasta 793 veces en algunos modelos, y usar 'Desconocido' en lugar de los metadatos de ubicación aún causa un sesgo significativo, lo que indica que el propio marco del perfil del usuario actúa como una señal de condicionamiento.

arxiv arXiv cs.CL · hace 2 h

Un benchmark agéntico revela que los modelos de IA fallan al evitar la explotación animal

TAC, el primer benchmark agéntico para el bienestar animal implícito, evalúa la capacidad de los agentes de IA para evitar la explotación animal en escenarios de reserva de viajes. Los siete modelos líderes obtienen puntuaciones por debajo del 64%, con el mejor alcanzando el 53%, e incluso pequeñas mejoras en las instrucciones solo producen ganancias modestas. Una auditoría no encuentra indicios de conciencia de evaluación, lo que indica que las brechas de rendimiento provienen de la falta de razonamiento real sobre el bienestar, no del reconocimiento de las instrucciones.

arxiv arXiv cs.CL · hace 2 h

Estudio de Red-Team Encuentra que los LLMs de Vanguardia Siguen Vulnerables a Ataques Automatizados

Un estudio de red-team de los modelos Fable 5 y Opus 4.8 de Anthropic revela que ambos son vulnerables a ataques iterativos adaptativos, con Opus 4.8 comprometido en el 11.5% de las intenciones y Fable 5 en el 6.1%. A pesar de las defensas robustas, ambos modelos generaron 1,620 y 702 completados dañinos confirmados por panel a través de todas las categorías de daño, de forma automática y eficiente bajo ataque automatizado.

arxiv arXiv cs.CL · hace 2 h

RubricsTree: Marco de evaluación escalable para agentes de salud personal

RubricsTree introduce una taxonomía jerárquica de más de 100 rúbricas booleanas clínicamente verificables, evolucionadas a partir de 4.000 consultas reales de usuarios mediante curación con intervención humana. Permite la evaluación escalable y alineada con expertos de agentes de salud personal al enrutar dinámicamente las consultas a rúbricas relevantes, y supera a los métodos base en alineación, sensibilidad contextual y ganancias de rendimiento del modelo de hasta el 66% en HealthBench.