Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 61

Evaluación de la Robustez del Razonamiento OCR en Modelos Visión-Lenguaje Bajo Perturbaciones Visuales

Los autores presentan OCR-Robust, un benchmark diseñado para evaluar la robustez de los modelos visión-lenguaje durante tareas de razonamiento OCR bajo perturbaciones visuales. El conjunto de datos comprende 812 muestras divididas en dos subconjuntos: OCR1.0, que cubre documentos y escritura a mano, y OCR2.0, centrado en gráficos y tablas. Un estudio piloto identificó cinco tipos de perturbación representativos en tres niveles de severidad para garantizar una evaluación eficiente. El estudio compara 18 modelos, incluyendo sistemas propietarios y VLMs de código abierto, utilizando métricas como Retención de Corrupción Relativa y Retención del Peor Caso. Los resultados indican que una mayor precisión en condiciones limpias no necesariamente se correlaciona con una mayor robustez frente a la degradación visual. Además, el análisis revela que los gráficos y las tablas son sustancialmente más frágiles que las entradas similares a documentos cuando se someten a estas perturbaciones.

arxiv arXiv cs.CL · hace 7 h

Des-aprendizaje natural: Control asimétrico de qué reglas sobreviven al preentrenamiento

Un estudio identifica el 'des-aprendizaje natural', un fenómeno en el que los modelos de lenguaje pequeños pierden reglas gramaticales aprendidas a mitad del preentrenamiento a pesar de que la evidencia permanece en los datos. Los investigadores observaron que un modelo que aprendía concordancia de pronombre-género con Sue colapsó de una precisión de 0.94 a cerca de cero en el paso 3,500 sin ningún pico correspondiente en la curva de pérdida. La supervivencia de estas reglas está determinada por la frecuencia de soporte dentro del flujo de entrenamiento, mientras que la relación datos-parámetro solo modula la profundidad del colapso. Esta dinámica de emergencia-entonces-colapso se replicó en múltiples corpus, presupuestos y semillas, y se confirmó en puntos de control Pythia públicos donde la profundidad del colapso se correlacionó con la escala del modelo. El proceso de olvido actúa como un mecanismo de desplazamiento donde un patrón superficial competidor supera a la regla, haciendo que el margen de log-probabilidad cruce cero dentro de los 100 pasos del fallo conductual. El control sobre este destino es asimétrico; mientras que inyectar contra-evidencia puede destruir reglas mediante una respuesta dosis-monótona, restaurar el soporte incluso a 450 veces el nivel sostenible no logra recuperarlas.

arxiv arXiv cs.CL · hace 7 h

La ceguera del léxico de palabras clave distorsiona la medición de la postura retórica

Un estudio que analiza 85 entrevistas con cuatro intelectuales públicos revela que la puntuación basada en palabras clave puede producir artefactos estadísticos respecto a la postura retórica. El análisis inicial mostró un patrón robusto de co-ocurrencia entre afecto negativo y certeza enfática, con coeficientes de correlación altos que oscilan entre r = 0.72 y 0.93. Sin embargo, reemplazar este método con una clasificación semántica zero-shot basada en LLM sobre el corpus diarizado completo de 32,625 oraciones redujo significativamente estas correlaciones. Por ejemplo, la correlación de Dalio bajó de 0.851 a 0.206, mientras que otros hablantes exhibieron relaciones negativas o nulas entre negatividad y certeza. En contraste, el análisis con LLM reveló un fuerte acoplamiento entre sentimiento negativo y lenguaje hedging (de cautela), alineándose con las expectativas convencionales del discurso pesimista. La discrepancia se debe a tres fallas estructurales en los léxicos de palabras clave: ceguera sintáctica, ceguera a la polisemia y ausencia categórica. Estos defectos pueden invertir el significado semántico, como puntuar 'nunca absolutamente totalmente seguro' como alta certeza. Los autores argumentan que los conteos de palabras clave miden tendencias de co-ocurrencia léxica en lugar de certeza epistémica, constituyendo un error de categoría.

arxiv arXiv cs.CL · hace 7 h

Auditoría de la sensibilidad al orden en modelos de lenguaje grande multimodales

El estudio introduce Facet-Probe, una auditoría de cinco facetas de 18 modelos de lenguaje grande multimodales de vanguardia y con pesos abiertos para evaluar la sensibilidad al orden. Las pruebas estándar a menudo pasan por alto si el desordenamiento de la evidencia cambia las respuestas, una propiedad de confiabilidad destacada por las directrices emergentes de evaluación de IA. Utilizando un modelo bayesiano de respuesta al ítem, los investigadores separaron el ruido de ordenamiento del sesgo por faceta y estimaron los límites estocásticos del decodificador mediante controles con el mismo ordenamiento. La auditoría encontró que ninguno de los 18 modelos es invariante al orden, con tasas de cambio en la media del panel que oscilan entre el 24% y el 50% a través de diferentes facetas. Incluso el modelo de mejor rendimiento cambió su respuesta en el 13.4% de las pruebas, lo que indica que una mayor capacidad no elimina esta vulnerabilidad. Las pruebas de mitigación utilizando cambios de prompt sin entrenamiento resultaron condicionales a la modalidad y fallaron al transferirse entre tareas de razonamiento textual y visual. Estos hallazgos sugieren que las correcciones a nivel de prompt son insuficientes para la robustez general al orden, motivando soluciones arquitectónicas. Los autores proponen la tasa de cambio por cruce de ordenamientos como un eje estándar de reporte para futuras evaluaciones de MLLM.

arxiv arXiv cs.CL · hace 7 h

La IA de voz en tiempo real oye pero no escucha

Un estudio evalúa cuatro sistemas principales de voz en tiempo real para producción: GPT Realtime 2 de OpenAI, Gemini 3.1 Flash Live de Google, y Qwen3.5 Omni Plus y Omni Flash de Alibaba. La investigación se centra en tareas donde tanto las palabras como la entonación vocal transmiten información significativa en tres escenarios consecuentes. Los cuatro sistemas actúan sobre las palabras literales en lugar de la voz, lo que lleva a errores como colgar llamadas con usuarios que lloran e insisten en que no hay problema o aprobar transferencias bancarias realizadas con voces asustadas. Sorprendentemente, esta desconexión a menudo no es un fallo de percepción, ya que tres de los cuatro sistemas pueden identificar confiablemente angustia, miedo o sarcasmo cuando se les pregunta directamente. A pesar de esta conciencia, los modelos ignoran estas señales emocionales durante la toma de decisiones, exhibiendo lo que los autores denominan la 'brecha de inteligencia emocional'. El estudio también señala que los sistemas estiman el acento y la edad basándose en sesgos léxicos en lugar de propiedades acústicas. Inducir a los sistemas a prestar atención explícita a la entrega vocal mejora el rendimiento solo parcialmente e inconsistentemente. Estos hallazgos sugieren que la IA de voz en tiempo real actual se comporta como si el habla se redujera a una transcripción, lo que exige precaución en entornos donde el tono es crítico.

media r/LocalLLaMA · hace 7 h

Pipeline local de NL a SQL usando Qwen3 4B y planificación determinista

Un desarrollador ha implementado un sistema completamente local de generación de filtros a partir de lenguaje natural en hardware sin GPU. La solución utiliza el modelo Qwen3 4B Instruct ejecutándose mediante llama.cpp con inferencia solo en CPU. En lugar de generar SQL directamente, el modelo se centra en la intención semántica y la selección estructurada de filtros. Un planificador de consultas determinista gestiona posteriormente los procesos de generación y optimización de SQL. El pipeline emplea un método de recuperación híbrido BM25 y embeddings usando FAISS para el almacenamiento vectorial. Recupera los cuatro ejemplos coincidentes principales de aproximadamente 800 instancias semánticas incrustadas para inyectarlas en el prompt. Este enfoque permite que el sistema funcione eficazmente dentro de las estrictas limitaciones de RAM reducida y sin acceso a internet.

media r/LocalLLaMA · hace 7 h

Cotización bloqueada de Dell para 6x RTX PRO 6000 Max-Q a $8,960

Un usuario en Reddit compartió una cotización bloqueada de Dell para seis GPUs RTX PRO 6000 Blackwell Max-Q con un precio de $8,959.99 por unidad. Esta oferta es significativamente menor que el precio de lista de $15,999 publicado solo un día antes. La cotización inicial para las seis unidades expira en aproximadamente tres horas desde el momento de la publicación. El autor también tiene una cotización válida separada para dos unidades al mismo precio descontado hasta el 3 de julio. Está buscando ideas de la comunidad sobre cómo proceder con la compra del hardware para un cluster de inferencia GLM 5.2 local. Aunque tiene los fondos para comprar las seis unidades inmediatamente, quiere soluciones creativas para aprovechar el descuento por volumen que expira. El autor aclaró que no está buscando asesoramiento financiero ni solicitudes para comprar las GPUs él mismo.

media r/LocalLLaMA · hace 7 h

Consulta en Reddit sobre ejecutar modelos grandes con 4x-8x RTX 6000 PRO

Un usuario de Reddit busca opiniones de la comunidad sobre el rendimiento de modelos de lenguaje grandes en sistemas equipados con cuatro a ocho GPUs NVIDIA RTX 6000 PRO. La consulta se dirige específicamente a usuarios que tienen entre 384GB y 768GB de VRAM disponibles para ejecutar modelos como GLM 5.2, Kimi 2.7 y DeepSeek V4 Pro. El autor señala que, aunque estos modelos pueden ejecutarse técnicamente con cuantización de 4 bits, es posible que no quepan dentro de las limitaciones de memoria al usar precisión de 8 bits. Hace referencia a un repositorio de benchmarks pero destaca que carece de datos para los lanzamientos más recientes de modelos. Una preocupación clave planteada es si la degradación del rendimiento al usar cuantización de 4 bits frente a 8 bits es lo suficientemente significativa como para afectar tareas agénticas o de programación. El usuario también pregunta qué backends de inferencia, como vLLM o SGLang, están siendo utilizados actualmente por otros en esta configuración de hardware.

arxiv arXiv cs.CL · hace 7 h

Estructuración de un diccionario legible por máquina árabe-inglés usando gramáticas de expresión de análisis

Este artículo presenta un método para estructurar una versión legible por máquina del diccionario árabe-inglés Al-Mawrid, abordando la falta de estandarización en los formatos impresos. El enfoque convierte flujos no estructurados de palabras y puntuación en estructuras jerárquicas explícitas que definen componentes de entrada como subentradas, etiquetas de dominio y equivalencias de traducción. El análisis (parsing) sirve como paso central dentro de un diseño en cascada, implementado utilizando el formalismo de gramáticas de expresión de análisis. Esta técnica permite la organización automática o semiautomática de las entradas del diccionario a pesar de la ausencia de estandarización de la microestructura en los diccionarios árabes. El estudio demuestra que inducir la microestructura permite una precisión plausible al estructurar estos recursos léxicos complejos. Al transformar texto sin formato en formatos definidos, el trabajo respalda aplicaciones posteriores de procesamiento del lenguaje natural que requieren datos léxicos legibles por máquina.

arxiv arXiv cs.CL · hace 7 h

WBCMor VQA: Un punto de referencia bilingüe inglés-urdu para la respuesta a preguntas visuales en hematología

Los investigadores han presentado WBCMor VQA, un punto de referencia bilingüe clínicamente validado para el análisis de leucemia y glóbulos blancos normales en inglés y urdu. Este recurso aborda la brecha en las tecnologías de atención médica multilingües, particularmente en regiones como Pakistán, donde la documentación clínica a menudo no coincide con los idiomas de comunicación de los pacientes. El conjunto de datos comprende 110.000 pares de preguntas y respuestas bilingües anotados en 20.000 imágenes de células individuales de glóbulos blancos leucémicos y normales. Para garantizar la consistencia lingüística y la corrección clínica, el punto de referencia utiliza anotaciones conscientes de la morfología de los conjuntos de datos LeukemiaAttri y WBCAtt junto con un diccionario de hematología en urdu específico del dominio. El estudio también destaca las limitaciones de los recursos existentes de visión e idioma centrados en el inglés en entornos diversos de atención médica. Se establecieron métricas de rendimiento de referencia evaluando múltiples Modelos de Lenguaje Visión de código abierto en este nuevo punto de referencia. Este recurso tiene como objetivo facilitar el desarrollo de sistemas de IA accesibles para contextos médicos multilingües.

arxiv arXiv cs.CL · hace 7 h

Generación automática de resúmenes para artículos académicos mediante aprendizaje basado en prompts

Este estudio investiga el aprendizaje basado en prompts para la generación automática de resúmenes de artículos académicos con el fin de abordar la falta de datos de entrenamiento etiquetados en los métodos supervisados existentes. Los investigadores diseñaron plantillas de prompts específicas para la tarea combinadas con los resúmenes de los artículos como entradas para varios modelos de lenguaje, incluyendo GPT-2 y T5 desplegados localmente, así como ChatGPT accesible a través de API. Los experimentos realizados en tres conjuntos de datos demostraron que ChatGPT con plantillas de prompts logró un rendimiento comparable a métodos supervisados anteriores sin requerir muestras de entrenamiento específicas para la tarea. Cuando se añadieron un pequeño número de ejemplos a los prompts, el modelo superó significativamente a los métodos más avanzados en dos de los conjuntos de datos. El análisis reveló que, aunque ChatGPT posee fuertes capacidades de modelado de lenguaje, su rendimiento es altamente sensible a la información específica proporcionada dentro del prompt. Los estudios de caso indicaron que los resúmenes generados son generalmente coherentes, informativos y se asemejan estrechamente a los escritos por los autores. Este enfoque no depende de corpus de entrenamiento específicos del dominio, apoyando la minería de texto posterior y la investigación bibliométrica para artículos que carecen de resúmenes existentes.

arxiv arXiv cs.CL · hace 7 h

Medir la dificultad de la investigación en PLN: Una relación con forma de U invertida con el impacto académico

Este estudio propone un sistema de evaluación integral para medir la dificultad de la investigación académica, centrado en el Procesamiento del Lenguaje Natural como caso de estudio. Los autores extraen características internas y externas de los artículos, incluyendo colaboración, contenido y referencias, para calcular múltiples indicadores de dificultad. Estos indicadores se ponderan utilizando el método de peso de entropía y se suman para generar una puntuación final de dificultad de la investigación. El impacto académico se cuantifica mediante la frecuencia de citas, mientras que las evaluaciones de expertos validan la fiabilidad del enfoque de medición. Los resultados empíricos indican que el número de páginas, el número de referencias y la participación institucional de alto nivel se correlacionan significativamente con el impacto académico. Crucialmente, el análisis revela una relación con forma de U invertida entre la dificultad de la investigación y el impacto. Esto sugiere que la investigación moderadamente difícil tiende a lograr el mayor nivel de influencia académica.

arxiv arXiv cs.CL · hace 7 h

iLLaDA: Un modelo de lenguaje de difusión enmascarado de 8B con atención totalmente bidireccional

Los autores presentan iLLaDA, un modelo de lenguaje de difusión enmascarado de 8B parámetros entrenado desde cero utilizando atención totalmente bidireccional. Este enfoque contrasta con la factorización autoregresiva predominante y la atención causal utilizadas en los modernos modelos de lenguaje grandes. El pre-entrenamiento del modelo escaló a 12 billones de tokens, seguido de ajuste fino supervisado en un corpus de instrucciones de 25 mil millones de tokens durante 12 épocas. iLLaDA mantiene el objetivo de difusión enmascarada durante ambas fases de entrenamiento y emplea generación de longitud variable para eficiencia. También introduce puntuación basada en confianza para mejorar el rendimiento en tareas de evaluación de opción múltiple. Los resultados de los benchmarks muestran mejoras significativas sobre su predecesor, LLaDA, incluyendo ganancias de 21.6 puntos en BBH y 14.9 puntos en ARC-Challenge para el modelo base. La variante ajustada con instrucciones logró aumentos de 14.5 puntos en MATH y 16.5 puntos en HumanEval. A pesar de su naturaleza no autoregresiva, iLLaDA sigue siendo competitivo con Qwen2.5 7B en varias métricas.

arxiv arXiv cs.CL · hace 7 h

Hybrid-IR: Recuperación híbrida de doble vía con razonamiento iterativo para la respuesta a preguntas médicas complejas

Los modelos de lenguaje grandes enfrentan desafíos con las alucinaciones y el conocimiento desactualizado en aplicaciones biomédicas, lo que ha impulsado el desarrollo de métodos mejorados de generación aumentada por recuperación. Los enfoques existentes a menudo luchan con el conocimiento médico fragmentado debido a la dependencia de rutas de recuperación únicas y estrategias estáticas que dificultan el razonamiento profundo. Para abordar estas limitaciones, los investigadores introdujeron Hybrid-IR, un marco de doble vía que presenta un mecanismo iterativo de recuperación-razonamiento para la respuesta a preguntas médicas complejas. Este sistema integra la recuperación basada en grafos para explorar conocimiento estructurado junto con la recuperación densa para la coincidencia semántica fina. El modelo refina progresivamente su trayectoria de razonamiento a través de un bucle iterativo entre los pasos de recuperación y razonamiento. Los experimentos realizados en tres benchmarks ampliamente utilizados de QA médica demuestran la efectividad de este enfoque propuesto.

arxiv arXiv cs.CL · hace 7 h

Enrutamiento de Rama Local: Escalado Eficiente y Entrenable en Tiempo de Prueba para Modelos de Lenguaje

Los autores presentan el Enrutamiento de Rama Local (LBR), un marco a nivel de token diseñado para mejorar el razonamiento de los modelos de lenguaje mediante escalado eficiente en tiempo de prueba. LBR expande un pequeño árbol de anticipación local y envía todas las ramas muestreadas a través del modelo, utilizando un enrutador ligero para seleccionar el subárbol de profundidad 1 para su compromiso. Este enfoque permite que cada decisión de token utilice evidencia de futuros locales candidatos sin incurrir en los costos computacionales de la búsqueda a nivel de solución completa. El método emplea un proceso de decodificación poda-crecimiento-crecimiento que preserva las identidades discretas de las ramas y define una verosimilitud de trayectoria de árbol tratable. En consecuencia, LBR permite el aprendizaje por refuerzo de extremo a extremo con recompensas verificables, optimizando conjuntamente el modelo base y el enrutador bajo el mismo principio de razón de verosimilitud que el RLVR de tokens discretos. Los resultados experimentales en tareas sintéticas de planificación jerárquica demuestran que los estados ocultos post-candidato proporcionan evidencia útil para el enrutamiento. Además, las pruebas en razonamiento matemático muestran que LBR mejora tanto las métricas Pass@1 como Pass@32 en comparación con el pensamiento en cadena discreto y otras líneas base.

arxiv arXiv cs.CL · hace 7 h

La memoria marca la diferencia: evaluando cómo distintos roles de memoria moldean agentes conversacionales

La investigación previa sobre mecanismos de memoria en sistemas conversacionales basados en RAG se ha centrado principalmente en métodos de almacenamiento y recuperación. Este estudio investiga cómo las memorias con roles funcionales distintos influyen en la calidad de la respuesta en diferentes contextos. Los autores presentan una taxonomía fina de memoria conversacional para clasificar los elementos recuperados en tipos de roles específicos. También diseñan un marco de evaluación centrado en el usuario que simula perspectivas del usuario para abordar limitaciones en las evaluaciones basadas en referencias. Se realizaron experimentos comparativos en conjuntos de datos a largo plazo utilizando modelos de lenguaje grandes de vanguardia para analizar estos efectos. Los resultados indican que aclarar la memoria mejora la precisión factual y la conciencia de restricciones, lo que conduce a respuestas más correctas y personalizadas. Por el contrario, se encontró que la memoria irrelevante reduce la relevancia temática y degrada las capacidades de conciencia de restricciones. Estos hallazgos demuestran cómo se pueden aprovechar distintos tipos de memoria para mejorar la personalización en agentes conversacionales.

arxiv arXiv cs.CL · hace 7 h

Traducción automática neuronal para Tangkhul-Inglés de recursos limitados

Este estudio aborda la traducción automática de recursos limitados para el par de idiomas Tangkhul-Inglés, centrándose en una lengua tibeto-birmana severamente subrepresentada con infraestructura mínima previa de PLN. Los autores presentan dos sistemas: un modelo principal basado en ByT5-large y un sistema contrastivo que utiliza mT5-small, ambos ajustados finamente sobre 38,336 pares de oraciones paralelas. La evaluación en un conjunto de prueba retenido de 3,856 oraciones muestra que el sistema ByT5-large logra una puntuación BLEU de corpus de 39.97 y una puntuación chrF++ de 58.07. Las métricas adicionales incluyen una F1 de BERTScore de 0.8104 y una puntuación COMET de 0.7302 utilizando el modelo wmt22-comet-da. La investigación destaca los desafíos ortográficos relacionados con los diacríticos del alfabeto latino de Tangkhul como un obstáculo técnico específico. Además, el corpus de entrenamiento presenta sesgo de dominio, compuesto principalmente por textos bíblicos, historias y datos conversacionales. El trabajo futuro tiene como objetivo mejorar el rendimiento mediante la diversificación de datos y estrategias de adaptación de dominio.

arxiv arXiv cs.CL · hace 7 h

Sarashina2.2-TTS: Abordando la polifonía de kanji en la generación de voz japonesa mediante escalado de datos y síntesis dirigida

Sarashina2.2-TTS es un sistema de texto a voz basado en LLM centrado en japonés, diseñado para abordar el desafío lingüístico de la polifonía de kanji dependiente del contexto. El modelo escala los datos de entrenamiento a aproximadamente 361k horas, utilizando una mezcla equilibrada de corpus de voz japonesa e inglesa. Para manejar específicamente la desambiguación de lectura, los autores implementaron un pipeline de aumento de datos dirigido que cubre los 2,136 kanji de uso regular Joyo. Junto con el lanzamiento del modelo, el artículo presenta el Benchmark Joyo Kanji Yomi, que incluye 4,378 lecturas distintas para estos caracteres. Los autores también proponen Kana-CER, una métrica que evalúa la corrección de la pronunciación comparando la voz sintetizada con las lecturas de referencia en el espacio kana. Los resultados experimentales muestran que este aumento de datos dirigido mejora significativamente la precisión de lectura y alcanza un rendimiento de nivel kanji de vanguardia. El sistema iguala a las principales líneas base en la pronunciación a nivel de oración general, mientras ofrece la mayor similitud del hablante en escenarios de síntesis zero-shot. Además, las evaluaciones multilingües confirman que el enfoque de entrenamiento equilibrado garantiza una pronunciación japonesa estable independientemente del idioma del prompt utilizado.

arxiv arXiv cs.CL · hace 7 h

Estilometría computacional de traducciones al inglés del Canon Pali a través de los Pitakas

Este estudio presenta un análisis estilométrico computacional del Tipitaka en los tres Pitakas en traducción inglesa, extendiendo el trabajo previo sobre el Sutta Pitaka. El corpus comprende 134.831 segmentos de la Sutta Pitaka de Bhikkhu Sujato, la Vinaya Pitaka de Bhikkhu Brahmali, la traducción al vinaya de I.B. Horner de 1938, tres traducciones al inglés del Abhidhammattha Sangaha y textos de Vinaya trans-tradicionales. Los autores calculan distribuciones de frecuencia-rango de Zipf, diversidad léxica MATTR-500, densidad número-palabra y métricas de superposición de vocabulario. Los hallazgos principales indican que todos los corpus muestran distribuciones consistentes con Zipf con valores de R-cuadrado superiores a 0.989. La Sutta y la Vinaya Theravada exhiben puntuaciones de diversidad léxica casi idénticas de 0.399 y 0.400, mientras que el corpus Sangaha es más diverso con 0.560. El corpus Sangaha también muestra la mayor densidad número-palabra en 3.26%, reflejando su enumeración sistemática de categorías. Además, la Vinaya Mulasarvastivada comparte una superposición significativa de vocabulario con la Vinaya Theravada, mientras que dos traducciones al inglés de la misma fuente comparten solo el 24.2% de su vocabulario.

arxiv arXiv cs.CL · hace 7 h

Operadores de historia: Descomponer la transformación de original a secuela en el espacio de incrustaciones

Este estudio modela las transformaciones literarias como operaciones geométricas dentro de un espacio de incrustaciones de oraciones utilizando vectores all-mpnet-base-v2 del corpus PG19. Al calcular vectores de desplazamiento entre novelas originales y sus secuelas, el autor descompone estos cambios a lo largo de una base de contenido derivada mediante PCA. El análisis de trece pares de autores verificados revela una taxonomía de tipos de secuela: formulaica, concentrada y composicional. Las transformaciones formulaicas implican cambios mínimos en el rango, como las colecciones de Holmes de Doyle con una norma de 0.12. Los desplazamientos concentrados están dominados por un solo eje, ejemplificado por la transición de Alcott de Little Women a Little Men donde el 75% del cambio ocurre en un solo movimiento. Las transformaciones composicionales implican muchos ejes pequeños, observadas en obras de Twain, Burroughs y Nesbit. Para Tom Sawyer a Huckleberry Finn, el eje dominante es estructural, reflejando un cambio desde la domesticidad hacia la aventura picaresca más que temas superficiales como la voz vernácula. Los hallazgos geométricos se corroboran contra la intención autorial documentada de Mark Twain en cartas a Howells.