Este capítulo describe la comprensión actual de los Modelos de Lenguaje Grande (LLM) examinando sus mecanismos, capacidades emergentes y el debate en torno a su relación con la cognición humana. Hace hincapié en cómo el mecanismo de atención de la arquitectura Transformer permite que los LLM funcionen como modelos generalistas entrenados en conjuntos de datos masivos.
- El texto revisa evidencia de que los LLM exhiben capacidades emergentes que se asemejan a la cognición humana, como razonamiento simbólico, teoría de la mente y estrategias de engaño.
- Los estudios destacan tanto casos de éxito en la resolución de tareas complejas como casos de fallo que revelan diferencias entre la cognición humana y la de los LLM.
- Se discuten enfoques de IA explicable, incluido el análisis de activación de neuronas y el trazado de circuitos.
- Los autores argumentan en contra de las visiones reduccionistas simplistas que atribuyen el comportamiento de los LLM únicamente a la memorización de patrones, abogando por una discusión matizada sobre la cognición de la IA.
Los autores sostienen que desestimar la comprensión de los LLM basándose en objetivos de entrenamiento simples proviene de concepciones erróneas sobre los procesos de optimización. Proponen una perspectiva equilibrada que reconoce las diferencias entre humanos y LLM mientras permite la posibilidad de una cognición genuina de la IA.