Gramática de Fromas

James Stirling, Leicester Engineering Building, 1959–63

Una gramática de formas es un conjunto de reglas definidas sobre formas. Una forma es una colección de segmentos junto con una colección de puntos etiquetados, que pueden ser intersecciones entre segmentos o simplemente puntos arbitrarios distinguidos. El conjunto de reglas se aplica sobre una forma inicial, el axioma. Cada regla tiene la estructura AB, donde A y B son formas. El significado de una regla es: identificar la forma A dentro de la forma que se está generando, empleando si es necesario una transformación compuesta de giro, simetría y cambio de escala y sustituirla por la forma B adecuadamente transformada.

La potencia de las gramáticas de formas viene dada por su capacidad para producir una gran variedad de formas. En efecto, no solo es posible que varias reglas sean simultáneamente aplicables a una forma F, sino que pueden existir múltiples aplicaciones de una regla A B a F, debido a que podemos identificar dentro de F la forma A del antecedente transformada de varias maneras. Para controlar esta variabilidad y dotar de un carácter más determinista a la gramática, se suelen añadir a las formas etiquetas cuyo único fin es controlar la generación. Otra alternativa es definir una función que para cada forma determina la regla y la transformación que se debe aplicar preferentemente. las gramáticas que han sido utilizadas en las tareas de diseño han seguido la primera de las alternativas mencionadas: el experto humano que las definía debía compilar en cada regla la información de control necesaria para generar precisamente las formas finales deseadas. Ello dificulta su creación, mantenimiento y modificación.

El aprendizaje por refuerzo es una técnica para aprender una política de actuación ante un determinado problema idealmente, la política óptima. Esta política selecciona la acción a tomar en cada momento, con el objetivo de maximizar la recompensa obtenida a largo plazo. Para cada par estado, se tiene un valor, de forma que, si nos encontramos en un estado, la política queda definida por la regla: “elegir la acción a que produce un par con valor máximo". Los valores de cada par se van modificando en un proceso iterativo dividido en episodios, a su vez divididos en pasos. En cada episodio se parte de un estado inicial y se intenta llegar a un estado final mediante la elección de acciones apropiadas cada elección determina un paso del episodio. En determinados pasos, los valores obtenidos hasta el momento se van reforzando con nuevos valores. Así, tras un número de episodios de aprendizaje adecuado, los valores se habrán modificado tendiendo a definir una política próxima a la óptima.

En nuestro caso, cada forma producida por la aplicación de una gramática es un estado. Una acción sobre ese estado es un par tal que, tras aplicar la transformación, la regla resulte aplicable al estado. Los métodos más directos de aprendizaje por refuerzo utilizan una tabla para almacenar los valores asignados a estados y acciones. En nuestro caso el tamaño del espacio de estados impide utilizar este método. Por tanto, es necesario emplear un método de generalización que tenga en cuenta únicamente determinados rasgos o características de los pares, y que permita el aprendizaje de una función en lugar de una tabla a modo de política. La potencia generativa de las gramáticas de formas permite una gran diversidad de diseños, mientras que el aprendizaje por refuerzo guía el proceso de generación hacia aquellas soluciones que satisfacen las condiciones de diseño. El aprendizaje se basa en recompensas y rasgos en su mayoría definidos de forma directa a partir de lo prescrito en dicha guía. Los procesos de aprendizaje han requerido tiempos del orden de minutos.