El Big Data puede captar las múltiples dimensiones

3
1209

Cuando los matemáticos hablan de dimensiones espaciales, generalmente se refieren al número de coordenadas necesarias para describir un punto o muestra en ese espacio. El universo tal como lo conocemos tiene tres dimensiones. Pero se necesitan espacios de mayor dimensión para describir, por ejemplo, todos los estados posibles de un sistema con 100 partículas, en el que cada partícula se describe por ubicación y velocidad. Ese sistema tendrá 100 x 3 x 2 o 600 dimensiones. O podría intentarse visualizar el espacio de todas las imágenes posibles en una pantalla de 1.000 x 1.000 píxeles. Teniendo en cuenta los tres colores utilizados para describir cada píxel, ese espacio tendría tres millones de dimensiones. Las dimensiones de un espacio que contiene todas las posibles secuencias de ADN humano son cientos de millones.
En la era actual de los grandes datos (Big Data), los científicos a menudo luchan con conjuntos de datos que tienen un gran número de dimensiones.
En estos ejemplos, un problema central es que el número de posibilidades se vuelve rápidamente astronómico. El Dr. Ronen Eldan del Departamento de Matemáticas del Instituto Weizmann de Ciencias es uno de los que están trabajando para superar la maldición de la dimensionalidad. Una teoría matemática relativamente nueva muestra que, en muchos casos, los sistemas de gran dimensión se pueden reducir a algo más manejable. Si observamos ese sistema de la manera correcta, se pueden encontrar ciertas estructuras simples dentro del aparente desorden. Una de las ideas básicas que subyacen a este campo de las matemáticas es la de los promedios, o la “ley de los grandes números”. Según esta ley, a medida que crece el número de variables en un sistema, el promedio de todas esas variables será menos aleatorio.
Esta idea básica ha inspirado una teoría que conduce a numerosas técnicas que facilitan el análisis de datos. Por ejemplo, en el caso de las fotos, resulta que en lugar de medir cada píxel por separado, vale la pena agrupar aleatoriamente los píxeles y promediarlos antes de llevar a cabo el análisis. Métodos similares también se pueden aplicar a muchos tipos de grandes conjuntos de datos.■

3 Comentarios

    • Debe ser por el número de datos imposible de manejar, cada dimensión añade muchos más cálculos complejos por las nuevas relaciones entre los datos, por ejemplo en el ADN las enfermedades se buscan por combinaciones de unos cuantos pares de bases, que a su vez pueden estar relacionados con otros pares de bases o cada vez mejor si el ordenador busca más relaciones, siendo 3000 millones de pares de bases en el genoma completo de cada humano. Los datos y cálculos son mucho más manejables si se simplifica el número de dimensiones con este método basado en el gráfico simbólico. O algo así será.

      • Perdón, el método matemático del artículo no dice que esté basado en el gráfico del sistema multidimensional… igual por casualidad he descubierto una nueva teoría o esta la he mejorado.