Unidad de Procesado y Archivo de Datos

Sistemas de procesado y almacenamiento de la UPAD

Sistemas de procesado y almacenamiento de la UPAD

La Unidad de Procesado y Archivo de Datos (UPAD) es la encargada de llevar a cabo el almacenamiento y procesado de las imágenes tomadas en el OAJ. Este centro de datos proveerá la infraestructura hardware necesaria para almacenar, procesar y analizar las imágenes, así como mantener los backup de los datos. Otra de sus labores es la de proporcionar acceso a la base de datos científica y a las imágenes del cielo, tanto a la comunidad científica como al público en general.

El hardware de la UPAD hardware está compuesto de tres sistemas principales:

  • OAJ/CPD
  • Almacenamiento principal y procesado de la UPAD/T250
  • EDAM (External Data Access Machine)

OAJ/CPD

Este sistema tiene dos servidores de Entrada/Salida dedicados que controlan el tránsito de los datos desde los servidores de la cámara a sus espejos (otros dos servidores de Entrada/Salida) en la UPAD. A lo largo del día, esos dos servidores realizan dos copias de seguridad de los datos en crudo. Además, el OAJ tiene un sistema de almacenamiento de 90 TB que actúa como buffer de las imágenes tomadas durante dos meses. El estado actual de este proyecto puede consultarse aquí.

Archivo y procesado UPAD

En el centro de datos UPAD es donde se lleva a cabo la lógica principal sobre el tratamiento de los datos y desde donde se controla la planificación de los procesos en la pipeline. Además, también alberga los dos servidores de Entrada/Salida dedicados a descargar los datos del OAJ, así como los nodos de servicio. Estas labores las realizan dos servidores de control en modo cola que operan bajo Sun Grid Engine como sistema de colas por lotes. En la figura 1 se representa un esquema de los nodos y los sistemas de almacenamiento que se encuentran desplegados en el OAJ y en la UPAD.

Nodos y sistema de almacenamiento desplegados en el OAJ y en la UPAD

Figura 1. Nodos y sistema de almacenamiento desplegados en el OAJ y en la UPAD.

Principales capacidades de almacenamiento y procesado de la UPAD

El hardware necesario para almacenar y procesar los datos adquiridos dentro del proyecto J-PLUS por el telescopio JAST/T80 está ya instalado. En concreto, está compuesto de dos nodos de procesado, además de los servidores de control, dos servidores de bases de datos y un sistema de almacenamiento en disco centralizado con una capacidad de 90 TB netos.

En relación a los datos adquiridos por el telescopio JST/T250, el sistema de almacenamiento de la UPAD tiene dos funciones principales. Por un lado, está encargado de almacenar un enorme volumen de información (sólo los datos en crudo del proyecto J-PAS ascienden a ~ 1 PB después de la compresión, mientras que cada catálogo de datos completo puede suponer ~ 850 TB). Por otro lado, el sistema de almacenamiento centralizado deberá proporcionar la tasa de Entrada/Salida necesaria para soportar centenares de procesos ejecutando procesos de la pipeline para diferentes frames de entrada. Para cumplir con esos dos requisitos y además hacer frente a los incrementos en la demanda de almacenamiento, la UPAD combina tecnologías de disco con tecnologías de cinta. El sistema de almacenamiento en disco debe tener la capacidad de almacenar los "datos en caliente", que son a los que se accede desde las pipelines, proporcionando un ancho de banda elevado con el objetivo de dar cobertura a todos los procesos concurrentes de la pipeline. La librería robótica de la cinta actúa como un almacenamiento "near-line" para todos los productos con frecuencias de acceso menores, por ejemplo, todos los datos en crudo y versiones antiguas de los datos.

La instalación principal de los elementos de la UPAD se llevó a cabo durante Diciembre del año 2014. El sistema de disco consiste en un "Netapp cluster" con 8 nodos que proporcionan una capacidad de almacenamiento neta mayor de 1000 TB con protección de paridad dual. La librería robótica de cinta "Spectra Logic T950" con 2 frames tiene 1600 LTO6 slots (~4PB). Ambos niveles de almacenamiento están integrados mediante una solución de HSM. La parte central de la red y del sistema de almacenamiento en disco proporcionan más de 5000 MB de ancho de banda agregado. Los sistemas de almacenamiento global y la solución de núcleo de red ha sido diseñada y será integrada e instalada por BULL ESPAÑA.

En relación a los sistemas de procesado, es importante destacar que con el objetivo de minimizar la sobrecarga en las operaciones de Entrada/Salida, las pipelines pueden ser configuradas para almacenar todo el producto intermedio en la unidad de memoria RAM. Así mismo, las operaciones de Entrada/Salida al archivo centralizado se reducen almacenando localmente, en los "computed nodes", algunos datos a los que se accede con frecuencia, como por ejemplo los Frames de Calibración.

Durante el año 2015 se desplegó una parte importante de los recursos de computación de la UPAD. La primera infraestructura de procesado está compuesta de 17 Fujitsu servers. Cada servidor tiene 2 CPUs con 12 núcleos, 92 GB de RAM, y 4.0 TB de almacenamiento "scratch".

La infraestructura de almacenamiento, red y procesado UPAD está financiada por el Subprograma de Proyectos de Infraestructura Científico-Tecnológica del Ministerio de Economía y Competitividad de España (MINECO) (FCDD10-4E-867), cofinanciado por el Fondo Europeo para el Desarrollo Regional (FEDER) y el Fondo de Inversiones de Teruel (FITE).

Fondo Europeo para el Desarrollo Regional (FEDER)

Una vista resumida de las tres etapas de procesamiento y el número de imágenes procesadas

Una vista resumida de las tres etapas de procesamiento y el número de imágenes procesadas

Las pipelines de tratamiento de datos tienen como misión gestionar el enorme flujo de datos producido por la cámara panorámica y maximizar los resultados científicos. Concretamente, el software de gestión de datos almacena automáticamente los datos adquiridos durante la noche, determina si su calidad cumple con los requisitos científicos y técnicos, actualiza las bases de datos de los cartografiados y programa los objetivos de observación del telescopio para las siguientes noches.

Ver detalles »