Acceso rápido y eficaz a los datos del LHC

Investigadores del IFIC trabajan en el desarrollo de un nuevo sistema de catalogación y acceso a los datos del experimento ATLAS, uno de los dos grandes detectores del Gran Colisionador de Hadrones (LHC) del CERN, donde se descubrió el bosón de Higgs. El sistema, que se implementará en 2015 cuando se reanude el funcionamiento del LHC, utiliza tecnologías de código libre para mejorar tanto el sistema de clasificación de las colisiones entre partículas subatómicas como el acceso posterior a los datos.
El sistema consiste en una serie de programas informáticos que permiten una búsqueda más rápida y eficaz entre los miles de millones de colisiones de partículas registradas en los experimentos del LHC. Cuando los haces cargados de protones chocan en los cuatro puntos donde se ubican los detectores ATLAS, CMS, ALICE y LHCb, estas enormes máquinas realizan millones de fotografías por segundo de lo que sucede en su interior, hecho que los físicos llaman ‘sucesos’ o ‘eventos’. Entre ellos, muy rara vez se produce algún bosón de Higgs, la última pieza que faltaba por descubrir del Modelo Estándar de Física de Partículas. Los científicos tuvieron que buscar entre todos los sucesos registrados para confirmar su existencia.
Los dos grandes experimentos del LHC, ATLAS y CMS, acumulan más de 2.000 millones de colisiones registradas desde el inicio del LHC en 2010, cantidad que se espera incrementar en un factor cinco en el próximo ciclo de funcionamiento del acelerador del CERN, que comienza en 2015 tras dos años de parada técnica. La idea de buscar una aguja en un pajar se queda pequeña en este caso. “Además nos encontramos con que el anterior sistema de clasificación y acceso a los sucesos tenía inconvenientes que hacían que muy pocos investigadores lo usasen”, asegura Santiago González de la Hoz, profesor de la Universitat de València en el IFIC y uno de los participantes en el proyecto.
El sistema anterior usaba un software propietario, que requiere el pago de licencias de uso y que, además, no estaba preparado para el aluvión de datos que se espera con un LHC funcionando a casi el doble de la energía anterior. “El nuevo sistema es más rápido porque permite diferentes niveles de acceso a la información de cada suceso, desde los datos ‘en bruto’ hasta los más orientados a la búsqueda concreta de fenómenos físicos”, describe José Salt Cairols, profesor de investigación del CSIC en el IFIC y responsable del grupo de GRID y e-Ciencia del centro. La diferencia entre buscar un libro a partir de datos concretos (autor, editorial) o tener que leer primero todos los libros almacenados.
Surgió así en 2013 un proyecto (Event Index Project) para crear un sistema que mejorase esta situación. Para ello utiliza tecnologías NoSQL como la base de datos Hadoop, de código libre. “Este sistema nos permite adaptar la clasificación de los sucesos a las necesidades de los científicos”, argumenta González de la Hoz, guardando para su clasificación los datos verdaderamente relevantes de cada colisión sin necesidad de utilizar otra información que retrasaría la búsqueda.
Este sistema cambia el mismo modo de clasificar las colisiones mientras se producen. Con el anterior sistema, la clasificación se realizaba offline, una vez que se había registrado y almacenado la colisión, mientras que el nuevo método en el que trabajan los científicos valencianos permite la clasificación cuando se producen los choques entre partículas. “Esto aumenta la complejidad del trabajo, puesto que hay que desarrollar un programa que permita comprobar en tiempo real que la clasificación se está llevando a cabo correctamente”, asegura el profesor de la Universitat de València.
Un prototipo del sistema se ha probado ya con una pequeña selección de colisiones del experimento ATLAS (alrededor de un millón). En enero se probará con todos los datos recogidos por el experimento durante el primer ciclo de funcionamiento del LHC (2010-2012), más de 2.000 millones de sucesos reales. Si todo funciona correctamente, el sistema se implementará en ATLAS antes de que empiecen las primeras colisiones de partículas en el LHC, previstas para la primavera de 2015.
En el Instituto de Física Corpuscular han desarrollado tanto el programa para comprobar la clasificación de los sucesos en tiempo real como el sistema para extraer la información requerida por el usuario en la base de datos del CERN que archiva la ubicación de todas las colisiones registradas. En el LHC, como en otros experimentos científicos que trabajan con gran cantidad de datos, hay un sistema de almacenamiento y procesado de datos distribuido en todo el mundo, denominado GRID. El IFIC es uno de los 100 centros del mundo que almacena y procesa datos del LHC, en su caso del experimento ATLAS.
Según Álvaro Fernández Casaní, uno de los ingenieros informáticos del IFIC que participa en el proyecto, el centro de investigación del Parc Científic ha empleado una tecnología similar para otros proyectos de investigación que trabajan en entornos GRID. En este sentido, su participación en el Event Index Project junto a otros centros de investigación como el CERN, INFN (Génova), Orsay (Francia), Rutherford Appleton Laboratory (Reino Unido), Argonne National Laboratory (EE.UU.) y las universidades de Valparaíso (Chile) y Autónoma de Madrid (UAM), es un reconocimiento a una trayectoria de más de una década en computación distribuida GRID dentro del experimento ATLAS del CERN.
Fuente: UV