Últimas Publicaciones

Clasificación difusa de Big Data en Bioinformática

El reconocimiento de patrones es una disciplina cuyo propósito es clasificar un conjunto de objetos en un número de grupos o categorías, mediante la búsqueda de una estructura en los objetos. Las diferentes técnicas numéricas para obtener estas clasificaciones pueden describirse, también, en un término más genérico: Análisis Cluster.

Una de esas técnicas dentro del Análisis Cluster es la clasificación difusa, Fuzzy clustering. Si clasificación difusa conlleva el adjetivo difusa es porque surge de un nuevo concepto: los conjuntos difusos. Aquí el adjetivo nuevo tiene la singularidad de no aplicarse en el tiempo, sino en el concepto. En 1965, Lotfi Zadeh (premiado por la Fundación BBVA) creo la teoría de conjuntos difusos, que dio pie a la introducción de la lógica difusa donde la verdad no es absoluta: no todo es blanco o negro.

Esta gradualidad de la lógica difusa se extendió al Análisis Cluster, creando la clasificación difusa: a la hora de asignar la pertenencia de un objeto a un grupo no lo hacemos mediante 0, si no pertenece, ó 1, si pertenece; ahora le asignamos un valor entre [0,1]. Sabemos que lo ideal es conocer si un objeto pertenece a un grupo o no; pero en la mayoría de los casos ese conocimiento absoluto no es posible. Este hecho se constató en la dificultad de representar matemáticamente propiedades cualitativas. Un ejemplo clásico es la clasificación de los humanos en joven, adulto o viejo: ¿qué edades determinan la frontera para asignar una persona a uno de esos grupos? Como esta pregunta surgen muchas y actualmente los trabajos de lógica difusa, y clasificación difusa, ahondan en resolver problemas de este tipo: sistemas de control de acondicionadores de aire, sistemas de foco automático en cámaras fotográficas, electrodomésticos familiares, optimización de sistemas de control industriales, sistemas de escritura, mejora en la eficiencia del uso de combustible en motores, sistemas expertos del conocimiento (simular el comportamiento de un experto humano)…

Uno de los problemas que se presenta en la clasificación difusa es la complejidad computacional cuando la cantidad de datos a analizar resulta demasiado grande: Big Data. ¿Cuánto es demasiado grande? Esta pregunta también podría tener una interpretación difusa. Como ejemplo, si estudiamos un base de datos con 5.000 registros y tres variables podemos tardar sobre 8.000 segundos, en un ordenador sencillo. Una de las líneas de investigación en la que estamos trabajando el Grupo de Investigación de Bioinformática y Computación de Altas prestaciones (BIOHPC), es en cómo reducir estos tiempos utilizando la computación de altas prestaciones(HPC).

Un primer trabajo lo hemos presentado en la pasada International Work-Conference on Bioinformatics and Biomedical Engineering (IWBBIO 2014), donde demostramos la gran ventaja que supondrá utilizar algoritmos de clasificación difusa en HPC, aplicándolo en datos biomédicos, obteniendo resultados válidos en un tiempo considerablemente menor.

poster

Hasta ahora los algoritmos de clasificación difusa han presentando dificultades en su intento de paralelización. Nosotros exploramos una nueva vía con mejoras en los algoritmos y utilizando las últimas arquitecturas de paralelización.

Aplicaciones de la Inteligencia Computacional

intecomputLa Inteligencia Computacional es una colección de paradigmas computacionales con inspiración biológica y lingüística, en los cuales se incluye la teoría, el diseño, la aplicación y el desarrollo de redes neuronales, sistemas conexionistas, algoritmos evolutivos, sistemas difusos y sistemas inteligentes híbridos. Combina elementos de aprendizaje, adaptación, evolución y lógica difusa para crear soluciones inteligentes aplicables a todo tipo de problemas, complementando las técnicas estadísticas de la Inteligencia Artificial (IA).

En particular los mapas auto-organizativos son un tipo de redes neuronales con aprendizaje no supervisado y capacidad para obtener representaciones reducidas del espacio de entrada manteniendo la estructura topológica original.

En diversos trabajos de investigación se han explotado estas características en aplicaciones de visión, robótica, CAD/CAM y bioinformática entre otros.

Las redes neuronales son además intrínsecamente paralelas. Esta característica permite su implementación sobre hardware de alto rendimiento como es el caso de las GPU o unidades de procesamiento gráfico para el tratamiento de problemas con restricciones temporales.

El próximo viernes 7 de marzo a las 11:00 am tendrá lugar, en el Aula 7 del pabellón 5, el seminario ‘Aplicaciones de la inteligencia computacional’ dentro del ciclo de Seminarios Científicos de la Universidad organizado por el Vicerrectorado de Investigación y coordinado por el Grupo de Investigación de Bioinformática y Computación de Altas prestaciones (BIOHPC).

Bitcoin y las matemáticas

bitcoin-hackerLo más probable es que tras el titular me acuséis de arrimar el ascua a mi sardina: nada más lejos de la realizad y más cerca de la verdad. Las matemáticas son parte de nuestro mundo y, muchas veces, las encontramos a la vuelta de la esquina. Por ejemplo, en la esquina del Bitcoin.

Todo viene a colación por la espantada de Mt. Gox. Bitcoin es lo que llaman una moneda virtual. Como dicen en queesbitcoin.info, “una moneda, como el euro o el dólar estadounidense, que sirve para intercambiar bienes y servicios. Sin embargo, a diferencia de otras monedas, Bitcoin es una divisa electrónica que presenta novedosas características y destaca por su eficiencia, seguridad y facilidad de intercambio”. Hasta aquí nos detendríamos en las cuestiones económicas. Mucha gente (yo el primero) no distinguiría el comprar con Bitcoin o con nuestra tarjeta de crédito.

Ahora viene el detalle por el que lo traigo: que presenta novedosas características y destaca por su seguridad. Para ilustrarnos de la seguridad (lo escribo sin segundas) leed ¿Es seguro Bitcoin? Su tecnología al desnudo. Yo me detengo en dos acrónimos que aparecen: SHA256 y ECDSA.

SHA256 implementa gran variedad de aplicaciones y protocolos de seguridad, entre ellos PGP. PGP es un criptosistema que combina técnicas de criptografía simétrica y criptografía asimétrica. PGP utiliza IDEA que a su vez utiliza aritmética modular para las operaciones de adición y multiplicación. Ya han salido las palabras: aritmética modular. De nuevo, deshilando, han aparecido las matemáticas.

En ECDSA es más rápido: “Elliptic Curve Digital Signature Algorithm es una modificación del algoritmo DSA que emplea operaciones sobre puntos de curvas elípticas en lugar de las exponenciaciones que usa DSA”(wiki) . ¡Algebra!, esto es álgebra, esa álgebra tan denostada y que rara vez los alumnos hacen caso. Y un álgebra muy bonita, de curvas en el plano, curvas que tiene características muy curiosas y que sirven para criptografía: ECC.

Así que ya sabéis: cuando miréis la aritmética modular o las curvas elípticas, miradlas con buenos ojos, en ellas reside vuestra seguridad.

Bioinformática

La integración de los últimos avances en bioquímica, computación de altas prestaciones, procesamiento de imágenes y modelado computacional han proporcionado grandes avances en campos tales como la medicina, farmacología y genética (por citar algunos), que han brindando nuevas estrategias terapéuticas personalizadas, incrementando la esperanza y la calidad de vida de los pacientes hasta límites inimaginables no hace tanto tiempo atrás. Esta integración de disciplinas ha creado una nueva rama de investigación denominada Bioinformática, entendida como la informática aplicada a los campos de la investigación biológica y médica.

En estos campos existen una serie de problemas de gran relevancia biomédica todavía sin solución, entre ellos están la caracterización de sistemas biológicos, o el desarrollo y optimización de nuevos fármacos eficientes. En el último caso, tradicionalmente ha sido la industria farmacéutica quien se ha ocupado del estudio de dichos problemas, debido al gran coste económico que implica y de sus dificultades tecnológicas. Pero existen técnicas que permiten acelerar dichos descubrimientos, y que pueden ser desarrolladas de manera eficiente en un entorno académico a un coste mucho menor y en una escala de tiempo más reducida.

En BIO-HPC, Grupo de investigación de la UCAM, hemos demostrado que, mediante simulación por ordenador, es posible flexibilizar el estudio de sistemas de gran interés biomédico, tales como los sistemas proteína-ligando, sistemas de encapsulación moleculares, y canales iónicos (por nombrar unos pocos), cuando se integra una investigación multidisciplinar (Química, Biología, Informática, Matemáticas, Medicina) con la explotación de supercomputadores y arquitecturas paralelas de alto rendimiento. Además, estas técnicas permiten realizar predicciones en aquellos casos donde no existe información experimental disponible.

Recientemente nos han publicado un artículo The Need for an Integrated Computational/Experimental Approach in the Discovery and Design of New Drugs, donde mostramos nuestro trabajo y las amplias posibilidades que ofrece.

Liga de fútbol, matemáticas y grafos

noticia1-300x225Un grupo de investigadores españoles ha desarrollado un método científico que permite medir la competitividad, un estudio que aplicado al fútbol ha resuelto que la liga española es la segunda más competida de todo el continente europeo. (Pinchar el link para ver aquí)

La noticia se basa en el trabajo del Catedrático Regino Criado y sus colaboradores, A new method for comparing rankings through complex networks: Model and analysis of competitiveness of major European soccer leagues, publicado en la revista Chaos. Esta noticia ya la dio la Agencia SINC el pasado 26 de noviembre. Ahora RTVE le confiere carácter de noticia y una amplia difusión.