La ciencia biológica no es lo que solía ser. Desde hace 30 años, las prácticas de investigación en biología comenzaron a cambiar. Actualmente se producen millones de datos gracias a las tecnologías de alto rendimiento aplicados a la genética y a la biología molecular. Por ejemplo, los experimentos de secuenciación o los microarreglos permiten, de manera rápida y automática, escanear la expresión de miles de genes al mismo tiempo.

Se genera así tanta información, ávida de interpretación biológica, que lo lógico es primero ordenarla.  Los científicos empezaron a desarrollar nuevas maneras de aproximarse a los datos. Los investigadores comenzaron a reconsiderar qué es lo que cuenta como conocimiento científico, cómo éste se obtiene y utiliza. También se inició una reconsideración de las hipótesis y teorías que subyacen a la producción de conocimiento basado en colecciones enormes de datos.

Sólo en otro momento de la historia de la biología se produjo un fenómeno similar con repercusiones revolucionarias tanto epistemológicas como respecto al cambio de prácticas de investigación para explicar a los organismos vivos. En el siglo XVIII, las expediciones marítimas europeas a diferentes rincones del planeta, permitieron capturar especímenes de toda clase de organismos que terminaban su periplo en gabinetes de curiosidades, en los Museos de Historia Natural. Esos lugares no sólo se dedicaron a resguardar colecciones, sino que se volvieron verdaderos laboratorios de investigación. En ese entonces, la diversidad tan grande de organismos que llegaban a los puertos, terminaba retratada en bellos dibujos en libros que la describía y ordenaba en sistemas de clasificación como el de Linneo.

De manera análoga a ese periodo de la historia de las ciencias biológicas, actualmente la necesidad de organizar genomas enteros, genes, patrones de expresión, rutas metabólicas, interacciones entre moléculas, tantas y tantas entidades biológicas apareciendo masivamente se traduce en la construcción de infraestructuras en línea, como las bases de datos. Hay científicos de todo el mundo dedicados masivamente a diseminar, a través de internet, información sobre nuevos objetos biológicos en estas relativamente recientes colecciones. Los investigadores que se dedican a la creación de estas últimas, fungen como curadores al modelar ciertos fenómenos o procesos, al catalogar, clasificar y ordenar la información en útiles tablas de datos. La motivación principal de esta tarea es la esperanza de que el acceso digital al universo en expansión de la información biológica, permita a otros investigadores de todo el planeta usarla para así descubrir nuevas cosas, y generar más conocimiento creando sentido de datos a veces inconexos.

El equipo de investigación del Dr. Julio Collado realiza desde finales de los años noventa un esfuerzo inmenso en reagrupar información de suma utilidad para explicar la regulación de la expresión génica en una base de datos llamada RegulonDB. En particular se ha focalizado en constituir una colección que conjunta diferentes elementos alrededor de la regulación de la transcripción del organismo modelo Escherichia coli (E.coli) K-12. Las piezas claves de esta colección son los operones, es decir, la unidad básica de regulación de la expresión genética de los organismos vivos. Cada operón es un conjunto de genes cuya expresión se regula con ayuda de otros elementos también presentes en la colección: los promotores, los sitios de unión de proteínas reguladoras y los regulones, es decir, grupos de operones controlados por un solo regulador.

Desde sus inicios RegulonDB modela y describe las interacciones de los elementos mencionados y su organización espacial en operones y regulones. El avance de las tecnologías experimentales de alto rendimiento, hace que todos estos elementos y sus interacciones aumenten de manera considerable. El progresivo aumento en número de casos, hace que algunas veces se sacudan las bases teóricas del área de estudio, como cuando se pone en entredicho el paradigma de Jacob y Monod sobre el modelo del operón, por encontrar arreglos inesperados entre los genes y sus reguladores.

RegulonDB, con sus acervo de conocimiento y la generación de herramientas bioinformáticas para su clasificación e inteligibilidad, se ha vuelto, con el paso de los años, una pieza clave en este cambio de paradigma en cómo hacer ciencia con toneladas de compleja información biológica. El último artículo que publicaron este año en la revista Nucleic Acids Research, “RegulonDB v 10.5: tackling challenges to unify classic and high throughput knowledge of gene regulation in E. coli K-12″, cuya investigación estuvo principalmente a cargo del Dr. Alberto Santos Zavaleta, es muestra de la labor titánica que este equipo realiza para crear una clasificación que permita a todo el que acceda a la colección de RegulonDB, tener un lenguaje común en una estructura ontológica coherente y validada. Para los investigadores que se interesan en el tema esto representa una apreciable ventaja para acceder con confianza y claridad a las mareas de información.

Para saber más:
Artículo en la revista Nucleic Acids Research, “RegulonDB v 10.5: tackling challenges to unify classic and high throughput knowledge of gene regulation in E. coli K-12″.

Sabina Leonelli. Classificatory Theory in Data-intensive Science: The Case of Open Biomedical Ontologies International Studies in the Philosophy of Science 26 (1):47 – 65 (2012).

Página official de RegulonDB: http://regulondb.ccg.unam.mx/.

Texto: Paula González-Rubio