Analia Iglesias / SINC •  Ciencia •  24/07/2023

Núria López-Bigas, investigadora ICREA del IRB Barcelona: “La inteligencia artificial y el ‘big data’ nos ayudan a identificar qué genes son los causantes del cáncer”

Esta bióloga especializada en genética molecular ha recibido el Premio Fundación Lilly de investigación Biomédica Preclínica 2023 por sus estudios que utilizan tecnologías bioinformáticas para identificar los procesos que generan mutaciones de esta enfermedad. Ella y su equipo han analizado los genomas de 33.000 tumores de 66 tipos de cáncer.

Núria López-Bigas, investigadora ICREA del IRB Barcelona: “La inteligencia artificial y el ‘big data’ nos ayudan a identificar qué genes son los causantes del cáncer”

Lo suyo está entre la informática y la genómica. Núria López-Bigas (Monistrol de Montserrat, Barcelona, 1975) es bióloga, profesora de investigación ICREA en el IRB Barcelona y ha recibido recientemente el Premio Fundación Lilly de investigación Biomédica Preclínica 2023, por sus valiosos estudios, en los que sus aproximaciones bioinformáticas contribuyen a identificar e interpretar los procesos de mutaciones causantes del cáncer.

Con López-Bigas, SINC ha mantenido este diálogo, en el que la investigadora explica cómo las tecnologías de big data y la inteligencia artificial (IA) procesan grandes volúmenes de información, sin perder de vista el aspecto humano de la instancia clínica. Porque su trabajo también contempla la interacción con los médicos, para entender sus necesidades a la hora de traducir la información biológica en tratamientos personalizados para sus pacientes.

Usted se especializó en bioinformática ¿cómo se aplica esa disciplina a la investigación médica?

Actualmente, en biología tenemos técnicas que nos permiten generar gran cantidad de datos. Nosotros hacemos análisis de datos, en especial, en genómica. Podemos secuenciar genomas: hacemos secuenciación de nueva generación [NGS–next generation sequencing). Y en este campo, la vía informática cobra mucha importancia, porque a veces el cuello de botella no está tanto en generar datos o hacer experimentos, sino en poder analizar esos datos.

Lo que falta, pues, es tener capacidad para procesar la cantidad de datos generados…

Exacto. Le llamamos bioinformática o biología computacional y está cobrando cada día más importancia porque la única manera de analizarlos es a través de técnicas computacionales. Hemos secuenciado miles de genomas de tumores y esto lo hacemos con ordenadores, escribiendo algoritmos.

En la entrega del premio Lilly, se mencionaba la secuenciación de alrededor de 30.000 tumores y 66 tipos de cáncer. ¿Qué importancia tienen estas cifras?

Nos falta aún mucho por conocer. Es verdad que 33 000 tumores es un número que ya nos permite entrever que el análisis adecuado de estos datos nos genera una información muy rica para entender la biología del cáncer. Esto habla de 33 000 personas, pero si cuentas todas las que tienen un cáncer, evidentemente, el número es enorme. Yo querría analizar millones.

¿Y en 33 000 muestras no hay repeticiones, es decir, cada persona tiene un tumor absolutamente diferenciado?

Sí, cada tumor es distinto, con un conjunto de mutaciones diferentes. Si secuenciamos todo el genoma [el genoma humano tiene 3 000 millones de bases], entonces significa que podemos leer todas estas bases e identificar mutaciones que están en las células tumorales, pero no en el resto de las células de la persona. Es decir, son mutaciones solo de esas células tumorales. Y encontramos miles de mutaciones en un tumor.

Estas células tienen una larga historia –porque nuestras células van acumulando mutaciones cada día, por miles de razones– Sin embargo, las mutaciones causantes del cáncer son unas pocas. Una de las tareas importantes que hacemos en el grupo es distinguir cuáles son las causantes de ese cáncer entre los miles de mutaciones que hay en un tumor.  

Hay muchas mutaciones que causan enfermedades, pero usted se ha centrado en las que ocasionan tumores.

Se acumulan mutaciones por mil razones. Me refiero, por ejemplo, a la luz ultravioleta que daña el ADN de las células de la piel, o el tabaco, que afecta a las células del pulmón del fumador. Cada vez que se replica el ADN hay una tasa de error y estas son razones por las que cada día nuestras células acumulan mutaciones. Pero el genoma es muy grande y muchas mutaciones no afectan ni a una proteína ni tienen un efecto funcional en la célula. Entonces, el reto está en identificar cuáles son las que sí modifican el comportamiento de una célula para convertirla en una célula tumoral.

¿Procesar millones de datos en un ordenador podría permitir extraer las similitudes en los casos de cáncer?

Exacto. Si tenemos miles de tumores, encontramos unos patrones que nos indican qué genes son causantes del cáncer. Esto es un poco complicado, pero identificamos señales de selección positiva. Entonces, allí sabemos que hay genes que tienen mutaciones causantes del cáncer, porque encontramos estos patrones. Y de esta forma hacemos un catálogo de genes causantes de cáncer de mama, cáncer de colon y otros. Algunos son comunes, pero muchos casos, son específicos de cada tipo de tejido.

¿Les ha sorprendido en algún caso que diferentes mutaciones den lugar a similares tumores?

Sí. Por ejemplo, si nos centramos en el cáncer de colon podemos identificar una lista de genes que son los que sabemos que pueden causarlo. En cada tumor concreto, normalmente identificamos entre tres y siete mutaciones causantes del cáncer. No es una, sino la combinación de unas pocas mutaciones las que pueden originar un tumor.

Luego, si comparáramos dos tumores de colon, tampoco son iguales. Es decir, que esta combinación de mutaciones es distinta: es lo que llamamos heterogeneidad tumoral. No todos los tumores tienen la misma historia, ni se han causado a nivel de bases moleculares que sean exactamente iguales. Por eso, en algunos casos, los pacientes necesitan tratamientos distintos. De esto va la medicina personalizada.

¿Trabajan con hospitales para obtener datos?

Sí. Necesitamos más datos de tumores. Con los que contamos por el momento están en el entorno de investigación, es decir, se han generado en proyectos de investigación y los tenemos disponibles porque formamos parte de estos proyectos o consorcios.

Ahora mismo, la mayoría de datos se están generando entornos clínicos y la razón radica en que la medicina personalizada ya se está aplicando. Entonces, con una muestra del tumor se secuencia quizá no todo el genoma pero un trozo del mismo y se identifican las mutaciones antes de tomar una decisión clínica para el paciente.

Otra cosa que estamos intentando es contribuir a que estos datos se puedan compartir de manera eficiente y se utilicen para mejorar lo que entendemos de la biología del cáncer. Tenemos que mejorar la interpretación de mutaciones para los pacientes que vengan.

¿La capacidad de los ordenados actuales es suficiente para procesar datos que ustedes manejan?

La capacidad computacional es siempre como un pequeño cuello de botella, pero puede solventarse comprando más máquinas. También se puede hacer análisis en la nube. A la capacidad computacional siempre podemos acceder; a veces recurrimos al supercomputador de Barcelona, también.

Yo creo que el cuello de botella tiene más que ver con el acceso a los datos de manera segura, porque contienen información de pacientes. Entonces aquí también hay un reto tecnológico que todavía no está del todo resuelto.

El siguiente desafío es el diseño de los algoritmos para que puedan gestionar eficientemente toda esa cantidad de datos y extraer la información que necesitamos. Esto es muy importante y requiere esfuerzo, porque tenemos que hacer algoritmos inteligentes y también que sean suficientemente eficientes para que no tarden un año en hacer el cálculo, sino unas horas.

¿Cuánto pesa en este ámbito la inteligencia artificial?

Utilizamos técnicas de inteligencia artificial, que para nosotros son metodologías muy útiles que aprenden si las diriges. Por ejemplo, uno de los últimos trabajos que hemos hecho con modelos de IA nos permite distinguir mutaciones causantes del cáncer.

A estos algoritmos les enseñamos datos de muchos tumores que conocemos y los preparamos para que se entrenen en distinciones de un gen concreto. Y hemos generado un modelo de IA que funciona muy bien para varios genes. En concreto, hemos hecho 185 modelos en el último artículo que publicamos. Esto es un ejemplo de IA, o sea, no es que lo dejes que funcione solo y aprenda: hay que dirigirlo.

¿Cómo se solventa esta sensación de insuficiencia o hay un momento en que las posibilidades de saber se multiplican exponencialmente porque se da un salto cualitativo?

Por eso es muy importante un análisis de aprendizaje automático (machine learning). Hay unos 600 genes de cáncer, con lo cual deberíamos hacer modelos para cada uno de ellos. Las dimensiones son enormes. Y trabajamos no con un tipo de cáncer sino con muchos; no solo con un gen, sino con cientos. De ahí que lo que hacemos sea sistematizar el aprendizaje, el análisis y los algoritmos para que puedan aprender de muchos datos y aprender automáticamente de los distintos tipos de cáncer y los distintos genes.

Toda esta información que generamos la hacemos pública: por ejemplo IntOGen es el compendio de genes de cáncer; esto es, una base de datos pública que utiliza mucha gente.

Estas bases de datos también tienen utilidad práctica en los entornos de medicina personalizada, cuando, tras secuenciar un trozo del genoma de un paciente concreto, tienes que dar un paso de interpretación (hay que decidir qué significan esas mutaciones, cuáles son importantes) y, a partir de ahí, decidir qué tratamiento se le ofrece al paciente.

¿Ya existe intercambio entre quienes hacen estos estudios bioinformáticos y el médico, que tiene el olfato, la intuición y la experiencia clínica, o se prevé que esto sea útil de aquí a unas décadas?

Existe. Hay una parte de lo que hacemos que es aumentar el conocimiento, entender mejor, que es biología básica, sí, sobre cosas que van a tener implicaciones más a largo plazo. Pero hay otra parte que tiene implicaciones hoy y que es la interpretación de estos datos que generamos en la clínica. Hay herramientas que solventan las cuestiones más prácticas del día a día cuando, al introducir las mutaciones encontradas en un tumor, automáticamente se interpretan. No toman decisiones clínicas, pero dan un soporte.

¿Ustedes entrenan a los oncólogos para que sepan utilizar esas herramientas?

Sí. Tenemos un proyecto que se llama CGI Clinics (viene de Cancer Genomic Interpreter): es la herramienta que ya desarrollamos hace unos años y que se ha convertido en popular, porque se utiliza tanto en entornos clínicos como de investigación. La Unión Europea nos ha concedido un proyecto para adaptar esta herramienta al uso de la clínica junto con los oncólogos y los clínicos, en colaboración con varios hospitales de Francia, Alemania, Inglaterra, Grecia y España.

Entonces, trabajamos conjuntamente con los hospitales, que son los usuarios finales. Es una colaboración en las dos direcciones: nosotros los entrenamos a ellos en cómo presentar toda esta información, que es compleja, para que sea comprensible, y ellos nos dicen cuáles son sus necesidades.

Fuente: SINC


cáncer /