Información

¿Cuáles son las limitaciones de las tecnologías actuales de secuenciación de nucleótidos?

¿Cuáles son las limitaciones de las tecnologías actuales de secuenciación de nucleótidos?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Con la plataforma Illumina, es barato y (relativamente) fácil secuenciar grandes cantidades de ADN o ARN. Existen varias otras plataformas (Roche / 454, SOLiD, PacBio, Ion Torrent), cada una con sus propias ventajas distintivas, pero Illumina parece ser bastante popular para muchas aplicaciones, a pesar de sus limitaciones.

Idealmente, nos gustaría una tecnología de secuenciación que produzca lecturas largas, sin errores y con un alto rendimiento. Sin embargo, en este punto parece que tenemos que hacer una elección: rendimiento o longitud (y calidad). PacBio parece prometedor, pero lo último que supe es que aún no han podido cumplir con sus afirmaciones.

¿Cuáles son las limitaciones moleculares y bioquímicas de nuestras tecnologías de secuenciación actuales? Por qué no ya tenemos lecturas largas, sin errores y con un alto rendimiento?


Parece que respondió a su propia pregunta, la señal de algunas moléculas que atraviesan una enzima o una polimerasa tienden a desincronizarse después de unos pocos cientos de bases. Si una enzima para la secuenciación fuera más rigurosamente en el paso del tiempo, eso podría ayudar, por ejemplo. Las máquinas leen trazas en cuatro canales con agradables protuberancias para cada base. Consulte este artículo para ver un buen ejemplo. Puede ver que si hay demasiadas bases consecutivas de la misma base, es difícil saber cuántas bases hay. Con el tiempo, los cuatro rastros comenzarán a borrarse y no podrás distinguir a Adam de Thelma si me entiendes.

Pero existen otros cuellos de botella.

Los secuenciadores emiten actualmente un volumen de datos tan alto que el análisis del significado de los datos de salida no se puede analizar con la suficiente rapidez. Esto sigue la tendencia en biotecnología durante los últimos 12 años más o menos: más datos de secuencia, datos de microarreglos, más datos de mutación, más genomas que personas que realmente pueden usarlos para comprender la biología. Ahora hay un pequeño cuello de botella en el análisis.

Entonces, algunos de estos secuenciadores tienen mayores longitudes de lectura, lo que puede facilitar el ensamblaje de una secuencia. Estos secuenciadores generalmente cuestan más. Por ejemplo, si tiene una biblioteca para secuenciar un pequeño genoma de hongos o algas, obtendrá la respuesta en un día o menos. En forma de 1 Tb de lecturas de 50 a 200 pb de longitud. Puede llevar bastante tiempo juntar eso en una secuencia de genoma novedosa, aún más encontrar los genes, construir las redes de genes a partir de una plantilla de vías, etc. Imagínense miles de secuenciadores bombeando día y noche y obtendrá imagen que estoy tratando de pintar aquí.

Sobre el costo. Ion Torrent y los nuevos secuenciadores de nanoporos de Oxford son realmente baratos: $ 50k a quizás $ 900 para el secuenciador USB de Oxford Nanopore. La mayoría de los otros sistemas cuestan cientos de miles de dólares. Ion torrent y Nanopore tienen más elementos desechables (tira un chip o incluso todo el secuenciador) a un costo de cientos de dólares por muestra.


P1) ¿Cuáles son las limitaciones moleculares y bioquímicas de nuestras tecnologías de secuenciación actuales?

A1) AFAIK:

Illumina tiene dificultades para producir lecturas largas (aunque ahora miseq puede generar lecturas de 300 pb y que se pueden emparejar, el llamado extremo emparejado 2X300) porque después de una cierta cantidad de bases que se sintetizan y se graban en la cámara (Illumina está secuenciando por síntesis , básicamente agrega bases y mide la fluorescencia en cada ciclo), es decir, después de un cierto número de "ciclos" puede perder sincronismo y la calidad de las bases disminuye.

PacBio puede generar moléculas muy largas, pero aún tienen grandes problemas con la confiabilidad de la lectura de las bases (no sé cuál es el problema aquí)

P2) ¿Por qué no tenemos lecturas largas, sin errores y con un alto rendimiento?

A2) ¡Porque es difícil de hacer! ¡Pero vamos hacia esto!


Breve introducción sobre tres generaciones de tecnología de secuenciación del genoma

Han pasado más de 30 años desde que se desarrolló la primera generación de tecnología de secuenciación de ADN en 1977. Durante este período, la tecnología de secuenciación ha avanzado considerablemente. Desde la primera generación hasta la tercera generación e incluso la cuarta generación, la tecnología de secuenciación ha experimentado la longitud de lectura de larga a corta y de corta a larga. Aunque la tecnología de secuenciación de lectura corta de segunda generación todavía domina el mercado actual de secuenciación global, la tercera y cuarta generación de tecnologías de secuenciación están evolucionando rápidamente en el transcurso del período de dos años. Cada transformación de la tecnología de secuenciación tiene como resultado un papel fundamental en la promoción de la investigación del genoma, la investigación médica de enfermedades, el desarrollo de fármacos, la reproducción y otros campos. Este blog se centra principalmente en la actualidad secuenciación del genoma tecnologías y sus principios de secuenciación.

El desarrollo de la tecnología de secuenciación
En 1952, Hershey y Chase completaron el famoso experimento de infección bacteriana por fagos T2, que demostró efectivamente que el ADN es un material genético. En 1953, Crick y Watson mostraron su modelo de ADN en la revista británica & # 8211Nature. Después de un estudio exhaustivo en la Universidad de Cambridge, describieron el modelo de ADN con "doble hélice". En 1958, Francis Crick propuso el dogma central genético, que fue reiterado en Nature en 1970. El código genético, también conocido como codones, codones genéticos o códigos triples, determina la secuencia de nucleótidos de la secuencia de aminoácidos en la proteína, que está formada por tres nucleótidos consecutivos. En 1966, Hola anunció que se había descifrado el código genético. En 1974, Szibalski, genetista polaco, propuso la tecnología de recombinación genética como concepto de biología sintética. La tecnología de ADN recombinante, también conocida como ingeniería genética, tiene como objetivo recombinar moléculas de ADN in vitro, proliferando en las células apropiadas. En 1983, el Dr. Kary B. Mullis desarrolló la PCR (reacción en cadena de la polimerasa). Es una técnica de biología molecular y se utiliza para amplificar fragmentos de ADN específicos, que pueden considerarse como la replicación especial del ADN in vitro.

En 1977, A.M. Maxam y W. Gilbert establecieron en primer lugar un método de determinación de la secuencia de fragmentos de ADN, que también se denomina método de degradación química de Maxam-Gilbert. Actualmente, este método de degradación química y método enzimático (método de terminación de cadena didesoxi) propuesto por Sanger son técnicas de secuenciación rápida. En 1986, el primer secuenciador automático & # 8212abi prism 310 gene analyzer fue desarrollado por una empresa estadounidense & # 8212Pe Abi. Y luego Hood y Smith utilizaron dNTP marcado con fluorescencia para la tecnología de electroforesis. Por tanto, nació el primer secuenciador automático comercial. Después de eso, el secuenciador de electroforesis capilar se desarrolló en 1996 y el secuenciador automático tipo 3700 se desarrolló en 1998.

En 2008, el grupo Quake diseñó y desarrolló el secuenciador HeliScope, que también es un equipo de secuenciación de chips en bucle. En el mismo año, se desarrolló la secuenciación de nanoporos basada en la tecnología de electroforesis. Al año siguiente, se desarrolló SMRT. En 2010, se pusieron en uso ion PGM y GeXP.

En 2005, la compañía Roche diseñó la tecnología 454 & # 8211genome secuenciador 20 sistema & # 8212 un sistema de secuenciación del genoma de rendimiento ultra alto, que fue elogiado como un hito en el desarrollo de la tecnología de secuenciación por Nature. En 2006, se desarrolló el secuenciador illumina y es adecuado para bibliotecas de ADN preparadas mediante varios métodos. En 2007, se desarrolló Solid System.

Primera generación de tecnología de secuenciación
La primera generación de tecnología de secuenciación se basa en el método de terminación de cadena desarrollado por Sanger y Coulson en 1975 o el método químico (degradación de cadena) inventado por Maxam y Gulbert durante 1976 y 1977. Y Sanger en 1977 juzgó la primera secuencia del genoma perteneciente a Phage X174 con la longitud total de 5375 bases. Desde entonces, los seres humanos han adquirido la capacidad de espiar la naturaleza de la diferencia genética de la vida, y también es el comienzo de la era genómica. Los investigadores continúan mejorando el método Sanger durante el desempeño. En 2001, se basó en el método Sanger mejorado que se completó el primer mapa del genoma humano. El principio central del método Sanger es que el ddNTP no puede formar un enlace fosfodiéster durante la síntesis de ADN, debido a la falta de hidroxilo en su 2 & # 8216 y 3 & # 8217. Por tanto, puede utilizarse para interrumpir la reacción de síntesis de ADN. Agregue una cierta proporción de ddNTP con etiqueta de isótopos radiactivos, incluidos ddATP, ddCTP, ddGTP y ddTTP, en cuatro sistemas de reacción de síntesis de ADN, respectivamente. Después de la electroforesis en gel y la autorradiografía, las secuencias de ADN de las muestras se pueden determinar según la posición de la banda electroforética.

Además del método Sanger, vale la pena señalar que durante el período de desarrollo de la tecnología de secuenciación, están surgiendo muchas otras tecnologías de secuenciación, como el método de secuenciación de pirofosfato, el método de la enzima de ligadura, etc. Entre estos, el método de secuenciación de pirofosfato fue utilizado más tarde por la empresa Roche para la técnica 454, mientras que el método de la enzima de ligadura fue utilizado para la técnica SOLID por la empresa ABI. El método básico común compartido por ambos era usar dNTP que puede interrumpir la síntesis de ADN, similar al ddNTP en el método Sanger.

Con todo, la primera generación de tecnología de secuenciación tiene una capacidad de lectura de 1000 pb con una precisión del 99,999%, que es la característica principal. Sin embargo, su alto costo, bajo rendimiento y otras desventajas tienen como resultado un impacto serio en su aplicación real a gran escala. Por lo tanto, la primera generación de tecnología de secuenciación no es el método de secuenciación más ideal. En proceso de desarrollo y mejora, nació la segunda generación de tecnología de secuenciación simbolizada por la tecnología Roche & # 8217s 454, Illumina & # 8217s Solexa, la tecnología Hiseq y la tecnología ABI & # 8217s Solid. La segunda generación de tecnología de secuenciación no solo puede reducir en gran medida el costo de secuenciación, sino que también aumenta drásticamente la velocidad de secuenciación, manteniendo una alta precisión. El tiempo de respuesta de la tecnología de secuenciación de segunda generación para completar un proyecto de genoma humano puede ser solo de una semana, mientras que el de usar la tecnología de secuenciación de primera generación para lograr el mismo objetivo es de tres años. Sin embargo, la longitud de lectura de la segunda generación de tecnología de secuenciación es mucho más corta que la de la primera generación.

En el próximo capítulo del blog, continuaremos presentando la segunda generación de tecnología de secuenciación.


Abstracto

El campo de la genómica unicelular avanza rápidamente y está generando muchos conocimientos nuevos sobre sistemas biológicos complejos, que van desde la diversidad de ecosistemas microbianos hasta la genómica del cáncer humano. En esta revisión, proporcionamos una descripción general del estado actual del campo de la secuenciación del genoma unicelular. Primero, nos enfocamos en los desafíos técnicos de realizar mediciones que comienzan a partir de una sola molécula de ADN, y luego exploramos cómo algunos de estos avances metodológicos recientes han permitido el descubrimiento de una nueva biología inesperada. Las áreas destacadas incluyen la aplicación de la genómica unicelular para interrogar la materia oscura microbiana y evaluar las funciones patogénicas del mosaicismo genético en organismos multicelulares, con especial atención al cáncer. Luego intentamos predecir los avances que esperamos ver en los próximos años.


Secuenciación de próxima generación y sus aplicaciones

Anuj Kumar Gupta, UD Gupta, en Biotecnología Animal (Segunda edición), 2020

Secuenciación de semiconductores de iones

Ion Torrent: Esta tecnología funciona según el principio de detección de la liberación de iones de hidrógeno durante la incorporación de nuevos nucleótidos en la plantilla de ADN en crecimiento. En la naturaleza, cuando una polimerasa incorpora un nucleótido a una hebra de ADN, se libera un ion hidrógeno como subproducto. Ion Torrent, con su secuenciador Ion Personal Genome Machine (PGM ™), utiliza una matriz de alta densidad de pocillos micromecanizados para realizar la incorporación de nucleótidos de una manera masivamente paralela. Cada pocillo contiene una plantilla de ADN diferente. Debajo de los pozos hay una capa sensible a los iones seguida de un sensor de iones patentado. El ión cambia el pH de la solución, que es detectado por un sensor de iones. Si hay dos bases idénticas en la cadena de ADN, el voltaje de salida se duplica y el chip registra dos bases idénticas llamadas sin escaneo, cámara y luz. En lugar de detectar luz como en la pirosecuenciación 454, la tecnología Ion Torrent crea una conexión directa entre los eventos químicos y digitales. Los iones de hidrógeno se detectan en chips de secuenciación de semiconductores de iones. Estos chips semiconductores de iones están diseñados y fabricados como cualquier otro chip semiconductor utilizado en dispositivos electrónicos. Estos se cortan en forma de obleas de una bola de silicona. A continuación, los transistores y circuitos se transfieren en patrones y posteriormente se graban en las obleas mediante fotolitografía. Este proceso se repite 20 veces o más, creando un sistema de circuitos multicapa.

Ion ha creado una variedad de secuenciadores con salida de datos pequeña y grande, que se deben utilizar de acuerdo con las aplicaciones y el uso. Ion torrent PGM ™ genera una salida de datos total de 30 MB a 2 GB, según el tipo de chip de secuenciación de semiconductores iónicos utilizado. Sin embargo, en septiembre de 2012, Ion Torrent lanzó su sistema más grande, el Ion Proton. Utiliza chips más grandes con densidades más altas y, por lo tanto, puede ser adecuado para transcriptomas, exomas y paneles de genes más grandes. Aunque Ion Proton es capaz de generar salidas mucho mayores, alrededor de 10 GB, es sustancialmente más caro. Sus nuevos secuenciadores de mayor rendimiento, llamados Ion S5 y S5XL, pueden generar una salida de datos de 2 a 130 millones de lecturas, según el tipo de chip utilizado, alrededor de 4 horas de funcionamiento, según el chip utilizado. La longitud de lectura obtenida es de 200 y 400 pb para IonTorrent e IonProton, mientras que S5 y S5XL también tienen capacidad para secuenciar lecturas de 600 pb.

Ventajas: Ion torrent genera una longitud de lectura de alrededor de 200 a 600 pb, que se utiliza para llenar los huecos en el ensamblaje producido por otras tecnologías. Debido al bajo costo involucrado, las plataformas Ion han ganado reconocimiento en el sector clínico. El corto tiempo de ejecución de esta técnica también facilita múltiples ejecuciones para la generación de más datos en un tiempo determinado.

Limitaciones: Las plataformas de iones se encuentran entre las tecnologías de datos enormes y las tecnologías de larga duración de lectura. Mientras que las tecnologías de lectura corta se facilitan por la gran cantidad de datos generados, Ion necesita mejorar la salida total de datos. La mayor tasa de error informada y el truncamiento prematuro de la secuencia pueden plantear dificultades para que sea una opción principal cuando se requieren datos de muy alta calidad (PubMed Central ID: PMC4249215).


Este proceso implica una combinación de técnicas: clonación bacteriana o purificación de plantilla de PCR, etiquetado de fragmentos de ADN utilizando el método de terminación de cadena con transferencia de energía, didesoxinucleótidos marcados con colorante y electroforesis capilar de ADN polimerasa y detección de fluorescencia que proporciona gráficos de cuatro colores para revelar el ADN. secuencia.

Una medida de calidad para un genoma secuenciado. Un genoma de grado terminado, comúnmente conocido como genoma terminado, es de mayor calidad que un genoma de grado borrador, con más cobertura de base y menos errores y lagunas (por ejemplo, la referencia del genoma humano contiene 2,85 Gb, cubre el 99% de el genoma con 341 lagunas, y tiene una tasa de error de 1 en cada 100.000 pb).

Esta molécula de ADN recombinante está formada por una región conocida, normalmente un vector o secuencia adaptadora a la que se puede unir un cebador universal, y la secuencia diana, que normalmente es una porción desconocida a secuenciar.

Ensayos que utilizan tecnologías de secuenciación de próxima generación. Incluyen métodos para determinar el contenido de la secuencia y la abundancia de ARNm, ARN no codificantes y ARN pequeños (denominados colectivamente ARN-seq) y métodos para medir perfiles de todo el genoma de complejos ADN-proteína inmunoprecipitados (ChIP-seq), sitios de metilación ( metil-seq) y sitios de hipersensibilidad a la DNasa I (DNasa-seq).

Esta revisión describe principalmente plataformas de tecnología que están asociadas con una compañía respectiva, pero el instrumento Polonator G.007, que es fabricado y distribuido por Danaher Motions (una compañía de Dover), es una plataforma de código abierto con software y protocolos disponibles gratuitamente. Los usuarios fabrican sus propios reactivos basándose en informes publicados o colaborando con George Church y colegas u otros desarrolladores de tecnología.

Se prepara una biblioteca de fragmentos mediante cizallamiento aleatorio de ADN genómico en tamaños pequeños de & lt1kb, y requiere menos ADN del que sería necesario para una biblioteca de pares de parejas.

Se prepara una biblioteca genómica mediante la circularización del ADN cortado que se ha seleccionado para un tamaño determinado, como 2 kb, por lo que se acercan los extremos que antes estaban distantes entre sí. Cortar estos círculos en fragmentos lineales de ADN crea plantillas de pares de parejas.

Esto ocurre con los métodos de adición paso a paso cuando los cebadores en crecimiento se mueven fuera de sincronía para cualquier ciclo dado. Hebras rezagadas (por ejemplo, norte - 1 del ciclo esperado) son el resultado de una extensión incompleta y de las cadenas principales (por ejemplo, norte + 1) resultan de la adición de múltiples nucleótidos o sondas en una población de moldes idénticos.

Sondas o nucleótidos oscuros

Un nucleótido o sonda que no contiene una etiqueta fluorescente. Puede generarse a partir de su escisión y arrastre del ciclo anterior o hidrolizarse. en el lugar de su contraparte etiquetada con tinte en el ciclo actual.

Fluorescencia de reflexión interna total

Un dispositivo de imágenes de fluorescencia de reflexión interna total produce una onda evanescente, es decir, una onda de excitación estacionaria de campo cercano, con una intensidad que disminuye exponencialmente lejos de la superficie. Esta onda se propaga a través de una superficie límite, como un portaobjetos de vidrio, lo que resulta en la excitación de moléculas fluorescentes cerca (& lt200 nm) o en la superficie y la posterior recolección de sus señales de emisión por un detector.

Bibliotecas de ADN polimerasas mutantes

Se pueden crear grandes cantidades de ADN polimerasas manipuladas por ingeniería genética mediante mutagénesis dirigida al sitio o al azar, lo que conduce a una o más sustituciones, inserciones y / o deleciones de aminoácidos en la polimerasa. El objetivo de este enfoque es incorporar nucleótidos modificados de manera más eficiente durante la reacción de secuenciación.

Estos solo son útiles para técnicas de molécula única y se producen secuenciando la misma molécula molde más de una vez. Luego, los datos se alinean para producir una 'lectura de consenso', lo que reduce los errores estocásticos que pueden ocurrir en una lectura de secuencia determinada.

Una secuencia de oligonucleótidos en la que una base de interrogación está asociada con un tinte particular (por ejemplo, A en la primera posición corresponde a un tinte verde). Un ejemplo de un conjunto de sondas degeneradas de una base es "1-probes", que indica que el primer nucleótido es la base de interrogación. Las bases restantes consisten en bases degeneradas (cuatro posibles bases) o bases universales.

Una secuencia de oligonucleótidos en la que dos bases de interrogación están asociadas con un tinte particular (por ejemplo, AA, CC, GG y TT se codifican con un tinte azul). "1,2-sondas" indica que el primer y segundo nucleótidos son las bases de interrogación. Las bases restantes consisten en bases universales o degeneradas.

Una sustitución de nucleótidos tendrá dos llamadas de color, una desde la posición 5 'y otra desde la posición 3' de la secuencia de dinucleótidos. Cuando se compara con un genoma de referencia, la sustitución de bases en la secuencia objetivo está codificada por dos colores adyacentes específicos. En la Figura 3b, la secuencia 'CCT' está codificada como azul-amarillo ('CC' = azul 'CT' = amarillo), pero sustituir la 'C' central por 'A' daría como resultado dos cambios de color a verde-rojo. Cualquier otra secuencia de colores se puede descartar como error.

Con sondas codificadas por dos bases, la señal fluorescente o el color obtenido durante la formación de imágenes se asocia con cuatro secuencias de dinucleótidos que tienen una base 5 'y 3'. El espacio de color es la secuencia de dinucleótidos superpuestos que codifica cuatro secuencias de nucleótidos simultáneas. La alineación con un genoma de referencia es el método más preciso para traducir el espacio de color en una sola secuencia de nucleótidos.

Detectores de guía de ondas de modo cero

Este dispositivo de nanoestructura tiene un diámetro de 100 nm, que es más pequeño que las longitudes de onda del láser de 532 nm y 643 nm utilizadas en la plataforma Pacific Biosciences. La luz no puede propagarse a través de estas pequeñas guías de ondas, de ahí el término modo cero. Estas guías de ondas revestidas de aluminio están diseñadas para producir una onda evanescente (ver el término del glosario de 'fluorescencia de reflexión interna total') que reduce sustancialmente el volumen de observación en la superficie de la reacción de la polimerasa hasta el rango de zeptolitros (10-21 l). Esto proporciona una ventaja para la reacción de polimerización, que se puede realizar a concentraciones de nucleótidos marcados con colorante más altas.

Transferencia de energía de resonancia de fluorescencia

Este es generalmente un sistema que consta de dos tintes fluorescentes, uno que es un tinte donante (un fluoróforo más azul) y el otro un tinte aceptor (un fluoróforo más rojo). Cuando las dos moléculas de tinte se acercan (generalmente ≤ 30 nm), la energía del tinte donante excitado se transfiere al tinte aceptor, aumentando su señal de intensidad de emisión.

Todas las variantes de secuencia distintas de las variantes de un solo nucleótido, incluidas las sustituciones de bloques, inserciones o deleciones, inversiones, duplicaciones segmentarias y diferencias en el número de copias.

Un proyecto destinado a descubrir variantes de secuencias raras con frecuencias de alelos menores del 1% en genomas normales derivados de muestras de HapMap.

Un proyecto destinado a desarrollar y validar tecnologías rentables y de alto rendimiento para resecuenciar todas las regiones codificantes de proteínas del genoma humano.

El estudio de comunidades de genomas microbianos mixtos que residen en animales, plantas y nichos ambientales. Las muestras se recogen y analizan sin necesidad de cultivar microbios aislados en el laboratorio. El Proyecto del Microbioma Humano tiene como objetivo caracterizar un conjunto de referencia de genomas microbianos de diferentes hábitats dentro del cuerpo humano, incluidas las regiones nasal, oral, cutánea, gastrointestinal y urogenital, y determinar cómo los cambios en el microbioma humano afectan la salud y la enfermedad.

Un proyecto destinado a descubrir variantes de un solo nucleótido y variantes estructurales que se asocian con cánceres importantes, como el cáncer de cerebro (glioblastoma multiforme), el cáncer de pulmón (carcinoma escamoso) y el cáncer de ovario (cistadenocarcinoma seroso).

Un proyecto destinado a proporcionar acceso abierto a las secuencias del genoma humano de voluntarios y desarrollar herramientas para interpretar esta información y correlacionarla con información médica personal relacionada.


Comparación de las dos tecnologías de secuenciación actualizadas para el ensamblaje del genoma: lecturas de alta fidelidad del sistema Pacbio Sequel II y lecturas ultralargas de Oxford Nanopore

La disponibilidad de genomas de referencia ha revolucionado el estudio de la biología. Se han desarrollado múltiples tecnologías competidoras para mejorar la calidad y solidez de los ensamblajes del genoma durante la última década. Los dos proveedores de secuenciación de lectura larga ampliamente utilizados, Pacbio (PB) y Oxford Nanopore Technologies (ONT), han actualizado recientemente sus plataformas: PB permite lecturas de alta fidelidad de alto rendimiento con resolución de nivel base con & gt99% y lecturas generadas por ONT de hasta 2 Megabyte. Aplicamos las dos plataformas actualizadas a un solo individuo de arroz y luego comparamos los dos conjuntos para investigar las ventajas y limitaciones de cada uno. Los resultados mostraron que las lecturas ultralargas de ONT proporcionaron una mayor contigüidad produciendo un total de 18 contigs de los cuales 10 se ensamblaron en un solo cromosoma en comparación con 394 contigs y tres contigs a nivel de cromosoma para el ensamblaje de PB. Las lecturas ultralargas de ONT también evitaron errores de ensamblaje causados ​​por regiones repetitivas largas para las cuales observamos un total de 44 genes de redundancias falsas y 10 genes de pérdidas falsas en el ensamblaje de PB, lo que condujo a sobreestimaciones / subestimaciones de las familias de genes en esas regiones repetitivas largas. . También notamos que el PB HiFi lee ensamblajes generados con considerablemente menos errores a nivel de un solo nucleótido y pequeños InDels que el del ensamblaje ONT que generó un promedio de 1.06 errores por ensamblaje de Kb y finalmente generó 1475 anotaciones de genes incorrectas a través de una proteína alterada o truncada. predicciones.


DETECCIÓN DE ALTERACIONES GENÓTICAS MEDIANTE TECNOLOGÍAS -OMICS

En los últimos 15 años, se han desarrollado varias tecnologías avanzadas que permiten la acumulación y evaluación de conjuntos de datos a gran escala de moléculas biológicas, incluida la secuencia de ADN (el genoma), las transcripciones (el transcriptoma que involucra al ARN), la modificación del ADN (el epigenoma) y , en menor grado, proteínas y sus modificaciones (el proteoma) y metabolitos (el metaboloma). Dichos conjuntos de datos permiten análisis comparativos de líneas no transgénicas y transgénicas de tal manera que los efectos sobre la expresión, el metabolismo y la composición de los genes de las plantas pueden evaluarse de una manera más informada. El acceso a las tecnologías también permite el análisis del alcance de la variación natural en una especie de cultivo en los niveles de ADN, ARN, proteínas, metabolitos y epigenéticos, lo que permite determinar si la variación en los cultivos transgénicos se encuentra dentro del rango que se encuentra naturalmente y entre cultivares. Como se analiza a continuación para cada uno de los tipos de datos -ómicos, las tecnologías para acceder a las moléculas eran relativamente recientes en 2015, pero avanzaban rápidamente. Algunas tecnologías estaban listas para ser implementadas para generar conjuntos de datos para la evaluación de los efectos de los eventos de ingeniería genética cuando se estaba redactando el informe del comité. Otros mejorarán en precisión y rendimiento en la próxima década y algún día pueden ser tecnologías útiles para evaluar los efectos de los eventos de ingeniería genética. La Iniciativa de Medicina de Precisión anunciada por el presidente Obama en enero de 2015 6 se centra en comprender cómo las diferencias genéticas entre los individuos y las mutaciones presentes en el cáncer y las células enfermas (frente a las células sanas) afectan la salud humana. Un proyecto análogo que utiliza diversos enfoques de ómica en plantas de cultivo con ingeniería genética y mejoramiento convencional podría proporcionar mejoras profundas en la comprensión de los procesos biológicos de las plantas que, a su vez, podrían aplicarse para evaluar los efectos de las modificaciones genéticas en las plantas de cultivo.

Genómica

Una forma de determinar si la ingeniería genética ha dado lugar a efectos fuera del objetivo (ya sea a través de la transformación nuclear con Agrobacterium o pistolas genéticas, ARNi o tecnologías emergentes como la edición del genoma) es comparar el genoma de la planta transgénica con un genoma de ejemplo & # x02014 o de referencia & # x02014 de la planta parental no transgénica. El genoma de referencia es como un modelo para la especie, que revela la diversidad alélica e identifica los genes asociados con el fenotipo. Conociendo la variación que ocurre naturalmente en una especie, uno puede comparar el genoma diseñado con el genoma de referencia para revelar si la ingeniería genética ha causado algún cambio & # x02014 esperado o no intencionado & # x02014 y para ganar contexto para evaluar si los cambios podrían tener efectos adversos. Debido a que existe una variación inherente en la secuencia de ADN entre plantas dentro de una especie, e incluso entre cultivares, cualquier cambio modificado genéticamente debería compararse con el original no transgénico y el rango de variación genómica natural. Es decir, los cambios realizados por la ingeniería genética deben ubicarse en un contexto apropiado.

Fondo

En julio de 1995, la primera secuencia del genoma de un organismo vivo, la bacteria Influenza por Haemophilus (1.830.137 pares de bases), se informó (Fleischmann et al., 1995). Este logro tecnológico que cambió el paradigma fue posible gracias al desarrollo de métodos automatizados de secuenciación de ADN, una mayor capacidad de procesamiento por computadora y el desarrollo de algoritmos para reconstruir un genoma completo sobre la base de secuencias de ADN fragmentadas y aleatorias. En octubre de 1995, el genoma de la bacteria Mycoplasma genitalium se lanzó (Fraser et al., 1995) este ensamblaje y secuenciación de escopeta de genoma completo solidificado como el método para obtener secuencias del genoma. En las siguientes dos décadas, surgieron métodos más económicos y de mayor rendimiento para la secuenciación y el ensamblaje del genoma (para revisión, véase McPherson, 2014) y permitieron la secuenciación de los genomas de cientos de especies, así como de miles de individuos, en todos los reinos de Estados Unidos. vida. Por ejemplo, desde la publicación del borrador de la secuencia del genoma humano de referencia en 2001 (Lander et al., 2001 Venter et al., 2001), se han secuenciado miles de genomas humanos individuales, incluidos proyectos comparativos de secuenciación del genoma como: un catálogo profundo de la variación humana de miles de individuos, 7 células normales versus células tumorales de un solo individuo, familias con trastornos genéticos heredados y poblaciones enfermas versus saludables. Estos proyectos se han centrado en detectar la diversidad alélica en una especie y asociar genes con fenotipos, como la propensión a enfermedades específicas.

Limitaciones en los métodos actuales de secuenciación y ensamblaje del genoma de Novo para plantas

Los métodos actuales para secuenciar un genoma y ensamblar un genoma de novo implican la fragmentación aleatoria del ADN, la generación de lecturas de secuencia y la reconstrucción de la secuencia del genoma original mediante el uso de algoritmos de ensamblaje. Aunque los métodos son sólidos y continúan mejorando, es importante señalar que no logran entregar la secuencia completa del genoma de eucariotas complejos. De hecho, incluso la secuencia del genoma humano & # x02014 para la que se han gastado miles de millones de dólares para obtener una secuencia del genoma de referencia de alta calidad que ha proporcionado una gran cantidad de información útil para comprender la biología humana, incluido el cáncer y otras enfermedades & # x02014, está todavía incompleta. Para las plantas, el punto de referencia para un ensamblaje del genoma de alta calidad es el de la especie modelo. Arabidopsis thaliana, que tiene un genoma extremadamente pequeño que se publicó en 2000 (Arabidopsis Iniciativa del genoma, 2000). Más de 15 años después del lanzamiento del A. thaliana secuencia del genoma de referencia y con la disponibilidad de secuencias de más de 800 accesiones adicionales, 8 se estima que todavía faltan 30 & # x0201340 millones de nucleótidos de secuencia en el A. thaliana Ensamblaje del genoma de referencia Col-0 (Bennett et al., 2003). La mayoría de las secuencias que faltan son muy repetitivas (como los genes de ARN ribosómico y las repeticiones centroméricas), pero algunas regiones que contienen genes están ausentes debido a problemas técnicos. Con el aumento del tamaño del genoma y la complejidad de la secuencia repetitiva, la representación completa de la secuencia del genoma se vuelve más desafiante. De hecho, los conjuntos de genomas de la mayoría de las principales especies de cultivos (maíz, trigo, cebada y papa) son todos de calidad de tiro y tienen brechas sustanciales (Schnable et al., 2009 Potato Genome Sequencing Consortium, 2011 International Barley Genome Sequencing, 2012 Li et al., 2014a) ninguno proporciona una representación completa y completa del genoma.

En varios cultivos importantes, cuando el comité estaba escribiendo su informe, se estaban llevando a cabo proyectos equivalentes al proyecto de 10,000 genomas humanos para determinar la diversidad general de la especie mediante la documentación del & # x0201cpan-genome & # x0201d (Weigel y Mott, 2009). . It has been surprising in several of these studies that there is substantial genomic diversity in some plant species not only in allelic composition but also in gene content (Lai et al., 2010 Hirsch et al., 2014 Li et al., 2014b). Thus, a single “reference” genome sequence derived from a single individual of a species will fail to represent the genetic composition and diversity of the overall population adequately and will therefore limit interpretations of directed changes in the genome (such as ones that can be delivered by emerging genome-editing methods that are being used to generate GE crops).

Resequencing: Assessing Differences Between the Reference and Query Genome

Once the DNA sequence of a crop's genome is assembled well enough to serve as a reference genome, resequencing becomes a powerful and cost-effective method for detecting genomic differences among related accessions (individuals) or GE lines. Resequencing entails generating random-sequence reads of the query genome (the genome that is being compared with the reference genome), aligning those sequence reads with a reference genome, and using algorithms to determine differences between the query and the reference. The strengths of this approach are that it is inexpensive and permits many query genomes to be compared with the reference genome and thereby provides substantial data about similarities and differences between individuals in a species (Figure 7-5). However, limitations of the approach can affect determination of whether two genomes are different. First, sequence read quality will affect data interpretation in that read errors can be misinterpreted as sequence polymorphisms. Second, the coverage of sequence reads generated can limit interrogation of the whole genome because the sampling is random and some regions of the genome are underrepresented in the read pool. Third, library construction 9 and sequencing bias will affect which sequences are present in the resequencing dataset and consequently available for alignment with the reference genome. Fourth, read-alignment algorithms fail to detect all polymorphisms if the query diverges too widely from the reference, especially with insertions and deletions or with SNPs near them. Fifth, read alignments and polymorphism detection are limited to nonrepetitive regions of the genome, so regions that are repetitive in the genome cannot be assessed for divergence. Although obstacles remain, resequencing is a powerful method for measuring differences in genome sequences between wild-type plants (normal untransformed individuals) and engineered plants. With expected improvements in technology, the resolution of resequencing to reveal differences between two genomes will improve.

FIGURE 7-5

Detection of genome, epigenome, transcriptome, proteome, and metabolome alterations in genome-edited, genetically engineered plants. SOURCE: Illustration by C. R. Buell. NOTE: To perform various -omics assessments of genome-edited plants, both the wild-type (more. )

Computational Approaches

Alternatives to resequencing approaches to identify polymorphisms in DNA sequence between two genomes were emerging when the committee was writing its report. The foundation of computational approaches to identify polymorphisms is algorithms that perform k-mer counting (a k-mer is a unique nucleotide sequence of a given length) in which unique k-mers are identified in two read pools (for example, wild type and mutant) and k-mers that differ between the two samples are then computationally identified. Those k-mers are then further analyzed to identify the nature of the polymorphism (SNP versus insertion or deletion) and to associate the polymorphism with a gene and potential phenotype (Nordstrom et al., 2013 Moncunill et al., 2014). The sensitivity and specificity of such programs are comparable with or better than the current methods that detect SNPs and insertions/deletions by using genome-sequencing methods and thus have the potential to identify more robustly genome variation introduced through genetic engineering. The committee expects the field to continue to develop rapidly and to enable researchers to read genomic DNA with increased sensitivity and specificity.

Utility of Transcriptomics, Proteomics, and Metabolomics in Assessing Biological Effects of Genetic Engineering

As stated in the 2004 National Research Council report Safety of Genetically Engineered Foods, understanding the composition of food at the RNA, protein, and metabolite levels is critical for determining whether genetic engineering results in a difference in substantial equivalence compared to RNA, protein, and metabolite levels in conventionally bred crops (NRC, 2004 see Chapter 5). Although the genome provides the 𠇋lueprint” for the cell, assessment of the transcriptome, proteome, and metabolome can provide information on the downstream consequences of genome changes that lead to altered phenotype. Methods used to assess transcripts, proteins, and metabolites in plants are described below with the committee's commentary on limitations of the sensitivity and specificity of detection and interpretation that existed when this report was being written. One caveat in the use of any of these techniques is related to inherent biological variation regardless of genetic-engineering status. Even with identical genotypes grown under identical conditions, there is variation in the transcriptome, proteome, and metabolome. Scientists address such variation by using biologically replicated experiments and multiple -omics and molecular-biology approaches. In addition to biological variation, allelic variation results in different levels of transcripts, proteins, and metabolites in different accessions. To provide context to any observed changes in the transcriptome, proteome, or metabolome attributable to a genetic-engineering event, the broader range of variation in commercially grown cultivars of a crop species can be compared with that of a GE line to determine whether modified levels are outside the realm of variation in a crop. Thus, in assessment of GE crops, interpretation must be in the context of inherent biological and allelic variation of the specific crop. Assessment is also made difficult by the fact that scientists have little or no knowledge of what functions a substantial number of genes, transcripts, proteins, and metabolites perform in a plant cell.

Transcriptómica

Advancements in high-throughput sequencing technologies have enabled the development of robust methods for quantitatively measuring the transcriptome, the expressed genes in a sample. One method, known as RNA sequencing (RNA-seq), entails isolation of RNA, conversion of the RNA to DNA, generation of sequence reads, and bioinformatic analyses to assess expression levels, alternative splicing, and alternative transcriptional initiation or termination sites (Wang et al., 2009 de Klerk et al., 2014). This method can be applied to mRNA, small RNAs (which include interfering RNAs involved in RNAi), total RNA, RNA bound to ribosomes, and RNA-protein complexes to gain a detailed assessment of RNAs in a cell. Methods to construct RNA-seq libraries, generate sequence reads, align to a reference genome, and determine expression abundances are fairly robust even with draft genome sequences if they provide nearly complete representation of the genes in the genome (Wang et al., 2009 de Klerk et al., 2014). Statistical methods to determine differential expression between any two samples, such as two plants with identical genotypes at different developmental stages, are continuing to mature but are limited by inherent biological variation in the transcriptome. Indeed, variation between independent biological replicates of wild-type tissues is well documented. For example, estimation of whole-transcriptome expression abundance in independent biological replicates of a given experimental treatment is considered to be highly reproducible if Pearson's correlation values are more than 0.95 values greater than 0.98 are typically observed. However, even with high Pearson's correlation values, numerous genes may exhibit different expression among biological replicates. Thus, differential gene expression in GE plants would need to be compared with the observed variation in gene expression in biological replicates of untransformed individuals to ensure the absence of major effects of the genetic-engineering event on the transcriptome.

Overshadowing any expression differences discovered between a wild-type plant and an engineered plant is the fact that little is known about the exact function of a substantial number of genes, transcripts, and proteins for any plant species. In maize, nearly one-third of the genes have no meaningful functional annotation even when informative functional annotation is provided, the annotation was most likely assigned by using automated transitive annotation methods that depend heavily on sequence similarity. Thus, even if differentially expressed genes are detected between the wild-type and GE samples, interpreting them in the context of health or effects on the ecosystem may be challenging at best. For example, a study of the effects of expression of the antifungal protein in rice that was introduced with genetic engineering showed changes in about 0.4 percent of the transcriptome in the GE lines (Montero et al., 2011). Analysis of 20 percent of the changes indicated that 35 percent of the unintended effects could be attributed to the tissue-culture process used for plant transformation and regeneration, whereas 15 percent appeared to be event-specific and attributable to the presence of the transgene. About 50 percent of the changes that were attributed to the presence of the transgene were in expression of genes that could be induced in the non-GE rice by wounding. It is impossible to determine whether the changes in transcript levels recorded in the study indicate that the GE rice might be worse than, equal to, or better than its non-GE counterpart as regards food safety. One way to assess the biological effects of genetic engineering on the transcriptome is to include a variety of conventionally bred cultivars in the study and determine whether the range of expression levels in the GE line falls within the range observed for the crop, but this method will not provide definitive evidence of food or ecosystem safety.

Proteómica

Several methods permit comparison of protein composition and post-translational protein modifications between samples (for review, see May et al., 2011). For example, two-dimensional difference in-gel electrophoresis permits quantitative comparison of two proteomes through differential labeling of the samples followed by separation and quantification (Figure 7-5 D). In mass spectrometry (MS), another method for examining the proteome, proteins are first broken into specific fragments (often by proteases, which are enzymes that catalyze the cleavage of proteins into peptides at specific sites) and fractionated with such techniques as liquid chromatography. Then the mass-to-charge ratios of the peptides are detected with MS. MS data typically provide a unique “signature” for each peptide, and the identity of the peptides is typically determined by using search algorithms to compare the signatures with databases of predicted peptides and proteins derived from genome or transcriptome sequence data. Differential isotope labeling can be used in the MS approach to determine quantitative differences in protein samples. One limitation of all current proteomic techniques is sensitivity whole-proteome studies typically detect only the most abundant proteins (Baerenfaller et al., 2008). Furthermore, sample-preparation methods need to be modified to detect different fractions of the proteome (such as soluble versus membrane-bound and small versus large proteins) (Baerenfaller et al., 2008). Thus, to provide a broad assessment of the proteome, an array of sample-preparation methods must be used. Finally, as with the other -omics methods, interpretation of the significance of proteomic differences is made difficult by the fact that scientists have little knowledge of what a large number of proteins do in a plant cell.

Metabolomics

It is common practice in evaluating GE crops for regulatory approval to require targeted profiling of specific metabolites or classes of metabolites that may be relevant to the trait being developed or that are known to be present in the target species and to be potentially toxic if present at excessive concentrations. Under current regulatory requirements, substantial metabolic equivalence is assessed on the basis of concentrations of gross macromolecules (for example, protein or fiber), such nutrients as amino acids and sugars, and specific secondary metabolites that might be predicted to cause concern.

As with genomics, transcriptomics, and proteomics, the approaches collectively known as metabolomics have been developed to determine the nature and concentrations of all metabolites in a particular organism or tissue. It has been argued that such information should be required before a GE crop clears regulatory requirements for commercialization. However, in contrast with genomic and transcriptomic approaches, with which it is now technically easy to assess DNA sequences and measure relative concentrations of most or all transcripts in an organism with current sequencing technologies respectively, metabolomics as currently performed can provide useful data only on a subset of metabolites. That is because each metabolite is chemically different, whereas DNA and RNA comprise different orderings of just four nucleotide bases. Metabolites have to be separated, usually with gas chromatography or high-performance liquid chromatography their nature and concentrations are then determined, usually with MS. The mass spectra are compared with a standard library of chemicals run on the same analytical system. The major problem for this type of metabolomic analysis of plants is the possession in the plant kingdom of large numbers of genus-specific or even species-specific natural products (see section 𠇌omparing Genetically Engineered Crops and Their Counterparts” in Chapter 5 for discussion of plant natural products). Advanced commercial platforms for plant metabolomics currently measure about 200 identified compounds, usually within primary metabolism, and less broadly distributed natural products are poorly represented (Clarke et al., 2013). However, these approaches can differentiate a much larger number of distinct but unidentified metabolites, and it is useful to know whether concentrations of a metabolite are specifically affected in a GE crop even if the identity of the particular metabolite is not known. For example, with a combination of separation platforms coupled to mass spectrometry, it was possible to resolve 175 unique identified metabolites and 1,460 peaks with no or imprecise metabolite annotation, together estimated to represent about 86 percent of the chemical diversity of tomato (Solanum lycopersicum) as listed in a publicly available database (Kusano et al., 2011). Although such an approach allows one to determine whether metabolite peaks are present in a GE crop but not in the non-GE counterpart or vice versa, metabolomics, in the absence of a completely defined metabolome for the target species in which the toxicity of all components is known, is not able to determine with confidence that a GE or non-GE plant does not contain any chemically identified molecule that is unexpected or toxic.

An alternative approach to nontargeted analysis of metabolites is to perform metabolic fingerprinting and rely on statistical tools to compare GE and non-GE materials. That does not necessarily require prior separation of metabolites and can use flow-injection electrospray ionization mass spectrometry (Enot et al., 2007) or nuclear magnetic resonance (NMR) spectroscopy (Baker et al., 2006 Ward and Beale, 2006 Kim et al., 2011). NMR spectroscopy is rapid and requires no separation but depends heavily on computational and statistical approaches to interpret spectra and evaluate differences.

Generally, with a few exceptions, metabolomic studies have concluded that the metabolomes of crop plants are affected more by environment than by genetics and that modification of plants with genetic engineering typically does not bring about off-target changes in the metabolome that would fall outside natural variation in the species. Baseline studies of the metabolomes (representing 156 metabolites in grain and 185 metabolites in forage) of 50 genetically diverse non-GE DuPont Pioneer commercial maize hybrids grown at six locations in North America revealed that the environment had a much greater effect on the metabolome (affecting 50 percent of the metabolites) than did the genetic background (affecting only 2 percent of the metabolites) the difference was more striking in forage samples than in grain samples (Asiago et al., 2012). Environmental factors were also shown to play a greater role than genetic engineering on the concentrations of most metabolites identified in Bt rice (Chang et al., 2012). In soybean, nontargeted metabolomics was used to demonstrate the dynamic ranges of 169 metabolites from the seeds of a large number of conventionally bred soybean lines representing the current commercial genetic diversity (Clarke et al., 2013). Wide variations in concentrations of individual metabolites were observed, but the metabolome of a GE line engineered to be resistant to the triketone herbicide mesotrione (which targets the carotenoid pathway that leads to photobleaching of sensitive plants) did not deviate with statistical significance from the natural variation in the current genetic diversity except in the expected changes in the targeted carotenoid pathway. Similar metabolomic approaches led to the conclusion that a Monsanto Bt maize was substantially equivalent to conventionally bred maize if grown under the same environmental conditions (Vaclavik et al., 2013) and that carotenoid-fortified GE rice was more similar to its parental line than to other rice varieties (Kim et al., 2013). Those studies suggest that use of metabolomics for assessing substantial equivalence will require testing in multiple locations and careful analysis to differentiate genetic from environmental effects, especially because there will probably be effects of gene𠄾nvironment interactions.

Some metabolomic and transcriptomic studies have suggested that transgene insertion or the tissue-culture process involved in regeneration of transformed plants can lead to “metabolic signatures” associated with the process itself (Kusano et al., 2011 Montero et al., 2011). That was reported for GE tomatoes with overproduction of the taste-modifying protein miraculin, although it was pointed out by the authors that, as in comparable studies with other GE crops, “the differences between the transgenic lines and the control were small compared to the differences observed between ripening stages and traditional cultivars” (Kusano et al., 2011).

For metabolomics to become a useful tool for providing enhanced safety assessment of a specific GE crop, it will be necessary to develop a chemical library that contains all potential metabolites present in the species under all possible environmental conditions. It is a daunting task that may be feasible for a few major commodity crops under currently occurring biotic and abiotic stresses, but even that would not necessarily cover future environmental conditions. Annotated libraries of metabolites are unlikely to be developed for minor crops in the near future.

The Epigenome

Fondo

Whereas the DNA sequence of a gene encodes the mRNA that is translated into the corresponding protein, the rate at which a gene in the nucleus of a eukaryotic cell is transcribed into mRNA can be heavily influenced by chemical modification of the DNA of the gene and by chemical modification of the proteins associated with the DNA. In plants and other eukaryotes, genomic nuclear DNA can be chemically modified and is bound to an array of proteins in a DNA–protein complex termed chromatin. The major proteins in chromatin are histone proteins, which have an important role in regulating the accessibility of the transcriptional machinery to the gene and its promoter (regulatory region) and thereby control synthesis of mRNAs and proteins. Multiple types of histone proteins are found in plants, each with an array of post-translational modification (for example, acetylation and methylation) that can affect transcriptional competence of a gene. DNA can also be covalently modified by methylation of cytosines that affect transcriptional competence. Collectively, those modifications, which influence the expression of genes and are inheritable over various time spans, are known as epigenetic marks.

Epigenetic marks are determinants of transcriptional competence, and alteration of the epigenetic state (which occurs naturally but infrequently) can alter expression profiles or patterns of target genes. For example, when a transposable element inserts in or near a gene, the gene can be “silenced” as regions near a transposon become highly methylated and transcription-ally suppressed owing to the activity of the cell's native RNA-mediated DNA methylation machinery. Different epigenetic marks occur naturally in crop species examples of transposable element-mediated gene silencing include allelic variation at the tomato 2-methyl-6-phytylquinol methyltransferase gene involved in vitamin E biosynthesis (Quadrana et al., 2014) and imprinting as seen in endosperm tissue, in which differential insertion of transposable elements occurs in the maternal and paternal parents (Gehring et al., 2009).

Methods of Characterizing the Epigenome

Methods of characterizing the epigenome are available and improving rapidly. For DNA methylation, high-throughput, single-nucleotide resolution can be obtained through bisulfite sequencing (BS-seq for review, see Feng et al., 2011 Krueger et al., 2012). BS-seq methods mirror that of genome resequencing except that the genomic DNA is first treated with bisulfite, which converts cytosines to uracils but does not affect 5-methyl-cytosine residues. As a consequence, nonmethylated cytosines will be detected as thymidines after the polymerase chain reaction step during epigenome-library construction. After sequencing, reads are aligned with a reference genome sequence, and nonmethylated cytosines are detected as SNPs and compared with a parallel library constructed from untreated DNA (see section above “Resequencing: Assessing Differences Between the Reference and Query Genome” Figure 7-5). There are limitations of BS-seq approaches, such as incomplete conversion of cytosines, degradation of DNA, and an inability to assess the full methylome because of read mapping limitations, sequencing depth, and sequencing errors, as described above for resequencing. Another limitation is the dynamic nature of plant genome cytosine methylation. Plants derived from an identical parent that have not been subject to any traditional selection or GE transformation can have different epigenomes𠅊n example of 𠇎pigenetic drift” (Becker et al., 2011). Thus, determining the epigenome of a plant at one specific point in time will not necessarily indicate the future epigenome of offspring of that plant.

Histone marks can be detected through chromatin immunoprecipitation coupled with high-throughput sequencing (ChIP-Seq for review see Yamaguchi et al., 2014 Zentner and Henikoff, 2014). First, chromatin is isolated so that the proteins remain bound to the DNA. Then the DNA is sheared, and the DNA that is bound to specific histone proteins is selectively removed by using antibodies specific to each histone mark. The DNA bound to an antibody is then used to construct a library that is sequenced and aligned with a reference genome, and an algorithm is used to define the regions of the genome in which the histone mark is found. Sensitivity and specificity of ChIP-Seq depend heavily on the specificity of the histone-mark antibodies, on technical limitations in alignment of sequence reads with the reference genome, and on the overall quality of the reference genome itself. Also, the present state of understanding does not permit robust prediction of the effects of many epigenetic modifications on gene expression, and gene expression can be more thoroughly and readily assessed by transcriptomics.

Evaluation of Crop Plants Using -Omics Technologies

The -omics evaluation methods described above hold great promise for assessment of new crop varieties, both GE and non-GE. In a tiered regulatory approach (see Chapter 9), -omics evaluation methods could play an important role in a rational regulatory framework. For example, consider the introduction of a previously approved GE trait such as a Bt protein in a new variety of the same species. Having an -omics profile in a new GE variety that is comparable to the profile of a variety already in use should be sufficient to establish substantial equivalence (Figure 7-6, Tier 1). Furthermore, -omics analyses that reveal a difference that is understood to have no adverse health effects (for example, increased carotenoid content) should be sufficient for substantial equivalence (Figure 7-6, Tier 2).

FIGURE 7-6

Proposed tiered crop evaluation strategy crops using -omics technologies. SOURCE: Illustration by R. Amasino. NOTE: A tiered set of paths can be taken depending on the outcome of the various -omics technologies. In Tier 1, there are no differences between (more. )

The approach described above could also be used across species. For example, once it is established that production of a protein (such as a Bt protein) in one plant species poses no health risk, then the only potential health risk of Bt expression in another species is unintended off-target effects. -Omics analyses that reveal no differences (Figure 7-6, Tier 1) or in which revealed differences present no adverse health effects (Figure 7-6, Tier 2) in comparison with the previously deregulated GE crop or the range of variation found in cultivated, non-GE varieties of the same species provide evidence for substantial equivalence. As discussed in Chapter 5 (see section “Newer Methods for Assessing Substantial Equivalence”), there have been more than 60 studies in which -omics approaches were used to compare GE and non-GE varieties, and none of these studies found differences that were cause for concern.

There are also scenarios for which -omics analyses could indicate that further safety testing is warranted, such as if -omics analyses reveal a difference that is understood to have potential adverse health effects (for example, increased expression of genes responsible for glycoalkaloid synthesis) (Figure 7-6, Tier 3). Another scenario is if -omics analyses reveal a change of a protein or metabolite for which the consequences cannot be interpreted and are outside the range observed in GE and non-GE varieties of the crop (Figure 7-6, Tier 4). It is important to note that a Tier 4 scenario is not in and of itself an indication of a safety issue. The functions or health effects of consumption of many genes and corresponding RNAs, proteins, and metabolites in non-GE plants are not known. Furthermore, the chemical structure of many metabolites in plants that can be detected as “peaks” in various analytical systems is not known. Substantially more basic knowledge is needed before -omics datasets can be fully interpreted.

The state of the art of the different -omics approaches varies considerably. Advances in the efficiency of DNA-sequencing technology enable a complete genome or transcriptome to be sequenced at a cost that is modest on the scale of regulatory costs. Transcriptomics could play an important role in evaluation of substantial equivalence because it is relatively straightforward to generate and compare extensive transcriptomic data from multiple biological replicates of a new crop variety versus its already-in-use progenitor. As noted above, if no unexpected differences are found, this is evidence of substantial equivalence. It is possible that two varieties with equivalent transcriptomes have a difference in the level of a metabolite due to an effect of the product of a transgene on translation of a particular mRNA or on activity of a particular protein, but these are unlikely scenarios.

It is also straightforward and relatively low in cost to generate genome-sequence data from many individuals from a new GE or non-GE variety to determine which lineage has the fewest nontarget changes to its genome. As noted earlier in the chapter, mutagenesis, although currently classified as conventional breeding, can result in extensive changes to the genome thus generating DNA sequence data will be useful in evaluating varieties produced by this method.

Metabolomic and proteomic techniques cannot presently provide a complete catalog of the metabolome or proteome. Nevertheless, these -omics approaches can play a role in assessment. For example, a similar metabolome or proteome in a new variety compared to an existing variety provides supporting evidence of substantial equivalence, whereas a difference can indicate that further evaluation may be warranted.

The most thorough evidence of substantial equivalence would result from a complete knowledge of the biochemical constituents of one crop variety compared to other varieties. As noted above, that is not possible with present techniques for the proteome and metabolome. However, looking to the future, an increasing knowledge base of plant biochemistry will translate into fewer analyses that result in a Tier 4 situation, and basic research in plant biochemistry will continue to expand the knowledge base that will enable the thorough and rational evaluation of new crop varieties basic research will also expand fundamental understanding of basic biological processes in plants and thus enable advances in molecular plant breeding.

FINDING: Application of -omics technologies has the potential to reveal the extent of modifications of the genome, the transcriptome, the epigenome, the proteome, and the metabolome that are attributable to conventional breeding, somaclonal variation, and genetic engineering. Full realization of the potential of -omics technologies to assess substantial equivalence would require the development of extensive species-specific databases, such as the range of variation in the transcriptome, proteome, and metabolome in a number of genotypes grown in diverse environmental conditions. Although it is not yet technically feasible to develop extensive species-specific metabolome or proteome databases, genome sequencing and transcriptome characterization can be performed.

RECOMMENDATION: To realize the potential of -omics technologies to assess intended and unintended effects of new crop varieties on human health and the environment and to improve the production and quality of crop plants, a more comprehensive knowledge base of plant biology at the systems level (DNA, RNA, protein, and metabolites) should be constructed for the range of variation inherent in both conventionally bred and genetically engineered crop species.


Ver el vídeo: Secuenciación por Síntesis Illumina: Conceptos Básicos (Enero 2023).