Información

Recomendaciones de libros: análisis / error de datos biológicos

Recomendaciones de libros: análisis / error de datos biológicos


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Trabajo como estudiante en un laboratorio de cultivo de tejidos y tengo la mayor experiencia con las estadísticas de todos los miembros del laboratorio. Sin embargo, la mayor parte del conocimiento que tengo en estadística proviene de mis cursos de matemáticas, que son principalmente teóricos.

¿Alguien tiene buenas recomendaciones para libros sobre diseño experimental biológico, análisis de datos y error estadístico? Preferiría que fueran específicos de biología, pero si hay algunos buenos libros generales con aplicaciones que también me funcionen. Solo quiero tener una idea de los conocimientos específicos que necesitaré.


Hay muchos libros que enseñan estadística y R juntos. Personalmente, no recomendaría estos libros. Aprenda los fundamentos y simplemente busque en Google qué comando ya existe en R para realizar el análisis que necesita hacer.

Recomendaría Diseño experimental y análisis de datos para biólogos de Quinn y Keough. Es general, aplicado y agradable de leer.

Como ya tiene una buena base en estadísticas, no necesitará un libro de texto de introducción, pero para otros usuarios (y como yo personalmente trabajo con uno de los autores), me gustaría mencionar El análisis de datos biológicos de Schluter y Whitlock.


Variación biológica y especificaciones deseables para el control de calidad

Escrito por la Dra. Carmen Ricos, PhD Virtudes Alvarez, MD Fernando Cava, MD.

La Dra. Carmen Ricos nos proporciona una base de datos completa de variación biológica para más de 300 cantidades, basada en una revisión de más de 140 artículos en la literatura científica. La base de datos adjunta incluye la variación biológica observada entre y dentro de los sujetos para estas cantidades, así como especificaciones deseables para la imprecisión, el sesgo y el error total permisible. Esta es una gran cantidad de información para aquellos que buscan más orientación sobre los requisitos de calidad.

Comisión de Calidad Analítica de la Sociedad Española de Química Clínica y Patología Molecular (SEQC).

Abstracto

La redacción científica, si bien es un paso indispensable del proceso científico, a menudo se pasa por alto en los cursos de pregrado a favor de maximizar el tiempo de clase dedicado a los conceptos científicos. Sin embargo, la capacidad de comunicar eficazmente los resultados de la investigación es fundamental para el éxito en las ciencias biológicas. Se anima a los estudiantes de posgrado a publicar temprano y con frecuencia, y los científicos profesionales generalmente son evaluados por la cantidad de artículos publicados y el número de citas que reciben esos artículos. Por lo tanto, es importante que los estudiantes de pregrado reciban una base sólida en escritura científica al comienzo de sus carreras académicas. Con el fin de aumentar el énfasis en la escritura eficaz en el aula, reunimos una guía sucinta paso a paso para la escritura científica que se puede difundir directamente a los estudiantes universitarios matriculados en cursos de ciencias biológicas. La guía desglosa el proceso de redacción científica en piezas fácilmente digeribles, proporcionando ejemplos concretos a los que los estudiantes pueden hacer referencia cuando preparan un manuscrito científico o un informe de laboratorio. Al aumentar la exposición de los estudiantes universitarios al proceso de redacción científica, esperamos preparar mejor a los estudiantes universitarios para la escuela de posgrado y carreras productivas en las ciencias biológicas.


Análisis de secuencia biológica: modelos probabilísticos de proteínas y ácidos nucleicos

Quizás un libro bastante antiguo, ¡pero muy relevante para cualquier bioinformático! Recientemente he leído Gusfields & aposalgorithms on strings & apos, creo que este es el texto más relevante sobre algoritmos para secuencias biológicas. La razón de esto es que para trabajar con datos de la vida real se requiere un marco probabilístico sólido. Cualquiera que esté familiarizado con las herramientas estándar de aprendizaje automático probablemente verá cómo vincular estos métodos y cómo aplicarlos para crear clasificadores, por ejemplo.

La introducción a la dinámica Tal vez sea un libro bastante antiguo, ¡pero muy relevante para cualquier bioinformático! Recientemente he leído los algoritmos de Gusfields sobre cadenas, creo que este es el texto más relevante sobre algoritmos para secuencias biológicas. La razón de esto es que para trabajar con datos de la vida real se requiere un marco probabilístico sólido. Cualquiera que esté familiarizado con las herramientas estándar de aprendizaje automático probablemente verá cómo vincular estos métodos y cómo aplicarlos para crear clasificadores, por ejemplo.

La introducción a la programación dinámica y HMM es buena, aunque muy descriptiva. Puede ser necesario consultar material adicional si desea implementar estas herramientas usted mismo.

La parte sobre inferir filogenias fue interesante y muestra la dificultad del campo.

La última parte sobre las gramáticas estocásticas y el ARN fue, para mí, extremadamente fascinante. Los autores presentan un mundo que realmente está en el corazón de la bioinformática (o el modelado del lenguaje en general) y lo que podemos y no podemos hacer. Lástima que esta sección tenga solo dos capítulos. . más


El análisis de datos biológicos

Aquí hay una entrada de livejournal que hice la primera vez que abrí este maravilloso libro de texto de estadísticas:

Mi libro de texto de bioestadística es probablemente el mejor libro de texto que yo y un apóstomo haya tenido. El libro de texto de mi curso introductorio de estadística el semestre pasado no solo palidece en comparación, se ve francamente horrible (en realidad, no era ni medio malo y me gustó en ese momento. ¡Este texto es tan encantador! mitad más corto tanto a lo largo como a lo ancho, además de ser sorprendentemente ligero por su Aquí hay una entrada de livejournal que hice la primera vez que abrí este maravilloso libro de texto de estadísticas:

Mi libro de texto de bioestadística es probablemente el mejor libro de texto que he tenido. El libro de texto de mi curso de introducción a la estadística el semestre pasado no solo palidece en comparación, se ve francamente horrible (en realidad, no estaba tan mal y me gustó en ese momento. ¡Este texto es tan hermoso! Es una buena pulgada y medio más corto tanto a lo largo como a lo ancho, además de ser sorprendentemente ligero por su profundidad. El diseño es realmente limpio, hecho con colores agradables y con fotos y figuras pequeñas cuando corresponde. A diferencia de la mayoría de los libros de texto modernos (que parecen estar diseñados para ADD enfermos debido a la cantidad de basura innecesaria que rodea pequeños bloques de texto), este libro tiene márgenes amplios y agradables, páginas de texto limpias y distracciones mínimas.

En cuanto al contenido, este libro también compite por el texto de referencia más útil que he tenido. El libro introductorio del semestre pasado fue casi inútil en términos de aplicar su contenido a un proyecto de investigación biológica real. Para demostrar la aplicabilidad de este texto, solo necesito mencionar un capítulo, titulado "Metanálisis: combinación de información de múltiples estudios". ¿Qué otro texto de nivel introductorio incluye un capítulo sobre cómo hacer un metaanálisis sangriento? ¡Ninguno que yo sepa! Eso es algo muy relevante e interesante. No solo eso, sino que los intercalados entre capítulos hablan de una serie de cosas importantes, un poco fuera del tema, que no se pueden incluir en ningún capítulo en particular, pero que es útil conocer un poco. Cosas como el sesgo de publicación y el uso de especies como puntos de datos. Brillante, absolutamente brillante. Planeo mantener esto como referencia para el resto de mi carrera científica. . más


Conceptos básicos de prueba de hipótesis

Uno de los principales objetivos de la prueba de hipótesis estadísticas es estimar la PAG valor, que es la probabilidad de obtener los resultados observados, o algo más extremo, si la hipótesis nula fuera cierta. Si los resultados observados son improbables bajo la hipótesis nula, rechaza la hipótesis nula. Las alternativas a este enfoque "frecuentista" de las estadísticas incluyen las estadísticas bayesianas y la estimación de los tamaños del efecto y los intervalos de confianza.

Introducción

Hay diferentes formas de hacer estadísticas. La técnica utilizada por la gran mayoría de los biólogos, y la técnica que describe la mayor parte de este manual, a veces se denomina estadística "frecuentista" o "clásica". Implica probar una hipótesis nula comparando los datos que observa en su experimento con las predicciones de una hipótesis nula. Calcula cuál sería la probabilidad de obtener los resultados observados, o algo más extremo, si la hipótesis nula fuera cierta. Si esta probabilidad estimada (la PAG value) es lo suficientemente pequeño (por debajo del valor de significancia), luego concluye que es poco probable que la hipótesis nula sea cierta, rechaza la hipótesis nula y acepta una hipótesis alternativa.

Muchos estadísticos critican duramente las estadísticas frecuentistas, pero sus críticas no han tenido mucho efecto en la forma en que la mayoría de los biólogos hacen las estadísticas. Aquí esbozaré algunos de los conceptos clave utilizados en las estadísticas frecuentistas y luego describiré brevemente algunas de las alternativas.

Hipótesis nula

Un pollo de hormigón gigante en Vietnam.

La hipótesis nula es una declaración que desea probar. En general, la hipótesis nula es que las cosas son iguales entre sí, o iguales a una expectativa teórica. Por ejemplo, si mide el tamaño de las patas de los pollos machos y hembras, la hipótesis nula podría ser que el tamaño medio de las patas en los pollos machos es el mismo que el tamaño medio de las patas en las hembras. Si cuenta el número de pollos machos y hembras nacidos de un grupo de gallinas, la hipótesis nula podría ser que la proporción de machos a hembras es igual a una expectativa teórica de una proporción de 1: 1.

La hipótesis alternativa es que las cosas son diferentes entre sí, o diferentes de una expectativa teórica. Por ejemplo, una hipótesis alternativa sería que los pollos machos tienen un tamaño medio de pie diferente al de las hembras, otra sería que la proporción de sexos es diferente de 1: 1.

Por lo general, la hipótesis nula es aburrida y la hipótesis alternativa es interesante. Por ejemplo, digamos que le das chocolate a un grupo de pollos y luego miras la proporción de sexos en sus crías. Si obtiene más hembras que machos, sería un descubrimiento tremendamente emocionante: sería un descubrimiento fundamental sobre el mecanismo de determinación del sexo, las gallinas hembras son más valiosas que los pollos machos en las razas de puesta de huevos, y usted podría hacerlo. publica tu resultado en Ciencias o Naturaleza. Mucha gente ha gastado mucho tiempo y dinero tratando de cambiar la proporción de sexos en los pollos, y si tiene éxito, será rico y famoso. Pero si el chocolate no cambia la proporción de sexos, sería un resultado extremadamente aburrido, y le costaría mucho publicarlo en el Revista de Chickenology del este de Delaware. Por lo tanto, es tentador buscar patrones en sus datos que apoyen la interesante hipótesis alternativa. Por ejemplo, puede observar 48 crías de pollos alimentados con chocolate y ver 31 hembras y solo 17 machos. Esto parece prometedor, pero antes de que se sienta feliz y comience a comprar ropa formal para la ceremonia del Premio Nobel, debe preguntarse "¿Cuál es la probabilidad de obtener una desviación de la expectativa nula tan grande, solo por casualidad, si la aburrida hipótesis nula es ¿realmente cierto?" Solo cuando esa probabilidad es baja se puede rechazar la hipótesis nula. El objetivo de las pruebas de hipótesis estadísticas es estimar la probabilidad de obtener los resultados observados bajo la hipótesis nula.

Hipótesis nulas biológicas versus estadísticas

Es importante distinguir entre biológico hipótesis nulas y alternativas y estadístico hipótesis nulas y alternativas. "La selección sexual por parte de las hembras ha provocado que los pollos machos desarrollen patas más grandes que las hembras" es una hipótesis alternativa biológica que dice algo sobre los procesos biológicos, en este caso la selección sexual. "Los pollos machos tienen un tamaño medio de pata diferente al de las hembras" es una hipótesis alternativa estadística que dice algo sobre los números, pero nada sobre qué causó que esos números fueran diferentes. Las hipótesis biológicas nulas y alternativas son las primeras en las que debes pensar, ya que describen algo interesante sobre la biología, son dos posibles respuestas a la pregunta biológica que te interesa ("¿Qué afecta el tamaño de las patas en los pollos?"). Las hipótesis estadística nula y alternativa son declaraciones sobre los datos que deberían derivarse de las hipótesis biológicas: si la selección sexual favorece patas más grandes en los pollos machos (una hipótesis biológica), entonces el tamaño medio de las patas en los pollos machos debería ser mayor que el promedio en las hembras. (una hipótesis estadística). Si rechaza la hipótesis nula estadística, debe decidir si es suficiente evidencia para rechazar su hipótesis nula biológica. Por ejemplo, si no encuentra una diferencia significativa en el tamaño de la pata entre los pollos machos y hembras, podría concluir: "No hay evidencia significativa de que la selección sexual haya causado que los pollos machos tengan patas más grandes". Si encuentra una diferencia estadísticamente significativa en el tamaño del pie, eso podría no ser suficiente para concluir que la selección sexual causó que los pies más grandes pudieran ser que los machos comen más, o que los pies más grandes sean un subproducto del desarrollo de las crestas de los gallos. , o que los machos corran más y el ejercicio les agranda los pies. Cuando existen múltiples interpretaciones biológicas de un resultado estadístico, es necesario pensar en experimentos adicionales para probar las diferentes posibilidades.

Prueba de la hipótesis nula

El objetivo principal de una prueba estadística es determinar si un conjunto de datos observados es tan diferente de lo que cabría esperar bajo la hipótesis nula que debería rechazar la hipótesis nula. Por ejemplo, digamos que está estudiando la determinación del sexo en pollos. Para las razas de pollos que se crían para poner muchos huevos, las hembras son más valiosas que los machos, por lo que si pudiera encontrar una manera de manipular la proporción de sexos, podría hacer muy felices a muchos criadores de pollos. Le has dado chocolate a un montón de gallinas (en las aves, a diferencia de los mamíferos, la madre determina el sexo de la descendencia) y obtienes 25 polluelos hembras y 23 polluelos machos. Cualquiera miraría esos números y vería que podrían resultar fácilmente de la casualidad, no habría razón para rechazar la hipótesis nula de una proporción 1: 1 de mujeres a hombres. Si tuvieras 47 mujeres y 1 hombre, la mayoría de la gente miraría esos números y vería que sería extremadamente improbable que sucedan debido a la suerte, si la hipótesis nula fuera cierta, rechazarías la hipótesis nula y concluiría que el chocolate realmente cambió el sexo. proporción. Sin embargo, ¿qué pasaría si tuvieras 31 mujeres y 17 hombres? Eso es definitivamente más mujeres que hombres, pero ¿es realmente tan poco probable que ocurra debido a la casualidad que pueda rechazar la hipótesis nula? Para responder a eso, necesita más que sentido común, necesita calcular la probabilidad de obtener una desviación tan grande debido al azar.

PAG valores

En la figura anterior, utilicé la función BINOMDIST de Excel para calcular la probabilidad de obtener cada número posible de hombres, de 0 a 48, bajo la hipótesis nula de que 0.5 son hombres. Como puede ver, la probabilidad de obtener 17 machos de un total de 48 pollos es de aproximadamente 0,015. Parece una probabilidad bastante pequeña, ¿no? Sin embargo, esa es la probabilidad de obtener exactamente 17 varones. Lo que quieres saber es la probabilidad de obtener 17 o menos machos. Si fuera a aceptar 17 hombres como evidencia de que la proporción de sexos estaba sesgada, también habría aceptado 16, 15, o 14, hombres como prueba de una proporción de sexos sesgada. Por lo tanto, debe sumar las probabilidades de todos estos resultados. La probabilidad de obtener 17 hombres o menos de 48, bajo la hipótesis nula, es 0.030. Eso significa que si tuviera un número infinito de pollos, mitad machos y mitad hembras, y tomara un montón de muestras aleatorias de 48 pollos, el 3.0% de las muestras tendrían 17 machos o menos.

Este número, 0.030, es el PAG valor. Se define como la probabilidad de obtener el resultado observado, o un resultado más extremo, si la hipótesis nula es cierta. Tan "PAG= 0.030 "es una forma abreviada de decir" La probabilidad de obtener 17 pollos machos o menos de un total de 48 pollos, SI la hipótesis nula es cierta de que el 50% de los pollos son machos, es 0,030 ”.

Falsos positivos frente a falsos negativos

Después de realizar una prueba estadística, rechazará o aceptará la hipótesis nula. Rechazar la hipótesis nula significa que usted concluye que la hipótesis nula no es cierta en nuestro ejemplo del sexo del pollo, concluiría que la verdadera proporción de pollos machos, si le diese chocolate a un número infinito de madres de pollo, sería menor al 50%. .

Cuando rechaza una hipótesis nula, existe la posibilidad de que esté cometiendo un error. La hipótesis nula podría ser realmente cierta, y es posible que sus resultados experimentales se desvíen de la hipótesis nula simplemente como resultado de la casualidad. En una muestra de 48 pollos, es posible obtener 17 pollos machos puramente por casualidad, incluso es posible (aunque extremadamente improbable) obtener 0 pollos machos y 48 hembras puramente por casualidad, aunque la proporción real es del 50% de machos. Es por eso que nunca decimos que "probamos" algo en la ciencia, siempre existe la posibilidad, por minúscula que sea, de que nuestros datos nos engañen y se desvíen de la hipótesis nula por pura casualidad. Cuando sus datos lo engañan para que rechace la hipótesis nula aunque sea cierta, se denomina "falso positivo" o "error de tipo I". Entonces, otra forma de definir el PAG el valor es la probabilidad de obtener un falso positivo como el que has observado, si la hipótesis nula es cierta.

Otra forma en que sus datos pueden engañarlo es cuando no rechaza la hipótesis nula, aunque no sea cierta. Si la verdadera proporción de polluelos es del 51%, la hipótesis nula de una proporción del 50% no es cierta, pero es poco probable que obtenga una diferencia significativa de la hipótesis nula a menos que tenga un tamaño de muestra enorme. No rechazar la hipótesis nula, aunque no sea cierta, es un "falso negativo" o un "error de tipo II". Es por eso que nunca decimos que nuestros datos muestran que la hipótesis nula es cierta, todo lo que podemos decir es que no hemos rechazado la hipótesis nula.

Niveles de significación

¿Una probabilidad de 0.030 significa que debe rechazar la hipótesis nula y concluir que el chocolate realmente causó un cambio en la proporción de sexos? La convención en la mayoría de las investigaciones biológicas es usar un nivel de significancia de 0.05. Esto significa que si el PAG valor es menor que 0.05, rechaza la hipótesis nula si PAG es mayor o igual a 0.05, no rechaza la hipótesis nula. No hay nada matemáticamente mágico en 0.05, fue elegido de manera bastante arbitraria durante los primeros días de la estadística, la gente podría haber acordado 0.04, o 0.025, o 0.071 como el nivel de significancia convencional.

El nivel de significancia (también conocido como "valor crítico" o "alfa") que debe usar depende de los costos de los diferentes tipos de errores. Con un nivel de significancia de 0.05, tiene un 5% de probabilidad de rechazar la hipótesis nula, incluso si es cierta. Si prueba 100 tratamientos diferentes en sus pollos, y ninguno de ellos cambia realmente la proporción de sexos, el 5% de sus experimentos le dará datos que son significativamente diferentes de una proporción de sexos 1: 1, solo por casualidad. En otras palabras, el 5% de sus experimentos le dará un falso positivo. Si usa un nivel de significancia más alto que el convencional 0.05, como 0.10, aumentará la probabilidad de un falso positivo a 0.10 (por lo tanto, aumentará la probabilidad de una conclusión vergonzosamente incorrecta), pero también disminuirá la probabilidad de un falso negativo. (aumentando sus posibilidades de detectar un efecto sutil). Si usa un nivel de significancia más bajo que el convencional 0.05, como 0.01, disminuye la posibilidad de un falso positivo vergonzoso, pero también hace que sea menos probable que detecte una desviación real de la hipótesis nula, si la hay.

Los costos relativos de los falsos positivos y los falsos negativos y, por lo tanto, el mejor PAG valor de uso, será diferente para diferentes experimentos. Si está evaluando un montón de tratamientos potenciales que cambian la proporción de sexos y obtiene un falso positivo, no sería un gran problema, simplemente realizaría algunas pruebas más en ese tratamiento hasta que esté convencido de que el resultado inicial es falso. positivo. Sin embargo, el costo de un falso negativo sería que se perdería un descubrimiento tremendamente valioso. Por lo tanto, puede establecer su valor de significancia en 0.10 o más para sus pruebas iniciales. Por otro lado, una vez que su tratamiento de cambio de proporción de sexos se somete a las pruebas finales antes de ser vendido a los agricultores, un falso positivo podría ser muy costoso; debe estar muy seguro de que realmente funcionó. De lo contrario, si les vendes a los criadores de pollos un tratamiento de proporción de sexos que resulta que no funciona realmente (fue un falso positivo), te demandarán. Por lo tanto, es posible que desee establecer su nivel de significancia en 0.01, o incluso más bajo, para sus pruebas finales.

El nivel de significancia que elija también debe depender de la probabilidad de que crea que su hipótesis alternativa sea cierta, una predicción que hace antes de haces el experimento. Esta es la base de las estadísticas bayesianas, como se explica a continuación.

Por supuesto, debe elegir su nivel de significancia antes de recopilar los datos. Si opta por utilizar un nivel de significancia diferente al 0,05 convencional, la gente se mostrará escéptica, debe poder justificar su elección. A lo largo de este manual, siempre usaré PAG& lt0.05 como nivel de significancia. Si está realizando un experimento en el que el costo de un falso positivo es mucho mayor o menor que el costo de un falso negativo, o un experimento en el que cree que es poco probable que la hipótesis alternativa sea cierta, debería considerar usar un método diferente. Nivel significativo.

Probabilidades de una cola frente a las de dos colas

La probabilidad que se calculó anteriormente, 0.030, es la probabilidad de obtener 17 o menos hombres de 48. Sería significativo, usando el método convencional PAG& lt0.05 criterio. Sin embargo, ¿qué pasa con la probabilidad de tener 17 mujeres o menos? Si su hipótesis nula es "La proporción de hombres es 0.5 o más" y su hipótesis alternativa es "La proporción de hombres es menor que 0.5", entonces usaría la PAG= Valor de 0.03 obtenido sumando las probabilidades de obtener 17 hombres o menos. Esto se llama probabilidad de una cola, porque está sumando las probabilidades en una sola cola de la distribución que se muestra en la figura. Sin embargo, si su hipótesis nula es "La proporción de hombres es 0.5", entonces su hipótesis alternativa es "La proporción de hombres es diferente de 0.5". En ese caso, debe agregar la probabilidad de obtener 17 mujeres o menos a la probabilidad de obtener 17 hombres o menos. Esto se llama probabilidad de dos colas. Si haces eso con el resultado del pollo, obtienes PAG= 0.06, que no es muy significativo.

Por supuesto, debe decidir si utilizar la probabilidad de una cola o de dos colas antes de recopilar sus datos. Una probabilidad de una cola es más poderosa, en el sentido de tener una menor probabilidad de falsos negativos, pero solo debe usar una probabilidad de una cola si realmente tiene una predicción firme sobre qué dirección de desviación consideraría interesante. En el ejemplo del pollo, podría tener la tentación de usar una probabilidad de una cola, porque solo está buscando tratamientos que disminuyan la proporción de pollos machos sin valor. Pero si accidentalmente encuentra un tratamiento que produce un 87% de pollos machos, ¿realmente publicaría el resultado como "El tratamiento no provocó una disminución significativa en la proporción de pollos machos"? Espero que no. Te darías cuenta de que este resultado inesperado, aunque no era lo que tú y tus amigos granjeros querían, sería muy interesante para otras personas al conducir a descubrimientos sobre la biología fundamental de la determinación del sexo en los pollos, incluso podría ayudarte producirá más gallinas algún día. Siempre que sea interesante una desviación en cualquier dirección, debe utilizar la probabilidad de dos colas. Además, la gente es escéptica con respecto a las probabilidades de una cola, especialmente si una probabilidad de una cola es significativa y una probabilidad de dos colas no sería significativa (como en nuestro ejemplo del pollo que come chocolate). A menos que proporcione una explicación muy convincente, las personas pueden pensar que decidió utilizar la probabilidad de una cola después viste que la probabilidad de dos colas no era muy significativa, lo que sería una trampa. Puede ser más fácil usar siempre probabilidades de dos colas. Para este manual, siempre usaré probabilidades de dos colas, a menos que deje muy claro que solo una dirección de desviación de la hipótesis nula sería interesante.

Informar sus resultados

En los viejos tiempos, cuando la gente miraba hacia arriba PAG valores en tablas impresas, reportarían los resultados de una prueba estadística como "PAG& lt0.05 ","PAG& lt0.01 ","PAG& gt0.10 ", etc. Hoy en día, casi todos los programas de estadísticas informáticas dan la PAG valor resultante de una prueba estadística, como PAG= 0.029, y eso es lo que debe informar en sus publicaciones. Llegará a la conclusión de que los resultados son significativos o no lo son, o rechazan la hipótesis nula (si PAG está por debajo de su nivel de significancia predeterminado) o no rechace la hipótesis nula (si PAG está por encima de su nivel de significación). Pero otras personas querrán saber si sus resultados son "fuertemente" significativos (PAG mucho menos de 0.05), lo que les dará más confianza en sus resultados que si fueran "apenas" significativos (PAG= 0,043, por ejemplo). Además, otros investigadores necesitarán la exacta PAG valor si quieren combinar sus resultados con otros en un metanálisis.

Los programas de estadísticas informáticas pueden dar datos algo inexactos. PAG valores cuando son muy pequeños. Una vez que tu PAG los valores se vuelven muy pequeños, solo puede decir "PAG& lt0.00001 "o algún otro número impresionantemente pequeño. También debe proporcionar sus datos sin procesar o la estadística de prueba y los grados de libertad, en caso de que alguien quiera calcular su PAG valor.

Tamaños de efecto e intervalos de confianza

Una crítica bastante común del enfoque estadístico de prueba de hipótesis es que la hipótesis nula siempre será falsa, si tiene un tamaño de muestra lo suficientemente grande. En el ejemplo de las patas de pollo, los críticos argumentarían que si tuvieras un tamaño de muestra infinito, es imposible que los pollos machos tuvieran exactamente el mismo tamaño promedio de pie que las gallinas. Por lo tanto, dado que antes de hacer el experimento sabe que la hipótesis nula es falsa, no tiene sentido probarla.

Esta crítica sólo se aplica a las pruebas de dos colas, donde la hipótesis nula es "Las cosas son exactamente iguales" y la alternativa es "Las cosas son diferentes". Es de suponer que estos críticos piensan que estaría bien hacer una prueba de una cola con una hipótesis nula como "La longitud de un pie de los pollos machos es igual o menor que la de las hembras", porque la hipótesis nula de que los pollos machos tienen patas más pequeñas de lo que las mujeres podrían ser verdad. Entonces, si está preocupado por este problema, podría pensar en una prueba de dos colas, donde la hipótesis nula es que las cosas son iguales, como una forma abreviada de hacer dos pruebas de una cola. Un rechazo significativo de la hipótesis nula en una prueba de dos colas equivaldría a rechazar una de las dos hipótesis nulas de una cola.

Una crítica relacionada es que un rechazo significativo de una hipótesis nula podría no ser biológicamente significativo, si la diferencia es demasiado pequeña para importar. Por ejemplo, en el experimento del sexo del pollo, tener un tratamiento que produjo un 49,9% de pollos machos podría ser significativamente diferente del 50%, pero no sería suficiente para que los granjeros quisieran comprar su tratamiento. Estos críticos dicen que debe estimar el tamaño del efecto y ponerle un intervalo de confianza, no estimar un PAG valor. Por lo tanto, el objetivo de su experimento de sexo con gallinas no debería ser decir "El chocolate da una proporción de machos significativamente menor al 50% (PAG= 0,015) ", pero para decir" El chocolate produjo un 36,1% de machos con un intervalo de confianza del 95% del 25,9 al 47,4% ". Para el experimento de patas de pollo, diría algo como" La diferencia entre machos y hembras en el tamaño medio de las patas es 2,45 mm, con un intervalo de confianza sobre la diferencia de & plusmn1,98 mm ".

La estimación de los tamaños del efecto y los intervalos de confianza es una forma útil de resumir sus resultados y, por lo general, debe ser parte de su análisis de datos; a menudo, querrá incluir intervalos de confianza en un gráfico. Sin embargo, hay muchos experimentos en los que el objetivo es decidir una pregunta de sí o no, no estimar un número. En las pruebas iniciales de chocolate sobre la proporción de sexos de pollo, el objetivo sería decidir entre "Cambió la proporción de sexos" y "No pareció cambiar la proporción de sexos". Alguna Un cambio en la proporción de sexos que sea lo suficientemente grande como para que pueda detectarlo sería interesante y valdría la pena realizar experimentos de seguimiento. Si bien es cierto que es posible que no valga la pena seguir la diferencia entre el 49,9% y el 50%, no haría un experimento con suficientes pollos para detectar una diferencia tan pequeña.

A menudo, las personas que afirman evitar las pruebas de hipótesis dirán algo como "el intervalo de confianza del 95% del 25,9 al 47,4% no incluye el 50%, por lo que concluimos que el extracto de la planta cambió significativamente la proporción de sexos". Esta es una forma torpe y indirecta de prueba de hipótesis, y bien podrían admitirlo e informar el PAG valor.

Estadísticas bayesianas

Otra alternativa a las estadísticas frecuentistas son las estadísticas bayesianas. Una diferencia clave es que las estadísticas bayesianas requieren especificar su mejor estimación de la probabilidad de cada valor posible del parámetro que se va a estimar, antes de que se realice el experimento. Esto se conoce como "probabilidad previa". Entonces, para su experimento de sexo con gallinas, está tratando de estimar la proporción "verdadera" de pollos machos que nacerían si tuviera un número infinito de pollos. Tendría que especificar la probabilidad de que pensara que la proporción real de pollos machos era 50%, 51%, 52% o 47,3%, etc. Luego, miraría los resultados de su experimento y usaría la información. para calcular nuevas probabilidades de que la proporción real de pollos machos fuera del 50%, o 51%, o 52%, o 47,3%, etc. (la distribución posterior).

Confesaré que realmente no entiendo las estadísticas bayesianas, y me disculpo por no explicarlo bien. En particular, no entiendo cómo se supone que la gente llega a una distribución previa para los tipos de experimentos que hace la mayoría de los biólogos. Con la excepción de la sistemática, donde la estimación bayesiana de filogenias es bastante popular y parece tener sentido, no he visto a muchos biólogos investigadores que utilicen estadísticas bayesianas para el análisis de datos de rutina de experimentos de laboratorio simples. Esto significa que incluso si los partidarios de las estadísticas bayesianas, parecidos a un culto, lo convencieran de que tenían razón, le resultaría difícil explicar sus resultados a sus pares biólogos. Las estadísticas son un método para transmitir información, y si habla un idioma diferente al de las personas con las que está hablando, no transmitirá mucha información. Así que me quedaré con las estadísticas frecuentistas tradicionales para este manual.

Dicho esto, hay un concepto clave de las estadísticas bayesianas que es importante que todos los usuarios de estadísticas comprendan. To illustrate it, imagine that you are testing extracts from 1000 different tropical plants, trying to find something that will kill beetle larvae. The reality (which you don't know) is that 500 of the extracts kill beetle larvae, and 500 don't. You do the 1000 experiments and do the 1000 frequentist statistical tests, and you use the traditional significance level of PAG& lt0.05. The 500 plant extracts that really work all give you PAG<0.05 these are the true positives. Of the 500 extracts that don't work, 5% of them give you PAG<0.05 by chance (this is the meaning of the PAG value, after all), so you have 25 false positives. So you end up with 525 plant extracts that gave you a PAG valor inferior a 0,05. You'll have to do further experiments to figure out which are the 25 false positives and which are the 500 true positives, but that's not so bad, since you know that most of them will turn out to be true positives.

Now imagine that you are testing those extracts from 1000 different tropical plants to try to find one that will make hair grow. The reality (which you don't know) is that one of the extracts makes hair grow, and the other 999 don't. You do the 1000 experiments and do the 1000 frequentist statistical tests, and you use the traditional significance level of PAG& lt0.05. The one plant extract that really works gives you PAG<0.05 this is the true positive. But of the 999 extracts that don't work, 5% of them give you PAG<0.05 by chance, so you have about 50 false positives. You end up with 51 PAG values less than 0.05, but almost all of them are false positives.

Now instead of testing 1000 plant extracts, imagine that you are testing just one. If you are testing it to see if it kills beetle larvae, you know (based on everything you know about plant and beetle biology) there's a pretty good chance it will work, so you can be pretty sure that a PAG value less than 0.05 is a true positive. But if you are testing that one plant extract to see if it grows hair, which you know is very unlikely (based on everything you know about plants and hair), a PAG value less than 0.05 is almost certainly a false positive. En otras palabras, if you expect that the null hypothesis is probably true, a statistically significant result is probably a false positive. This is sad the most exciting, amazing, unexpected results in your experiments are probably just your data trying to make you jump to ridiculous conclusions. You should require a much lower PAG value to reject a null hypothesis that you think is probably true.

A Bayesian would insist that you put in numbers just how likely you think the null hypothesis and various values of the alternative hypothesis are, before you do the experiment, and I'm not sure how that is supposed to work in practice for most experimental biology. But the general concept is a valuable one: as Carl Sagan summarized it, "Extraordinary claims require extraordinary evidence."

Recomendaciones

Here are three experiments to illustrate when the different approaches to statistics are appropriate. In the first experiment, you are testing a plant extract on rabbits to see if it will lower their blood pressure. You already know that the plant extract is a diuretic (makes the rabbits pee more) and you already know that diuretics tend to lower blood pressure, so you think there's a good chance it will work. If it does work, you'll do more low-cost animal tests on it before you do expensive, potentially risky human trials. Your prior expectation is that the null hypothesis (that the plant extract has no effect) has a good chance of being false, and the cost of a false positive is fairly low. So you should do frequentist hypothesis testing, with a significance level of 0.05.

In the second experiment, you are going to put human volunteers with high blood pressure on a strict low-salt diet and see how much their blood pressure goes down. Everyone will be confined to a hospital for a month and fed either a normal diet, or the same foods with half as much salt. For this experiment, you wouldn't be very interested in the PAG value, as based on prior research in animals and humans, you are already quite certain that reducing salt intake will lower blood pressure you're pretty sure that the null hypothesis that "Salt intake has no effect on blood pressure" is false. Instead, you are very interested to know how mucho the blood pressure goes down. Reducing salt intake in half is a big deal, and if it only reduces blood pressure by 1 mm Hg, the tiny gain in life expectancy wouldn't be worth a lifetime of bland food and obsessive label-reading. If it reduces blood pressure by 20 mm with a confidence interval of ±5 mm, it might be worth it. So you should estimate the effect size (the difference in blood pressure between the diets) and the confidence interval on the difference.

Two guinea pigs wearing hats.

In the third experiment, you are going to put magnetic hats on guinea pigs and see if their blood pressure goes down (relative to guinea pigs wearing the kind of non-magnetic hats that guinea pigs usually wear). This is a really goofy experiment, and you know that it is very unlikely that the magnets will have any effect (it's not impossible&mdashmagnets affect the sense of direction of homing pigeons, and maybe guinea pigs have something similar in their brains and maybe it will somehow affect their blood pressure&mdashit just seems really unlikely). You might analyze your results using Bayesian statistics, which will require specifying in numerical terms just how unlikely you think it is that the magnetic hats will work. Or you might use frequentist statistics, but require a PAG value much, much lower than 0.05 to convince yourself that the effect is real.

Referencia

Picture of giant concrete chicken from Sue and Tony's Photo Site.

Picture of guinea pigs wearing hats from all over the internet if you know the original photographer, please let me know.

&lArr Previous topic|Next topic &rArr Tabla de contenido

This page was last revised September 7, 2015. Its address is http://www.biostathandbook.com/hypothesistesting.html. It may be cited as:
McDonald, J.H. 2014. Handbook of Biological Statistics (3rd ed.). Sparky House Publishing, Baltimore, Maryland. This web page contains the content of pages 16-23 in the printed version.

©2014 by John H. McDonald. You can probably do what you want with this content see the permissions page for details.


Cause and Correlation in Biology

Este libro ha sido citado por las siguientes publicaciones. Esta lista se genera en base a los datos proporcionados por CrossRef.
  • Editorial: Cambridge University Press
  • Online publication date: December 2009
  • Print publication year: 2000
  • Online ISBN: 9780511605949
  • DOI: https://doi.org/10.1017/CBO9780511605949
  • Subjects: Life Sciences, Ecology and Conservation, Quantitative Biology, Biostatistics and Mathematical Modeling

Envíe un correo electrónico a su bibliotecario o administrador para recomendarle que agregue este libro a la colección de su organización.

Descripción del libro

This book goes beyond the truism that 'correlation does not imply causation' and explores the logical and methodological relationships between correlation and causation. It presents a series of statistical methods that can test, and potentially discover, cause-effect relationships between variables in situations in which it is not possible to conduct randomised or experimentally controlled experiments. Many of these methods are quite new and most are generally unknown to biologists. In addition to describing how to conduct these statistical tests, the book also puts the methods into historical context and explains when they can and cannot justifiably be used to test or discover causal claims. Written in a conversational style that minimises technical jargon, the book is aimed at practising biologists and advanced students, and assumes only a very basic knowledge of introductory statistics.

Reseñas

‘… the perfect introduction to SEM. This book can be used as the primary text in a SEM course given within any discipline, and can be used by scholars and researchers from any area of science.’

Source: Structural Equation Modeling

‘Addressing students and practising biologists, Shipley does a terrific job of making mathematical ideas accessible … Cause and Correlation in Biology is a nontechnical and honest introduction to statistical methods for testing causal hypotheses.’

Johan Paulsson Source: Nature Cell Biology

‘I highly recommend the book for those interested in multivariate approaches to biology.’

'I highly recommend the book by Shipley for those interested in multivariate approaches to biology.'


Referencias

Agostinelli C, Lund U (2013) R package circular: Circular Statistics (version 0.43). https://r-forge.r-project.org/projects/circular

Archibald AM, Bogdanov S, Patruno A, Hessels JWT, Deller AT, Bassa C, Janssen GH, Kaspi VM, Lyne AG, Stappers BW, Tendulkar SP, D’Angelo CR, Wijnands R (2015) Accretion-powered pulsations in an apparently quiescent neutron star binary. Astrophys J 807:62

Azzalini A (1985) A class of distributions which includes the normal ones. Scand J Stat 12:171–178

Batschelet E (1981) Circular statistics in biology. Academic press, London

Bergin TM (1991) A comparison of goodness-of-fit tests for analysis of nest orientation in western kingbirds (Tyrannus verticalis). Condor 93:164–171

Bogdan M, Bogdan K, Futschik A (2002) A data driven smooth test for circular uniformity. Ann Inst Stat Math 54:29–44

Durand D, Greenwood JA (1958) Modifications of the Rayleigh test for uniformity in analysis of two-dimensional orientation data. J Geol 66:229–238

Fisher NI (1995) Statistical analysis of circular data. Cambridge University Press, Cambridge

Fitak RR, Johnsen S (2017) Bringing the analysis of animal orientation data full circle: model-based approaches with maximum likelihood. J Exp Biol 220:3878–3882

Gaumond M, Réthoré PE, Ott S, Peña A, Bechmann A, Hansen KS (2014) Evaluation of the wind direction uncertainty and its impact on wake modeling at the Horns Rev offshore wind farm. Wind Energy 17:1169–1178

Gustafson CL, Partch CL (2014) Emerging models for the molecular basis of mammalian circadian timing. Biochemistry 54:134–149

Hermans M, Rasson J (1985) A new Sobolev test for uniformity on the circle. Biometrika 72:698–702

Humphreys RK, Ruxton GD (2017) Consequences of grouped data for testing for departure from circular uniformity. Behav Ecol Sociobiol 71:167

Jammalamadaka SR, SenGupta A (2001) Topics in Circular Statistics. World Scientific, Singapore

Ley C, Verdebout T (2017) Modern directional statistics. Chapman & Hall/CRC Press, Boca Raton

Mardia KV, Jupp PE (2000) Directional statistics. Wiley, Chichester

Oliveira Pérez M, Crujeiras Casais RM, Rodríguez Casal A (2014) NPCirc: An R package for nonparametric circular methods. https://www.jstatsoft.org/article/view/v061i09

Pewsey A (2000) Problems of inference for Azzalini’s skewnormal distribution. J Appl Stat 27:859–870

Pewsey A, Neuhäuser M, Ruxton GD (2013) Circular statistics in R. Oxford University Press, Oxford

Pycke JR (2010) Some tests for uniformity of circular distributions powerful against multimodal alternatives. Can J Stat 38:80–96

Rayleigh L (1880) On the resultant of a large number of vibrations of the same pitch and of arbitrary phase. Philos Mag 10:73–78

Ruxton GD (2017) Testing for departure from uniformity and estimating mean direction for circular data. Biol Lett 13:20160756

Shimatani IK, Yoda K, Katsumata N, Sato K (2012) Toward the quantification of a conceptual framework for movement ecology using circular statistical modeling. PLoS One 7:e50309

Stephens M (1969) A goodness-of-fit statistic for the circle, with some comparisons. Biometrika 56:161–168

Taube JS (2007) The head direction signal: origins and sensory-motor integration. Annu Rev Neurosci 30:181–207

Watson GS, Williams EJ (1956) On the construction of significance tests on the circle and the sphere. Biometrika 43:344–352

Wiltschko W, Wiltschko R (1972) Magnetic compass of European robins. Science 176:62–64

Zar JH (2013) Biostatistical Analysis: Pearson New International Edition. Pearson Higher Education, New York


Reviewer Suggestions

During the submission process, please suggest three potential reviewers with the appropriate expertise to review the manuscript. The editors will not necessarily approach these referees. Please provide detailed contact information (address, homepage, phone, e-mail address). The proposed referees should neither be current collaborators of the co-authors nor have published with any of the co-authors of the manuscript within the last five years. Proposed reviewers should be from different institutions to the authors. You may identify appropriate Editorial Board members of the journal as potential reviewers. You may suggest reviewers from among the authors that you frequently cite in your paper.


Publisher’s note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.

Extended Data Fig. 1 Development of a redox-sensing DNA-based cellular recorder for direct digital-to-biological data storage.

This system is composed of two distinct modules: (i) a ‘sensing module’ that converts a desired biological signal into a change in copy number of a trigger plasmid (pTrig), and (ii) a ‘writing module’ that overexpresses Cas1-Cas2 from a recording plasmid (pRec) to unidirectionally expand genomic CRISPR arrays with novel

33 bp spacers acquired from genomic or plasmid DNA sources in the cell. In the presence of the desired signal, cells experience a shift in their intracellular DNA pool, driven by an increase in pTrig copy number, which results in an acquisition bias for pTrig-derived spacers amongst expanding CRISPR arrays. a, Los lacI gene in the previous pRec 22 was replaced with soxR gen de E. coli, y el laca promoter in the previous pTrig 22 was replaced with soxS promoter from E. coli. P1 replication system is inactive in the absence of oxidative stress, and a mini-F origin keeps the pTrig plasmid copy number low. Upon induction with oxidative stress, SoxR detaches from soxS promoter and activates the P1 replication system to increase the copy number of the plasmid. B, pTrig copy number in the presence of various concentrations of phenazine methosulfate (PMS) in aerobic condition. pRec (with an additional copy of soxR gene) helps get higher fold-change of pTrig copy number by more efficient repression in absence of the inducer. C, pTrig copy numbers in the presence of pRec and various concentrations of PMS, and FCN(R) or FCN(O) in anaerobic condition. Fold change of the pTrig copy numbers at the given concentrations of FCN(R) or FCN(O) were plotted. D, Various aTc concentrations and (mi) induction time for the expression of cas1 y cas2 genes were tested for CRISPR array expansion. F, Various FCN(R) and FCN(O) concentrations were tested for pTrig copy number induction and (gramo) pTrig-derived spacer incorporation. The proportions of pTrig-derived spacers among all newly incorporated spacers are displayed. All measurements are based on three biological replicates. Error bars represent s.d. of three biological replicates.

Extended Data Fig. 2 Construction of a multi-channel electrochemical redox controller.

a, In an anaerobic chamber, a Raspberry Pi controls 3 of 8-channel relay modules (total 24 relays), which turn on or off electrical signals into each chamber pair from a power supply, based on a python script running on a wirelessly connected PC. B, A pair of working and counter chambers is connected by an agar salt bridge. In a working chamber, cells are incubated in M9 minimal medium supplemented with antibiotics, aTc, FCN(R) and PMS. M9 minimal medium supplemented with FCN(O) and PMS is filled in another chamber (counter). C, A photograph of the multi-channel electrochemical redox controller in an anaerobic chamber. D, Changes in electrochemical redox states of FCN(R) in a working chamber (left) and FCN(O) in a counter chamber (right) measured by absorbance at 420 nm with (0.5 V) and without (0.0 V) electronic signals. All measurements are based on three replicates. Error bars represent s.d. of three replicates.

Extended Data Fig. 3 Encoding of 3-bit binary data profiles.

a, Schematic diagram of experimental steps for multi-round encoding. After each round of electrical stimulation, the cell population was recovered in the rich medium (LB) aerobically so that the induced/uninduced plasmid copy number in the previous encoding round can be diluted out and reset low. B, To determine the recovery condition, anaerobic and aerobic conditions were compared. C, Overlaid distributions of the plasmid copy numbers with/without signals at each round over the course of the multi-round encoding (Fig. 2b). D, CRISPR array expansion over the course of the experiment. mi, The 3-bit binary data profiles are grouped by the number of electronic signals, and the proportions of pTrig-derived spacers among all newly incorporated spacers are displayed. F, To enrich the sequencing reads for expanded arrays with more new spacers (longer arrays), the magnetic bead-based size enrichment was performed. Frequency of arrays of different lengths (unexpanded and L1-L4) with and without size enrichment are plotted. gramo, Principal component analysis on the array-type frequency profiles for the 3-bit digital data profiles. All 9 independent biological replicates are shown for each 3-bit digital data profiles. The first three independent datasets used for training of the Random Forest classifier are highlighted. All measurements are based on two or more biological replicates. Error bars represent s.d. of three or more biological replicates.

Extended Data Fig. 4 Performance of a Random Forest classifier for data reconstruction.

a, Confusion matrix from cross validation of the Random Forest classifier for 10 times by training on randomly selected 2 datasets for each 3-bit digital data profile from the 3 independent experiments and testing the trained model on the left-out 1 dataset. B, Importance of features (array-types) for the Random Forest classifier in Fig. 2f. C, Classification performance for the number of CRISPR arrays. CRISPR arrays with new uniquely mapping spacers were randomly subsampled to the various numbers for the 3-bit digital data profiles and classifications were performed. Recall accuracies for distinguishing 8 different types of 3-bit digital data profiles were displayed as a function of the number of expanded arrays with uniquely mapping spacers (grey: all arrays, red: L2/L3 arrays). The number of sequencing reads corresponding to the number of expanded arrays with uniquely mapping spacers (grey: all arrays) is also provided as an additional x-axis. Shaded regions represent 95% confidence interval of 10 iterations of subsampling and classification. D, Recall accuracies for distinguishing 8 different types of 3-bit digital data profiles with varying proportions of randomly selected training datasets for each 3-bit digital data profile. Shaded regions represent 95% confidence interval of 100 iterations of subsampling and classification.

Extended Data Fig. 5 Barcoding CRISPR arrays for multiplexed encoding.

a, CRISPR arrays can be barcoded with 8-bp unique sequences either downstream of the 1 st spacer region or within direct repeat (DR) region. B, CRISPR array expansion rates (relative to wild-type array) of 69 DR-barcoded CRISPR arrays and 24 spacer-barcoded CRISPR arrays. C, Distribution of array expansion rates of spacer-barcoded CRISPR arrays is much more uniform and consistent than that of DR-barcoded CRISPR arrays. A DR variant (d1) that was more efficient than the wild-type DR sequence in the initial 96-well plate-based test is highlighted. D, The d1 DR variant was tested again in tube culture condition. In tube culture condition, however, the DR variant did not show significantly higher activity than that of the wild-type DR sequence. mi, Comparison of CRISPR array expansion rates measured individually or in pool. Shaded region represents 95% confidence interval for linear regression (dashed grey line). Sample sizes (n) and Person correlation coefficient (r) are shown. All measurements are based on three biological replicates. Error bars represent s.d. of three biological replicates.

Extended Data Fig. 6 Projections on the scale of DRIVES.

a, Data storage capacity (‘n’ bits of information or ‘n’ rounds of encoding) per cell population is estimated as a function of Cas1-Cas2 activity (‘X’ proportion of the cell population expanded arrays with a new spacer after a single round of encoding). Here, ‘X n ’ proportion of the cell population would have expanded arrays every round resulting ‘n’ new spacers (Ln arrays) after ‘n’ rounds of encoding, and we assumed that the sampling capacity for the Ln array population governs the data storage capacity. We considered various sampling depths ‘D’, where ‘D’ proportion of the cell population can be sufficiently sampled. This ‘D’ could be affected by many factors including the sequencing depth and size enrichment efficiency. We assumed that if the ‘X n ’ is same or higher than the given sampling depth constraint ‘D’, ‘n’ bits can be stored and reliably decoded. For example, when 0.001 of the cell population can be sufficiently sampled (D=0.001), maximum data storage capacity would be 3 bits (n=3) with the current Cas1-Cas2 activity level (X=0.1) as in our current experimental dataset (highlighted in red in the plot). And when 0.0001 of the cell population can be sufficiently sampled (D=0.0001), maximum data storage capacity would be 4 bits (n=4) with the current Cas1-Cas2 activity level (X=0.1). Although the Illumina MiSeq v2 300 cycles kit used in this study can read only up to 5 new spacers, we assumed that sequencing read length is not the limiting factor in this projection as other long read sequencing technologies could be employed. B, Estimated total data storage capacity across barcoded cell populations as a function of Cas1-Cas2 activity and the number of parallel channels in the culture platform at two different sampling depths (D=0.001 and D=0.00001). A larger data per cell population would require more rounds of encoding which takes longer time, and a larger number of parallel channels would require more barcoded cell populations and more sophisticated design of the culture platform. Current capacity of the system with 24 channels in the culture platform is highlighted in blue in the plot.

Extended Data Fig. 7 Design of 6-bit encoding tables for text messages.

a, Probability of correct classification for each of the 3-bit digital data profiles by the Random Forest classifier on the newly generated independent datasets is calculated based on the result in Fig. 2f. B, DEC and OPT encoding tables with estimated probabilities of correct classification for the 64 characters. OPT 6-bit encoding table was designed by considering the correct classification probability and the usage frequency of the characters (https://mdickens.me/typing/letter_frequency.html). C, Probability of correct decoding for the 64 characters (ordered by usage) with DEC and OPT 6-bit encoding tables. D, Comparison of predicted probabilities of correct decoding for various text messages based on the two encoding tables. The predicted probabilities of correct decoding for each character or text message were calculated by multiplying the correct decoding probability values of each 3-bit digital data profile units.

Extended Data Fig. 8 Reading ‘hello world!’ from subsampled sequencing reads.

Sequencing reads from each barcode in the ‘hello world!’-encoded cell population using OPT table were randomly subsampled to the various numbers and classifications were performed. Recall accuracies for (a) distinguishing 3-bit digital data profiles for 24 barcoded populations or for (B) calling correct bits out of 72 bits were displayed as a function of the number of expanded arrays with uniquely mapping spacers (grey: all arrays, red: L2/L3 arrays). The number of sequencing reads corresponding to the number of expanded arrays with uniquely mapping spacers (grey: all arrays) is also provided as an additional x-axis. Shaded regions represent 95% confidence interval of 10 iterations of subsampling and classification.

Extended Data Fig. 9 Improving data reconstruction with error correction.

a, By using every sixth bit as a check point (checksum) for the first 5 bits, errors in data reconstruction can be detected and corrected for the selected 32 combinations of 6-bit digital data profiles based on the classifier’s confusion probability in Fig. 2f and Extended Data Fig. 9b. For example, for a digital input ‘011110’ could be classified as ‘011110’, ‘011010’, ‘001110’, or ‘001010’ with the probabilities of 69%, 14%, 14%, or 3%, respectively. Out of these 4 possible initial classifications, the last 3 are wrong and the 2 wrong classifications with a single bit error can be detected by the check point values and fixed. However, the classification result with 2 bits error cannot be detected by the check point value and therefore cannot be fixed. For all 32 combinations of 6-bit digital data profiles, possible classification results, their probabilities, and whether they can be fixed or not are summarized in Supplementary Table 2. B, Confusion probability for each of the 3-bit digital data profiles based on Fig. 2f. C, The check point values for each combination of eight 3-bit and four 2-bit digital data profiles. D, OPT2 encoding table with the estimated probabilities of correct classification for the 32 characters. mi, Probability of correct decoding for the 32 characters (ordered by usage) for OPT and OPT2 6-bit encoding tables. F, ‘[email protected]’ encoded in the genomes of barcoded E. coli populations using the OPT2 error correction strategy. Two errors from the initial classification were detected using the check points and successfully corrected as described in the figure. For classification of each barcoded cell population, an average of 492,289 total sequencing reads with 268,066 reads of expanded arrays (or 106,242 of L2/L3 arrays) that uniquely map spacers were used. Bead-based size enrichment was performed to enrich for expanded arrays and deplete unexpanded arrays. Frequencies of array-types are in log10 escala. All measurements are based on a single experimental study.

Extended Data Fig. 10 Data stability in replicating cells.

A mixed pool of 24 barcoded cell population encoded with a 72-bit text message ‘hello world!’ in Fig. 3 was subsequently diluted 1:100 every 24 hours into 3 mL fresh LB media with antibiotic for a total of 16 days (

6.6 generations per day). a, Data stability in the propagating cell population over 100 generations. Accuracy indicates the proportion of bits that are correctly classified. >90% of the 72 bits could be correctly retrieved up to


Ver el vídeo: RECOMENDACION DEL LIBRO EL MISMO ERROR (Julio 2022).


Comentarios:

  1. Mezimuro

    Así sucede. Podemos comunicarnos sobre este tema. Aquí o en PM.

  2. Kazijas

    ¡¡¡¡No está mal!!!!

  3. Dearborn

    En mi opinión te equivocas. Entra, hablamos. Escríbeme por MP, nosotros nos encargamos.

  4. Walford

    Maravillosa, muy valiosa idea



Escribe un mensaje