solicito ayuda para hacer tarea en R con datos, pero no sé cómo se hace

technocrat · December 28, 2023, 8:03am

Hasta ahora,

Has elegido una especie de interés.
Ha identificado a OBIS como fuente de datos.
Tienes datos de hoja de cálculo.

Próximos pasos:

¿Has elegido un guión?
¿Los datos seleccionados contienen la información requerida para sustituir las especies de ejemplo utilizadas en el guión que ha elegido? ¿Contiene los mismos tipos de datos (recuentos, coordenadas geográficas, tipo de hábitat, etc.)? ¿Puede asignar desde su archivo OBIS a cada tipo de datos en el script? ¿Falta alguna variable?
¿Tiene datos suficientes para mapear los sucesos observados con un nivel de detalle comparable al producido por el guión? ¿Es comparable N (el número de observaciones)?
¿Qué modelo o modelos utiliza el guión seleccionado? ¿Sus datos son adecuados para su uso con el modelo? ¿Puede sustituir sus datos tal como están o se requieren transformaciones de datos?
¿El modelo del guión y sus datos producen un mapa de la distribución de las especies?
¿Cómo informan los scripts los resultados del modelo? ¿Se necesita alguna interpretación para evaluar los resultados? (Por ejemplo, si el modelo proporciona una prueba estadística, ¿qué nivel de confianza elegirá de antemano para evaluar si los resultados son poco probables debido a una variación aleatoria?) ¿Necesita proporcionar una descripción narrativa de los resultados?
¿Qué proporcionará el modelo información útil que hacer?

Mecánica:

Compare su hoja de cálculo con los datos de origen originales y resuelva cualquier diferencia. Una vez hecho esto, guarde una copia y hágala de solo lectura.
Lea los datos en una sesión R como un marco de datos usando uno de los paquetes para leer los datos de la hoja de cálculo o, como prefiero, escriba los datos de la hoja de cálculo en un archivo CSV e impórtelos con read.csv(d). Mejor aún, si los datos descargados fueran CSV, úselos directamente. Me referiré al marco de datos como el objeto "d".
Verifique la forma del marco de datos con str(d) y verifique que las variables (columnas) sean del tipo correcto. Si el modelo utiliza fechas, se deben convertir a partir de caracteres tipográficos. Los datos numéricos deben convertirse a partir de caracteres tipográficos si es necesario.
Asigne los datos en d a los nombres de variables utilizados en el script elegido. Elimine cualquier variable innecesaria y cambie el nombre de las variables que se utilizarán para ajustarse a los ejemplos. Por ejemplo, es posible que deba cambiar "Especie" (mayúscula) a "especie" (minúscula).
Utilice summary(d) para verificar que esté completo. Puede que sea necesario eliminar filas con una o más columnas que tengan valores "NA". Por ejemplo, d_no_na <- d[complete.cases(d),] reducirá los datos a solo aquellas observaciones que tengan información completa.
Complete el guión para realizar el mapeo, modelado, mapeo de distribuciones predichas y tablas y resúmenes producidos por el modelo antes de preocuparse por la presentación. Es mejor un análisis completo que un análisis incompleto bellamente presentado.

Si tiene preguntas sobre códigos específicos, proporcione [un reprex (consulte las preguntas frecuentes)](https://forum.posit.co/t/faq-how-to-do-a-minimal-reproducible-example-reprex- for-beginners/23061) incluidos datos representativos. Y publicar en un nuevo tema. La mayor parte de la discusión aquí está en inglés, por lo que sería útil atraer respuestas para proporcionar una traducción.

Original:

So far,

You've chosen a species of interest.
You've identified OBIS as the data source.
You have spreadsheet data.

Next steps:

Have you chosen a script?
Does you selected data contain the required information to substitute for the example species used in the script you have chosen? Does it contain the same types of data (counts, geographic coordinates, habitat type, etc.)? Can you map from your OBIS file to each type of data in the script? Are any variables missing?
Do you have sufficient data to map observed occurrences at a level of detail comparable to that produced by the script? Is N (the number of observations) comparable?
What model or models does your selected script use? Is your data suitable for use with the model? Can you substitute your data as is or are there data transformations required?
Does the model from the script and your data produce a map of the species distribution?
How do the scripts report model results. Is any interpretation needed to evaluate the results? (For example, if the model provides a statistical test, what confidence level will you choose, beforehand, to assess if the results are unlikely due to random variation?) Do you need to provide a narrative description of results?
What will the model provide helpful insight to do?

Mechanics:

Check you spreadsheet against the original source data and resolve any differences. Once that is done save a copy and make it read-only.
Read the data into an R session as a data frame using one of the packages to read spreadsheet data or, as I prefer, write the spreadsheet data to a CSV file and import with read.csv(d). Better yet if the downloaded data was CSV use that directly. I'll refer to the data frame as the d object.
Check the form of the data frame with str(d) and verify that the variables (columns) are of the correct type. If dates are used by the model they should be converted from type character. Numeric data should be converted from type character if necessary.
Map the data in d to the variable names used in your chosen script. Remove any unneeded variables and rename the variables to be used to conform to the examples. For example, you may need to change "Species" (upper case) to "species" (lower case).
Use summary(d) to check for completeness. It may be necessary to remove rows with one or more columns having NA values. For example d_no_na <- d[complete.cases(d),] will reduce the data to only those observations having complete information.
Complete the script for doing the mapping, modeling, mapping of predicted distributions and table and summaries produced by the model before worrying about presentation. Better a complete analysis than a beautifully presented incomplete analysis.

If you have specific code questions, provide a reprex (see the FAQ) including representative data. And post to a new topic. Most of the discussion here is in English, so it would help attract answers to provide a translation.