🇪🇸 Este post está escrito en inglés y español. Puedes encontrar el texto en español más abajo.
🇺🇸 Here’s an unpopular opinion: Don’t use Quarto, R Markdown, or Jupyter documents to clean or analyze your data.
Even though the idea of using these docs for “exploratory data analysis” is extremely popular in the interweb, I don’t like it. Your document is not the place where you should be cleaning data. The input (data, images, etc.) should be clean and light. Forget about reading a CSV with 5,000 rows. I used to do this a lot, but it was a symptom of my lack of clarity. I didn’t know what I wanted to communicate.
People tend to confuse two different capabilities of a document when they do exploratory data analysis:
A tool to visualize data and create tables that help you uncover findings.
A tool to share findings.
In my opinion, you need to pick a lane. If you want to share findings with teammates, clients, or colleagues, then commit to this goal. This means the document you create is NOT a place to share every plot or table you can create. The document is a vehicle to tell a story.
The focus is on bottom line results and their importance.
Clean and format any data that goes into the document (numbers embedded in the body, tables, and plots) before you load it in the document.
Presentations and dashboards should follow the same logic. The last step in your data cleaning workflow should be creating an object that contains all the data you need in your document. For a simple document, a small dataframe may be enough, while more complex documents may need a list that works as a flexible container for elements of different sizes and classes.
🇪🇸 Aquí tienes una opinión impopular: No uses documentos R Markdown, Quarto, o Jupyter para limpiar o analizar tus datos.
A pesar de que la idea de usar estos documentos para "análisis de datos exploratorio" es extremadamente popular en el interweb, no me gusta. Tu documento no es el lugar donde deberías estar limpiando los datos. Los insumos (datos, imágenes, etc.) deben ser limpios y ligeros. Olvida la idea de leer un CSV con 5,000 filas. Solía hacer esto mucho, pero era un síntoma de mi falta de claridad. No sabía lo que quería comunicar.
La gente tiende a confundir dos capacidades diferentes de un documento cuando hacen análisis de datos exploratorio:
Una herramienta para visualizar datos y crear tablas que te ayuden a descubrir hallazgos.
Una herramienta para compartir hallazgos.
En mi opinión, necesitas escoger un camino. Si quieres compartir hallazgos con compañeros de equipo, clientes o colegas, entonces comprométete con este objetivo. Esto significa que el documento que creas NO es un lugar para compartir cada gráfico o tabla que puedes crear. El documento es un vehículo para contar una historia.
El foco está en los resultados finales y su importancia.
Limpia y formatea cualquier dato que vaya en el documento (números incrustados en el cuerpo, tablas y gráficos) antes de cargarlo en el documento.
Las presentaciones y los dashboards deberían seguir la misma lógica. El último paso en tu flujo de trabajo de limpieza de datos debería ser la creación de un objeto que contenga todos los datos que necesitas en tu documento. Para un documento simple, puede ser suficiente un pequeño dataframe, mientras que los documentos más complejos pueden necesitar una lista que funcione como un contenedor flexible para elementos de diferentes tamaños y clases