domingo, 8 de septiembre de 2013

Análisis de varianza para un Blog

Análisis de varianza para un Blog.

Categoría: 2. Ciencia y tecnología.

Las entradas de este Blog, "La epistemología en la práctica", son preparadas con base en información obtenida de bibliografía especializada, artículos publicados en internet, información proporcionada en los museos y otras fuentes. La epistemología estudia las formas en las que se genera el conocimiento y cómo éste se traslada a la mente humana. Así, es interesante encontrar el camino que siguieron los descubrimientos científicos y tecnológicos para alcanzar su estado último de desarrollo.

Si encuentras información de tu interés en esta entrada, puede que te sirva también visitar en este mismo blog: Python básico para estadística.

Un análisis atractivo para obtener información sobre el desempeño de un Blog se obtiene al tabular y graficar las entradas contra el número de ingresos. Esto permite visualizar los temas que más impactan sobre el interés de los lectores o internautas, en este caso, y que por lo tanto, se convierten en las entradas más visitadas y leídas. Es importante comentar también que un número reducido de entradas, además de indicar que su contenido es poco atractivo, indica que tal vez ni siquiera han sido leídas, ya que se debe recordar que los buscadores de internet arrojan gran cantidad de sitios para los resultados de una búsqueda y por lo tanto, algunas de las visitas sólo sirven para descartar las opciones que quedan fuera del interés particular del lector potencial.

Adelante se presenta una tabla (Tabla 1 y Figura 1) con los títulos de las entradas publicadas, un total de 50, junto con la fecha de su publicación y el número de entradas acumulado al 10 de junio de 2013.


Tabla 1. Título de las entradas, fecha de su publicación y número de entradas acumulado al 10 de junio de 2013.





Figura 1. Título de las entradas, fecha de su publicación y número de entradas acumulado al 10 de junio de 2013.


A partir de este análisis preliminar es posible poner el énfasis en los temas que han sido más exitosos, en términos del mayor número de visitas. Para esto se puede proceder de manera inicial clasificando las entradas en grupos y obtener las sumas parciales de número de visitantes.

Antes de continuar se puede comentar que entre otras ayudas que presenta el Blogger de Google es el despliegue de estadísticas de visitas por país, que para este Blog se presenta en forma de Tabla (Tabla 2), de la siguiente manera:

Tabla 2. Número de ingresos por país.


El número de ingresos por tema (Tabla 3) se distribuye de la siguiente manera:

Tabla 3. Número de ingresos por tema de la entrada.



Los datos anteriores sugieren que existe una clara preferencia por algunos temas sobre otros. Además se debe notar que el título de las entradas parece tener un cierto efecto sobre la atracción de visitantes a su lectura, por ejemplo, en el tema 4 (Cine y literatura), se tienen números de visitantes más bajos, pero también hay una entrada que tuvo gran número de visitas, es el caso de la entrada titulada "Algo de cine. Labios rojos." con 52 entradas acumuladas. Tal vez las mujeres que buscan consejos para el uso de sus cosméticos pueden estar ingresando, aunque se encuentran con que el tema no corresponde con el de su búsqueda. Es posible también, que los buscadores de temas de carácter erótico se estén encontrando con esta entrada, de acuerdo con las palabras clave que utilicen en su búsqueda. Esto debe tomarse en cuenta para no atraer la atención de lectores que buscan con palabras que corresponden a su criterio de interés y que se encuentren de pronto en un sitio que no tiene el mismo tema de interés.

La tabla anterior, una vez clasificadas las entradas, puede sintetizarse de la siguiente manera (Tabla 4):

Tabla 4. Temas de las entradas, número de entradas por tema y número de ingresos por tema.


Los datos de la tabla anterior pueden visualizarse más claramente en la forma de un gráfico de barras como el siguiente (Figura 2):


Figura 2. Número de entradas y número de ingresos por tema.

Un análisis más preciso de estos datos nos permite obtener conclusiones acerca de la validez estadística de las diferencias numéricas encontradas en los resultados presentados hasta ahora. Para esto se obtuvieron intervalos de confianza para el número de ingresos por tema utilizando la distribución T de Student, lo cual permite comparar pares de promedios. En este caso el intervalo de confianza al 95% se puede interpretar para cada par de promedios. Si no hay traslape entre los intervalos de confianza, se tienen promedios estadísticamente diferentes al 95% de confianza. Si se quiere obtener un resultado aún más válido estadísticamente, es necesario hacer un análisis de varianza para comparar los cuatro promedios obtenidos, bajo un modelo completamente aleatorizado.

Por lo pronto se presentan los resultados comentados hasta ahora para el número de ingresos. La tabla de número de ingresos por tema queda de la siguiente manera (Tabla 5 y Figura 3):

Tabla 5. Intervalo de confianza para los temas de las entradas.




Figura 3. Intervalos de confianza al 95% para el número de ingresos por tema.

Ahora se puede concluir que el tema 3 (Humanidades y comportamiento humano) y tema 4 (Cine y literatura) tuvieron estadísticamente igual número de ingresos y sus promedios fueron los más bajos de los cuatro grupos. El tema 2 (Ciencia y tecnología) tuvo 130 ingresos y fue el segundo tema con más ingresos. El tema 1 (Programación y electrónica) tuvo 343 ingresos y fue el tema con más ingresos.

Se realizó una comparación de promedios con la distribución T-Student para los promedios de los temas 3 y 4. El valor de p=0.0160, con un valor para t-calculada de -2.6110 y valores de t-crítico de -3.1772 y +3.1772, es decir, el valor de t-calculada cae dentro de la zona de aceptación de la hipótesis nula Ho : µ1=µ2, con valor alfa=0.05. De manera que estos valores son estadísticamente diferentes.

Análisis de varianza
El análisis de varianza se realizó mediante un programa para MATLAB. Este análisis compara el número de ingresos para cada tema mediante la hipótesis nula Ho : µ1=µ2=µ3=µ4. La instrucción anova1(X,group) genera un análisis de varianza para datos desbalanceados, genera una tabla de resultados del análisis de varianza (Tabla 6) y un gráfico de cajas (Figura 4) para los datos proporcionados en la matriz X. El gráfico de cajas muestra el valor promedio de ingresos, el tercer cuartil, el intervalo de confianza al 95% y los valores extremos - y +. El código de MATLAB para realizar este análisis de varianza es el siguiente:

>>X=[1 8 4 52; 5 8 2 2; 3 2 9 4; 4 15 4 3; 20 7 22 1; 3 3 2 2; 17 19 7 2; 
    80 12 4 6; 48 15 4 6; 102 14 5 10; 35 25 4 NaN; 24 2 2 NaN;
    1 NaN 6 NaN; NaN NaN 4 NaN; NaN NaN 5 NaN];
>>A=[1 2 3 4];
>>[p, table]=anova1(X,A)
>>xlabel('Tema de entrada')
>>ylabel('Numer de ingresos')
>>text(2, 100, 'Grafico de ingresos por tema')

Tabla 6. Análisis de varianza para número de entradas por tema.




Figura 4. Gráfico de cajas para los datos de número ingresos por tema.

Como puede verse en la Tabla 6, el valor de p=0.028 indica que el estadístico de prueba cae dentro de la zona de rechazo de Ho, de manera que los temas son estadísticamente diferentes en el número de ingresos, con una significancia de 95%.

Las conclusiones estadísticas obtenidas mediante la técnica del análisis de varianza eran hasta cierto punto obvias desde el inicio. Sin embargo, otras conclusiones igualmente útiles pueden no ser tan obvias en un primer vistazo de los datos. Por ejemplo, ahora se va a hacer un análisis del número de ingresos contra la antigüedad de la entrada. En primer lugar, se acomodan los datos para mostrarlos en un formato más cómodo para el lector. El presentar los datos con un formato dedicado a mostrar una relación posible con algún factor en estudio, es una técnica que permite visualizar un posible comportamiento, que de otra manera permanecería oculto para el lector menos familiarizado con el tema o con las técnicas de análisis de datos.

Para este análisis se van a descartar los temas 3 y 4 que tienen un número significativamente menor de ingresos, y se va a centrar en las entradas más visitadas que son los temas 1 y 2. Así, los datos quedan de la siguiente forma (Tabla 7):

Tabla 7. Coeficiente de correlación para antigüedad (valores x) y número de ingresos (valores y).


Todo este formateo de datos se hizo con una hoja de cálculo, en este caso con Excel de Microsoft Office.

Para probar la hipótesis de que las entradas de mayor antigüedad serían las entradas con más ingresos de usuarios, se ordenaron los datos utilizando la antigüedad como criterio, y se calculó el coeficiente de correlación para los datos Antigüedad (valor de x) y el número de ingresos (valor de y). El coeficiente de correlación calculado fue de -0.3302, esto quiere decir en primer lugar, que a mayor antigüedad hubo menor número de ingresos, pero este valor es muy bajo, lo cual indica que el comportamiento no es consistente. Esto se puede apreciar mejor en un gráfico con una línea de tendencia, como se muestra a continuación:



Figura 5. Gráfico de antigüedad contra número de ingresos y línea obtenida por regresión lineal.

La línea de tendencia (recta), obtenida por regresión lineal por mínimos cuadrados, muestra un valor de pendiente sumamente bajo (Figura 5), como se comentó antes y el coeficiente de correlación (R^2) también sumamente bajo. Con esto se refuerza la conclusión de que el número de ingresos no depende de la antigüedad de la entrada.

Conclusiones.
El tema de las entradas es el factor principal que determina el número de ingresos para cada entrada del Blog.

El título de las entradas es importante para evitar atraer lectores que realmente no están interesados en el tema que se trata. Esto es importante, pues las personas que no encuentran el material que requieren, permanecen poco tiempo, no leen realmente la entrada y es menos probable que se enlacen con alguna página de los anunciantes que aparecen en ese momento en el Blog.

Las personas que ingresan en las diferentes entradas del Blog, pero no lo leen, por tener otros intereses en mente, son un factor de sesgo para la popularidad del Blog. Puede parecer que una entrada sea leída muy frecuentemente cuando en realidad la mayoría de los ingresos fueron por equivocación, por una asociación correcta del buscador con los criterios de búsqueda, pero una asociación incorrecta del título de la entrada con su contenido.

La antigüedad de la entrada no es un factor que determine el número de ingresos hacia una entrada en particular.

Los ingresos por país fueron en los Estados Unidos en su mayoría, después estuvo México y otros países de habla hispana le siguieron, empezando con España.

Bibliografía
Baker, Stephen. 2009. Los numerati. Editorial Planeta. México.
Montgomery, Douglas C., y George C. Runger. 1996. Probabilidad y estadística aplicadas a la ingeniería. McGraw-Hill. México.

Procesamiento de los datos
En el procesamiento de los datos se emplearon los programas computacionales Microsoft Word Starter, Microsoft Office Excel y MATLAB. Además se empleó una calculadora HP-50G. 






No hay comentarios:

Publicar un comentario