Análisis de sentimiento en R: Biden, Trump y #CapitolRiots

Hoy he aprovechado el día para practicar R, lenguaje que estudio esporádicamente desde hace dos años. Después de conseguir que Twitter me diera acceso a la API tras semanas rechazando mi solicitud (fatigita). 

El objetivo de acceso a la API de twitter era probar la librería “sentiment” de R para analizar el sentimiento de tweets sobre algún tema. He elegido personajes de actualidad: Biden y Trump, así como #CapitolRiots. He utilizado un naive bayes, que parte del supuesto de que las variables son independientes unas de otras, es decir, que contribuyen de forma independiente en la probabilidad y no están relacionadas. Dicha simplificación exige que se entrene en un entorno supervisado.

Para dicho análisis de sentimiento, he efectuado un análisis de emoción y otro de polaridad. Pero antes de ello, he realizado varias operaciones para poner a punto los datos, que es siempre la parte más tediosa y poco agradecida, pero sin la cual nada tiene sentido.

  • Eliminación de RTs y menciones
  • Eliminación de links y determinadas tabulaciones
  • Eliminación de signos y dígitos
  • Gestión de NA
  • Eliminación de duplicados

Tras la limpia de tweets, obtengo el siguiente volumen de tweets en cada término sometido a análisis. Véase que en el hashtag #CapitolRiots hay una gran cantidad de duplicados, por lo que escogí una muestra de tweets mayor.

TrumpBiden#CapitolRiots
Nº de tweets bruto100010003000
Nº de tweets depurados756614760

Resultados de Polaridad

Creo un par de gráficos por término con la librería ggplot2, uno con los resultados de polaridad, y otro con los resultados de emociones.

Tweets Trump%Polo
22329%negative
36548%positive
16822%neutral
Tweets Biden%Polo
21435%negative
29248%positive
10818%neutral
Tweets #CapitolRiots%Polo
24733%negative
37249%positive
14119%neutral

Resultados de emoción

Comentarios acerca de los resultados

Como se puede observar, no hay grandes diferencias en los resultados. Muchos tweets comparten las mismas keywords en el texto (tanto Trump, como Biden, o incluso #CapitolRiots, aunque menos) Sería conveniente realizar otro análisis incluyendo términos excluyentes.

El tesauro usado para clasificar las emociones es bastante más reducido que el de polaridad. Utiliza solo 1541 observaciones, que explica la gran cantidad de «unknown» que obtenemos. Además el modelo resulta poco preciso en este aspecto y favorece la emoción «joy», incluyendo términos como «like» que a menudo se usa para comparar (ej: «so we gon jus act like they ain’t find any bombs huh blacktwitter capitolriots«)

No obstante, es interesante ver las emociones que aparecen en 3º y 4º lugar, que son «sadness» y «anger», cuyos tweets encajan algo mejor. Veamos algunos ejemplos:

  • Sadness:

and another one gone
and another one gone
another one bites the dust

o from here are six ways we can alleviate students’ distress in the days and weeks ahead even as we struggle to r…

  • Anger

there is no way you can say you support lgbtq 🌈 and still say you hate gays coz to me aint supporting shit you a…

im still pissed off that trump supporters invaded the capitol building only us brits are allowed to do that…

Hay que tener en cuenta que la clasificación en un polo u otro, o en una emoción u otra, que hace este algoritmo se basa en un listado de palabras, aunque haya ajustes para la ambigüedad. La clasificación de un tweet como “negativo”, no quiere decir que ese usuario tenga una imagen u opinión negativa del político en cuestión, sino más bien, que se está expresando en esa clave. El algoritmo no es tan adecuado para determinar ese aspecto. Veamos un ejemplo de frase clasificada como “negative” y “joy” (júbilo, alegría)…dónde encontramos términos como “stupid” y “happy» que determinan la clasificación en uno u otro respectivamente.


Si los demócratas son lo suficientemente estúpidos como para renunciar a los estados de los Grandes Lagos, están perdidos. Biden necesita emitir un «Plan Marshall» para nuestra región con muchos beneficios para mantener felices a los «héroes de la clase trabajadora»

Otro ejemplo, clasificada como “negative”, debido al término “Serious” y “joy”, debido al término “loyalty”. La clasificación del tweet como negativo me parece correcta, ya que no está diciendo nada bonito, pero falla en identificar la emoción.

Grave bofetada a los trabajadores. La lealtad no significa nada para esta gente.

Conclusiones

Es conveniente repetir el análisis. Una muestra mayor de tweets aportará más información. Junto a ello, se hace necesario incluir stop words para evitar las apariciones simultáneas de unos u otros términos. Probaré también otras librerías de sentimiento. Esta solo permite análisis en inglés y no me parece muy precisa, puede que otras usen tesauros de mayor tamaño o traten mejor la ambigüedad. Actualizaré este artículo con las pruebas.

Mayo Google Core Update: primeros resultados e impresiones

En este post voy a tratar de condensar algunas de las primeras impresiones que tengo tras la reciente actualización core del algoritmo de Google (04/05/2020). Para ello me baso en los resultados de sitios web en los que me encargo del SEO, u otra rama, y que me han parecido interesantes por pertenecer a distintas industrias o estar apostando fuerte en captación digital. Hay ganadores, pero también algunos perdedores. En cualquier caso, el update ha tenido un impacto reseñable, con incrementos y decrementos superiores al 20% en muchos casos. En estos casos concretos, las pérdidas de visibilidad tienen sentido y se pueden explicar.

En cuanto a industrias, coincidiendo con lo comentado en publicaciones de SearchEngineJournal o Sistrix, Google se fija, para bien o para mal, en sitios de salud, local business o sitios internacionales (con la particularidad de la música en Reino Unido)

En este post voy a tratar de desgranar posibles razones de la pérdida de visibilidad en algunos casos.

¿Cómo servir las palabras clave long tail o secundarias en mis anuncios de pago (Google Ads, Bing…)?

La gestión de palabras clave long tail se puede abordar de diversas formas en nuestras campañas de pago. Este tipo de términos suelen inflar el coste de la campaña principal sin conseguir a menudo muchas conversiones, pero tienen un papel interesante en la estrategia y la idea es probar opciones hasta que lleguemos al punto más óptimo posible. A continuación pongo algunas de las prácticas habituales.

ACOTAR EL LONG TAIL MUY BIEN EN CAMPAÑA PRINCIPAL

long tail anuncios google ads palabras

Long Tail en anuncios

El problema con las búsquedas secundarias o long tail de nuestra estrategia es que nos pueden salir caras porque las servimos desde keywords de concordancia de frase o exacta por las que pujamos más fuerte.

Cuando revisamos el informe de términos de búsqueda a menudo vemos que:

  • Búsquedas que no habíamos contemplado en nuestra campaña se sirven con palabras de concordancia exacta, con ligera variación. Inmediatamente, si tienen buen volumen de impresiones / clics, las añadiremos en concordancia de frase o amplia para servirlas a un coste por clic menor.…
SEO rentable ROI

Hacia un SEO más rentable y orientado a negocio + Dashboard de ROI para SEM (SEO + PPC)

El SEO es una de las estrategias de Marketing Digital más rentables porque, trabajándolo, mejoramos la web en muchos aspectos, haciéndola más útil para el usuario, mejorando el nivel de calidad de nuestras campañas de pago y contribuyendo, en general, a mejorar los resultados a largo plazo, que a menudo pueden mantenerse durante mucho tiempo sin una inversión directa.

Como comentaba en el artículo de sinergias SEM, hacer campañas de pago en buscadores te enseña que ya puede tener muchas búsquedas una palabra clave, que si no convierte, deja de ser valiosa, algo que en SEO a menudo se descuida por no realizarse un análisis directo del gasto. En este artículo pretendo hacer ese ejercicio precisamente, abordar el SEO desde el lado del ROI y su rentabilidad. Pero antes de nada voy a revisar algunos conceptos básicos.

Conceptos clave de rentabilidad: CPL/CPA y ROI

El coste por Lead y Coste por Adquisición (Venta) son el modelo de retribución habitual en afiliación, con el que se paga por venta realizada. Es muy común también su uso en el lenguaje de optimización de campañas de pago en buscadores. Realmente podemos calcular el CPA para cualquier estrategia de marketing digital, como veremos: SEO, e-mail marketing, etc. Y me gusta describirlo así:

«El CPA es lo que estoy dispuesta/o a pagar por conseguir un cliente»

¿Debo invertir en términos de marca con Adwords si ya aparezco en 1ª posición en orgánico?

Artículo escrito para el blog de Relevant Traffic (Este post hace uso de la directiva canonical entre dominios para cederle la autoridad al Blog de Relevant Traffic que es donde fue publicado en origen)

Uno de los temas principales que sale a debate continuamente en las agencias cuando se trata de la relación SEO – PPC es la canibalización del nombre de marca por parte de los resultados de pago. Muchos se preguntan por qué pagar por un tráfico que ya nos conoce y se presupone gratuito. …

Sinergias SEO – PPC (SEM) y el usuario multicanal

Antes de empezar, es conveniente aclarar que no se trata de estrategias SEO – SEM, dado que SEM es el término que engloba todo el marketing en buscadores, por lo tanto deberíamos hablar de sinergias SEO + PPC, o en su defecto, sinergias SEM.

Pujar por keywords que no posicionan bien en orgánico

Más allá de la canibalización SEO – PPC para términos de marca (brand keywords), que ya he tratado, en este post quiero tratar las sinergias que pueden llevarse a cabo en cuanto a palabras clave genéricas. Aunque la experiencia y Google nos recomienda aparecer con ambas estrategias, porque incrementamos la visibilidad global / CTR de nuestro sitio web, puede darse el caso de que tengamos un presupuesto limitado pero nos gustaría aparecer para todos los términos de búsqueda importantes para nuestro negocio. Somos conscientes de que en SEO vamos a tardar tiempo en conseguirlo. Además, cuando se trata de términos de búsqueda genéricos, tenemos ratios de conversión más bajos y costes más elevados de inversión en anuncios. Cada euro cuenta.

Enlaces tóxicos a tu web: cómo detectar y eliminar

Herramienta favorita para detectar enlaces tóxicos

La herramienta que más me gusta utilizar para encontrar y analizar enlaces tóxicos es WebCEO. Anteriormente (que me había comido penalizaciones gordas de prácticas heredadas a las que estoy muy agradecida porque aprendí lo que no está escrito) había utilizado la popular DTOX, que es la más conocida en el mundillo SEO, pero no me convenció tanto…¿Por que? porque se sirve de demasiadas categorías y subcategorías de toxicidad y tienes que emplear más tiempo para consultar o recordar de qué trata cada una, para luego determinar qué categoría te interesa más y filtrar el output de resultados.…