Captura de pantalla 2015-11-02 a las 14

Dime cómo escribes y te digo de dónde eres

Posted on 2 noviembre, 2015

FRANCISCO RANGEL. Es indudable el poder de comunicación que tienen las representaciones geográficas, algo que no siempre es factible cuando lo que deseamos representar son datos de conversaciones en social media.

Pese a ello, estamos acostumbrados a ver mapas que representan conversaciones de Twitter (y otros canales), incluso en tiempo real. Estos mapas suelen ser muy visuales e incluso en ocasiones correlacionarse con datos obtenidos por otros medios, como censos o resultados de elecciones.

Pero una de las cosas a considerar es la representatividad de la muestra, y es que por ejemplo en Twitter no más del 2%-5% de los tuits vienen marcados con las coordenadas geográficas desde donde se emitieron, y en la actualidad, parece ser que esta cifra tiene una tendencia descendente. En otros canales, esta información ni siquiera existe. Entonces, ¿cómo podemos mejorar la representatividad de este tipo de visualizaciones?, o incluso, ¿cómo la podemos incorporar a canales donde no se dispone de información objetiva de su origen?

La respuesta, de nuevo, está en el procesamiento del lenguaje natural. Aunque vamos a ver tres pasos que nos pueden llevar a representar datos geográficos, en este caso centrados en el canal Twitter.

Representación basada en coordenadas gps

maps

En canales como Twitter el usuario puede configurar su cuenta para que incorpore las coordenadas gps en el momento de publicación. Esto hace que cada tuit se acompañe con las coordenadas geográficas del dispositivo móvil y por lo tanto se pueda representar de manera objetiva en un mapa.

Con respecto a esta capacidad hay que mencionar dos cuestiones complementarias que ya traté en su momento, la de la Precisión y el Alcance.

Respecto a la precisión, esta opción es óptima ya que salvo errores en el dispositivo será cercana al 100%. Si un tuit se ha emitido desde una localización y el usuario tiene esta opción activada, tendremos una certeza cercana al 100% de su ubicación. Por otro lado, la cuestión del alcance nos lleva a tener apenas entre un 2%-5% de los tuits georreferenciados, ya que sólo ese porcentaje de usuarios tiene activada esta opción. Esta cifra es empírica y obtenida tras analizar cientos de millones de tuits y la tendencia apreciable es a la baja.

Por lo tanto, esta primera etapa de georreferenciación nos lanza cifras del 100% en precisión a costa de apenas un 5% en alcance.

Representación basada en la biografía

armstrong1_2376593b

Twitter nos permite además configurar ciertas cuestiones relativas a nuestra biografía como nuestro origen geográfico o donde vivimos en este momento, dependiendo del criterio del usuario. En este punto tenemos diferentes consideraciones a tener en cuenta, como que el usuario puede mentir, indicar una ubicación fantástica (Narnia, la Luna, mi casa…) o utilizar niveles de detalle dispares (pueblos frente países). Estas cuestiones implican una reducción considerable en la precisión de los resultados obtenidos, de modo que ya no tenemos una certeza del 100% en los resultados, pero sí que aumentamos considerablemente el alcance. Por poner un ejemplo, ordenando por frecuencia las localizaciones que aparecen en las bios de los usuarios de un proyecto de Cosmos con varios millones de registros, lo primero que vemos es que sigue una ley de potencias y que con el top de las ubicaciones llegamos a alcances de entre el 50-80%.

Por lo tanto, en esta segunda etapa de georeferenciación estamos aumentando el alcance a cifras superiores al 50-80% a costa de reducir la precisión a cifras dependientes del nivel de mentirosos y creativos que tenga nuestro proyecto.

Representación basada en variedad del lenguaje

font-705667_640

Por último siempre podemos recurrir al procesamiento del lenguaje natural, concretamente a lo que se conoce como identificación de variedad del lenguaje o discriminación entre lenguas similares. El objetivo de este campo de investigación es, como su propio nombre indica, identificar a partir de un mismo idioma, variedades similares o dialectos, cuál es el que se corresponde con un usuario en base a sus textos.

Este es un campo emergente en el que son pocas las investigaciones que se han llevado a cabo por el momento, siendo destacable la tarea DSL en el LT4VarDial en la que participamos en 2015 y esperamos colaborar en su organización en 2016. Por parte de Autoritas, llevamos varios años investigando en el tema, con la dirección de una tesis de master (Language Variety to Improve Geotagging), con la liberación de recursos como Hispablogs, o con la aproximación de la tarea con representaciones distribuidas o con una representación de baja dimensionalidad (pendiente de publicación) que forma parte de mi tesis doctoral.

Obtener la variedad del lenguaje, por ejemplo, saber que un usuario que escribe en español lo hace en una variedad mexicana, chilena o argentina, nos permite ubicar geográficamente un comentario sin necesidad de conocer a su autor, simplemente disponiendo de su texto, lo que nos permite no sólo obtener un 100% de alcance sino además llevar la georreferenciación a canales para los cuales no había alternativa hasta el momento.

Por lo tanto, con esta tercera etapa podemos conseguir alcances del 100%, pues georeferenciamos absolutamente todos los textos por el simple hecho de tenerlos, con precisiones que oscilan, dependiendo del canal, desde aproximadamente 65-75% en casos como nuestra investigación con Hispablogs, a cifras superiores al 90% en casos como los que obtuvimos en la competición DSL.

En conclusión y resumiendo lo anterior, siempre tenemos diferentes formas de aproximar un problema, y en el caso de georeferenciar contenidos, se han expuesto tres de ellas. Desde mi punto de vista, son dos las conclusiones a sacar de lo descrito en el artículo:

  1. Una vez más el procesamiento del lenguaje natural llega donde ninguna otra tecnología lo hace, permitiendo de nuevo aumentar el valor que se aporta a las organizaciones.
  2. La necesidad de estar informados de la metodología aplicada en los estudios que recibimos, especialmente cuando de social media se trata, para llegar a discernir el grado de representatividad de los datos y no emitir juicios de valor, o toma de decisiones, sesgadas por el medio y el método.

Sobre 

Es el CTO de Autoritas Consulting y científico principal de la herramienta de Escucha Activa Cosmos. Coordinador del Área de Análisis y Escucha Activa de Socialancer. Ingeniero en Informática, Ingeniero en Telecomunicaciones especialidad Telemática, Master en Lingüística Computacional, Master en Consultoría Estratégica y actual doctorando en Author Profiling con el Dr. Paolo Rosso.

  • linkedin
  • twitter

What Others Are Saying

  1. Francisco M. Rangel (@kicorangel) 2 noviembre, 2015 at 5:43 pm

    RT @autoritas: El procesamiento del lenguaje natural es vital para la georreferenciación en Twitter https://t.co/8eMuPGkYAm https://t.co/6r…

  2. Mireia Llinares (@mireiallinares) 2 noviembre, 2015 at 7:29 pm

    Dime como escribes y te digo de dónde eres. https://t.co/JAfVcOT0Zd

  3. Laura Gil (@LauraLolaGil) 2 noviembre, 2015 at 10:34 pm

    RT @autoritas: El procesamiento del lenguaje natural es vital para la georreferenciación en Twitter https://t.co/8eMuPGkYAm https://t.co/6r…

  4. @anacletogomez 2 noviembre, 2015 at 11:17 pm

    RT @autoritas: El procesamiento del lenguaje natural es vital para la georreferenciación en Twitter https://t.co/8eMuPGkYAm https://t.co/6r…

  5. Rafael Estrella (@Estrella_Rafa) 4 noviembre, 2015 at 8:45 am

    RT @autoritas: El procesamiento del lenguaje natural es vital para la georreferenciación en Twitter https://t.co/8eMuPGkYAm https://t.co/6r…

  6. Pingback: Las 3 grandes mentiras de las herramientas de Social Media. Lo que no te puedes creer...

  7. Pingback: Las 3 grandes mentiras de las herramientas de Social Media. Lo que no te puedes creer… - Smart.cl - Smart Systems Ltda.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *