Friday, September 21, 2012

#tuitPollEc

La idea es sencilla: Participación ciudadana usando la red social Twitter y herramientas adjuntas como Instagram, Twitpic, etc para realizar un conteo rápido de votos.


La idea se compone de 3 puntos principales.

 1. Tomar la fotos del acta de conteo de votos de una mesa

Cualquier persona toma una foto totalmente legible del acta oficial de conteo votos para Presidente con su celular y la tuitea con el hashtag #tuitPollEC.

(Esa foto se publica automáticamente en twitpic, instagram o en el mismo repositorio de fotos de twitter. )

2. Completar datos

La persona que tomó la foto o un colaborador llenan un formulario simple en la web con la información de esa acta específica. Es decir, se ingresan los números de votos de cada candidato presidencial, nulos, blancos y ausentes.

Cada foto tendrá un formulario para llenar los datos. El formulario y la foto del acta pueden ser vistos por cualquier persona con el propósito de transparentar el conteo.


3. El reporte

Se puede mostrar un reporte de las actas cuyas fotos y formularios fueron procesados.

El reto


Si esto se hace organizadamente, se puede tomar una muestra estadística de actas de todo el país y tener un resultado no oficial de las elecciones con un 95% de confianza y un márgen de error de hasta 5%.



Esta idea está en desarrollo. Algunas cosas a considerar:

- ¿Es legal en Ecuador tomar fotos a las actas de conteo de votos?

- ¿Qué tan interesada estaría la ciudadanía en realizar este proceso en una forma ad-honorem para transparentar de alguna manera las elecciones del ferero del 2013?

Seguro se me escapan muchas cosas. Sus comentarios son bienvenidos.

Monday, July 30, 2012

Detección de followers falsos -- Método: MÁS DE 1500 Friends y MENOS DE 100 Followers

Hace unas semanas, con la colaboración de Héctor Galarza (@hd_galarza) pudimos determinar una fórmula para identificar bots de almenos 1 proveedor de followers falsos.

Lo que hicimos fue identificar una cuenta inflada con followers comprados y buscamos un patrón. El patrón que pudimos encontrar fue que cada bot sigue a MÁS DE 1500 usuarios (friends) pero son seguidos por MENOS DE 100 usuarios (followers). Este patrón resultó clave para encontrar bots o followers falsos en una cuenta.

Sin embargo, hay que entender bien algo. Este patrón no es útil para detectar followers falsos de todas las empresas proveedoras de followers. Lo que encontramos fue el patrón específico de una empresa proveedora de followers en particular.

El incidente de acusación de compra de followers que le hicieron a  @irvin_joel y a su novia @GingerFloresZ me dió la oportunidad de probar el patrón así como también la reciente acusación de compra de followers por parte de @correistas.

Aclaro que este post no es para acusar a aquellos usuarios de absolutamente nada. Desde mi punto de vista, cada uno hace con su dinero lo que desee. Si desean comprar followers falsos para su uso propio o para regalarlos a terceros, no es mi problema. El origen de dichos followers falsos no es mi tema a discusión sino como detectarlos, ok?

Usando el API de Twitter, lo que se hizo fue obtener la información de followers de varias cuentas para contrastar resultados.

Las cuentas utilizadas para el análisis y sus resultados fueron las siguientes:


TW ID USERNAME CANTIDAD %
271212705 Correistas 17697 62.85%
44737317 GingerFloresZ 7797 72.86%
161163466 Irvin_Joel 26141 56.13%
22833994 ivanstalyn 1 0.07%
300390462 LassoGuillermo 4 0.01%
39055126 lolacienfuegos 6 0.04%
209780362 MashiRafael 147 0.03%
204998743 Polificcion 4 0.03%

La columna CANTIDAD muestra el número de followers falsos encontrados en cada cuenta. La columna % muestra el porcentaje con respecto al total de followers de cada cuenta.


Como se puede observar, el patrón 1500-100 (friends-followers) se repite en las cuentas acusadas de compra de followers con un porcentaje sobre el 50%. Las otras cuentas también presentan followers con este tipo de características pero en un porcentaje inferior al 0.10% en cada caso.

¿Que quiere decir que exista una cantidad de supuestos followers falsos en porcentajes pequeños en una cuenta de twitter (i.e ivanstalyn, polificcion, mashirafael, lassoguillermo)? Quiere decir que sí existen cuentas de twitter de usuarios reales que a propósito siguen a mucha gente (friends) y son sequidos por pocas personas. Esas cuentas pueden ser consideradas como las excepciones a esta regla.

Hay cosas interesantes en la lista de bots. Por ejemplo, existen bots que siguen a @correistas y también siguen a @irvinjoel (ejm. adam_705). También existen bots que siguen a @irvin_joely a @gingerFloresZ. Si consideramos que una empresa creó todos estos bots, entonces podemos concluir que todos los followers falsos de las cuentas @irvin_joely, @gingerFloresZ y @correistas fueron adquiridos en el mismo lugar.

Si desean hacer más análisis sobre la lista de followers falsos o simplemente curiosear, la pueden bajar de acá


El próximo post mostraré como utilizando técnicas de inteligencia artificial, se puede encontrar bots analizando tweets, aplicaciones utilizadas para twittear SPAM, descripción de perfiles entre otros. De esa manera, se podrá detectar bots de diferentes empresas proveedoras de followers falsos que usen un patrón diferente al 1500:100.

Comentarios son bienvenidos.



Thursday, April 26, 2012

58%


Días atrás, utilicé los criterios de "cuentas fantasma[sic]" de Salim Lamrani sobre las cuentas de twitter de @mashirafael, @chavezcandanga, @yoanisanchez y @camila_vallejo

En mi previo post, mostré que aquellos twitteros son seguidos por "cuentas fantasmas [sic]" de acuerdo a los criterios de Salim Lamrani. Ractifico esos resultados que fueron encontrados basados en dichos criterios.

@Mashirafael: 178,640 (58%)  
@yoanisanchez: 52,809 (21%)
@chavezcandanga: 2,053,806 (73%)
@camila_vallejo: 163,434 (37%)


Sinembargo, pienso que Lamrani está totalmente equivocado en sus metricas y análisis. No únicamente están erradas sus definiciones de "cuentas fantasmas[sic]" sino también que el hombre no tiene idea de como separar conjuntos de datos. Por ejemplo, una cuenta de twitter puede no tener foto en el perfil y también tener menos de 3 mensajes o followers. Si eso no se toma en cuenta, varias cuentas de esas características pueden encajar en ambos conjuntos de datos. Por lo tanto, es un gran error sumar cuentas que tienen la foto de un huevo con las cuentas que tienen de cero a tres mensajes o followers. Ese error infla (¿deliberadamente?) los resultados.

Además me pregunto, ¿Cuál fue el torcido criterio que usó Lamrani para definir a una cuenta como fantasma sólo por el simple hecho de tener pocos followers, o de no enviar mensajes o de no subir una foto a su profile? o ¿Qué torcido criterio cataloga como "FANTASMAS" a cuentas de twitter de personas que tienen de 0 a 49 followers?


Las personas abren y cierran cuentas de twitter todos los días. Otras dejan sus cuentas olvidadas por varias semanas. Otras personas  simplemente son lectores de información y no emiten mensaje alguno. Encajarlos con la etiqueta de "fantasmas" no es más que perverso de su parte.

Si desean continuar diciendo que @yoanisanchez tiene en realidad cerca de 50mil cuentas fantasmas o que @Mashirafael tiene 58% de las mismas, asegúrense de citar los criterios de Salim Lamrani; su inventor.

En lo personal,  académicamente, me parece interesante poder encontrar una definición objetiva y sustentada sobre las métricas de como identificar cuentas de twitter que son creadas y usadas con el único propósito del marketing viral  de productos de consumo. Sin embargo, ese es tema para otro post totalmente diferente.

¿Hay cuentas fantasmas? Mi respuesta es y siempre será: "ese es el dato que arroja el análisis que hago en base a los conceptos de Lamrani."  Y si me vuelven a preguntar, responderé de igual forma. Así que si insisten, repetiré lo mismo.

Finalmente, cierro este post complaciendo, de alguna manera, la curiosidad de varias personas con respecto a las "cuentas fantasmas [sic]" de sus perfiles así como los de otros twitteros ecuatorianos. Utilizaré los criterios torcidos tanto  de Salim Lamrani como de este otro revolucionario ("Indice Lola") para este propósito. Sugiero que comparen las diferencias de los resultados de la aplicación de ambos conceptos de "cuentas fantasmas[sic]".


Total de "cuentas fantasmas[sic]" e inactivas de acuerdo al criterio torcido de Salim Lamrani:

@carlitoswayec:               25      (2.93%)
@CarlosVerareal:      22,816    (31.67%)
@FAlvaradoE:              3,456    (24.87%)
@fernandobalda:             165    (12.74%)
@flacaguerrerog:     232,019    (68.25%)
@ivanstalyn:                      53      (4.55%)
@kevinhurlt:                     151     (5.97%)
@KojudoMayor:                 50      (5.79%)
@lolacienfuegos:              847    (11.14%)
@LucioGutierrez3:        1,114    (23.25%)
@MashiRoberto:               541    (25.73%)
@Polificcion:                  1,460    (13.71%)
@rafaellugon:                   289    (14.55%)
@rbonifaz:                        118       (9.81%)

@mashirafael         185,955     (58.67%) [Total followers 316,884 al 2012-04-28]


Total de "cuentas fantasmas[sic]" de acuerdo al escoliosístico "índice Lola" (Cuentas con 0 a 49 followers):

@carlitoswayec:             98  (11.50%)
@CarlosVerareal:    47,177  (65.48%)
@FAlvaradoE:           7,176  (51.65%)
@fernandobalda:          489  (37.76%)
@flacaguerrerog:  280,200  (82.42%)
@ivanstalyn:                 179  (15.39%)
@kevinhurlt:                 295  (11.66%)
@KojudoMayor:           206  (23.87%)
@lolacienfuegos:       2,553  (33.58%)
@LucioGutierrez3:    2,411  (%50.33)
@MashiRoberto:          770  (36.63%)
@Polificcion:             4,235  (39.79%)
@rafaellugon:              684  (34.44%)
@rbonifaz:                    241  (20.04%)

@mashirafael        235,910  (74.44%) [Total followers 316,884 al 2012-04-28]



Como se puede ver, las diferencias son grandes. El papel aguanta todo.

La base de datos que usé para este análisis, la pueden bajar de acá



Wednesday, April 25, 2012

¿Quién está detrás de << ponga nombre de twitero aquí >> ?

Hace unos días, a mi TL en Twitter llegó este tweet. Este tiene un link a un artículo de opinión de Salim Lamrani titulado: ¿Quién está detrás de Yoani Sánchez?


La parte del artículo que llamó mi atención es la siguiente:


"Del mismo modo, se descubre que cerca de 50 mil seguidores de Sánchez son en realidad cuentas fantasmas o inactivas, que crean la ilusión de que la bloguera cubana goza de una gran popularidad en las redes sociales. En efecto, de los 214 mil 63 perfiles de la cuenta @yoanisanchez, 27 mil 12 son huevos (sin foto) y 20 mil revisten las características de cuentas fantasmas con una actividad inexistente en la red (de cero a tres mensajes mandados desde la creación de la cuenta).
Entre las cuentas fantasmas que siguen a Yoani Sánchez en Twitter, 3 mil 363 no tienen a ningún seguidor y 2 mil 897 sólo siguen la cuenta de la bloguera, así como a uno o dos cuentas. Del mismo modo, algunas cuentas presentan características bastante extrañas: no tiene ningún seguidor, sólo siguen a Yoani Sánchez y han emitido más de 2 mil mensajes.


Esta operación destinada a crear una popularidad ficticia vía Twitter es imposible de realizar sin acceso a Internet. Necesita también un apoyo tecnológico así como un presupuesto consecuente. Según una investigación que realizó el diario La Jornada, titulada El ciberacarreo, la nueva estrategia de los políticos en Twitter, sobre operaciones que implicaban a candidatos presidenciales mexicanos, numerosas empresas de Estados Unidos, Asia y América Latina ofrecen este servicio de popularidad ficticia (ciberacarreo) a precios elevados. “Por un ejército de 25 mil seguidores inventados en Twitter –dice el periódico– se pagan hasta 2 mil dólares, y por 500 perfiles manejados por 50 personas se pueden gastar entre 12 mil y 15 mil dólares”.


En estos 2 párrafos se puede apreciar los parámetros que Salim Lamrani utiliza para su análisis; así como también indica la forma como calcular el costo de dicha popularidad ficticia.

Salim Lamrani indica que este análisis fue hecho con la ayuda de http://followerwonk.com. Traté de duplicar este análisis con la misma herramienta pero me encontré con 2 problemas: 1) La herramienta no es gratis totalmente, 2) la parte gratuita no me permite hacer el análisis sobre todos los followers de la cuenta de @yoanisanchez. tal cual lo hizo Lamrani.




Para realizar un detallado análisis como el descrito en el ariculo de Lamrani, se requiere de la compra suficiente de créditos para cubrir 250,000 followers. Esto es $150.00





Ya que no tengo $150.00 para comprar dicho análisis, desarrollé (con programación) mi propia herramienta para realizar un análisis casi idéntico al de Lamrani. 


Principalmente, me baso en las definiciones de Lamrani de lo que es una cuenta fantasma. Él describe al menos 4 tipos de cuentas fantasmas o inactivas en su artículo. 

El primer tipo de cuentas fantasma que Salim contabiliza son las cuentas huevos (sin foto). El segundo tipo de cuentas fantasmas son las que sólo han enviado menos de 3 mensajes desde la creación de la cuenta. De acuerdo a Lamrani, estos dos tipos de cuentas dan la contabilidad total de cuentas fantasmas.


El tercer tipo de cuenta fantasma es un subgrupo del segundo tipo de cuentas fantasmas antes mencionado. Estas cuentas son las que no tienen ningún seguidor y han enviado menos de 3 mensajes.


El cuarto tipo de cuenta fantasma también es un subgrupo del segundo tipo. Estás cuentas sólo siguen a la bloguera o twitero así como también a 1 o 2 cuentas adicionales y han enviado menos de 3 mensajes.


Bajo estas premisas, utilicé el API de TWITTER para bajar los datos de todos los seguidores de la cuenta de @yoanisanchez y guardarlos en una base de datos. Posteriormente, creé consultas de base de datos que se ajustan a las 4 tipos de cuentas fantasmas con el propósito de obtener la cantidad total de cuentas fantasmas del twitero analizado.

También realicé el mismo análisis a la cuenta de Rafael Correa (@mashirafael), Chávez Candanga (@chavezcandanga) y Camila Vallejo (@camila_vallejo)




Estos son los resultados al viernes 20 de abril del 2012:

Total de cuentas fantasmas vs Total de seguidores

Total followers:

@Mashirafael: 307,542
@yoanisanchez: 246,673  (214,063*)
@chavezcandanga: 2,803,273
@camila_vallejo: 438,827



Total followers fantasmas (% con relación a total de followers):


@Mashirafael: 178,640 (58%)  
@yoanisanchez: 52,809 (21%) -- 47,012*  (22%)
@chavezcandanga: 2,053,806 (73%)
@camila_vallejo: 163,434 (37%)













*Fuente: Lamrani 




Los resultados de los datos colectados hablan por si mismos.


Próximamente, estaré subiendo la base de datos (Mysql) acá.