Mon logiciel (rêvé) pour analyser les données issues des réseaux sociaux

closeCet article a été publié il y a 12 ans 4 mois 10 jours, il est donc possible qu’il ne soit plus à jour. Les informations proposées sont donc peut-être expirées.

Comment exploiter la masse de données issues des outils de réseaux sociaux ? Comment en tirer des signaux et une veille efficace ? A ce jour, difficile de dire quelle est la solution idéale. J’avoue ne pas l’avoir encore trouvé. Voici les spécifications de cet outil dont je pourrais rêver.

Le constat

Dans mes lectures du jour, l’article de LordPhoenix a attiré mon attention. Il se posait la question des pratiques autour des outils de microblogging comme Identi.ca ou encore Twitter. Quelques échanges avec Christophe sur Twitter ont suivis. Je lui faisais part de mon regret de n’avoir pas trouvé à ce jour d’outils qui permettent efficacement et de façon personnalisée d’analyser les données issues des utilisateurs que je peux suivre.

Dans ma pratique actuelle du micro-blogging, j’utilise les fonctions de filtre de Choqok et à ce jour, je ne connais pas d’autres logiciels comme ce dernier qui en soit doté. Je ne m’en sers que pour garder l’essentiel, du moins de mon point de vue, c’est-à-dire les liens. Ainsi je filtre les conversations qui ne sont pas ce que je recherche en priorité sur les réseaux sociaux.

Mon rêve serait de remplacer la fastidieuse lecture et maintenance de mes flux RSS par les liens issus des réseaux sociaux. Les flux RSS ayant de plus tendance à disparaître sur les sites web, il faudra bien un jour passer à autre chose.

L’outil que j’imagine n’est pas loin d’exister, sauf qu’il faut pour cela passer par un service web « gratuit ». Ce que j’ai trouvé de plus proche ce sont des services comme paper.li qui réalisent une sorte de journal à partir des données de votre compte Twitter. Voici par exemple la page paper.li générée à partir des données de ma liste Twitter « Logiciel Libre » ou encore la page générée à partir de l’ensemble de ma timeline Twitter.

Pour celle concernant le logiciel libre, vous constaterez qu’il n’y est pas uniquement question de logiciel libre, ce qui est normal compte-tenu que les personnes qui font partie de cette liste ne diffusent pas que des liens sur ce sujet. Il faudrait donc encore affiner le filtre, mais le travail réalisé est déjà intéressant et j’avoue m’y reporter à nouveau depuis quelques temps pour avoir une synthèse rapide de ce qui a pu se dire sur Twitter.

L’inconvénient, c’est que paper.li est un service fermé et que je n’ai donc pas d’idée sur la façon dont les données sont traitées et si elles sont réellement représentatives de ce que les gens publient. Mais je verse ici du côté de la thèse du complot il est vrai, l’objectif de paper.li étant d’afficher de la publicité que les lecteurs potentiels de ces « journaux » pourront voir. N’oublions pas que les services web peuvent être gratuit, car c’est nous (nos données, nos comportements, etc…) qui sommes à vendre.

Un logiciel libre ?

Donc coté logiciel libre, je ne connais pas de solution équivalente qui possède ce niveau d’automatisation. Les principales fonctionnalités pourraient être :

  • Lire les données en provenance de réseaux sociaux comme identi.ca, statusNet, Diaspora, Twitter, Google+ et autres;
  • Pouvoir analyser les données par « contexte » : logiciel libre, économie, éducation, etc…
  • Les données publiées sur ces réseaux sont associées à des utilisateurs, qu’il pourrait être intéressant de pouvoir tagger (associer des mots-clés) et affecter un « poids » ( de un à cinq par exemple), voire ignorer selon le contexte dans lequel on se situe, mais là ça devient complexe à gérer … On se rapproche de l’usine à gaz;
  • Associer des listes de mots-clés aux contextes avec un poids éventuellement;
  • Avoir un algorithme qui pour chaque contexte et à l’aide des mots-clés construit une liste de liens vers des articles avec un classement;
  • Pouvoir depuis les résultats de contextes, modifier ou enrichir les mots-clés des contextes;
  • Disposer d’une sorte de filtre bayesien qui apprenne, en fonction des articles que je lis, mes centres d’intérêts et affine ainsi le résultat des contextes.

Bref, ce ne sont que des fonctionnalités en vrac qui mériteraient d’être affinées et je me doute bien que la mise en oeuvre d’un tel outil n’est pas simple. Si de votre coté vous avez croisé quelque chose qui s’en rapproche sous forme de logiciel libre, les commentaires vous sont ouverts tout comme à ceux qui voudraient compléter ou améliorer ma liste de fonctionnalités.

Crédit image Certains droits réservés par Gavin Llewellyn

Philippe Scoffoni

Je barbote dans la mare informatique depuis 30 ans (premier ordinateur à 16 ans, un ORIC ATMOS) et je travaille à mon compte au travers de ma société Open-DSI. J'accompagne les associations, TPE et PME dans leurs choix et dans la mise en oeuvre se solutions informatiques libres.

12 réponses

  1. lordphoenix dit :

    C’est rigolo en fait, car mon article se base justement un peu sur ces mêmes réflexion, pas forcément aussi poussé mais basé sur l’idée de pouvoir récupérer à posteriori les liens photos et autres diffusé.

    Dans un premier temps sur twitter car c’est ma timeline que j’ai du mal à suivre mais le principe est que ce soit utilisable pour d’autres flux.

    Je ne savais pas si j’allais vraiment me lancer la dessus et les quelques réponses ne m’y poussait pas trop. Mais ton billet va probablement m’y pousser. Je le garde dans un coin d’ailleurs comme base pour des spécif il est intéressant :).

  2. Philippe dit :

    Oui tu as raison, l’idée est de faire rentrer dedans toutes sortes de flux.. Fais-moi signe si tu travailles sur le sujet…

  3. Grummfy dit :

    Perso je suis aussi intéressé par le sujet

  4. ShowMyFaves dit :

    Bonjour, je trouve cet article très intéressant.

    Nous (ShowMyFaves-team) avons développé un logiciel pour le ubuntuappshowdown. Vous pouvez suivre son avancement sur ntore site : http://1.lydiman.net/audrey/ShowMyFaves/

    Tout ça pour dire, que nous avons toutes les briques nécessaires à la réalisation de votre idée. Même si pour le moment nous nous contentons de faire ce genre de chose pour les bookmarks. L’architecture générale du projet nous permet de rajouter très facilement des « Parser » : twitter, identi.ca, google+…

    De plus chaque « Parser » génère des « Bookmarks » contenant un maximum de « Tags ».

    Dans le cadre du concours, nous n’aurons, probablement, pas le temps de créer de nouveaux parsers. Mais si quelqu’un est intéressé pour nous aider, voici notre launchpad : https://launchpad.net/showmyfaves

    Sinon, dans tous les cas, nous contions bien intégrer les flux sociaux et rss dans ce logiciel.

    Nous serions très intéressé, par un petit algo et/ou précision sur la façon de classer les différents « Posts » (puisque ce ne sont pas des bookmarks mais l’idée reste la même : un lien, une image, un nom et surtout beaucoup de tags pour pouvoir facilement rechercher/filtrer/naviguer). Pour le moment nous classons par date et par nom. Et nous aimerions vraiment implémenter un petit algo avec des poids.

    Bonne journée,

    ps : une release est prévue pour ce soir ou demain si jamais vous vouliez tester notre application….

  5. ocarbone dit :

    Utiliser les user content generated est en effet bien d’actualité !

    Individuellement, c’est intéressant notamment pour réaliser sa veille.

    Pour une entreprise c’est intéressant car cela permet de considérer des informations dont elle n’a pas encore connaissance.

    Cependant, le volume d’information est exponentiel et il me semble difficile d’envisager un traitement manuel … et de ne pas évoquer les contraintes techniques 🙂

    Je comprend cependant l’idée évoqué ici de créer/identifier « l’outil de curation idéal ». Mais il ne s’agit que d’un outil de sélection et de restitution de l’information. Je pense qu’une étape préliminaire est importante : pré-selectionner les informations en provenance des réseaux identifiés !

    Mais pour moi cette étape préliminaire n’est valable que si :
    – on identifie les technologies permettant au particulier de traiter de tels volumes de données (Big Data)
    – on imagine les outils et algorithme nécessaire à l’automatisation qui permettrai de pré-selectionner les informations potentiellement intéressantes

    Je pense qu’il faut absolument différencier la phase de « récupération/pré-traitement des données » et la phase de « sélection manuelle/restitution ».

    Tant que nous n’aurons pas identifié de réelle solution pour la phase de « récupération/pré-traitement des données », la phase de sélection manuelle/diffusion sera limitée par « la capacité humaine à traiter l’information » … autrement dit elle ne sera pas adaptée à masse d’information générée par les utilisateurs et ne permettra de répondre qu’à des besoins de « faibles envergures ».

  6. J’ai réfléchi à un tel outil de curation, mais j’y suis arrivé en commençant à réfléchir à ce que pourrait être le futur d’un client email, tel que Thunderbird.

    En tentant d’imaginer ce que pourrait être un meilleur Thunderbird, cf. mon post http://www.jroller.com/dmdevito/entry/a_clearer_vision_about_thunderbird – je distingue 3 voies possibles:

    a) l’axe “application”
    Pour différentes raisons expliquées au sein de mon post, les portails server-side, genre web, sont une hérésie.
    Les portails ont un futur, mais coté client, et il consiste à intégrer plusieurs applications au sein d’un cadre unifié (genre, email, IM, etc.)

    b) l’axe “données”
    Les outils pour consulter les données de nos réseaux sociaux sont essentiellement web. En offrant un outil non-web offrant une interface unifiée et pouvant lire nos données dans les réseaux sociaux et les stocker coté client, alors non seulement la consultation de ces réseaux sociaux deviendra plus simple, mais les utilisateurs disposeront aussi d’un outil pour pouvoir faire sortir leurs données des dits réseaux sociaux.

    c) l’axe a) + b)
    En mixant les axes précédents, il est possible d’imaginer d’autres combinaisons, comme non seulement sortir ses données des réseaux sociaux, et aussi les traiter comme bon nous semble, en pouvant leur associer d’autres services que seulement ceux imaginés par ces réseaux sociaux.

    Un tel futur est pour possible pour Thunderbird, ou pour n’importe quel client email.

    Mon idée initiale – développée dans un précédent post http://www.jroller.com/dmdevito/entry/a_vision_of_thunderbird_s – était que Thunderbird et Firefox, si leurs technos se rejoignent, ont des cas d’utilisation séparés :
    – à Thunderbird (ou à un Thunderbird++), la réalisation de nos activités régulières, répétitives, qui doivent être réalisées le plus rapidement possible et avec le plus d’efficacité possible
    – à Firefox, la réalisation de nos autres activités, dont celles (non-normalisées) de découverte de nouveaux contenus et de “flanerie” sur le web, qui ne sont pas anodines (cf. la sérendipité).

    A ma déception, cette vision d’un Thunderbird++ n’a pas soulevé les foules au sein de la ML Mozilla 😉
    Reste que Thunderbird a l’air +/- de se diriger (mais sans le dire, et sans fournir de vision claire soutenant une telle roadmap) vers un tel Thunderbird++ ; mais l’évolution de Thunderbird est plutôt lente en ce sens.

    Je reviens vers l’idée d’un outil de curation : vous l’aurez compris, je pense qu’un client email étendu à de multiples sources de données doit être, peut être, un tel outil de curation ; c’est la vocation du futur d’un tel outil.

    N’ayant pas encore vu l’apparition d’un tel outil, je me contente pour l’instant de guetter l’apparition des briques qui pourrait permettre la création d’un tel outil. En Java, http://agorava.org/ a été annoncé récemment et ses connecteurs, présents ou futurs, pour différentes sources de données (dont les réseaux sociaux) sont une piste intéressante pour créer un tel outil de curation.

  7. Philippe dit :

    Merci pour tous ces retours très intéressant. Les pistes sont comme toujours nombreuses.. L’idéal est de les explorer de collaborative…
    @ocarbone : Disons que la phase “récupération/pré-traitement des données” se fait plutôt dans ce cas là au fil de l’eau, ce n’est donc pas trop lourd et peut se contenter des outils actuellement disponible qui permettent déjà d’effectuer des recherche dans les données existantes.
    Par conter la phase « sélection manuelle/restitution » se fait sur un flux avec de plus une dimension temporelle que je n’ai pas mis en avant dans l’article. A savoir je cherche une information « fraiche ».
    @Dominique De Vito : Ce que tu décris va aussi dans le sens de ce type de besoin que j’avais décrit pour la « gestion de la relation personnelle ». Je te rejoins en tout cas sur ta vision d’un Thunderbird++

  8. Philippe dit :

    Il va falloir attendre encore un peu pour un thunderbird++
    http://www.crowd42.info/mozilla-va-arreter-le-developpement-de-thunderbird
    Ce n’est pas un arrêt, mais une mise au frigo avec support…

  9. @Philippe

    Dommage, oui, pour un Thunderbird++.
    Avec Thunderbird, on pouvait faire sortir nos courriers du nuage de notre fournisseur de messagerie. Avec un Thunderbird++ (tel que je l’imaginais/proposais), Mozilla aurait pu nous aider à faire sortir nos données personnelles des autres applications dans les nuages, dans le droit fil de la mission que dit poursuivre Mozilla…

  10. Yannick dit :

    Allo les gars

    Vous devriez regarder du coté de ce super logiciel libre ThinkUp ! http://thinkupapp.com/

    Un bon début pour récupérer vos tweets et les analyser.

    Bonne chance !

  11. Philippe dit :

    Merci Yannick, ça mérite un test approfondi…

  12. Migz dit :

    Rappelez vous du projet SNOWL de Mozilla dont l’idée était de centraliser tous les flux.

    Hélas abandonné.