L’idée de ce billet me trotte dans la tête depuis que j’ai envoyé ce tweet à Loïc Le Meur :
Tout confondu, pré- durant et post- LeWeb, on doit avoir au moins 100k conversations dans les médias sociaux, corpus d’analyse intéressant !
Ce à quoi Loïc m’a répondu : « Tu vois ça où ? »
Un premier élément de mesure est donné par la comparaison qu’a effectuée Radian6 entre LeWeb’10 et LeWeb’11, indiquant que la conf a été mentionnée 68 912 fois dans les réseaux sociaux en 2011, contre 50 655 en 2010, soit une progression de +36% d’une année sur l’autre.
Or ces données ne concernent que les 3 jours que dure la conf, et donc elles ne prennent en compte ni les jours qui précèdent, ni les jours qui suivent, ni tous les billets de blogs dans toutes les langues et sur tous les continents (presque soixante-dix pays étaient représentés cette année), ni les articles de journaux, les interviews, les reportages dans les médias mainstream, etc., et de plus on ignore totalement le périmètre couvert par l’étude sous la mention « conversations sociales ».
Par conséquent lorsque je parle de « 100 000 conversations », j’estime que c’est une estimation par défaut, mais surtout que globalement il s’agit d’une conversation perdue !
Que personne n’écoute et dont nul ne sait ce qu’elle contient, faute de se donner les moyens d’analyser en profondeur ce gigantesque corpus, de le segmenter par langue, voire par zone géographique, par période (avant – pendant – après), par réseau social et par média (de quoi ça parle davantage sur Facebook, Twitter, LinkedIn, Google+, les blogs, la presse, etc.), par tendances (analyser les occurrences attachées à chaque thème directeur), et ainsi de suite…
Or c’est quand même dommage d’ignorer le message planétaire que transmet un événement d’une telle portée, au-delà de l’événement lui-même !
En parallèle à ces pensées, Sébastien m’a envoyé son résumé vidéo du Web’11 en 3 minutes :
Donc la mise en relation entre ces deux éléments débouche sur cette question, simple au demeurant : « Comment résumer cette conversation perdue ? »
Pour essayer d’y répondre, à mon niveau et avec les moyens du bord, j’ai décidé de procéder à une analyse purement statistique de 80 billets rédigés en français sur la conférence, en les prenant parmi la liste des blogueurs officiels, dont j’en ai choisi 25, auxquels j’ai ajouté Presse-Citron et les 7 billets que nous avons écrits à ce jour, Camille et moi (avec entre parenthèses le nombre de billets pour chacun) :
1. Alonso Lamia (2)
2. Célina Barahona (5)
3. Guilhem Bertholet (7)
4. Fabien Berthoux (1)
5. Michelle Blanc (2)
6. Frédéric Cavazza (3)
7. Jérôme Choain (1)
8. Frédéric Cozic (4)
9. Cédric Deniaud (1)
10. Benoit Descary (4)
11. Damien Guinet (1)
12. Philippe Lagane (1)
13. Valeria Landivar (1)
14. Pascal Lechevallier (7)
15. Claude Malaison (10)
16. Richard Malterre (2)
17. Olivier Ezratty (2)
18. Romain Pechard (2)
19. Josée Plamondon (1)
20. Yohann Poiron (7)
21. Marie Pourreyron (1)
22. Gregory Pouy (1)
23. Christophe Ramel (2)
24. Christophe Romei (2)
25. Cédric Serret (3)
Soit pratiquement une moyenne de 3 billets par blog, même si l’on va des plus prolifiques (Claude Malaison, 10 ; Yohann Poiron, Guilhem Bertholet, Pascal Lechevallier et Presse-Citron, 7 ; Célina Barahona, 5, etc.) à ceux qui n’en ont écrit qu’un, sans compter ceux qui n’ont pas encore rédigé leur récap à la date d’hier, jour où j’ai consulté les blogs.
Le corpus total ainsi obtenu est de 48 910 mots, soit une moyenne de +611 mots/billet.
Donc lorsque vous avez un corpus de presque 50 mille mots, nettoyé des URL et des signes de ponctuation, qui parle d’un seul argument, LeWeb’11, la question est : « Quels sont les principaux thèmes cités, les principaux personnages, les principaux services, etc. ? »
À tout seigneur tout honneur, l’argument qui revient le plus souvent est naturellement la conférence elle-même, et les personnalités plus citées Loïc & Géraldine Le Meur (avec globalement 78 occurrences) :
- LEWEB (191)
- WEB (118)
- CONFÉRENCE (100)
- CONFÉRENCES (39)
- LEWEB11 (36)
- 2011 (30)
- 2012 (29)
- 11 (17)
- #LEWEB11 (11)
- #LEWEB (10)
J’ai lemmatisé ensuite le corpus, c’est-à-dire que j’ai regroupé singulier et pluriel en choisissant la forme plus fréquente des deux ; exemple avec CONFÉRENCE (139 occurrences) : choix du singulier puisque c’est le genre plus représenté. Ceci afin de ne pas surcharger les nuages sémantiques et de donner davantage de lisibilité à l’étude.
Quant au thème central de cette année, SoLoMo, il revient tel quel 52 fois dans le corpus, mais si on segmente les trois composantes du thème on s’aperçoit que les aspects auxquels il a été donné plus d’importance sont, dans l’ordre :
- Mobile (133 occurrences)
- Social (129)
- Local (43)
D’où il ressort clairement que le Local est largement sous-pondéré par rapport au Social et au Mobile, et que si l’on devait respecter le poids de chaque composante il ne faudrait plus écrire SoLoMo mais MoSoLo !
« Mobile » est donc l’argument clé, un constat corroboré par le premier des 110 termes significatifs extraits du corpus par ordre de fréquence, qui n’est autre que … APPLICATION ! (172 occurrences) :
Comme vous le voyez en un coup d’œil, le nuage met nettement en évidence les principaux thèmes qui ressortent de la … conversation
Mes deux autres axes d’étude ont été les 25 marques, produits & services plus cités d’une part (soit dit en passant, j’ignorais totalement Evernote il y a une semaine !) :
et les 10 personnalités qui ont marqué davantage les blogueurs de l’autre :
Ajoutons-y les 36 comptes Twitter :
@KRIISIIS
@GIRLZINWEB
@LOIC
@KARL_LAGERFELD
@YOHANN
@SMARCELO
@SCOUTU
@RODRIGO
@PLIBIN
@PIFLY
@ONEFEAT
@NICOLASPRINCEN
@LRYO17
@JOPLAM
@JENYANG
@JCFROG
@GERALDINE
@GARYSHAINBERG
@FREDCAVAZZA
@FRED
@FLEEXIT
@FABIENBERTHOUX
@DAVIDHORNIK
@CSHIPLEY
@CHRISTOPHE
@CHRISTIANHERN
@CDENIAUD
@CATH_WOMAN
@CARLOSDOMINGO
@BEMYAPP
@BDESCARY
@BAO_
@ASHAFRIR
@ANINANET
@ADE_OSHINEYE
@360FASHION
et les 9 hashtags
#LEWEB11
#LEWEB
#YAM
#SOLOMO
#SHAME
#RAMONWOW
#LOOSE
#LEWEB10
cités dans ce corpus (que je tiens à la disposition de quiconque serait intéressé).
Pour conclure, voici un simple échantillon de ce que permet de dégager une analyse statistique de 80 billets de blog, réalisée à la qui-mieux-mieux, alors imaginez ce que donnerait une étude quanti-qualitative pointue et segmentée des « 100 000 conversations sociales », qui nous auront malheureusement échappé cette année, mais il n’est pas trop tard pour bien faire en 2012 ! Loïc, si tu me lis…
Authors: