Subscribe: Les petites cases
http://www.lespetitescases.net/rss.xml&html=1
Added By: Feedage Forager Feedage Grade B rated
Language: French
Tags:
big data  dans  data  des données  des  données  eacute  est  les données  les  même  par  pas  pour  qui  sur  une 
Rate this Feed
Rate this feedRate this feedRate this feedRate this feedRate this feed
Rate this feed 1 starRate this feed 2 starRate this feed 3 starRate this feed 4 starRate this feed 5 star

Comments (0)

Feed Details and Statistics Feed Statistics
Preview: Les petites cases

Les petites cases





 



Réaliser un mashup de données avec Dataiku DSS et Palladio

Sun, 16 Oct 2016 17:11:42 +0000

Dans mon précédent billet sur la préparation des données, j'avais fait part de mon enthousiasme pour la solution DSS de Dataiku dans le cadre de la préparation des données. J'ai donc poursuivi ma pratique du logiciel dans un contexte que j'apprécie particulièrement : la mise au point d'un mashup de données. Cet exercice permet autour d'un exemple concret de faire le tour du traitement des données : recherche, récupération, interrogation, structuration, nettoyage, mise en relation, visualisation. Il est donc parfaitement adapté pour évaluer un logiciel en la matière. Et le résultat fut à la hauteur : Dataiku testé et approuvé pour réaliser un mashup avec données du @LeCNC sur @datagouvfr, @wikidata, @themoviedb visualisé avec Palladio \°/ pic.twitter.com/0RhqiA3YNu— Gautier Poupeau (@lespetitescases) January 16, 2017 Comme Nicolas, je dois bien avouer que je suis fatigué par ces articles de journaux, sujets télévisés et autres discussions de comptoirs qui conçoivent l’algorithme comme une entité en soi dont la création et l’exécution seraient immanentes. L’algorithme est devenu peu à peu l’expression d’une peur alimentée par la place grandissante du numérique dans nos vies et de l’incompréhension de beaucoup, en particulier des médias, face aux principes de l’informatique. Mais cela pose un problème de taille : penser ainsi l’algorithme, c’est nier la responsabilité des créateurs et des exécutants de l’algorithme qui sont des humains. Un algorithme n’a pas une vie propre, il n’est que la colonne vertébrale d’un code source écrit et pensé par un humain et dont l’objectif est fini. La responsabilité de la création de l’algorithme en revient donc à son programmeur et de son exécution à la personne ou l’organisation qui en assure l’exploitation au sein de son application et non à l’algorithme lui-même. Il n’existe donc pas une éthique de l’algorithme mais de l’organisation qui le met en oeuvre. Il est alors nécessaire d’appréhender le fonctionnement et les conséquences d’utilisation d’un algorithme pour voir s’il est en adéquation avec la stratégie et/ou l’éthique de l’organisation. Pour illustrer mon propos, prenons l’exemple de la recommandation de contenus. L’objectif de tous ces algorithmes est grosso modo le même : augmenter la sérendipité pour faire en sorte que l’utilisateur poursuive sa navigation dans le site Web et que l’achat soit converti dans le cas des sites de E-commerce. Il existe deux stratégies : analyse du comportement (clics, historique de navigation, avis…) de l’utilisateur et comparaison statistique avec le comportement des autres utilisateurs du site, c’est ainsi que fonctionnent les systèmes de recommandation dits « sociaux » qui ont fait la réputation des sites comme Amazon ou Netflix ; analyse des contenus et comparaison entre les contenus pour proposer un contenu proche comme le propose par exemple YouTube. Techniquement, les premiers s’appuient, selon les principes du machine learning, sur un modèle mis au point à partir de motifs récurrents, auquel sont soumises les nouvelles données, tandis que les seconds s’appuient, en particulier, sur une comparaison de la répartition et la fréquence des mots. Au delà des aspects techniques, la principale différence entre ces deux stratégies réside dans leurs conséquences. Les premiers qu’on qualifie de “prédictifs” privilégient les contenus qui ont déjà été consultés et a fortiori ceux qui sont le plus consulté. Ils se traduisent par la mise en place d’un effet de longue traîne : seule une petite partie des contenus sont les plus vus, tous les autres sont assez peu voire jamais consultés. Dans le cas où vous disposez d’un corpus où le nombre de ressources est très important, vous allez vous retrouver avec de très nombreux contenus qui ne proposeront pas de recommandations, car ils n’ont jamais été consulté ou alors si peu que la distrib[...]



Bilan de 15 ans de réflexion sur la gestion des données numériques

Wed, 12 Oct 2016 21:08:36 +0000

Cela fait maintenant deux ans que j’ai rejoint l’Institut national de l’audiovisuel. Deux années qui m’ont permis de donner une nouvelle impulsion à ma réflexion sur la gestion des données numériques. Deux années passionnantes et qui se concrétisent depuis plus de six mois par le développement d’une infrastructure de traitement et de stockage des données, aboutissement (forcément provisoire) d’une vision de l’architecture du système d’information où la donnée occupe une place centrale, à l’inverse de l’approche traditionnelle par le processus. Deux années dont les résultats font en partie l’objet d’un article pour le prochain livre d’Emmanuelle sur l’avenir des catalogues, à paraître aux éditions du Cercle de la librairie et dont l’écriture m’a donné envie de faire revivre un peu cet espace de partage que j’ai laissé en friche ces dernières années.Mais avant de partager ces nouveaux éléments, il me semble intéressant de dresser un bilan de ces 15 dernières années afin de tracer la ligne directrice et de brosser aussi les réussites, les échecs et les erreurs. La lecture de quelques (excellents) mémoires du master « Technologies numériques appliquées à l’histoire » de l’Ecole nationale des chartes m’ont aussi motivé à préciser (ou repréciser) certaines approximations que j’ai pu rencontrer ici ou là.Alors, voilà, avant de passer à la suite, un bilan de 15 ans de réflexion sur la gestion des données numériques, forcément subjectif et en aucun cas exhaustif. Il se découpe en quatre phases, qui correspondent à des moments de mon parcours professionnel et, ça va de pair, avec les sujets principaux qui ont été au cœur de ma réflexion. Elles sont les suivantes : l’édition électronique ;la conservation sur le long terme de l’information numérique ;le traitement des données structurées et semi-structurées ;l’architecture de données à l’ère du Big data. L’édition électronique (2001-2006)Le « temps de l’innocence » me paraît résumer parfaitement cette première période. A l’aube de ce nouveau siècle, tout est à inventer sur le Web dont la promesse est de rendre accessible à tous, gratuitement et en un clic de souris, toutes les connaissances du monde. Au niveau technologique, c’est l’heure du balbutiement : HTML, Javascript, Front page et Dreamweaver sont les outils de cette nouvelle révolution de l’informatique. Au sein de l’équipe embauchée par l’Ecole nationale des chartes pour mettre au point son site Web, il apparaît rapidement qu’on peut aller plus loin qu’un simple site institutionnel et que les positions de thèse, numérisation de fac-similés, actes de colloque et autres éditions critiques qui traînent sur des disquettes et autres cédéroms trouveraient parfaitement leur place sur le Web. Pour atteindre cet objectif, il faudra ajouter au panel d’outils du départ bien d’autres technologies : PHP, MySQL, CSS, XML, XSLT, Cocoon, eXist et réfléchir tant au niveau scientifique, politique et économique qu’aux conséquences de ce basculement… Faire du Web ne se limite bientôt plus à coder quelques pages HTML à la main ou dans un[...]



De quoi le Big Data est-il le nom ?

Sat, 28 Feb 2015 19:10:50 +0000

Comme l'a justement rappelé Manue sur le Figoblog, alors qu'il a atteint le ravin de la désillusion, le Big Data a désormais dépassé le stade du "buzzword". On peut aujourd'hui en voir les applications concrètes même si celles-ci restent souvent limitées, comme l'explique cette étude de Cap Gemini décryptée par ZDnet qui rappelle que seuls 13% des projets dits de Big Data sont entrés en production ou cet article très complet, "Le Big Data : un enjeu pour les industries créatives", paru sur le site INA Global qui, au-delà des exemples de réalisations, démontre les problèmes nombreux qu'ils restent à résoudre. Les espérances qui ont été placées dans cette évolution technologique doivent-elles être revues à la baisse ? Ou au contraire, est-ce le bon moment pour approfondir et développer les cas d'usage qui ont commencé à émerger ? De fait, ces premières applications sont aujourd'hui suffisamment intéressantes pour justifier qu'on s'y intéresse de près et qu'on étudie les causes des échecs. Or, il apparaît qu'un des facteurs récurrents d'échec est la donnée elle-même (données de qualité insuffisante, mal agrégées...). Aurait-on oublié de s'intéresser à la donnée elle-même dans le Big Data ? Sans aller jusque là, il semble bien que la donnée, l'attention (pour ne pas dire curation...) qu'on y prête, sa compréhension n'aient pas totalement été au centre des préoccupations jusqu'à maintenant. Or, c'est précisément le rôle du professionnel de l'information. Mobilisant leurs compétences sur les données, ils doivent s'emparer du sujet pour faciliter son appréhension par les "directions métiers". Cela passe par une appropriation de la technologie : les professionnels de l'information ont aujourd'hui besoin de savoir ce qui se cache concrètement derrière ce terme de "Big Data". C'est que je me propose d'initier à travers ce billet. Pour entrer directement dans le vif du sujet, une définition et un exemple : Pour en donner une définition très générale, le Big data désigne la capacité technologique à traiter de très grandes masses de données avec des infrastructures matérielles standards. L'exemple le plus frappant de projet big data, c'est Watson, l'application d'IBM qui a gagné Jeopardy. Afin de répondre à des questions posées en langage naturel, cette application agrège tous les systèmes possibles et imaginables de traitement automatique de la langue, recherche d'information, représentation des connaissances, raisonnement automatique et de machine learning. Mais, son fonctionnement a nécessité d'imaginer une infrastructure spécifique pour stocker les données et répondre aux besoins de ressources machines nécessaires pour effectuer les traitements. Or, l'enjeu du Big data, c'est de réussir à mettre en place des usages aussi performants qu'un Watson mais avec des infrastructures standards. Le Big Data répond donc à un double objectif : assurer le passage à l'échelle (ou scalabilité), c'est-à-dire : paralléliser les traitements informatiques (parallel computing) et les distribuer sur plusieurs machines (clustering) ; stocker les données massives ; manipuler les données en masse, c'est-à-dire : exploiter ces grandes masses de données (statistiques, analyse prédictive et apprentissage automatique) ; traiter et préparer les données et orchestrer les traitements (ETL, data pipeline et système de gestion de workflow). Que le traitement soit parallèle et distribué ! Et le Big Data fut ! Qui n'a pas entendu parler d'Hadoop ? Ce nom est pratiquement devenu synonyme de Big Data mais peu de gens savent exactement de quoi il s'agit. En effet, une fois qu'on a lu de A à Z l'article de Wikipédia qui explique qu'Hadoop est un framework logiciel en Java dont le logo est un éléphant jaune à cause du doudou du fils de son créateur, on n'est guère plus avancé... Alors à quelles questions Hadoop répond-il en réali[...]



La donnée en elle-même n'a plus de valeur marchande et alors ?

Wed, 25 Feb 2015 11:59:35 +0000

Au cours des quatre années que j'ai passées chez Antidot (2010-2014), j'ai assisté à des changements profonds dans la manière de penser la monétisation des données. Un constat s'est peu à peu imposé : la donnée elle-même perd de sa valeur marchande et toutes les organisations dont le modèle économique repose peu ou prou sur la vente de données prennent peu à peu conscience de l'obligation d'inventer de nouveaux modes de rémunération. C'est un changement long et complexe auquel les producteurs de contenus dans leur ensemble doivent faire face et il suffit pour s'en convaincre de voir les déboires que vit la presse. Chacun est à la recherche du ou des services, la seule source actuelle de monétisation acceptée par le consommateur, qui lui permettront de survivre à ces bouleversements, mais, dans la plupart des cas, force est de constater que le chiffre d'affaires qu'ils génèrent ne compense pas la baisse des revenus constatée par ailleurs. Attention, loin de moi l'idée de me plaindre et de regretter le temps passé, d'autant qu'il faut bien le dire : certains producteurs de contenus s'étaient constitué de véritables rentes qu'ils exploitaient pour un service limité et évoluant peu voire pas. Après tout, cela donne l'occasion de redistribuer les cartes. Pourtant, il existe un point crucial qu'il ne faut pas mettre de côté : même si la donnée n'a plus de valeur marchande en soi, sa création représente toujours un coût. Or, la tentation est grande à l'heure des économies pour un manager dont les yeux seraient uniquement rivés sur le chiffre d'effectuer une coupe drastique dans cette activité si consommatrice de ressources. Cette décision aurait des conséquences terribles. Au niveau de l'organisation elle-même, elle marque le début de sa lente descente aux enfers, car elle constitue une rupture dans la vocation même de l'organisation. Et de manière plus générale, cela déstabilise l'ensemble de l'écosystème de services qui s'est construit autour des données produites par cette organisation. Et c'est finalement là que réside le paradoxe : alors que nous sommes dans une situation où nous avons de plus en plus besoin de données de qualité pour construire de nouveaux services, nous allons faire face à une pénurie car nous n'aurons plus les moyens de les produire. Puisque la donnée est la richesse de l'organisation, la base sur laquelle de futurs services peuvent être construits, c'est elle qui doit faire l'objet de toutes les attentions. Ainsi, plutôt que de réduire l'activité de production elle-même, il est nécessaire d'investir pour revoir les processus de production et d'exploitation. Comment alors réduire les coûts pour s'assurer d'une donnée de qualité et créer de nouveaux usages ? 1- Libérer et lier toutes les données internes Est-il nécessaire de revenir sur la valeur que constitue la mise en relation de toutes les données d'une organisation ? Ceux d'entre vous qui me suivent depuis plusieurs années m'ont certainement maintes fois lu, vu ou entendu discourir sur cette question (et pour les autres, quelques présentations pour rattraper le retard : Linked Enterprise Data : disposer d'une vue consolidée des données, Wikidata, quand Wikipedia s'intéresse aux données, Relier, réutiliser, partager : l'apport du Web de données avec Emmanuelle Bermès). Il me semble que c'est la base même de toute réflexion sur la production et l'exploitation des données car cette démarche permet de mettre en cohérence, de rationaliser et de casser les silos de données existants et ce faisant permet la mise en place d'une gouvernance des données et d'indicateurs à même de piloter les activités autour des données (donc y compris maîtriser les coûts liés à cette activité). Par honnêteté, je me dois de faire mention d'un point important : je ne suis plus aussi sûr de la place centrale des technologies du Web sémantique dans cette démarche, du moins[...]



Petite Poucette au secours de l'Open Data

Sun, 07 Apr 2013 19:53:21 +0000

Dans mon précédent billet, j'avais qualifié l'Open Data « d'échec total » sans beaucoup plus d'explications. Il me semble important de justifier ce propos et de le dépasser, d'autant que cela a pu blesser certaines personnes qui se battent au quotidien pour mettre à disposition ces données ce qui n'était pas mon objectif. Il m'a fallu un peu de temps, car il m'a été difficile de mettre des mots précis sur ce qui relevait plus d'un sentiment ou d'une intuition. De l'échec de l'Open Data Si on jette un regard froid et objectif sur les retombées de l'Open Data, on peut évidemment n'être que déçu par le résultat : la transparence : évidemment certaines données sont à disposition et c'est une avancée énorme, mais mes parents n'en connaissent pas l'existence et, quand bien même, ils sont incapables d'exploiter par eux-mêmes ces données, cela est réservé à une nouvelle élite de notre société : les personnes capables de manipuler un programme informatique pour transformer les données, faisons simple : les "geeks", est-ce vraiment cela la transparence que nous appelons de nos vœux ? la réutilisation des données : la transparence passe par la mise au point d'applications et donc par la réutilisation des données, j'ai déjà montré dans mon précédent billet les obstacles qui se présentent aujourd'hui. Conséquences (ou pas...) : on ne peut pas dire que c'est le raz-de-marée, il y a bien des initiatives à droite à gauche, des applications pour téléphone portable, des prototypes ou quelques services qui ont profité des données mises à disposition comme en témoignent les résultats des multiples concours ou les hackatons, mais, et j'espère que cela ne vexera personne, cela reste anecdotique par rapport à tout ce qu'on est en droit d'attendre ou d'espérer ; le marché économique : qui peut prétendre vivre de l'Open Data aujourd'hui ? Existe-t-il un marché ? Je ne parle pas de s'enrichir, je parle simplement de disposer d'un marché économique suffisant pour justifier les investissements publics sur le long terme et privés, déjà, sur le court et moyen terme nécessaires à la mise au point de solutions, de produits, de formations, de services adaptés et à la pérennisation de ces initiatives pour permettre la réutilisation et l'accessibilité des données indispensables pour apporter la transparence sur le long terme auprès de tous. l'innovation : comme le résume Karima Rafes : « #hackaton ou la R&D du pauvre... Un bon titre pour un livre sur l écosystème français #OpenData » Rien de plus à ajouter... Mais, ces constats m'apparaissent plus comme des symptômes d'un problème plus profond et plus complexe à qualifier. Le billet de Christian Fauré intitulé « Ce n'est pas qu'une histoire de données » offre un début de réponse. Christian y exhorte les institutions à ne pas limiter l'Open Data à la stricte mise à disposition des données et à profiter de ce mouvement pour placer leur activité dans le monde numérique, c'est-à-dire mettre l'activité de l'organisation dans l'espace de partage et de collaboration qu'est le web et ainsi profiter des avantages de ce milieu associé. Mais, cela ne me satisfaisait pas complètement, car, si Christian présente (rapidement) ce qu'il faudrait faire, cela n'explique pas le paradigme actuel et les raisons de son dysfonctionnement. De petite poucette de Michel Serres Il me semble avoir trouvé certaines réponses dans l'ouvrage de Michel Serres petite poucette. A travers l'analyse des comportements des "jeunes" (la Petite Poucette et le Petit Poucet) et de certaines critiques faits à leur encontre, Michel Serres en appelle à la compréhension et au dialogue entre les générations pour construire une société nouvelle. Il me semble qu'il met finalement en avant la tension entre notre socié[...]



Exploiter les données en Open Data : encore un doux rêve...

Sat, 23 Feb 2013 19:21:17 +0000

Le temps et le courage me manquent pour alimenter sérieusement ce blog. Si, aujourd'hui, je sors de mon silence, c'est pour pousser une énorme coup de gueule. Alors qu'on nous bassine tous les jours avec l'Open Data et ses promesses tant citoyennes qu'économiques, je constate tous les jours un peu plus le chemin encore gigantesque à parcourir pour exploiter professionnellement et sur le long terme un ensemble de données (dataset) mis à disposition sur data.gouv.fr ou tout autre site équivalent. Un exemple vaut mieux que des grands discours pour illustrer mon courroux : le recensement des équipements sportifs sur le site data.gouv.fr. Cet ensemble de données est mis à disposition sous la forme d'un fichier zip contenant un fichier XML depuis le 15 juin 2012. Il s'avère que pour les besoins d'un prototype que nous avons mis au point chez Antidot pour démontrer les capacités de nos produits, nous l'avions utilisé. La récupération et le traitement de ce fichier ont donc été paramétrés par rapport à la première version du fichier. Or, il a été mis à jour, il y a quelques jours (le 21 février 2013 pour être précis). Nous pensions donc (naïvement, comme vous pourrez le constater) qu'il nous suffirait de relancer notre chaîne de traitement pour prendre en compte cette nouvelle version. C'était sans compter les nombreux petits changements qu'avait subis entre temps cet ensemble de données : le fichier zip n'est pas téléchargeable pas à la même URL, la page HTML qui décrit l'ensemble des données possède visiblement une URL pérenne mais en l'absence d'une API ou d'un annuaire dans un formalisme traitable par une machine permettant de faire le lien entre l'URL de l'ensemble de données et le lien du fichier lui-même : impossible de trouver le nouveau lien automatiquement ; l'arborescence du fichier zip est différente : le fichier XML est contenu dans un répertoire ce qui n'était pas le cas précédemment ; la structure du fichier XML a été modifiée et en l'absence d'une information le précisant dans une API... (bla bla, vous avez compris l'idée...) Résultat des courses, il faut intervenir sur la configuration de la chaîne pour pouvoir à nouveau traiter le fichier correctement. Évidemment, ce n'est pas grand chose et cela ne nous a pas pris beaucoup de temps. Mais, tout de même, comment justifier auprès d'un client qui a payé pour construire une application qu'à chaque mise à jour, il lui faudra intervenir à nouveau pour adapter le traitement : est-ce-que vous pensez réellement qu'on peut mettre en place un écosystème économique digne de ce nom si nous n'avons pas confiance dans les sources de l'application ? Sommes-nous condamnés à ne réaliser que des applications "one shot" ou à revoir systématiquement les traitements à chaque mise à jour découverte au petit bonheur la chance ?Mon propos n'est absolument pas de stigmatiser data.gouv.fr dont est tiré mon exemple, mais plutôt de dénoncer le peu d'attention dont font preuve les porteurs de projets Open Data en France aux moyens nécessaires pour permettre une véritable utilisation professionnelle et sur le long terme des données qu'ils mettent à disposition. Oui, il faut investir plus de temps et d'argent, mais c'est le prix à payer pour que les données soient réellement exploitées, il existe un véritable retour sur investissement. En réalité, cela démontre à quel point l'Open Data n'est aujourd'hui qu'un argument politique, de la poudre aux yeux pour faire preuve d'une soi-disant transparence qui n'en a que le nom, la plupart des citoyens étant incapable d'exploiter les données mises à disposition.Depuis quelques temps, j'avais le sentiment que l'Open Data tel qu'il est pratiqué aujourd'hui en France est un échec total et ce genre d'exemple ne fait que me conforter dans cette vision. Il est indéniable que la mise à [...]



Information numérique : défintions et enjeux

Sun, 04 Dec 2011 20:43:17 +0000

Alors que j'étais en train de préparer une nouvelle formation, je suis retombé sur différents diaporamas que j'avais constitués à l'époque où je travaillais sur la pérennisation de l'information numérique. Comme je n'en aurai plus vraiment l'utilité, je me suis dit qu'il pourrait être intéressant de les partager, plutôt que les laisser dans un recoin de mon disque dur. Last but not least, cela me permettait d'alimenter ce blog, largement en déshérence ces derniers temps...

Ce diaporama est le résultat de la fusion d'une formation que j'avais mise au point pour présenter les enjeux de la pérennisation de l'information numérique à mes collègues d'Atos Origin, lorsque je travaillais sur le projet SPAR de la BnF et d'une présentation de ces problématiques à destination de décideurs. Vous reconnaîtrez peut-être certaines diapos de Manue, en particulier la fameuse disquette.

Placé sous licence CC-BY, ce diaporama est à votre disposition. N'hésitez pas, c'est fait pour ça.

src="http://www.slideshare.net/slideshow/embed_code/10459338" width="500" height="418" frameborder="0" marginwidth="0" marginheight="0" scrolling="no">