Un open data à péage pour une donnée de service public ?

Article du 16 mai 2016
Open Data

 

Si la notion de libre partage de l’information n’est pas nouvelle, les principes fondateurs de l’open data ont été mis au point par une trentaine spécialistes du web en décembre 2007 à Sebastopol, en Californie[1]. L’open data s’est alors rapidement généralisé et a emporté dans son sillage bon nombre d’institutions et d’entreprises en France. Ces dernières années, l’open data a fait l’objet d’une attention particulière du gouvernement notamment avec la mise en place de la mission Etalab.

 

Le mouvement reste jeune et les interrogations quant à son cadre juridique sont nombreuses. En effet, après la loi Valter, votée en décembre 2015, 2016 sera marquée par la loi Lemaire, plus ambitieuse, qui vient tout juste d’être examinée par le sénat. Celle-ci prévoit les conditions de libération de la donnée des EPIC* (SNCF, ADEME, …) et pose le principe de la donnée d’intérêt général. Derrière cette dénomination se cache une volonté de s’affranchir du statut juridique de l’entité qui détient la donnée et de cibler certaines données détenues par les entreprises de service public. Celles-ci devraient être mises à disposition à des « formats ouverts et lisibles par machine », et « consultables gratuitement ». Atlante vous en avait proposé une analyse dans son article Et la donnée devient d’intérêt général…
Mais si l’Etat souhaite inciter les acteurs du service public à libérer leurs données, bon nombre d’entre eux tels qu’ERDF, RTE ou encore la SNCF ont d’ores et déjà mis en place une plateforme dédiée à l’open data. En effet, plusieurs études (McKinsey[2], Sedralab[3]) estiment qu’une circulation complètement libre et généralisée de la donnée pourrait générer des bénéfices colossaux grâce à une réutilisation à grande échelle, l’externalisation de l’innovation et l’établissement de nouveaux partenariats.

 

Dans ce contexte d’ouverture gratuite et généralisée de la donnée, pourquoi certains acteurs du service public prônent-t-ils l’utilisation de système de redevances dans leur stratégie open data ? Décryptage.

Une valeur de la donnée

La redevance peut en premier lieu servir à couvrir les coûts de mise à disposition des données. Cette stratégie était notamment employée par certaines entités publiques mais est désormais encadrée par la loi Valter, qui fixe comme principe la gratuité de l’ensemble de donnée de l’administration. Désormais, les frais de mise à disposition de certains jeux de données, “préalablement fixés par décret, après avis de l’autorité compétente”, en l’occurrence la Cada (Commission d’accès aux documents administratifs), pourront être couverts par une redevance. Par ailleurs, pour certains acteurs les coûts de mise à disposition peuvent être dérisoires et ne suffisent pas à expliquer l’emploi d’une redevance.

A contrario, le phénomène s’éclaire au regard d’une analyse de la valeur de la donnée pour un acteur donné. Les auteurs de l’ouvrage Datanomics attribue à la donnée trois formes de valeur distinctes mais non exclusives[4] :

  • lorsqu’elles sont revendues par ceux qui les collectent, les produisent ou les agrègent, les données prennent une forme de matière première;
  • lorsqu’elles sont utilisées, sans marchandisation, par exemple pour réduire les coûts ou développer les revenus, elles prennent une forme de levier;
  • lorsqu’elles constituent une arme stratégique pour défendre et conquérir une position concurrentielle, elles prennent une valeur d’actif.

Ainsi, lorsqu’elle est distribuée largement et gratuitement, la donnée ne peut avoir la valeur de matière première.

 

Le cercle vertueux de l’open data

Il est important de noter que la valeur de la donnée diffère selon les acteurs, entre celui qui la libère et ceux qui l’utilise.

Par exemple, la ville de Grenoble recense, publie et met à jour l’âge de chacun des arbres de la ville afin d’assurer le suivi de l’évolution de son patrimoine. Cette donnée ne génère à priori pas de valeur pour la ville. Cependant la startup Bigdatex[5] projette de réutiliser cette donnée afin de prédire la durée de vie des arbres de la ville. Cette information est transmise aux gestionnaires d’espaces verts afin d’améliorer leur efficacité.

La donnée produite par Grenoble a donc une valeur d’actif pour Bigdatex, puisqu’elle leur permet de développer un nouveau service. La donnée qui en est issue a une valeur de matière première pour Bigdatex et de levier pour les gestionnaires de services d’espaces verts et permet ultimement, une amélioration de l’environnement de Grenoble. Par transitivité, la réutilisation faites par Bigdatex confère au jeu « les arbres de Grenoble » une valeur de levier pour Grenoble.

 

De façon similaire, ERDF, engagée dans l’open data, disposera d’un grand nombre de données grâce à son nouveau compteur Linky et pourrait être amenée à partager encore plus de données ou à consolider ses jeux existant. En particulier, les données propres à chaque utilisateur de Linky pourront être connu de lui (et de lui seul) et lui permettront, si elles sont couplées à des offres tarifaires innovantes, d’adapter sa consommation (ou sa production) de façon à optimiser ses coûts. Cette sensibilisation accrue au prix en temps réel de l’énergie assurera un lissage de la courbe de charge journalière et pourrait permettre la généralisation du contrôle de charge, améliorant ainsi les conditions d’opération du réseau. De part sa mise à disposition aux utilisateurs, la donnée issue de Linky a un effet de levier pour l’opérateur et l’utilisateur du réseau d’électricité.

 

Ces exemples illustrent non seulement que la valeur d’un jeu de données dépend de l’acteur qui y accède, mais aussi que sa réutilisation par d’autres acteurs lui confère une valeur. La redevance peut alors assurer un partage des retombées économiques générées par la donnée sur l’ensemble de sa chaine de réutilisation. On pourrait imaginer être rémunéré par Facebook dès lors qu’on y ajoute du contenu ou par Google lorsqu’une recherche est effectuée, à l’instar de YouTube qui partage une partie de ses gains avec ses contributeurs majeurs. Cependant, la redevance ne doit pas devenir un frein à l’innovation et il convient alors d’adopter un modèle économique en adéquation avec les réutilisations prévues de la donnée libérée.

 

Quand ouverture des données rime avec ouverture à la concurrence

La notion de partage est d’autant plus pertinente lorsque, contrairement aux exemples précédents, la donnée ouverte a une valeur d’actif stratégique pour l’acteur qui la produit. Sa mise à disposition peut alors faire l’objet d’une réutilisation par un concurrent et nuire à l’activité économique de l’acteur libérateur.

C’est le cas des données relatives au trafic temps réel des TGV et trains Intercité de la SNCF. Ces données, produites par la SNCF, lui permettent d’opérer SNCF-voyages, ses applications voyageurs, et peuvent être utilisés par des applications tierces concurrentes.

Elles sont aussi mises à disposition sur la plateforme open data de la SNCF selon un modèle économique freemium : leur utilisation est gratuite pour un faible nombre de requêtes, au delà, une redevance définie par la SNCF s’applique. Cette stratégie assure aux développeurs et start-up un accès à moindres frais aux données et sert de protection à l’actif qu’est la donnée.

En effet, pour Guillaume Pepy, PDG de la SNCF, le principal concurrent de la SNCF est aujourd’hui Google[6] : en ouvrant les données relatives au trafic et l’offre ferroviaire, la SNCF s’expose à une intermédiation telle qu’elle existe dans le secteur aérien où la réservation de billet en ligne est dominée par les plateformes de comparaison d’offres. Cela pourrait dégrader la position actuelle de la SNCF et impliquer :

  • une diminution des parts de marché de SNCF-voyages et des applications voyageurs SNCF,
  • une perte d’une partie de la relation client,
  • le paiement d’une commission d’apport de trafic aux plateformes de comparaison d’offres.

Afin d’éviter cette situation et défendre sa position, la SNCF pourrait appliquer des tarifs prohibitifs sur des très grands volumes de requêtes et ainsi bloquer l’accès de ses données aux géants du net.

 

La SNCF n’est pas la seule du secteur ferroviaire à être touchée puisque la RATP fait aujourd’hui face à un conflit d’intermédiation avec l’application Citymapper.

Cette application, qui fonctionne déjà dans une trentaine de ville dans le monde, dont Lyon, permet aux usagers d’adapter leur itinéraire en cas de perturbations, grâce à des informations en temps réel fournies gratuitement par les opérateurs de réseau.

Cependant, la RATP n’accepte pas de lui fournir gratuitement de telles données. Outre des aspects techniques (serveurs RATP non dimensionnés pour un gros volume d’accès[7]), la RATP identifie l’application Citymapper comme un concurrent potentiel en matière d’information voyageur[8]. En effet, la RATP propose elle aussi une application : utilisée par 1,2 millions de personnes quotidiennement[9] elle permet d’optimiser ses déplacements grâce à une information en temps réel sur les conditions de transports en commun.

En limitant l’accès à Citymapper, la RATP cherche ainsi à protéger son actif et propose d’établir un système de partage des retombées économiques liées à la réutilisation de a données :

  • afin de couvrir une partie de ses coûts en infrastructure informatique ;
  • mais aussi car l’application pourrait dérober/uberiser la relation client à la RATP et « monétiser » les données utilisateurs qu’elle a acquise.

 

Des modèles économiques adaptés aux stratégies open data

Le freemium est le modèle économique employé par la SNCF et pourrait l’être par la RATP. Il peut permettre :

  • d’inciter le développement de nouvelles applications. En effet, la phase de développement d’une application ne nécessite pas un grand nombre de requêtes. De plus, l’acteur libérateur peut contrôler les réutilisations faites de ses données, puisqu’un partenariat est nécessaire, lorsque le nombre de requêtes excède le seuil de gratuité défini ;
  • un partage de la valeur à hauteur de la réutilisation de la donnée grâce à une analyse des retombés économiques des réutilisations ;
  • de limiter l’accès à la donnée à certain acteurs, dont le volume de réutilisation pourrait être trop élevé, à travers des redevances au montant prohibitif. De façon similaire à la SNCF, le Grand Lyon met à disposition sur sa plateforme open data, des données relatives à la circulation automobile temps réel. Ces données sont soumises à un modèle freemium, dont le but affiché par la métropole est de garantir la mise en place d’un « écosystème concurrentiel équitable ». Outre une incitation à l’innovation, il s’agit d’éviter qu’un acteur accède à une situation monopolistique grâce à « une redevance élevée dès le franchissement de seuils relatifs aux parts de marchés »[10].

S’il assure une grande flexibilité, ce modèle nécessite toutefois une analyse, qui peut être complexe, des impacts économiques des réutilisations faites par chaque acteur de la donnée afin d’établir le montant de la redevance.

 

Une stratégie alternative consiste à définir un échelonnage de redevances fixes dont l’acquittement permet d’accéder à différents niveaux de service. Ce modèle est le premium et peut permettre :

  • d’inciter le développement de nouvelles réutilisations ;
  • une estimation unique et universelle de l’échelonnage des redevances. En effet, les montants sont les mêmes pour tous les acteurs. Les recettes perçues peuvent notamment servir à couvrir les coûts du libérateur et à rémunérer sa qualité de service ;
  • un partage de la valeur entre le libérateur et les acteurs réutilisateurs. Toutefois, l’emploi d’une redevance fixe peut faire apparaître de forts écarts entre les recettes issues de la revente des données et les bénéfices liés à sa réutilisation.

Ce modèle est utilisé par Météofrance, qui propose les prévisions météorologiques issus de ses modèles en accès gratuit avec une redevance fixe pour accéder à une qualité de donnée accrue. La vente de ces données à fort enjeu permettait de rémunérer une partie de l’activité de l’institution, dont les coûts se sont amoindris grâce aux nouvelles technologies, ainsi que de couvrir les coûts de mises à disposition de ses volumineux jeux de données, actualisés plusieurs fois par jour pour certains.

 

A noter, qu’il est possible d’imaginer des modèles économiques hybrides.

 

Conclusion

L’utilisation de redevances, souvent critiquée par les puristes de l’open data, peut assurer :

  • outre le recouvrement des coûts de mise à disposition pour l’acteur libérateur ;
  • le partage des bénéfices de la réutilisation de la donnée sur l’ensemble de sa chaine de valeur ;
  • la limitation de sa diffusion et éventuellement le blocage de certains types de réutilisations,
  • une incitation aux acteurs collecteurs de données à élargir le champs des données mises à disposition.

Ces objectifs traduisent la volonté de mettre en place une régulation sur les retombées économiques de la donnée, par les acteurs de l’open data. Ils témoignent alors de la jeunesse du mouvement, de la difficulté d’évaluer son évolution et d’établir un cadre régulatoire pertinent. A ce titre, l’UFE[11] propose une série de recommandations pour le secteur de l’électricité, qui est un service publique collecteur et diffuseur de données, dont le but est d’établir un écosystème open data uni, équitable et à la portée de tous à travers notamment :

  • recommandation 1 : l’utilisation de formats standardisés ;
  • recommandation 3 : la modernisation de l’accès aux données et l’élargissement des données qui peuvent être mises à disposition.

 

 

[*] EPIC : Etablissement public à caractère industriel et commercial

[1] http://www.paristechreview.com/2013/03/29/brief-history-open-data/

[2] http://www.mckinsey.com/business-functions/business-technology/our-insights/open-data-unlocking-innovation-and-performance-with-liquid-information

[3] http://www.serdalab.com/etude/donnees-publiques-en-france-strategies-de-diffusio/

et http://www.groupe-estia.fr/article-open-data/

[4] S. Chignard et LD Benyayer, Datanomics, 2015, https://donneesouvertes.info/2014/07/04/datanomics-les-strategies-data-de-linternet-des-objets/

[5] http://www.verseo-cs.com/data-open-signification-valeurs-societe/

[6] http://www.lenouveleconomiste.fr/sncf-contre-google-20090/

[7] http://www.lemonde.fr/economie/article/2016/04/09/citymapper-cette-start-up-qui-agace-la-ratp_4899122_3234.html

[8] http://www.lesechos.fr/industrie-services/tourisme-transport/021834237979-open-data-bras-de-fer-entre-la-ratp-et-lappli-citymapper-1213301.php

[9] http://www.igen.fr/app-store/2016/04/open-data-conflit-ouvert-entre-la-ratp-et-citymapper-95454

[10] http://data.grandlyon.com/comprendre-la-demarche/

[11] UFE et Atlante & Cie, DONNÉES ÉNERGÉTIQUES : NOUVEL ELDORADO ÉCONOMIQUE ?, 2016, http://ufe-electricite.fr/publications/etudes/article/donnees-energetiques-nouvel