Ca cocotte! Publication Scientifique - un blog qui clarifie les enjeux de la production académique

jeudi 31 août 2017

Publication de données scientifiques

Dataset : le libre choix de licence au chercheur-auteur !

[Publication 31.08.2017]


Choisissez ce qui convient à votre recherche! (Photo Fruit stall at Barcelona market CC BY-SA Andy Mitchell)
Un dataset, nouveau type de publication de jeu de données scientifiques, est soumis à droit d'auteur. Le choix d'une licence, le datalicensing, est délicat. Il doit tenir compte de l'intégrité scientifique, du droit d'auteur, et du contexte de la recherche. Le choix de datalicensing revient au chercheur-auteur, qui maîtrise le mieux le contexte de sa recherche.

Les hautes-écoles, coordonnées avec swissuniversities, devraient communiquer cette liberté de choix au plus vite, et proposer des marches à suivre dans des commentaires de règlements ou dans des page web institutionnelles.

Cette clarification présenterait des avantages pour le chercheur-auteur. Il pourrait ainsi:

  • éviter de s’arracher les cheveux lors de la rédaction d'une requête au Fond National Suisse (FNS): « qui sera propriétaire des données et quelles licences seront appliquées?» 
  • profiter de pratiques de dataset licensing cohérentes entres hautes écoles; 
  • être motivé à publier des datasets par l'exercice de la liberté de choix de licence.



Le droit d’auteur sur les datasets n’est pas réglé par la LDA ou les règlements universitaires

Depuis octobre 2017, la rédaction d'un Data Management Plan (DMP) est demandé par le Fond National Suisse (FNS) lors d'une requête de financement de projet. Si le FNS stipule que ce plan sera requis mais pas évalué, il demande toutefois un contenu crédible. L'introduction de ce nouveau document dans le processus de recherche de fonds est donc perçu par bien des chercheurs comme une contrainte administrative supplémentaire uniquement.
La Loi sur le Droit d'Auteur (LDA) ne comporte pas d'information au sujet des datasets, et les règlements des hautes écoles suisses non plus. Les informations des rectorats et les avis des chercheurs divergent, en raison d'imprécisions de langage et de règlements lacunaires sur la question. 

Comment un chercheur peut-il répondre de façon crédible à la question du DMP du FNS: "qui sera propriétaire des données et quelles licences seront appliquées?" [DataManagement Plan, point 2.3], si son employeur académique ne lui fournit pas de réponse claire sur ses droits pour le datalicensing?

Le paysage du droit d'auteur en Suisse sur les données de recherche est confus

Sur la page du site Citation de l'EPFL sur les données de la recherche, on peut lire:
  • " Les données brutes de la recherche ne sont pas protégées par le droit d'auteur. Une fois divulguées, elles peuvent être utilisées par tout le monde. L'auteur (d'un ensemble) de données de recherche doit être cité. Cela ne découle donc pas du respect du droit d'auteur, mais de l'intégrité scientifique".
De la LDA, on peut interpréter que: 
  • Elle protège uniquement la forme des idées, et non les idées intellectuelles ou informations factuelles, afin de ne pas en entraver la circulation. Les données de la recherche publiées sont dans le domaine public, et le droit d'auteur ne s'y applique pas. 
Toutes les plateformes de publication de dataset demandent une licence. Comment le chercheur en Suisse peut-il savoir s'il peut choisir une licence sur un dataset préparé par ses soins? Et/ou est-ce son institution qui le décide?

La position des hautes écoles suisses sur le droit d'auteur d'un dataset n'est pas arrêtée

Me Florian Ducommun rend compte de sa préoccupation du droit d'auteur sur les données de la recherche le 22 mars 2016 déjà, bien avant l'émission de la nouvelle directive du FNS [transcriptions personnelles de la vidéo, Les enjeux du droit d’auteur, de la propriété intellectuelle et des licences CC, dans Table ronde et conclusions de la Gestion des Données de Recherche, UniL, 20' à 21 ':23'' ]:
  • " Les données de la recherche ne sont pas nécessairement protégées par des droits de propriété intellectuelle, c'est une zone grise ". 
  • " Dans le DMP, il faudrait régler cette question là, de la propriété des données de recherche, savoir si elles sont détenues par l'Université, et/ou par le chercheur (...) il y a une vraie réflexion à mener à ce niveau là, au final la loi ne dit rien quant au droit d'auteur et données de recherche, tout se fait au niveau contractuel, (..) ce flou juridique peut être problématique quand on veut publier des données".
Un an plus tard, au printemps 2017, deux personnalités phares de l'Université de Lausanne en matière de gestion des données ont déclaré :
Les instructions relatives au DMP par le FNS, le site d'information sur les techniques de citation de l'EPFL, ou les déclarations du vice-recteur sont exactes. Mais elles gagneraient à être précisées pour faciliter la compréhension du chercheur sur ses droits et devoirs en matière de publication de données de recherche qu'il a produites. 

Les données de la recherche sont de différents types

Toute recherche génère des données
  • administratives liées au projet (formulaires de demandes de fonds, reporting financier des dépenses, gestion des salaires, achats, etc);
  • brutes (mesures, enquêtes, images, ou code informatique, etc);
  • analysées (calculs, traitements statistiques, modèles, etc);
  • visualisées (graphiques, tableaux, simulations, etc). 
Parfois, des recherches ne génèrent que des données administratives, et pas de données brutes ou analysées. Les recherches peuvent se baser sur l'analyse de textes publiés ou des archives, qui donnent lieu à des interprétations comme en histoire ou en droit. 

Mais toutes les recherches académiques génèrent des données sous forme de textes et visualisation de résultats dans des rapports, articles peer-reviewed, chapitres, livres, revues critiques, proceedings de conférence, appelés publications. 

En Suisse, la totalité des données générées administratives, brutes, analysées et codes informatiques sont la propriété des hautes écoles suisses qui emploient le chercheur d'un projet, ou en cotitularité avec d'autres organismes publics (par exemple un hôpital) et/ou le canton. A l'exception des droits d'auteurs sur les publications qui appartiennent aux chercheurs-auteurs. C'est ce que montrent les extraits des règlements de quelques hautes écoles romandes ci-dessous.

Les règlements des hautes écoles swissuniversities ne définissent pas le terme publication
  • UniGe: Loi sur l'Université
    Art. 15 Propriété intellectuelle - A l’exception des droits d’auteur sur les publications, l’université est titulaire des droits de propriété intellectuelle portant sur toutes les créations intellectuelles ainsi que les résultats de recherches, y compris les programmes informatiques, obtenus dans l’exercice de leurs fonctions par les personnes ayant une relation de travail avec l’université. Est réservée la cotitularité entre l'université et les Hôpitaux universitaires de Genève des droits de propriété intellectuelle lorsque ces inventions émanent de personnes ayant également une relation de travail avec les Hôpitaux universitaires de Genève (...)

  • HES-SO Genève: Loi sur la Haute école spécialisée de Suisse occidentale
    Art. 9 Propriété intellectuelle - A l’exception des droits d’auteur sur les publications et les créations artistiques, la HES-SO Genève est titulaire des droits de propriété intellectuelle portant sur toutes les créations intellectuelles ainsi que les résultats de recherches, y compris les programmes informatiques, obtenus dans l’exercice de leurs fonctions par les personnes ayant une relation de travail avec la HES-SO Genève ou par les étudiantes et les étudiants dans le cadre de leur formation ou d’un mandat de recherche (...)

  • UniL: Loi sur l'Université
    Art. 70 - Propriété intellectuelle - A l'exception des droits d'auteur, l'Université est titulaire des droits de propriété intellectuelle portant sur toute création intellectuelle technique ainsi que sur des résultats de recherche obtenus par les membres du corps enseignant dans l'exercice de leurs activités au service de l'Université. Sont réservés les accords comportant des clauses de cession ou de licence en faveur de tiers ayant financé partiellement ou totalement les recherches (...) Dans la mesure où une obligation contractuelle ou le maintien du secret ne s'y opposent pas, les membres du corps enseignant restent libres d'utiliser et de communiquer les résultats de leurs recherches à des fins scientifiques ou académiques, à l'exclusion d'une utilisation commerciale.

  • Loi fédérale sur les écoles polytechniques fédérales applicable à l'EPFL
    Art. 36 - Droits sur des biens immatériels - Tous les droits sur des biens immatériels que des personnes ayant des rapports de travail au sens de l'art. 17 créent dans l'exercice de leur activité au service de leur employeur reviennent aux EPF et aux établissements de recherche; les droits d'auteur ne sont pas concernés par cette disposition (...). 
On peut constater que le mot publication n'est pas défini, ou est absent de ces règlements et remplacé par l'expression droit d'auteur applicable. Ce qui donne précisément à ces lois universitaires la souplesse requise pour inclure de nouveaux types de publication qui émergent avec internet. Il semble que peu de contrats de travail entre haute école suisse et chercheur employé comprennent l'explicitation du droit d'auteur sur des types de publication, ce sont plutôt des cotitularités qui sont parfois précisées.

Un dataset comprend des données et des contextes 

A ma connaissance, il n’y a pas de travaux publiés par les hautes écoles suisses sur le droit d'auteur expliquant comment l’appliquer ou non, et comment l'interpréter au cas des datasets. Les projets Information Scientifique de la Confédération Competence Center Digital Law (CCDigitalLaw) et Data Life Cycle Management (DLCM) n’ont pas émis de recommandations ou explications sur le sujet non plus.  

Un dataset peut comprendre des données
  • biomédicales; 
  • géologiques; 
  • environnementales; 
  • physique; 
  • mathématiques; 
  • chimiques; 
  • financées en partie par l'industrie; 
  • générées, traitées et analysées par un(des) chercheur(s) en Suisse et à l'étranger; 
  • sensibles, telles que les données cliniques, sociales, éducationnelles ou psychologiques. Elles nécessitent une formule de consentement avant la recherche comprenant un paragraphe d'autorisation explicite de la publication de données codées ou anonymisées, la précision de la forme d'accès et qui peut accéder aux données; 
  • sous forme de code informatique; 
  • mélangées à des données réutilisées avant analyse. 
Un dataset est constitué de :
  • fichiers de données brutes et analysées sous forme de nombres, bien souvent sous format .csv et dans le domaine public. Ces fichiers, sans aucune forme originale ne sont pas soumis au droit d'auteur, mais leur préparation peut être très longue, et/ou;
  • fichiers de textes descriptif d'obtention des données et/ou des textes dans les champs des descripteurs de la base de données de datasets (protocoles, réglages de machines, justification d'un choix de modèle animal, justification d'un choix de méthode statistique, etc) soumis à droit d'auteur, et/ou;
  • fichiers de visualisation de données sous forme de tableaux, graphiques, images annotées et transformées, simulations, qui sont des créations originales. Ces éléments de dataset sont soumis à droit d'auteur. 
Un dataset simple est une publication dont les données de recherche ne nécessitent pas la concertation préalable et/ou l'aval d'une commission éthique et/ou juridique, qui examinent la compatibilité de la publication avec le droit des affaires, le droit à la protection des données et à la vie privée, les droits d'auteur d'autres pays, et des clauses de confidentialité. Ces cas ne relèvent pas du problème du droit d'auteur: il s'agit de savoir s'il est possible de publier ou non des données, et au besoin, comment les préparer (anonymisation, codage) à la publication pour les rendre conformes aux dispositifs légaux en vigueur.

Le régime du dataset peut être clarifié par une loi universitaire, une archive institutionnelle, ou un site web
  • Loi universitaire
    Université de Cambridge (Grand-Bretagne), page Licensing, competition and data misuse
    Q. Who owns my dataset? University researchers and students retain intellectual property rights where they arise, or the right to apply for such rights, from the results of activities undertaken by University staff in the course of their employment by the University and by students in the course of their study at the University in accordance with Chapter XIII of the University’s Statutes and Ordinances on Finance and Property, subsection Intellectual Property Rights - this also includes datasets. In other words, unless the contract with your funder (or your collaborators) states otherwise, if you are the creator of your dataset, you will be the primary owner of the intellectual property rights.
  • Site web
    L'EPFL a choisi d'informer le chercheur de son droit de choix de licence sur le site web researchdata par un schéma décisionnel, sans modifier sa loi universitaire et sans ajout de commentaire.
Selon cette interprétation, dans la pratique:
  • On rencontre des datasets constitués uniquement de données analysées ou brutes ou d'un mélange des deux. Un dataset est parfois exigé pour avoir le droit de publier dans un journal particulier (exemple PloS ou Nature Communications dans le biomédical). Parfois, la publication d'un dataset de données brutes est volontaire et est accompagnée ou non d'un article peer-reviewed appelé data paper. Pour le moment, il est rare que des datasets de projets de recherche publiques incluent des données administratives;
  • Dans le cas de la publication d'un dataset sur des données brutes qui n'ont pas (encore) généré de publications, un chercheur-auteur doit vérifier qu'aucune situation légale, éthique, de confidentialité, ou de compétitivité de son groupe ne s'y oppose. Il doit obtenir l'aval du(des) porteur(s) de projet(s), des collaborateurs, et/ou de son institution pour publier;
  • Le droit d'auteur s'applique uniquement sur le dataset, et pas sur les données en tant que telles, puisqu'elles ne sont pas protégées par ce droit, même une fois publiées;
  • Une fois le dataset publié, les mêmes données brutes et analysées dans les ordis, serveurs de labos et d'institution, les cahiers papiers et électroniques et toutes les données non publiées, appartiennent encore et toujours à l'institution qui emploie ou employait le chercheur. A moins qu'un contrat écrit de l'employé en stipule la cotitularité. 

La liberté de choix de licence comporte déjà des limitations contractuelles

La liberté de choix de licence peut être limitée par l'université
  • Au MIT, le chercheur-auteur peut choisir n'importe quelle licence. Mais à Cambridge University, la CC BY est fortement recommandée, au contraire de la la CC0 qui n'est pas n'est pas mentionnée dans les licences proposées :  CC BY, CC BY-SA, CC BY-ND, CC BY-NC, CC BY-NC-SA, CC BY-NC-ND (GNU et GPL v3 pour le code informatique) [source]. 
La liberté de choix de licence peut être limitée par la plateforme de dépôt et ses conditions générales 
  • chez Zenodo, un dataset ne peut pas être simplement en libre d'accès et rester sous droit d'auteur (= mention copyright dans la pratique);
  • chez Dryad, le chercheur-auteur est contraint d'apposer une licence CC0 sur un dataset accompagnant un article peer-reviewed. 
La liberté de choix de licence peut être limitée par un journal
  • Certains journaux imposent une licence sur le dataset d'accompagnement de l'article, qui peut être différente de celle exigée par la plateforme de publication du dataset. 
La liberté de choix de licence peut être limitée par l'agence de financement
  • A défaut de dépôt FAIR thématique existant, le FNS recommande les plateformes de publication multidisciplinaires comme Zenodo, Dryad, HarvardDataverse et Eudat (et voir la remarque ci-dessus pour Zenodo et Dryad)
  • le FNS conditionne sa participation financière aux frais de dpôt de datasets sur des plateformes de type FAIR [source], à but non commercial. Mais il n'interdit pas de publier un dataset sur un dépôt à but commercial lucratif: à ce moment, les coûts de préparation des données sont encore pris en charge par le FNS, mais les frais de dépôt de gros volumes chez Figshare ne le sont pas, contrairement à Dryad, à but non lucratif. Les frais de préparation et dépôt sont financés jusqu'à 10'000 frs.
Le dataset licensing en sciences humaines, sociales et économiques est souvent inapplicable en raison des lois fédérales suisses en matière de protection des données (Loi sur la Protection des Données, LPD et droit des affaires)
  • Conformément au droit suisse, les datasets issus des sciences sociales doivent rester sur territoire Suisse, et être déposées par exemple sur FORSBase. Cette plateforme assure aux participants d'une recherche sensible, l'anonymisation de leurs données personnelles, des critères d'accès, et des contrats utilisateurs aux données sous condition strictes, conformément aux formulaires de consentement rempli par les participants avant le début de la recherche. Dans ce cas, le dataset licensing s'applique pas, car les données ne sont pas rendues publiques en permanence [source], il n'est pas publié au sens classique du terme. Mais, chose très importante, le dataset est préparé et disponible pour les personnes qui remplissent les droits d'éligibilité pour l'accès et/ou une reéutilisation. 

La licence CC0 n'efface jamais le devoir de citation de la source

Une réutilisation d’informations publiées pour de nouvelles recherches est un standard scientifique. On peut réutiliser et republier de courts extraits de textes, sans autorisation du titulaire du droit d'auteur, mais en citant la source pour se conformer à la norme de l'intégrité scientifique. On peut republier des données publiées chiffrées brutes, analysées, ou administratives, sans l'autorisation de l'auteur. Elles sont dans le domaine publique, et ne sont pas soumises à droit d'auteur, mais il faut citer la source pour se conformer à la norme de l'intégrité scientifique. 

Les licences CC ne règlent pas la citation, mais la reproduction (= republication) d'une oeuvre (=création originale), par exemple textes littéraires et textes scientifiques, ou images à caractère original qui sont automatiquement soumis au droit d'auteur. Les images brutes scientifiques ne sont pas soumises au droit d'auteur.  

De ce point de vue, la licence CC0 n'a pas vraiment de sens sur un dataset. Lorsqu'on en réutilise les données et qu'on les republie amalgamées avec d'autres, il faut toujours citer les sources, comme l'exige la norme de l'intégrité scientifique. Dans la même perspective, l’utilisation d’une licence CC BY pour avoir la sécurité d’être cité ne fait pas sens non plus. C'est l'intégrité scientifique qui exige la citation des sources. 

Dans le monde artistique, la licence CC0 permet la reproduction d'une oeuvre dans son intégralité sans mentionner l’auteur. Mais dans le monde scientifique, cette chose est interdite par l'intégrité scientifique. La question de la pertinence de la licence CC0 appliquée au dataset est à discuter!? 

Les licences CC permettent la republication des textes de datasets

Un dataset est donc bien une nouvelle sorte de publication soumise automatiquement au droit d'auteur du chercheur-auteur, pour différentes raisons:

  • Lcommon law américaine et britanique, et le droit sui generis en Europe, reconnaissent les efforts d'arrangement en temps et/ou financier de fichiers de données contextualisées par des textes et/ou visualisées. Les bases de données qui répondent à ces critères sont soumis à droit d'auteur, et donc, les datasets qui répondraient à ces mêmes critères pourraient l'être aussi. 
  • La Suisse n'a pas de droit sui generis, mais le rôle de rédacteur et/ou d'éditeur est protégé par le droit d'auteur. 
  • Les textes de contextualisation des données dans les fichiers ou les métadonnées du dataset sont soumis à droit d'auteur.
  • Les données visualisées du dataset sont soumis à droit d'auteur.
On peut republier des données publiées chiffrées brutes, analysées, ou administratives de différents datasets, sans l'autorisation de l'auteur dans un nouveau dataset. Elles sont dans le domaine publique, et ne sont pas soumises à droit d'auteur. Mais il faut citer la source pour respecter la norme de l'intégrité scientifique, inamovible. Il n'y a pas besoin de licences CC pour avoir le droit de réutiliser les données, et les republier, du moment que les sources sont citées. 


Mais on ne peut pas republier des textes recombinés de différents datasets qui sont automatiquement soumis au droit d'auteur, dans un nouveau dataset. Ce sont bien les licences CC qui permettent et facilitent leur republication. La republication des textes de dataset est indispensable pour rendre transparent le travail d'extraction d'information par Text Data Mining (TDM) et la construction d'ontologies pour de nouveaux résultats. Ce standard de transparence par republication des données initiales chiffrées ou textuelles, qui peuvent être assimilées à des données brutes, est très important pour le nouveau domaine de recherche appelé science des données. 

Cette transparence est très difficile à réaliser: la mention de la source de chaque donnée amalguamée et mélangées aux autres datas du nouveau dataset peut être un travail de titan. Il est possible de se contenter d'une liste bibliographique de tous les datasets utilisés, et en omettant de préciser de quel dataset provient chaque donnée. Ou il est possible de générer des scripts pour la gestion automatique de citations et des relations des objets du nouveau dataset avec PROV Ontology (PROV-O) par exemple, mais c'est très difficile à mettre en place. 

Une institution peut mettre en avant la licence CC0, CC BY ou le choix de licence 

1. Mise en avant CC0, et libre choix
L'EPFL a choisit de mettre en avant la licence CC0 pour les datasets, comme première licence à envisager comme le montre le schéma décisionnel de datalicensing du site researchdata. Si la CC0 n'est pas appropriée, les chercheurs sont renvoyés vers un service compétent d'aide pour choisir une licence.   

2. Mise en avant CC BY et libre choix

Cambridge University a choisi de mettre en avant la licence CC BY et  ne recommande pas la licence CC0, probablement afin de ne pas téléscoper la norme de l'intégrité scientifique de la citation des sources. Mais Cambridge n'interdit pas l'utilisation de la licence CC0. Un chercheur peut donc déposer son dataset chez Dryad, qui l'impose. 

" Our recommended licence is CC BY. CC BY requires end users to cite your data but also allows your dataset to be re-used for multiple purposes (thus maximising the impact of your dataset and the potential number of citations)" [source]

3. Pas de mise en avant de licence, explications de choix
Une explication des qualités, désavantages et compatiblité des licences, et du contexte de recherche particulier sont expliqués, sans mise en avant d'une licence:

  • Accès à la demande plutôt que licensing?
    Dans toutes les recherches impliquant des êtres humains ou des entreprises, la protection des données sensibles, la confidentialité et le respect de la LPD se posent. Parfois, seulement une partie des données anonymisées sont publiables, les autres restent en accès à la demande, et d'autres encore sont même cryptées et inaccessibles. L'accès à la demande est nécessaire pour garder la maîtrise de la réutilisation des données. Elle est utile pour éviter de générer des récupérations discriminatoires (racisme, stigmatisation de groupes de personnes) ou des récupérations politiques dépouillées de leur contexte initial. Cet état intermédiaire entre publication et accès total interdit est délicat; il peut servir de prétexte à refuser l'accès aux données, pour des motifs de mauvaise foi, de prétextes de concurrence, et afin de refuser l'épreuve de la reproductibilité. L'enjeu de l'accès à la demande n'est pas le datalicensing, mais le(s) titulaire(s) du droit d'auteur. Il faut réfléchir à son transfert partiel et/ou exclusif à son institution et/ou organisme et/ou canton pour sécuriser au maximum les données?  
  • CC0?
    - Elle entre en contradiction avec le standard scientifique de la citation des sources;
    - Elle est interprétée légalement différemment dans les pays. Dans des projets internationaux, elle est compliquée à appliquer;
    - Certains chercheurs craignent une utilisation commerciale abusive de datasets en CC0 produit grâce à l'argent public;
    - Ou au contraire, la licence CC0 donne le sentiment de favoriser l'innovation;
    - Un partenaire industriel ou économique d'un chercheur académique peut avoir de la peine à accepter une licence CC0, pour des raisons d'investissement et de compétitivité;
    - Des chercheurs craignent une science académique à 2 vitesses, l'une produisant des nouvelles données (recherche expérimentale, terrain, enquêtes), dont les récoltes et traitements sont longs, et une autre serait la science parasite, qui exploiterait ces datasets très rapidement, d'autant plus rapidement si sous licence CC0.
    - Des patients qui ont participé gratuitement à une clinique ont demandé le retrait des données anonymisées après avoir découvert leur publication en CC0, permettant aux industries pharmaceutiques de faire des profits indus à leurs yeux (source orale, non publié).
  • BY (paternité)?
    La licence BY est celle qui est la plus compatible avec les autres licences et qui n'entre pas en conflit avec l'intégrité scientifique de la citation des sources [source]. Elle maximise les chances de réutilsation du dataset par sa haute compatiblité avec des autres licences 
  • SA (share-alike)?
     
    Il faut partager un nouveau dataset sous la même licence que les datasets réutilisés. Publier un nouveau dataset constitué d'une agglomération de données de datasets sous licences différentes est donc impossible.
  • NC (non-commercial)?
    Un chercheur académique avec un partenaire industriel ne peut apposer un CC-BY-NC sur un dataset, ce qui empêche une réutilisation pour un développement industriel ultérieur. Le chercheur devrait aussi penser à la possibilité de breveter au lieu de publier si une application commerciale est en vue. 
  • ND (non derivative)?
    Si le but du dataset est principalement la transparence des données, et que sa réutilisation comporte des risques de récupération ou détournement politique, il serait envisageable d'utiliser ND. Mais ce n'est pas une licence qui protège vraiment de la récupération, un accès à la demande sur par des critères d'éligibilité seraient plus efficace. 
     
Le choix d'une licence par le chercheur-auteur sur un dataset 
  • respecte son droit de liberté académique;  
  • tient compte des qualités, désavantages et compatiblité des licences, du contexte de recherche particulier, ... et des sensibilités du chercheur!?
  • tient compte des limitations de choix déjà imposées par les journaux, les plateformes de publication de dataset et des agences de financement
Le processus de datalicensing peut être balisé pour le chercheur

[modifié de source]
  • assurez-vous que vous et vos co-auteurs possédez bien les droits d'auteurs sur tous les éléments du dataset (illustrations, photos, textes, données), sinon il vous est impossible de le rendre public ou alors entreprenez d'obtenir l'autorisation des ayants-droits;
  • au besoin, prenez conseil auprès des juristes de votre institution pour vérifier la compatibilité de publication du dataset avec les droit des affaires, le droit à la protection des données et à la vie privée, les droits d'auteur d'autres pays, et les clauses de confidentialité;
  • vous n’avez pas toujours le choix du type de licence qui va s’appliquer à votre dataset:
    - relisez les types de licences Creative Commons (CC) disponibles;
    - lisez le règlement de votre agence de financement pour prendre connaissance des dépôts de publication de datasets autorisés et/ou dont les frais sont couverts;
    - lisez les conditions générales du dépôt de publication dans lequel vous souhaitez déposer votre jeu de données ; il peut imposer une licence de diffusion particulière;
    - lisez les instructions aux auteurs du journal: lorsque les données sont liées à un article scientifique, la licence de diffusion choisie pour les données doit répondre aux exigences du journal inclues dans ses conditions générales; 
    - créditez votre dataset avec votre nom et par égard et reconnaissance, ajoutez au moins l'abbréviation de votre institution
Licence / version / nom d'auteur(s) / institution académique(s) qui a employé l'auteur

CC BY 4.0 Murielle Zatinachi/EPFL

CC BY-NC 4.0 Sébastien Dumachin/UniL and Joe Sgurr/UniGe

Illustration inventée de dataset licensing

Une chercheuse désire publier 3 ans après la fin de financement d'un projet FNS, un set d'images de microscopie de cellules du cancer de l'ovaire de la souris, de la catégorie carcinome séreux de haut grade III classique et de la catégorie carcinome séreux de haut grade III et de type tumeur de Brenner
  • Elle obtient le consentement des porteurs de ce projet pour cette publication. Ils estiment que l'ouverture du jeu de données permettrait l'entraînement au diagnostic et l'exploration de nouvelles interprétations histologiques par des chercheurs.
  • Elle crée alors un dataset qui comprend:
    - un jeu d'images .jpeg et .tiff de microscopie optique et fluorescentes correspondantes annotées avec des flèches pour mettre en évidence les observations importantes et particulières (réutilisation pour la formation)
    - un jeu d'images brutes .jpeg et .tiff de microscopie optique et à fluorescence  correspondantes (réutilisation pour la recherche)
    - des fichiers .txt qui contiennent les conditions de culture des cellules, la description de la lignée cellulaire, les protocoles utilisés, et les caractéristiques du microscope, etc
    - des tableaux .csv qui récapitulent pour chaque image, les réglages du microscope, les différents traitements effectués sur les cellules, et les différentes conditions des préparations des lames, etc; 
  • Elle sélectionne la plateforme thématique d'images biomédicales Image Data Resource (IDR), de l'Université de Dundee. Elle est compatible avec les principes FAIR;
  • Elle a choisi la licence sur le dataset CC-BY 4.0 Marie Zibouk/UniL, autorisée par les conditions générales de la plateforme de publication;
  • La citation complète du dataset est: Marie Zibouk. Fluorescent microscopy comparison of classical grade III sereus carcinoma and Brenner tumor. Image Data Resource (IDR):  http://doi.org/[numéro doi]
  • Avec l'accord des porteurs de projet, elle publie 2 images modèles dans wikimedia à des fins d'illustration du cancer de l'ovaire pour des journalistes scientifiques. Dans le crédit de l'image, elle appose la mention Domaine Publique. 2 images aux couleurs artificielles retravaillées sont également publiées, et la chercheuse y appose la licence CC0 et la mention Université de Lausanne. 
Le FNS pourrait clarifier ses documents relatifs au Data Management Plan

Le FNS pourrait clarifier le vocabulaire employé dans ses différents documents DMP et compléter l’information: règlement FNS, DataManagementPlan, DMP Content et Subsides de publications. Par exemples, les phrases:
  • "Frais de la mise à disposition des données" deviendrait "Frais de publication et/ou de préparation des datasets"? 
  • "Quelles licences seront appliquées aux données?" deviendrait "Quelles licences, s'il y a lieu, seront appliquées aux datasets?" 
La rédaction de commentaires de loi universitaire peut être rapide et informer efficacement le chercheur de son libre choix de licences sur dataset


En première étape, en soutien à l'adoption de DMP par le FNS, les hautes écoles de swissuniversities pourraient (au moins essayer!) de rédiger collectivement un texte sur le dataset licensing et contenant:
  • un moyen de surveillance pour l'évaluation de l'impact de l'utilisation de la licence CC0 sur l'intégrité scientifique?
  • le principe de choix de licence au chercheur-auteur?
  • un conseil d'une licence généralement recommandée, CC0 ou CC BY?
  • un sous-ensemble de licences recommandées?
  • des explications de base sur ces licences appliquées à des domaines particuliers;
  • la mention des services d'aide au chercheur pour faire son choix...
... sous forme de commentaires de loi universitaire / FAQ / marche à suivre / site web.

En effet, les modifications des lois universitaires nécessiteraient de longues discussions au niveau de chaque canton et du conseil des EPF, et ne seraient pas coordonnées. De plus, ces règlements renvoient parfois au droit d'auteur applicable ou aux publications de la LDA, qui elle-même ne les définit pas. Le droit d'auteur sur les données et de quel type n'est pas abordé du tout. Modifier la LDA dans ce sens serait un chantier d'un demi-siècle au moins.

Plus largement, Technical University (TU) Delpht a bien compris le défi de la gestion des données, en lançant en 2016 un projet de 3 ans en son sein appellé, Data Stewardship – addressing disciplinary data management needs

" In research data management there tend to be very few (if any) one-size fit all solutions"

[et voir aussi We must urgently clarify data-sharing rules, ajout 07.12.2017]

Il est certain que dans tous les domaines de recherche, la réalisation de datasets, publiés ou non, sont importants pour la transparence, la preuve scientifique, la reproductibilité, la conservation à long terme, et la réutilisation des données pour de nouveaux résultats. 


Pour les nombreux échanges d'opinions, arguments, et suggestions, merci à:
Gérard Bagnoud
Jean-Blaise Claivaz
Jean-Blaise Held
Thomas Henkel
Jan Krause
Cécile Lebrand

Et une jeune juriste passionée pour ce sujet (!)





Aucun commentaire:

Enregistrer un commentaire