Téléchargement d’ensembles de données brutes
Accès public aux données du Projet FeederWatch
Le Cornell Lab of Ornithology et Oiseaux Canada se sont engagés à rendre les données récoltées dans le cadre de leurs programmes librement accessibles aux étudiants, aux journalistes et au grand public. Nos cartes de base, graphiques de tendances, tableaux sommaires par État et province, entre autres, sont tous accessibles en ligne à partir de l’onglet Vos données en action du site web du Projet FeederWatch.
Raw data access for research scientists
Les chercheurs qui souhaitent effectuer des analyses formelles à l’aide des données du Projet FeederWatch sont invités à télécharger les données brutes en suivant les liens ci-dessous. Comme pour toute utilisation d’un ensemble de données, il est essentiel de connaître la structure des données, de comprendre les métadonnées, de maîtriser les protocoles de collecte des données et d’être conscient des aspects uniques du programme afin de mener des analyses et d’interpréter les résultats de manière à obtenir des informations valables. Bien que les données soient librement accessibles, nous invitons les chercheurs à consulter les scientifiques du Cornell Lab of Ornithology ou d’Oiseaux Canada (coordonnées au bas de la page) afin de s’assurer que les données sont traitées et analysées judicieusement.
Veuillez noter que les fichiers de données brutes sont volumineux (correspondant à plus de 1,8 million de listes d’observation) et nécessitent une bonne maîtrise des logiciels statistiques (par exemple SAS ou R) ou des outils de base de données avancés (par exemple MySQL, Microsoft Access). Le Projet FeederWatch ne dispose pas du personnel nécessaire pour vous aider à utiliser ces outils ou pour créer des sous-ensembles personnalisés des données brutes. Néanmoins, nous sommes heureux de vous donner accès à l’ensemble des données et de vous fournir des instructions sur leur utilisation et leur interprétation.
Accès aux données brutes
Le Dictionnaire des données du Projet FeederWatch explique tous les champs et les codes utilisés dans la base de données. Il est essentiel de le consulter pour comprendre l’ensemble de données.
Les fichiers de données, fournis dans le format .csv, seront téléchargés dans votre ordinateur une fois que vous aurez cliqué sur le lien. Étant donné la grande taille des fichiers (de 380 mégaoctets à 1,3 gigaoctet), les données sont divisées en plusieurs fichiers de listes d’observation:
checklist data 1988-1995
checklist data 1996-2000
checklist data 2001-2005
checklist data 2006-2010
checklist data 2011-2015
checklist data 2016-2020
checklist data 2021-2024
De plus, il existe un fichier contenant de l’information supplémentaire sur les sites de dénombrement:
site description data (all years)
Il existe également un tableau de traduction des espèces qui répertorie les formes reconnaissables enregistrées dans la base de données du Cornell Lab of Ornithology à l’aide d’un «code d’espèce» conforme au système taxonomique d’eBird.
Dernière mise à jour: 5 juin 2024. Les données sont mises à jour chaque année le 1er juin ou aux environs de cette date.
Information importante à consulter avant d’analyser des données du Projet FeederWatch
Un article scientifique (en anglais) décrivant l’ensemble de données est disponible pour plus de détails au-delà de ce qui est décrit ici: «Over 30 years of standardized bird counts at supplementary feeding stations in North America: A citizen science data report for Project FeederWatch». 2021. D. N. Bonter et E. I. Greig. Frontiers in Ecology and Evolution, doi.org/10.3389/fevo.2021.619682.
Validation des données
Comme pour tous les programmes scientifiques participatifs à grande échelle, il est impossible de valider chacun des millions d’enregistrements soumis dans le cadre du Projet FeederWatch. Nous nous efforçons de réduire le nombre d’erreurs au minimum, mais un faible pourcentage des rapports de dénombrement du Projet FeederWatch sont incorrects et les analystes doivent être conscients que les erreurs d’identification, de saisie et autres peuvent échapper à notre système de validation des données.
Toutes les données du Projet FeederWatch sont soumises à une série de filtres géographiques et temporels qui signalent les mentions d’espèces (ou de comptes élevés) inattendus à un endroit donné en une certaine période de l’année. La résolution géographique est relativement grossière (un filtre par État/province) et la résolution temporelle est mensuelle. Seules les mentions d’espèces signalées par les filtres font l’objet d’un examen manuel systématique. Un signalement peut être supprimé par l’expert chargé de l’examen sans demande d’informations complémentaires, ou des preuves supplémentaires peuvent être demandées. Si des informations supplémentaires sont demandées mais insuffisantes pour valider la mention signalée, cet enregistrement reste dans la base de données et est identifié comme une mention non confirmée. Les enregistrements signalés sont identifiés à l’aide d’une combinaison des champs «Valid» et «Reviewed», tels que définis ici:
Valid = 1; Reviewed = 0
Interprétation: La mention d’espèce n’a pas déclenché le système automatique de signalement et a été acceptée dans la base de données sans examen.
Valid = 1; Reviewed = 1
Interprétation: La mention d’espèce a déclenché le système de signalement et a été approuvée par un réviseur expert.
Valid = 0; Reviewed = 1
Interprétation: La mention d’espèce a déclenché un signalement par le système automatique et a été examinée, mais il manquait d’information suffisante pour valider la mention.
Valid = 0; Reviewed = 0
Interprétation: La mention d’espèce a déclenché un signalement par le système automatique et n’a pas encore été examinée.
Erreurs possibles non détectées par les filtres automatisés
Le système de signalement ne détecte pas toutes les erreurs potentielles. Par exemple, si une espèce est identifiée à tort comme une autre espèce pouvant être présente dans la région, cette mention ne sera pas signalée pour examen. En d’autres termes, un Pic mineur peut être identifié à tort comme un Pic chevelu, car ces espèces sont souvent sympatriques. Nous recommandons donc aux analystes de données d’examiner attentivement les espèces incluses dans leurs analyses. Nous regroupons souvent les espèces difficiles à distinguer dans nos analyses. Par exemple, les mentions de la Mésange de Caroline et de la Mésange à tête noire sont analysés comme «espèces de mésanges» dans les régions où les aires des deux espèces se chevauchent. Un regroupement similaire est suggéré pour les Éperviers bruns et les Éperviers de Cooper (Accipiter sp.), ainsi que pour les Roselins familier, pourpré et de Cassin (Haemorhous sp.).
Par ailleurs, une erreur de saisie peut passer pour une erreur d’identification. Un participant peut vouloir signaler une espèce donnée, mais saisir l’information sur une autre espèce. Bien que l’évolution des processus de saisie de données ait donné lieu à la conception de formulaires papier et de pages web qui réduisent au minimum le risque de telles erreurs, il peut s’en produire quand même.
Bien que nous sachions que les données contiennent des erreurs, notre expérience dans le traitement et l’utilisation de ces données nous amène à penser que ces erreurs sont généralement minimes et que l’analyse de ces données permettra de dégager des tendances réelles sur le plan de la biologie. Tous les grands ensembles de données contiennent des erreurs. Nous nous efforçons d’en réduire le nombre le plus possible, mais nous conseillons néanmoins à toute personne qui analyse ces données de les traiter, les analyser et les interpréter en gardant à l’esprit qu’elles ne sont pas parfaites.
Données sur l’effort de dénombrement
Comme pour toute donnée de surveillance, une observation enregistrée dépend à la fois de l’événement biologique (le nombre d’espèces réellement présentes) et du processus d’observation (probabilité qu’un individu, lorsqu’il est présent, soit observé). Les probabilités de détection peuvent être estimées de manière formelle à l’aide des données du Projet FeederWatch (voir l’article de Zuckerberg et al. 2011 dans la liste des publications du Projet FeederWatch). Lorsqu’une estimation formelle ne peut être effectuée, nous recommandons vivement aux analystes d’inclure au minimum les prédicteurs du processus d’observation, l’effort fourni par les participants (nombre de demi-journées et/ou nombre d’heures d’observation) comme prédicteurs dans leurs modèles statistiques, afin de décrire les probabilités croissantes d’observer des oiseaux à mesure que le temps consacré aux observations augmente.
Remplissage par des zéros et «cumul taxonomique»
Dans la plupart des cas, les chercheurs souhaiteront manipuler les données du Projet FeederWatch de l’une ou l’autre des manières suivantes avant de les utiliser: 1) remplissage par des zéros et 2) «cumul taxonomique». Le remplissage par des zéros consiste à ajouter des comptes d’aucun oiseau (zéro) pour les espèces qui n’ont pas été signalées comme détectées pendant une période d’observation. Il s’agit d’une étape clé, car les données brutes ne sont disponibles que sous forme de données de présence. Nous utilisons le terme «cumul taxonomique» pour désigner la combinaison de sous-espèces et de formes taxonomiques distinctes lorsqu’il existe plusieurs codes d’espèces pour un taxon donné. Pour un sous-ensemble d’espèces, les participants au Projet FeederWatch peuvent spécifier le niveau de forme reconnaissable au lieu de signaler leur observation au niveau taxonomique de l’espèce (par exemple, le Junco ardoisé a de nombreuses formes, notamment hyemalis et mearnsi). Par conséquent, dans la plupart des cas, il faut s’assurer que toutes les données relatives à une espèce ont la même valeur de code d’espèce.
Pour aider les chercheurs à analyser les données du Projet FeederWatch, nous fournissons un code R permettant le remplissage par des zéros et le «cumul taxonomique». Cette ressource est mise à leur disposition dans plusieurs formats aux endroits suivants:
Dépôt de données GitHub public
Zero-filling and Taxonomic Roll-up PDF
Télécharger le PDFNous référençons deux fichiers dans la documentation: 1) un modèle d’ensemble de données de 2021 et 2) une table de traduction d’espèces comprenant une liste de formes reconnaissables stockées dans la base de données du Cornell Lab of Ornithology utilisant un «code d’espèce» basé sur le système taxonomique d’eBird. Ces fichiers sont accessibles ci-dessous:
Sample dataset
Télécharger le PDFSpecies translation table
Télécharger le PDFPublications scientifiques utiles pour les analystes
Les analystes pourront trouver dans des publications scientifiques déjà parues des informations détaillées sur le processus d’analyse de données du Projet FeederWatch. Voyez une liste d’articles scientifiques dont les auteurs ont utilisé des données du Projet FeederWatch.
Données personnelles
Les participants au Projet FeederWatch sont identifiés dans la base de données par leur numéro unique attribué par le Cornell Lab of Ornithology ou Oiseaux Canada. Nous ne divulguons pas les noms, adresses, coordonnées ou autres renseignements personnels des participants sans leur autorisation expresse. Pour les signalements confirmés d’oiseaux rares, nous pouvons publier les rapports accompagnés du nom, de la localité et de l’État ou de la province de l’observateur sur le site web du Projet FeederWatch, et nous retirons ces rapports de la vue du public lorsque cela nous est demandé. Veuillez noter que les signalements d’oiseaux rares publiés sur notre site web peuvent également être consultés sur la carte des oiseaux rares.
Crédit accordé au Projet FeederWatch
Notre ensemble de données unique dépend entièrement des efforts de notre réseau de participants bénévoles. Nous demandons à tous les analystes d’accorder le crédit aux milliers de participants qui ont rendu et rendent le programme possible, ainsi qu’à Oiseaux Canada et au Cornell Lab of Ornithology, qui ont élaboré le programme et en assurent la gestion.
Consultation de membres du personnel du Cornell Lab of Ornithology ou d’Oiseaux Canada
L’analyse de grands ensembles de données est complexe et nécessite des compétences particulières tant pour mener les analyses elles-mêmes que pour manipuler les données afin de les mettre sous une forme appropriée pour l’analyse. Il est préférable d’analyser ces données en collaboration ou en consultation avec des membres du personnel de recherche du Cornell Lab of Ornithology ou d’Oiseaux Canada qui ont l’habitude de travailler avec les données du Projet FeederWatch. Veuillez noter que nos ressources sont limitées, ce qui peut restreindre notre capacité de réaction aux demandes et l’étendue de notre assistance. Nous ferons de notre mieux pour répondre à toutes les demandes dans la mesure où notre temps et nos ressources le permettent. Nous concentrerons nos efforts sur les questions relatives aux processus généraux d’analyse des données du Projet FeederWatch plutôt que sur les aspects techniques de l’utilisation de logiciels spécifiques pour mener à bien ce processus. En cas de besoin, nous vous suggérons de communiquer avec les personnes-ressources suivantes:
David Bonter, Ph. D., co-directeur, Center for Engagement in Science & Nature, Cornell Lab of Ornithology: dnb23@cornell.edu
Wesley Hochachka, Ph. D., associé de recherche principal, Cornell Lab of Ornithology: wmh6@cornell.edu
Danielle Ethier,Ph. D., scientifique principale, Oiseaux Canada:dethier@birdscanada.org