Nouveau : Datasets open source gratuits disponibles !Decouvrir →

Datasets Open Source

Des jeux de donnees gratuits et librement reutilisables. Explorer, comparer, acceder aux sources.

219 datasets 13 categories 4 formats
🤖

French Financial News

ML / IA

[!NOTE] Dataset origin: https://www.kaggle.com/datasets/arcticgiant/french-financial-news Context This dataset contains around 41 500 french news from 11/2018 to 03/2021 scraped on a famous financial

Parquet Voir la source
🤖

French Legal Glossary

ML / IA

[!NOTE] Dataset origin: https://www.kaggle.com/datasets/bernardngandu/french-legal-glossary Content: Contains a collection of legal terms in French alongside their corresponding categories. Structure:

Parquet Voir la source
💹

Culture - Action de la région en faveur de la restauration du patrimoine de 2016 à 2024 en région Hauts-de-France

Finance

Cette carte des Hauts-de-France représente les projets de restauration du patrimoine protégés et non protégés (public et privé sans distinction) soutenus par la Région sur la période 2016 à 2024. Pour

CSV notspecified
🤖

Base Permanente des Equipements BPE 2023 Sport Loisir Culture CD76

ML / IA

La base permanente des équipements (BPE) est une base de données à vocation statistique tenue à jour par l’Insee qui répertorie un large éventail d'équipements et de services, marchands ou non, access

CSV lov2
🤖

Claire Dialogue English 0.1

ML / IA

Claire English Dialogue Dataset (CEDD) A collection of English dialogue transcripts This is the first packaged version of the datasets used to train the english variants of the Claire family of large

Parquet Voir la source
🤖

Réseau CVLmobilité - plan de transport théorique ligne A (format GTFS)

ML / IA

CC Chinon Vienne et Loire, AOM locale, organise une ligne régulière de transport en commun reliant Saint-Benoît-la-Forêt, Chinon, Beaumont-en-Véron, Avoine, Port-Boulet et Bourgueil. La donnée présent

CSV lov2
🤖

French Orca Dpo Pairs Revised

ML / IA

Full revision of the dataset AIffl/french_orca_dpo_pairsfrench translation of the 12k DPO Intel/orca_dpo_pairs built from Orca style dataset Open-Orca/OpenOrca. Revision made with mistral-large-2402 f

Parquet Voir la source
🤖

French MMLU Medical Genetics Benchmark

ML / IA

💻 Dataset Usage Run the following command to load the testing set: from datasets import load_dataset dataset = load_dataset('shuyuej/French-MMLU-Medical-Genetics-Benchmark', split='test') print(datas

Parquet Voir la source
🤖

Eng To French Translation

ML / IA

Dataset Eng To French Translation disponible sur HuggingFace pour le traitement du langage francais.

Parquet Voir la source
🏛️

Cold French Law

Gouvernement

Collaborative Open Legal Data (COLD) - French Law COLD French Law is a dataset containing over 800 000 french law articles, filtered and extracted from France's LEGI dataset and formatted as a single

Parquet Voir la source
🤖

Spelling Correction French News

ML / IA

Spelling correction dataset (French) This dataset is generated by transforming/corrupting sentences of a French news corpus provided by the University of Leipzig. The following transformations are app

Parquet Voir la source
💹

Résultats Elections Européennes 2024

Finance

Ce fichier contient les résultats des élections européennes du 9 juin 2024 à Issy-les-Moulineaux, bureau de vote par bureau de vote, liste par liste. Le fichier contient les données de localisation de

CSV notspecified

Chaque semaine, le meilleur de la tech francaise

Tendances, salaires, outils et opportunites — directement dans votre boite mail.

Gratuit. Desabonnement en un clic. Pas de spam.