Nouveaux cours de science des données sur edX

La science des données est un sujet qui revient semaine après semaine sur ce site. Quatre nouveaux cours ajoutés à la plateforme edX intéresseront tous ceux qui souhaitent évoluer dans cette discipline. Deux des cours sont de niveau introductif et les deux autres abordent la question de l’éthique.

Plus tôt ce mois-ci, dans Data Scientists Salary Data, qui a révélé que la forte demande de personnes possédant des compétences en science des données s’est traduite par un salaire supérieur à la moyenne et de bons salaires de départ, j’ai souligné un certain nombre d’opportunismes de formation de la part de fournisseurs en ligne, notamment un Master en science des données. Sur edX qui implique un engagement considérable à la fois financièrement et en termes de temps. En revanche ces nouveaux cursus sont relativement courts et tous libres d’audit,

Divulgation : Lorsque vous effectuez un achat après avoir suivi un lien vers un fournisseur de cours à partir de cet article, nous pouvons gagner une commission d’affiliation.

Comprendre le monde à travers les données est un cours de 9 semaines, 3-6 heures par semaine, du MIT (Massachusetts Institute of Technology) qui a commencé pour la première fois le 18 octobre et se poursuivra jusqu’au 20 décembre. Seuls les étudiants sur la piste vérifiée (49 $) auront accès au matériel de cours après cette date.

Il s’agit d’un cours d’introduction pratique dans lequel les étudiants examinent toutes les formes sous lesquelles les données existent, apprennent des outils qui découvrent les relations entre les données et exploitent des algorithmes de base pour comprendre le monde sous un nouvel angle.

Il comprend quatre modules dont chacun contient des vidéos, de courts exercices et un projet final de synthèse (bien que les devoirs notés ne soient pas inclus si vous suivez la piste d’audit gratuite).

Dès le départ le cours utilise Python, mais :

Vous n’avez pas besoin d’avoir de connaissances en programmation, nous vous guiderons sur la façon d’exploiter Python pour explorer et visualiser toutes les données.

Selon son texte de présentation, les étudiants apprendront :

  • Programmation Python et environnement de programmation de notebook Colab
  • Variables dépendantes et indépendantes
  • Trouver des relations entre les données à l’aide de modèles de régression linéaire et polynomiale
  • Reconnaître comment les données sont distribuées
  • Comment observer le bruit dans les distributions et quand l’ignorer
  • Catégoriser les données en groupes avec des modèles de classification

Introduction à la science des données avec Python est un cours à votre rythme d’une durée de 8 semaines à raison de 3 à 4 heures par semaine et issu de l’Université de Harvard. La piste vérifiée, qui délivre un certificat de réussite, coûte 199 $.

Le cours commence :

La science des données est un domaine en constante évolution, utilisant des algorithmes et des méthodes scientifiques pour analyser des ensembles de données complexes.

Décrivant à quoi s’attendre, il continue:

En utilisant Python, les apprenants étudieront les modèles de régression (linéaire, multilinéaire et polynomial) et les modèles de classification (kNN, logistique), en utilisant des bibliothèques populaires telles que sklearn, Pandas, matplotlib et numPy. Le cours couvrira les concepts clés de l’apprentissage automatique tels que : choisir la bonne complexité, empêcher le surajustement, la régularisation, évaluer l’incertitude, peser les compromis et évaluer le modèle. La participation à ce cours renforcera votre confiance dans l’utilisation de Python, vous préparera à des études plus avancées en apprentissage automatique (ML) et en intelligence artificielle (IA) et à l’avancement de votre carrière.

Le plan de cours présente le contenu semaine par semaine :

  1. Régression linéaire
  2. Régression multiple et polynomiale
  3. Sélection du modèle et validation croisée
  4. Biais, variance et hyperparamètres
  5. Classification et régression logistique
  6. Régression multi-logstique et absence
  7. Bootstrap, intervalles de confiance et tests d’hypothèses
  8. Projet Capstone (piste vérifiée uniquement).

Les deux autres nouveaux cours proviennent de Statistics.com, un nouveau partenaire pour 2U, la société qui a acquis edX en 2021 et qui compte désormais neuf cours sur edX parmi son catalogue de plus de 80 cours. Avec une expérience de 20 ans, il a été parmi les premiers établissements à adopter l’enseignement et l’apprentissage en ligne et a été le premier établissement d’enseignement en ligne à être approuvé par l’American Council on Education.

datastatcom

Les deux cours qui forment ensemble un programme sur l’éthique des sciences des données s’adressent à la fois aux praticiens et aux gestionnaires. Chacun dure 4 semaines en supposant 4 à 5 heures par semaine. Ils sont auto-rythmés et peuvent être audités gratuitement. Si vous voulez faire plus que suivre le contenu, le certificat pour chacun est de 198 $.

Comme le texte de présentation pour Principes d’éthique de la science des données explique le contexte du programme :

Les inquiétudes concernant les effets néfastes des algorithmes d’apprentissage automatique et des modèles d’IA (biais et plus) ont entraîné une plus grande attention aux fondamentaux de l’éthique des données. Des reportages apparaissent régulièrement sur les algorithmes de crédit qui discriminent les femmes, les algorithmes médicaux qui discriminent les Afro-Américains, les algorithmes d’embauche qui fondent les décisions sur le sexe, et plus encore. Dans certains cas, ceux qui ont développé et la plupart de ces algorithmes et processus de données n’avaient pas de telles intentions et n’étaient pas conscients de l’impact néfaste de leur travail.

À la fin de ce cours, les étudiants seront capables de :

  • Identifier et anticiper les types de dommages non intentionnels pouvant résulter des modèles d’IA
  • Expliquez pourquoi l’interprétation est essentielle pour éviter les dommages
  • Distinguer les modèles intrinsèquement interprétables des modèles de boîte noire
  • Évaluer les compromis entre les performances du modèle et l’interprétation
  • Établir un cadre de science des données responsable pour leurs projets

La suite du parcours, Éthique appliquée de la science des données, fournit des conseils et des outils pratiques pour construire de meilleurs modèles couvrant spécifiquement :

  • Outils d’interprétation du modèle
  • Méthodes d’interprétation du modèle global versus local
  • Métriques pour l’équité du modèle
  • Audit de votre modèle pour la partialité et l’équité
  • Remèdes pour les modèles biaisés
    Le cours propose des problèmes et des ensembles de données du monde réel, un cadre que les scientifiques de données peuvent utiliser pour développer leurs projets et un processus d’audit à suivre pour les examiner. Des études de cas avec des considérations éthiques, ainsi que du code Python, sont fournies. newedxlogo

.

Leave a Comment

Your email address will not be published. Required fields are marked *