Dans le monde en constante évolution de l’apprentissage automatique pour la découverte de médicaments, les ensembles de données de référence jouent un rôle essentiel pour faire avancer le progrès et l’innovation. Ils constituent un outil essentiel pour évaluer et comparer différents algorithmes et modèles. Cependant, à mesure que le domaine progresse, les chercheurs ont reconnu plusieurs défis majeurs associés aux ensembles de données de référence.
Un article (en anglais) de Pat Walters met en lumière un grand nombre de ces défis et souligne la nécessité de les relever pour garantir la fiabilité et la généralisation des modèles d’apprentissage automatique. Nos observations, détaillées dans un manuscrit où nous développons nos prédictions d’apprentissage automatique en matière d’inhibition des CYP, font écho à ses réflexions sur le sujet :
- « représentations chimiques cohérentes« . Par exemple, nous (et d’autres) avons identifié de nombreux cas dans lesquels les composés ont une protonation incorrecte ou des états tautomériques irréalistes, qui doivent être corrigés avant l’apprentissage d’un modèle. Sinon, ces modèles suivront l’adage informatique bien connu : « garbage-in, garbage-out ».
- les « erreurs de conservation des données« , qui impliquent l’apparition de structures non valides ou en double dans les ensembles de données de référence. Dans notre travail, l’ensemble de données disponible, géré par plusieurs groupes, contenait encore des incohérences et des structures non valides ou dupliquées. Nous nous sommes donné beaucoup de mal pour analyser ces jeux de données et supprimer ces structures de notre recherche.
- « La stéréochimie« , que nous considérons comme l’un des problèmes les plus difficiles à résoudre lors de l’élaboration d’ensembles de référence. Comme l’explique Pat dans son article, les ensembles de données contiennent souvent des composés dont les centres chiraux ne sont pas définis. Cela peut résulter d’erreurs de curation ou d’une véritable incertitude quant à la définition correcte de la stéréochimie. Bien sûr, les composés biologiquement actifs ont des centres chiraux très bien définis (voir par exemple R/S-warfarin, R/S-thalidomide, et d’autres), et il est donc important de ne pas attribuer la stéréochimie au hasard.
Vous pouvez également consulter certains de nos autres travaux pour lesquels ces questions requièrent une attention particulière.