Nouveau dans Communications Chemistry (Nature, 2026) – Notre équipe a co-écrit une étude évaluée par des pairs qui valide ce que nous avons toujours cru chez Molecular Forecaster : lorsque vous construisez des outils de ML avec de vraies connaissances en chimie, vous obtenez des résultats qui peuvent être transférés dans le monde réel.
Une meilleure chimie pour de meilleures prédictions
En matière de découverte de médicaments, le pKa n’est pas qu’un simple chiffre : c’est le gardien de la solubilité, de la perméabilité, de la stabilité métabolique et de la formulation. Si vous vous trompez ne serait-ce que d’une unité, votre composé principal risque de ne jamais passer le premier filtre ADMET. La plupart des prédicteurs de pKa basés sur le ML actuellement sur le marché sont formés sur des empreintes moléculaires avec peu d’informations chimiques intégrées. Ils obtiennent de bons résultats avec des molécules qui ressemblent aux données d’entraînement, mais se heurtent à des difficultés dès qu’ils rencontrent un nouveau scaffold – exactement le scénario qui compte le plus dans une véritable campagne de découverte de médicaments.
C’est cette lacune que nos collaborateurs de l’Université McGill nous ont aidés à combler avec pKaLearn, un nouveau modèle de prédiction du pKa. L’idée de base reflète la philosophie fondatrice d’MFI : la chimie au cœur de notre activité. . Au lieu de laisser un algorithme s’auto-apprendre à partir de données brutes, notre équipe a encodé les mêmes principes fondamentaux sur lesquels s’appuie tout chimiste médicinal – électronégativité, effets inductifs, stabilisation de la résonance, polarisation de la liaison – directement dans l’architecture du modèle. Le résultat est un outil qui ne se contente pas de mémoriser, mais qui comprend.
Ce que cela signifie pour votre pipeline
Performance en tête-à-tête (MAE, plus elle est faible, mieux c’est) :
pKaLearn 0.59 · Chemprop 0.62 · MolGpKa 0.68 · Epik 0.79–0.83 · Marvin 0.80–0.86 · AP-DNN 1.80
Pourquoi c’est important
Il ne s’agit pas d’un simple exercice académique. pKaLearn reflète directement la manière dont nous construisons chaque outil chez Molecular Forecaster – en encodant la chimie réelle dans des flux de travail informatiques, et non en jetant des données dans une boîte noire et en espérant le meilleur. Qu’il s’agisse du docking covalent tenant compte des mécanismes de FITTED, des prédictions de métabolisme CYP d’IMPACTS ou de nos modèles d’ADMET par GNN, la ligne directrice est la même : l ‘expertise du domaine est la caractéristique qui compte le plus.
L’étude a également révélé qu’une fonction de conjugaison largement utilisée dans RDKit – qui constitue la base de nombreux pipelines de chimio-informatique – est fondamentalement erronée pour la prédiction du pKa. La correction de cette seule définition a permis d’améliorer la précision de 6 %. C’est le genre d’informations sur la chimie qui ne peuvent être obtenues que par des équipes qui comprennent à la fois le code et la science.
Détails de la publication
Genzling, J., Luo, Z., Weiser, B. & Moitessier, N. « Development of a pKa predictor (pKaLearn) by leveraging teaching experience to improve machine learning ». Communications Chemistry (2026). DOI : 10.1038/s42004-026-01983-y Code et données : github.com/MoitessierLab/pKaLearn
Souhaitez vous savoir comment les outils informatiques axés sur la chimie peuvent accélérer votre pipeline ?
Visitez-nous sur – molecularforecaster.com
