Machine Learning in Drug Discovery and Drug Design

Schroeter, Timon

Machine Learning in Drug Discovery and Drug Design

Schroeter, Timon

In dieser Dissertation werden sieben Studien vorgestellt, die sich mit der Entwicklung prädiktiver Modelle zur Anwendung in der Wirkstoffsuchforschung beschäftigen. Es wurden drei neue Algorithmen entwickelt um die Genauigkeit von Vorhersagen zu erhöhen, einzelne Vorhersagen zu erklären sowie Hinweise zur Optimierung von Molekülen zu gewinnen. Konkret wurden Modelle für die folgenden Eigenschaften chemischer Verbindungen entwickelt: Metabolische Stabilität, Ames Mutagenität, Wasserlöslichkeit, Verteilungskoeffizienten, Cytochrom P450 Inhibition, PPAR-gamma Bindung und den hERG-Ionenkanal Blockade Effekt. Aus Sicht des maschinellen Lernens ist die Chemoinformatik ein Anwendungsfeld mit vielen Herausforderungen, nicht nur, weil keine bis heute entwickelte Repräsentation chemischer Moleküle deren dynamischen dreidimensionalen Charakter adäquat beschreibt, sondern auch, weil in typischen Anwendungsfällen fundamentale Annahmen verletzt werden, die den meisten Algorithmen des maschinellen Lernens zu Grunde liegen. Weder werden Trainings- und Testdaten ideal identisch verteilt aus der gleichen Wahrscheinlichkeitsverteilung gezogen, noch sind die bedingten Wahrscheinlichkeiten für die Labels (gemessenen Eigenschaften) bei gegebenen Features (Deskriptoren) für Trainings- und Testdaten gleich. Darüber hinaus zeigen alle Eigenschaften, die Molekulare Erkennung beinhalten, extreme Sprünge, sog. Activity Cliffs. Um der Tatsache gerecht zu werden, dass, unabhängig vom verwendeten Lernalgorithmus, eine große Zahl von Testverbindungen nicht akkurat vorhergesagt werden können, wurden Gauß-Prozess Modelle in die Chemoinformatik eingeführt, denn deren prädiktive Varianzen können direkt als Schätzung der Zuverlässigkeit der Vorhersage interpretiert werden. Der praktische Nutzen dieses Vorgehens wurde in Studien zu Verteilungskoeffizienten, Wasserlöslichkeit und der Metabolischen Stabilität gezeigt. Es wurden zwei verschiedene Algorithmen entwickelt, um Vorhersagen (ggf. auch nicht-linearer) maschineller Lernmodelle zu erklären. Die erste Methode erklärt Vorhersagen durch Visualisierung der relevantesten Objekte (Moleküle) aus der Trainingsmenge des Modells. Für alle Verfahren des maschinellen Lernens, für die das verallgemeinerte Representer Theorem gilt, kann man den normierten Beitrag jedes Trainingsobjekts zur Vorhersage analytisch berechnen. In einer Fallstudie zur Ames Mutagenität wurde gezeigt, dass, durch Anpassung der Kernweite von Gauß-Kernen, Gauß-Prozess Klassifikationsmodelle erzeugt werden können, deren Vorhersagen jeweils nahezu vollständig durch eine kleine Zahl von Trainingsobjekten determiniert werden. Diese führen zu intuitiv verständlichen Visualisierungen, die auch aus chemischer Sicht überzeugen. Der zweite Algorithmus verwendet lokale Gradienten der Vorhersage um die lokal wichtigsten Features (Deskriptoren) zu ermitteln. Für Gauß-Prozesse können die lokalen Gradienten analytisch ermittelt werden. In einer Fallstudie zur Ames Mutagenität wurden sowohl Toxikophore als auch Detoxikophore korrekt identifiziert und selbst eine lokale Besonderheit im chemischen Raum (das untypische Verhalten der Steroide) wurde erkannt. Obwohl Wirkstoffdesign die ursprüngliche Motivation und das erste Anwendungsfeld für die neuen Algorithmen zum Erklären individueller Vorhersagen waren, lassen sich beide resultierenden Algorithmen auf eine große Vielfalt von Fragestellungen übertragen. In jedem Bereich, in dem Menschen dabei unterstützt werden sollen, Entscheidungen zu fällen, können Erklärungen von Modellvorhersagen wertvoll sein.

This thesis presents seven studies about constructing predictive models for application in drug discovery and drug design. Three new algorithms have been developed to improve the accuracy of predictions, explain individual predictions and elicit hints for compound optimization. More specifically, predictive models for the following properties of chemical compounds have been developed: Metabolic Stability, Ames Mutagenicity, Aqueous Solubility, Partition Coefficients, Cytochrome P450 Inhibition, PPAR gamma binding and the hERG Channel Blockade Effect. From the point of view of machine learning, chemoinformatics is a very challenging field of endeavor, not only because as of today, no existing representation adequately captures the dynamical three dimensional nature of chemical molecules, but also because in typical drug discovery applications, fundamental assumptions common to most machine learning algorithms are severely violated. Neither are training and test data sampled ideally identically distributed from the same underlying probability density, nor is the conditional distribution of labels (measurements) given the input features (descriptors) the same in training and test data. Lastly, all properties concerned with molecular recognition can exhibit sudden extreme changes, so called activity cliffs. To cope with the fact that, regardless of the learning algorithm employed, many predictions for test compounds may not be correct, Gaussian Process models have been introduced into the field of chemoinformatics, because their predictive variances can directly serve as individual confidence estimates. The practical usefulness of predictive variances has been established in studies on Partition Coefficients, Aqueous Solubility and Metabolic Stability. Two separate algorithms for explaining individual predictions of (possibly non-linear) machine learning models are presented. The first method explains predictions by the means of visualizing relevant objects (molecules) from the training set of the model. For all machine learning methods covered by the generalized representer theorem, one can calculate the normalized contribution of each training data point analytically. In a case study on Ames Mutagenicity, it was found that by tuning the width-parameter of radial basis function kernels, Gaussian Process Classification models can be obtained where the prediction for each test compound is almost completely determined by very few training compounds, leading to intuitively understandable visualizations that were found to be convincing from a chemists point of view. The second algorithm utilizes local gradients of the model's predictions to obtain the locally most relevant features. In case of Gaussian Process models, local gradients can be calculated analytically. In a case study on Ames Mutagenicity, toxicophores and detoxicophores were identified correctly and even local peculiarities in chemical space (the extraordinary behavior of steroids) was discovered. While drug design served as the original motivation and testbed for developing algorithms for explaining individual predictions, both new methods can be applied to a wide range of modeling tasks. Wherever human experts are to be supported in making decisions, explanations of predictions will be valuable.

Datenanalyse Erklärungskomponenten Maschinelles Lernen Medikamente Optimierungshilfen Data analysis Drugs Explanation Vectors Hints for Optimization Machine Learning

Dokument_11.pdf

Adobe PDF — 8.1 MB

Full item page

🆕 Date Issued:	2009-11-25
🗄 In DepositOnce:	2009-11-25

Machine Learning in Drug Discovery and Drug Design

Schroeter, Timon

Inst. Softwaretechnik und Theoretische Informatik

Dokument_11.pdf