Entwicklung chemometrischer Methoden für das in-silico-Wirkstoffdesign

Busemann, Matthias

Entwicklung chemometrischer Methoden für das in-silico-Wirkstoffdesign

Development of chemometric techniques for the in-silico drug design

Please always quote using this URN: urn:nbn:de:bvb:20-opus-18777

Diese Dissertation beschreibt Methoden zur Lösung wichtiger anwendungsorientierter Aspekte des struktur- und ligandbasierten in-silico-Wirkstoffdesigns. Dabei liegt der Fokus auf der Entwicklung chemometrischer Verfahren und der Überprüfung ihrer Leistungsfähigkeit. Die vorgeschlagenen Algorithmen werden mit entsprechenden etablierten Techniken verglichen. Die folgenden Abschnitte fassen die Vorgehensweisen und Resultate in den einzelnen Projektbereichen zusammen. Identifizierung von Outliern. Die Untersuchung eines QSAR-Datensatzes mit demDiese Dissertation beschreibt Methoden zur Lösung wichtiger anwendungsorientierter Aspekte des struktur- und ligandbasierten in-silico-Wirkstoffdesigns. Dabei liegt der Fokus auf der Entwicklung chemometrischer Verfahren und der Überprüfung ihrer Leistungsfähigkeit. Die vorgeschlagenen Algorithmen werden mit entsprechenden etablierten Techniken verglichen. Die folgenden Abschnitte fassen die Vorgehensweisen und Resultate in den einzelnen Projektbereichen zusammen. Identifizierung von Outliern. Die Untersuchung eines QSAR-Datensatzes mit dem Ziel der Outlier-Identifizierung wird in der Praxis häufig vernachlässigt. Dabei ist es offensichtlich, daß kein QSAR-Modell auf jede nur denkbare chemische Verbindung anwendbar sein kann. Vielmehr handelt es sich um empirische mathematische Modelle, die nur innerhalb jenes Datenraums Gültigkeit besitzen, der von den Trainingsobjekten aufgespannt wird. Daher ist jedes Modell auf gewisse Grenzen beschränkt, außerhalb derer eine verläßliche Vorhersage unmöglich ist. Die in dieser Arbeit entwickelte Methode ODD dient der Ermittlung dieser Grenzen und damit der Identifizierung von Outliern, also Objekten außerhalb des Anwendungsbereichs des Modells. Ziel der Entwicklung war ein nur auf den unabhängigen Variablen (X-Daten) basierendes Verfahren, das auch auf hochdimensionaleDatensätze anwendbar ist undweitestgehend auf den Eingriff des Benutzers (etwa die Definition von Grenzwerten) verzichtet. Ebenfalls wünschenswert war die Fähigkeit zur Identifikation von Inliern. Eine ausreichend hohe Geschwindigkeit sollte die Einsetzbarkeit im virtuellen Screening gewährleisten. Die Methode mußte der Überprüfung standhalten, den Vorhersagefehler eines Modells bei Vorhandensein extremer Outlier zu reduzieren, gleichzeitig aber unkritische Datensätze unbeeinflußt zu lassen. ODD basiert auf der Beurteilung der euklidischen Distanz eines Testobjekts zu seinem am nächsten benachbarten Trainingsobjekt. Der Schwellenwert für die Betrachtung eines Objekts als Outlier wird dabei aus der Verteilung der Nächster-Nachbar-Distanzen der Trainingsobjekte berechnet. Durch dieses intrinsische Maß ergibt sich die gewünschte Dimensionsunabhängigkeit und vor allem die automatische Anpassung des Grenzwerts an die Charakteristik des Kalibrierdatensatzes ohne Eingriff des Benutzers. Die Validierung zeigt, daß ODD extreme Outlier zuverlässig erkennt und sich gleichzeitig durch eine im Vergleich zu anderen gebräuchlichen Verfahren geringere Anzahl falsch positiver Identifizierungen auszeichnet. Ensemble-Techniken. In einer vergleichenden Studie wurde die Leistungsfähigkeit verschiedener Ensemble-Techniken hinsichtlich ihres Einflusses auf den Vorhersagefehler untersucht. Dazu wurden umfangreiche Simulationen anhand mehrerer realer QSAR-Datensätze durchgeführt. Die Verwendung von Ensembles (d. h. einer Sammlung vielerModelle, diemit geringfügigmanipulierten Varianten des Trainingsdatensatzes kalibriert wurden) wirkt sich im allgemeinen positiv auf den Vorhersagefehler (RMSEP) aus. Diese Reduzierung des RMSEP wurde hier ermittelt und für verschiedenen Ansätze zur Ensemble-Generierung verglichen. Insgesamt betrachtet erwiesen sich die Methoden der konvexen Pseudodaten und des Baggings als die effektivsten Verfahren zur Ensemble-Generierung, da sie den Vorhersagefehler am deutlichsten verbesserten. Die konvexen Pseudodaten wurden erstmalig zur Erzeugung von Ensembles in der QSAR-Analyse eingesetzt; sie werden als neuer Standard zur Reduzierung des RMSEP bei QSAR-Problemen vorgeschlagen, die Regressionsmodelle auf Basis von latenten Variablen verwenden. Darüber hinaus bieten die Studien eine Abschätzung dermit Hilfe von Ensembles zu erzielenden Reduktion des Vorhersagefehlers bei typischen QSAR-Datensätzen. Virtuelles Screening. Beim virtuellen Screening handelt es sich um eine Technik zum Durchsuchen großer (virtueller)Molekülbibliotheken—oftmehrere Millionen Verbindungen — nach den aussichtsreichsten Wirkstoffkandidaten. Dies kann sowohl durch strukturbasierte als auch mit Hilfe ligandbasierter Verfahren geschehen. Es wurden umfangreiche Simulationen anhand sechs verschiedener Targets und einer Bibliothek von mehr als 90 000 Molekülen durchgeführt, um das Potential strukturbasierter (Docking mit FLEXX) und ligandbasierter (Ähnlichkeitssuchemitmehreren Referenzen) Verfahren zu vergleichen. Darüber hinauswurde durch Berechnung von Interaktionsfingerprints eineMöglichkeit geschaffen, die Information der beiden sonst getrennten Herangehensweisen zu kombinieren. Um den Einfluß des Klassifizierungsalgorithmus zu untersuchen, wurden verschiedene statistische Methoden zur Datenauswertung herangezogen. Als Bewertungskriterium für die Leistungsfähigkeit eines Verfahrens diente jeweils die Anzahl der wiedergefundenen aktiven Moleküle in der simulierten Screeningdatenbank. Die Resultate führen zu dem Schluß, daß ligandbasierte Verfahren, die einfacher einzusetzen sind aber mehr a-priori -Information benötigen, dem strukturbasierten virtuellen Screening hinsichtlich der Datenbankanreicherung überlegen sind. Weiterhin konnte gezeigt werden, wie nutzbringend die Zusammenführung von strukturbasierter Information und solcher über das Interaktionsmuster bekanntermaßen aktiver Verbindungen für die Erhöhung der Wiederfindungsrate ist. Bei der Datenanalyse stellte sich heraus, daß im Mittel bestimmte statistische Methoden (minimale euklidische Distanz ED/Min bzw. Tanimoto-Ähnlichkeit der Integer-Fingerprints Int/Min) zu bevorzugen sind. Kovalentes Docking von Cathepsin-Inhibitoren. Die Cysteinproteasen Cathepsin B und L sind interessante pharmakologische Targets. Geeignete Inhibitoren stammen u. a. aus der Strukturklasse der Aziridine. Ein nukleophiler Angriff des Cysteinrests des Enzyms auf den elektrophilen Aziridinring führt hier zur Ausbildung einer kovalenten Ligand-Rezeptor-Bindung. Praktisch alle erhältlichen Dockingprogramme konzentrieren sich jedoch auf nicht-kovalente Ligand-Rezeptor-Interaktionen und lassen kein uneingeschränktes kovalentes Docking zu. Daher wurde für FLEXX ein Dockingprotokoll entworfen, das den entscheidenden nicht-kovalenten Zustand vor Ausbildung der kovalenten Bindung simulieren kann. Auf dieseWeise konnte untersucht werden, ob sich die Reaktionszentren von Ligand und Enzym ausreichend nahe für die Ausbildung einer kovalenten Bindung kommen. Der vorgestellte Ansatz läßt sich leicht auf andere kovalente Ligand-Rezeptor- Systeme übertragen und bietet somit eine breite Anwendbarkeit. Weiterhin wurde die Parametrisierung der in FLEXX vorgesehenen Interaktionsgeometrien an die strukturellen Eigenheiten der zu dockenden Aziridide angepaßt. Diese weisen nämlich formal eine Amidbindung auf, deren geometrische und elektronische Eigenschaften jedoch deutlich von den Werten eines typischen Amids abweichen. Die Ergebnisse der Dockingstudien liefern wertvolle Einblicke für das Verständnis der Selektivität der untersuchten Liganden bezüglich Cathepsin B beziehungsweise L. Umgekehrt erbringt die gute Übereinstimmung der FLEXX-Resultate mit den experimentell bestimmten Inhibitionskonstanten den Nachweis für die Validität des verwendeten Dockingprotokolls.…
This thesis describes methods for solving important application-oriented aspects of structure-based and ligand-based in silico drug design. The proposed algorithms are compared to well established techniques. The focus is particularly on the development and benchmarking of different chemometric techniques. In the following, the approaches and results within the different project areas are summarised. Outlier Identification. The inspection of QSAR datasets in order to identify prediction outliers is often omitted in practice. However, it isThis thesis describes methods for solving important application-oriented aspects of structure-based and ligand-based in silico drug design. The proposed algorithms are compared to well established techniques. The focus is particularly on the development and benchmarking of different chemometric techniques. In the following, the approaches and results within the different project areas are summarised. Outlier Identification. The inspection of QSAR datasets in order to identify prediction outliers is often omitted in practice. However, it is clear that no QSAR model is applicable to every conceivable chemical compound. Since QSAR models represent empirical mathematical models, these are only valid within the data space spanned by the training data. Hence, every model is restricted to certain borders beyond which a reliable prediction is impossible. The method ODD developed in this work can be used to determine these borders and thus to identify outliers. Those are objects outside the data space spanned by the training data (i.e. the applicability domain of the model). The aim of the method is to detect outliers solely based on the predictor variables (X data). Moreover, the method must be capable to handle high-dimensional datasetswithminimal user interference (e.g. setting of cut-offs). Furthermore, the ability to identify inliers would be preferable. The computational speed should be high enough to apply the method to virtual screening. The developed technique had to prove that it provides a reduction of the model’s error of prediction if extreme outliers are present. At the same time, it should leave non-critical datasets unaffected. ODD is based on the evaluation of the Euclidean distance of a test object towards its nearest neighbouring training object. The cut-off for deeming an object as outlier is calculated from the distribution of the nearest neighbour distances of the training set. This intrinsic value leads to the desired independence from data dimensionality and, above all, to an automatic adjustment of the cut-off to the characteristics of the calibration dataset without any user intervention. The validation shows that ODD reliably identifies extreme outliers. On the other hand, it offers a low rate of false positives compared to other common techniques for outlier identification. Ensemble Techniques. In a benchmark study, the impact of different ensemble techniques on the prediction error was investigated. For this purpose, comprehensive simulations on several real QSAR datasets were carried out. The application of ensembles (i.e. a collection of many models trained with sligthly perturbed versions of the training set) usually lowers the error of prediction (RMSEP). The RMSEP reduction was determined and compared for different approaches of ensemble generation. Overall, the methods of convex pseudo data and bagging proved to be the most efficient ways for ensemble generation (i.e. they resulted in the largest reduction of the prediction error). Convex pseudo data, which were applied toQSAR data sets for the first time as ensemble technique, are proposed as the new standard for lowering RMSEP in QSAR problems using latent variable regression models. Furthermore, the effect size of ensemble averaging was quantified for typical QSAR data sets. Virtual Screening. Virtual screening is a technique to screen large (virtual) molecular databases — often several million compounds — for the most promising drug candidates. This can be done by structure-based as well as by ligand-based approaches. Comprehensive computations on six different targets and a library of more than 90 000 compounds were carried out to compare the potential of structure-based techniques (docking with FLEXX) and ligand-based techniques (similarity searching with multiple queries). In addition to that, interaction fingerprints were computed in order to combine the information of the otherwise distinct approaches. Several statistical methods were applied for data analysis to investigate the impact of the machine learning algorithm. Figure of merit for each approach was the number of active compounds retrieved from the assembled screening database with known actives. The results lead to the following conclusions: Ligand-based approaches, which are simpler to use but require more a priori information, turned out to be superior to structure-based virtual screening techniques in terms of database enrichment. In addition, it could be shown that combination of structure-based information with information of the interaction pattern of known actives is beneficial for increasing retrieval rates. Data analysis revealed that certain statistical methods (minimum Euclidean distance ED/Min, and Tanimoto similarity of integer fingerprints Int/Min, respectively) are on average to be preferred. Covalent Docking of Cathepsin Inhibitors. Cysteine proteases Cathepsin B and L are interesting pharmacological targets. Suitable inhibitors, amongst others, come from the structural class of aziridines. A nucleophilic attack of the enzyme’s active site cysteine moiety on the electrophilic aziridine ring leads to formation of a covalent bond between ligand and receptor. However, virtually all available docking programs concentrate on noncovalent ligand-receptor interactions and do not provide sophisticated, unrestricted covalent docking. Thus, a docking protocol for FLEXX was designed which is able to represent the essential non-covalent state before formation of the covalent bond. That way, it could be studied whether or not the reaction centres of both ligand and receptor adopt a position close enough to each other to actually form the covalent bond. The approach presented here can easily be transferred to other covalent ligand-receptor systems and therefore provides a broad applicability. Furthermore, the parametrisation of the FLEXX interaction geometries was adapted to account for the special structural features of aziridides. Those show a formal amide bond, but its geometric and electronic properties differ noticeably from a typical amide. The results of the docking studies provide valuable insights for understanding the Cathepsin B/L selectivity of the ligands under scrutiny. Vice versa, the good correspondence of the FLEXX results and the inhibition constants obtained experimentally provide evidence for the validity of the applied docking protocol.…

Metadaten
Author:	Matthias Busemann
URN:	urn:nbn:de:bvb:20-opus-18777
Document Type:	Doctoral Thesis
Granting Institution:	Universität Würzburg, Fakultät für Chemie und Pharmazie
Faculties:	Fakultät für Chemie und Pharmazie / Institut für Pharmazie und Lebensmittelchemie
Date of final exam:	2006/07/27
Language:	German
Year of Completion:	2006
Dewey Decimal Classification:	5 Naturwissenschaften und Mathematik / 54 Chemie / 540 Chemie und zugeordnete Wissenschaften
GND Keyword:	Arzneimitteldesign; Chemometrie
Tag:	Chemometrie; Docking; Outlier-Identifizierung; virtuelles Screening Chemometrics; Outlier Detection; docking; virtual screening
Release Date:	2006/07/28
Advisor:	PD Dr. Knut Baumann

Entwicklung chemometrischer Methoden für das in-silico-Wirkstoffdesign

Development of chemometric techniques for the in-silico drug design

Download full text files

Export metadata

Additional Services