Radial Distribution Functions in Computational Chemistry — Theory and Applications

Language
en
Document Type
Doctoral Thesis
Issue Date
2007-12-06
Issue Year
2007
Authors
Hemmer, Markus
Editor
Abstract

This thesis covers the application of Radial Distribution Functions (RDF) as valuable molecular descriptors for different predictive and descriptive tasks in computational chemistry. It is shown that Radial Distribution Functions can be used in a wide range of applications, for instance to characterize similarity and diversity of compounds, search for structures and substructures, evaluate structure/property and structure/activity relationships, investigate, spectrum/structure correlations, and predict spectral information. With a few modifications, these descriptors can characterize molecules using almost any physical or chemical properties that can be attributed to atoms or molecules. The mathematical flexibility and the possibility to incorporate atom properties allow characterizing chemical structures according to their geometric and physicochemical information. The approach of using RDF descriptors in auto-associative artificial neural networks is a valuable supplement to a descriptor generator, especially where even an expert cannot handle the huge amounts of data. The combination of rules and neural networks can be a step towards a more human decision making of expert systems. In particular, RDF descriptors can help to store the increasing amount of molecular information effectively and to analyze them fast and with high reliability. The combination of neural networks, statistical analysis, pattern recognition techniques, and fuzzy logic approaches supports this approach. The analysis of Wavelet-transformed RDF descriptors is capable of revealing aspects of data, like trends, breakdown points, discontinuities, and self-similarity, that are barely exposed by other signal analysis techniques. In addition, Wavelet transforms can be used to compress RDF descriptors without appreciable loss of information. The compressed representation is ideally suited for fast similarity searches in binary descriptor databases. RDF descriptors are categorized according the basic function type, the distance range of calculation, the type of distance information, the dimensionality, transformations, and post-processing. The combination of these categories leads to more than 1400 different descriptors. Software has been developed to perform the calculation and investigation of these descriptors. Radial distributions functions seemed to be a valuable addition to the analyst’s tools in chemistry and the results of this thesis might motivate other scientists to consider using these descriptors in many other contexts.

Abstract

Diese Abhandlung beschreibt die Anwendung Radialer Verteilungsfunktionen als molekulare Deskriptoren und deren Anwendung für Vorhersagen und Charakterisierung in der Computerchemie. Die Einsatzbereiche Radialer Verteilungsfunktionen sind vielfältig, z.B.: Charakterisierung der Ähnlichkeit oder Diversität chemischer Strukturen, Struktur- und Substruktursuche, Struktur/Eigenschafts- und Struktur/Aktivitäts-Beziehungen, Spektrum/Struktur-Korrelationen und Vorhersager spektroskopischer Informationen. Radiale Verteilungsfunktionen erlauben die einfache Einbeziehung atomarer oder molekularer physikalischer und chemischen Eigenschaften um ein Molekül in für die jeweilige Fragestellung optimal zu beschreiben. Die mathematische Flexibilität erlaubt ebenso die Charakterisierung chemischer Strukturen nach geometrischen und physikochemischen Aspekten. Die Anwendung auto-assoziativer künstlicher neuronaler Netze zur Auswertung von Radialen Verteilungsfunktionen stellt sich als eine wertvolle Erweiterung des Konzepts dar, insbesondere wenn große Datenmengen verarbeitet werden sollen. Die zusätzliche Einbeziehung von Regeln ermöglicht den Einsatz dieser Methoden in Expertensystemen. Radiale Verteilungsfunktionen können dabei helfen, die zunehmende Menge molekularer Informationen effektiv zu speichern, und mit hoher Zuverlässigkeit zu analysieren. Die Kombination künstlicher neuronaler Netze mit Regelbasierten Algorithmen, statistischer Analyse, und Mechanismen zur Behandlung unscharfer Daten unterstützt dieses Konzept. Wavelet-Transformationen erlauben die Erkennung von Trends, Diskontinuitäten, und ähnlichen Aspekten der Deskriptoren, die mit anderen Signalanalysemethoden nur schwer zu erfassen sind. Zusätzlich erlauben Wavelet-Transformationen die verlustarme Komprimierung der Deskriptoren, eine Methode die sich ideal für die schnelle Ähnlichkeitssuche in binären Deskriptor-Datenbanken eignet. Radiale Verteilungsfunktionen können nach unterschiedlichen Kriterien variiert werden: Basisfunktion, Distanzbereich, Distanztyp, Dimensionalität, Transformation und Nachbearbeitung. Die Kombination dieser Kriterien führt zu mehr als 1400 unterschiedlichen Deskriptoren. Zur Generierung und Untersuchung dieser Deskriptoren wird eine neu entwickelte Software vorgestellt. Radiale Verteilungsfunktionen stellen sich als eine wertvolle Erweiterung molekularer Analysentechniken dar. Diese Arbeit dar mag dazu beitragen, andere Wissenschaftler zu ermutigen diese Deskriptoren in ihrem Anwendungsbereich sinnvoll einzusetzen.

DOI
Document's Licence
Faculties & Collections
Zugehörige ORCIDs