Logic for Structure Determination ; LSD
Abstract
The aim of the LSD program is to find all possible molecular structures of an organic compound that are compatible with its spectroscopic data. Structure building relies on connectivity data found in 2D NMR spectra, without any reference to a chemical shift database. Molecular structures containing up to 50 non-hydrogen atoms were investigated by means of the LSD program. The measurement protocol that is required by LSD includes the recording of 1D 1H and 13C as well as 2D COSY, HSQC and HMBC spectra. The status of each atom must be defined. It includes the atom symbol, the hybridization state (sp3, sp2 or sp), the number of attached hydrogen atoms, and the electric charge. This part of the data set is most often easily deduced by the user from elementary chemical shift knowledge. The status of the heteroatoms is deduced from the elemental molecular formula. Carbon-carbon bonds are deduced from COSY and HSQC data while HMBC and HSQC data provide connectivity relationships through one or two bonds for non-hydrogen atom. The constraints imposed by atom status and 2D NMR data may be enforced by other atom neighborhood relationships. For example, it is possible to force a carbon atom to be bound only to carbon atoms. The user is responsible for such supplementary data. Contradictory constraints lead LSD to fail in the search of a solution structure. The input to LSD is coded by the user as a text file, according to the instructions in the MANUAL_ENG.html document. A program named OUTLSD reads the generated solutions and converts them into various formats: bonds lists, 2D coordinates, fancy 3D coordinates, and SMILES chains. The 2D coordinates can be converted to Postscript drawings and to .sdf (SDF) files.
Le but du programme LSD est de déduire toutes les structures moléculaires planes d'une substance organique qui sont compatibles avec un ensemble de données spectroscopiques. La construction des structures repose sur des informations de connectivité déduites de données de RMN 2D, sans faire référence à une base de données de déplacement chimique. Des molécules comportant jusqu'à 50 atomes (hydrogènes exceptés) ont été étudiées par le programme LSD. Le protocole expérimental requis par le programme LSD nécessite l'enregistrement des spectres de RMN 1D du proton et du 13C, ainsi que des spectres 2D de corrélation des déplacements chimiques homonucléaires COSY et hétéronucléaires HMQC ou HSQC et HMBC. Le statut de chaque atome doit être décrit et comprend le nom de l'élément chimique, l'état d'hybridation (sp3, sp2 ou sp), le nombre d'atomes d'hydrogène portés et la charge électrique formelle. Cette partie des données est généralement facile à écrire pour les atomes de carbone. La connaissance de la formule brute du composé étudié permet à l'utilisateur de définir le statut des hétéroatomes. Des liaisons carbone-carbone sont aisément déduites par le programme LSD à partir des données de type COSY et HMQC. L'association des données des spectres HMQC et HMBC fournit un ensemble de paires d'atomes de carbones (repérés par leur déplacement chimique) qui sont, soit directement liés, soit liés à un atome commun qui peut a priori être tout autre atome de la molécule. Cette contrainte est relativement faible et ouvre un vaste espace de possibilités à explorer. Les données d'un problème sont codées par l'utilisateur dans un fichier texte. Les solutions sont aussi stockées dans un fichier texte. Un programme auxiliaire "outlsd" convertit le format de structure "passe-partout" en fichiers de coordonnées 2D, en chaînes SMILES, en coordonnées 3D (fantaisistes en l'absence de données stéréochimiques). Les coordonnées 2D sont traduites soit en dessins Postscript soit au format ".sdf" (SDF) accepté par des logiciels commerciaux.