注:本文由段炼翻译自eMolecules,英文原文版权由eMolcules所有,转载请注明。
原文地址:http://www.emolecules.com/doc/cheminformatics-101.php
Craig A. James, eMolecules公司
化学信息学是计算机科学与化学的一个交叉学科:主要和化合物有关信息的储存与检索打交道。
信息系统所涉及的是存储、检索和搜索信息和信息之间的关系。例如:
| 操作 | 传统信息系统 | 化学信息系统 | ||
| 存储 | Name= ‘Jimmy Carter’ | 储存文本、数字、日期 … | ![]() |
储存化合物和有关信息。 |
| 检索 | 查找记录#13282 | 检索’Jimmy Carter’ | 查找: CC(=O)C4CC3C2CC(C)C1=C(C) C(=O)CC(O)C1C2CCC3(C)C4 |
检索:![]() |
| 搜索 | 查找名为’Bush’的总统 | George Bush 和 George W. Bush | 查找包含以下结构的分子:![]() |
返回:![]() |
| 关系 | Carter当选的年份 | 答案:1976年当选 | 该分子的logP(o/w):![]() |
logP(o/w) = 2.62 |
化学信息系统主要解决四个关键问题:
| 1、保存分子 | 计算机科学家通常使用的化学价键模型表示化合物。Section 2, 分子表示 ,将会信息讨论这个问题。 |
| 2.找到确切的分子 | 如果你问, “Abraham Lincoln在不在数据库中?”这不难找到答案。但是,给出某一个的分子,它在不在数据库中?关于它我们都又什么数据?乍看之下这似乎简单,但是当我们讨论到互变异构体、立体化学、金属,和其他“瑕疵”的化学价键模型时,就不是那么简单了。 |
| 3.子结构检索 | 如果你问, “数据库中有没有叫Lincoln的人? ”你通常期望找到Lincoln总统和其他一些人-这就是所谓的搜索 ,而不是查找 。对于化学信息系统,我们有子结构搜索 :查找所有含有用户所画出的部分分子结构(以下简称“子结构” )的分子。子结构通常是一个官能团, 脚手架 ,或代表了一类分子的核心结构。由于一些很底层的数学与可计算性理论的原因,这也是一个很难的问题,要比大多数文本搜索 难的多。 |
| 4.相似性搜索 | 一些数据库可以找到发音相似或拼写错误的字词,如“查找Lincon”或“找到Cincinati” ,它们分别可以找到Abraham Lincoln和Cincinnati。许多化学信息系统可以找到与指定的分子相似的分子,并按照相似性排名。衡量分子相似性又好几种方法,Section 4,分子相似性 中会进行深入讨论。 |
注:本文由段炼翻译自eMolecules,英文原文版权由eMolcules所有,转载请注明。