注:本文由段炼翻译自eMolecules,英文原文版权由eMolcules所有,转载请注明。
原文地址:http://www.emolecules.com/doc/cheminformatics-101.php
Craig A. James, eMolecules公司
化学信息学是计算机科学与化学的一个交叉学科:主要和化合物有关信息的储存与检索打交道。
信息系统所涉及的是存储、检索和搜索信息和信息之间的关系。例如:
| 操作 | 传统信息系统 | 化学信息系统 | ||
| 存储 | Name= ‘Jimmy Carter’ | 储存文本、数字、日期 … | ![]() |
储存化合物和有关信息。 |
| 检索 | 查找记录#13282 | 检索’Jimmy Carter’ | 查找: CC(=O)C4CC3C2CC(C)C1=C(C) C(=O)CC(O)C1C2CCC3(C)C4 |
检索:![]() |
| 搜索 | 查找名为’Bush’的总统 | George Bush 和 George W. Bush | 查找包含以下结构的分子:![]() |
返回:![]() |
| 关系 | Carter当选的年份 | 答案:1976年当选 | 该分子的logP(o/w):![]() |
logP(o/w) = 2.62 |
化学信息系统主要解决四个关键问题:
| 1、保存分子 | 计算机科学家通常使用的化学价键模型表示化合物。Section 2, 分子表示 ,将会信息讨论这个问题。 |
| 2.找到确切的分子 | 如果你问, “Abraham Lincoln在不在数据库中?”这不难找到答案。但是,给出某一个的分子,它在不在数据库中?关于它我们都又什么数据?乍看之下这似乎简单,但是当我们讨论到互变异构体、立体化学、金属,和其他“瑕疵”的化学价键模型时,就不是那么简单了。 |
| 3.子结构检索 | 如果你问, “数据库中有没有叫Lincoln的人? ”你通常期望找到Lincoln总统和其他一些人-这就是所谓的搜索 ,而不是查找 。对于化学信息系统,我们有子结构搜索 :查找所有含有用户所画出的部分分子结构(以下简称“子结构” )的分子。子结构通常是一个官能团, 脚手架 ,或代表了一类分子的核心结构。由于一些很底层的数学与可计算性理论的原因,这也是一个很难的问题,要比大多数文本搜索 难的多。 |
| 4.相似性搜索 | 一些数据库可以找到发音相似或拼写错误的字词,如“查找Lincon”或“找到Cincinati” ,它们分别可以找到Abraham Lincoln和Cincinnati。许多化学信息系统可以找到与指定的分子相似的分子,并按照相似性排名。衡量分子相似性又好几种方法,Section 4,分子相似性 中会进行深入讨论。 |
注:本文由段炼翻译自eMolecules,英文原文版权由eMolcules所有,转载请注明。
期待更多译文,让我们对化学信息有更深了解。
[...] 化学出身的计算机达人 2009/08/30 | 12:06 | 分类:学习随感 | 标签:openparty专业化学计算机 | 2次阅读 昨天的 Beijing Open Party 上,我听了段炼同学介绍 GWT 的主题。上个月认识他时,我还误以为他是北理工新闻中心专职摄影的段炼老师,但他的真实身份却是华东理工大学制药工程专业的学生,计算机只是其“业余爱好”。段炼的 ID“chemhack”不禁让我猜想他是不是有像刘未鹏的“mindhacks”那样的风范。听了他的演讲、看了他的 blog,发现他确实是一个有 hack 精神的人。 这是我认识的又一位从事化学相关领域的计算机高手。本科玩计算机博弈时,我认识了复旦大学化学系毕业的黄晨,他是象棋百科全书网站和象棋巫师软件的作者,UCCI 协议的制定者。后来参加中国机器博弈锦标赛时,我又有幸见到了中国电脑围棋的先行者、中山大学化学系退休的陈志行教授(陈老先生已于 2008 年不幸病故)。他研制的《手谈》软件曾多次在国际赛事中夺冠,商业版本也畅销于日本等国。在我决定读研之前,曾想了解一下科研生活,师兄推荐给我的是名曰“学术科研第一站”,实为化学相关专业主导的小木虫论坛,这个论坛也让我收益不少。在中科院研究生院集中教学期间,我又在计算机专业的课堂上认识了多位外专业的同学,他们有冶金化学的、化工自动化的、过程工程的,选择计算机类课程或出于实验室工作的需要,或出于个人兴趣。 为什么会有这么多化学相关专业的朋友涉足了计算机领域呢?个人兴趣之外,或许最主要的因素是化学的很多研究需要以计算机作为海量数据采集、存储、分析、处理的工具。化学领域作为数据库、数据挖掘、网格计算等技术的重要应用,受益于计算机技术的发展,同时也对通过其复杂的需求引导着计算基础设施及算法的改进与发展。如今化学信息学的引入就是要用计算机来解决化学信息存储与检索的子问题。而学术的火花往往都是在交叉领域中迸发的,黄晨的《电脑象棋和量子化学——计算量子化学的新思路》(黄晨网站原文无法找到,请看 google 到的转载结果)就是一例有益的探索。但除了这些技术上的因素,计算机和化学有没有本质上的相通呢?计算机是公认的人造科学、技术科学,而化学一般被认为是自然科学,尽管它也包含了一些技术科学和工程技术领域的分支。但我的初中、高中化学老师都给我灌输过这种思想:化学只是一系列模型,方便描述自然现象的,有些概念并不反映真实的存在;还说中学化学讲的都是早期的经典模型,为了解释新的现象,模型总在不断修补。我的大学同学,爱好电子、物理与计算机的 m100 则直接认定“化学是骗人的”。但我想,无论化学家们的科学信仰和主观意愿如何,化学和计算机科学在客观呈现上有两点是共通的:一是抽象建模,二是实用主义。计算机中只有线性的指令流和数据流,人们用结构化编程语言和文件系统的抽象将它们变得易于理解和使用;同样化学元素也不是什么微观物质,但化学家可以用这一抽象来表示特定原子组成,构建宏观世界到微观世界的桥梁,便于统一研究物质的性质。这种方法论上的相似或许是化学专业的朋友们乐于钻研计算机的原因之一。 相关文章有关计算机专业,答网友的一幅图一本 IT 小鸟讲给小小鸟的故事Firefox KeyBeijing Open Party“夏暮观海”活动归来对“为人民计算”的几点思考 [...]