SDF (Structure-Data File) 是一種用于描述化學(xué)分子結(jié)構(gòu)的文件格式,由分子設(shè)計(jì)工具 (MDL) 提出。
Methane ### 分子
Marvin 02222111352D ### 日期
5 4 0 0 0 0 999 V2000 ###計(jì)數(shù)行
0.0000 0.0000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
1.2990 0.7500 0.0000 H 0 0 0 0 0 0 0 0 0 0 0 0
-1.2990 0.7500 0.0000 H 0 0 0 0 0 0 0 0 0 0 0 0
-0.0000 -1.5000 0.0000 H 0 0 0 0 0 0 0 0 0 0 0 0
0.0000 0.0000 -1.0000 H 0 0 0 0 0 0 0 0 0 0 0 0
1 2 1 0 0 0 0
1 3 1 0 0 0 0
1 4 1 0 0 0 0
1 5 1 0 0 0 0
M END
$$$$
這個(gè)例子描述了一個(gè)甲烷分子,包含一個(gè)碳原子和四個(gè)氫原子。每個(gè)原子的坐標(biāo)以及它們之間的鍵都在連接表中明確指出。
每個(gè)SDF文件通常包含多個(gè)分子的信息,每個(gè)分子的信息包括:
-
分子的連接表:這是分子的主要部分,描述了分子中的原子和鍵的類型、數(shù)量和連接方式。它包括以下幾部分:
- 標(biāo)題行:通常包含分子的名稱或標(biāo)識(shí)符。
- 計(jì)數(shù)行:包含原子和鍵的數(shù)量,以及其他的一些關(guān)于分子的統(tǒng)計(jì)信息。
這一行被稱為計(jì)數(shù)行(counts line),它是SDF文件中每個(gè)分子的必要部分。這行提供了分子結(jié)構(gòu)的一些基本統(tǒng)計(jì)信息。以下是這一行各部分的詳細(xì)解釋:
- 第一個(gè)數(shù)字(在這個(gè)例子中是5)表示分子中原子的數(shù)量。
- 第二個(gè)數(shù)字(在這個(gè)例子中是4)表示分子中化學(xué)鍵的數(shù)量。
- 接下來(lái)的幾個(gè)數(shù)字(在這個(gè)例子中是0 0 0 0)表示其他的一些可選信息,例如立體化學(xué)的數(shù)量,文本字段的數(shù)量等。在這個(gè)例子中,所有這些數(shù)量都是0,表示這些信息在該分子中不存在或未被記錄。
- 999 V2000:這部分是版本信息。V2000表示這個(gè)SDF文件遵循的是2000年版的SDF文件格式(V3000是另一種版本)。
所以,這個(gè)例子中的"5 4 0 0 0 0 999 V2000"表示這個(gè)分子有5個(gè)原子,4個(gè)化學(xué)鍵,沒(méi)有其他額外的信息,且遵循的是V2000的SDF文件格式。
- 原子塊:每行描述一個(gè)原子,包括它的坐標(biāo)(在三維空間中的 x, y, z 坐標(biāo))、元素符號(hào)以及其他的一些可選信息。
- 鍵塊:每行描述一個(gè)鍵,包括它連接的兩個(gè)原子、鍵的類型(單鍵、雙鍵、三鍵或芳香鍵)以及其他的一些可選信息。
數(shù)據(jù)項(xiàng):這是可選的部分,包含了關(guān)于分子的額外信息。每個(gè)數(shù)據(jù)項(xiàng)都由一個(gè)數(shù)據(jù)頭和一個(gè)或多個(gè)數(shù)據(jù)行組成。數(shù)據(jù)頭標(biāo)識(shí)了數(shù)據(jù)項(xiàng)的名稱,數(shù)據(jù)行包含了數(shù)據(jù)項(xiàng)的值。
分子結(jié)束標(biāo)記:一個(gè)空行標(biāo)識(shí)了一個(gè)分子的結(jié)束,并開始描述下一個(gè)分子。在文件的最后,一個(gè)"$$$$"行標(biāo)識(shí)了文件的結(jié)束。
例如,一個(gè)簡(jiǎn)單的SDF文件可以這樣:
這段文字 "Marvin 02222111352D" 位于SDF文件的第二行,這行通常被稱為頭部行 (header line)。頭部行通常包含了生成該SDF文件的程序的名稱(在這個(gè)例子中是 "Marvin")和日期/時(shí)間戳。
日期/時(shí)間戳通常是一個(gè)6位的數(shù)字,表示生成這個(gè)文件的日期。它的格式是YYMMDDhhmm,其中 YY 是年份的最后兩位,MM 是月份,DD 是日期,hh 是小時(shí),mm 是分鐘。但在這個(gè)例子中,“02222111352D”并不符合這個(gè)格式,可能是因?yàn)殄e(cuò)誤或者特定的標(biāo)記。
最后的 "2D" 或 "3D" 通常表示分子的結(jié)構(gòu)數(shù)據(jù)是二維的還是三維的。在這個(gè)例子中,"2D" 表示這個(gè)文件中的分子結(jié)構(gòu)是二維的。
總的來(lái)說(shuō),這一行的內(nèi)容可能會(huì)因?yàn)樯蒘DF文件的程序的不同而有所不同,但通常它會(huì)包含一些關(guān)于生成文件的程序和文件生成時(shí)間的信息。