数据集介绍

新药和新材料的计算上的从头设计需要对化合物空间进行严格的、无偏见的探索。然而,目前分子空间仍有巨大的未知领域未被遍历。QM9作者报告了由CHONF组成的134k个稳定的小有机分子的几何结构、能量、电子和热力学特性的计算数据。这些分子对应于GDB-17数据集中的1660亿个有机分子中133,885个分子。作者报告了分子能量最小的几何构象、相应的谐波频率、偶极矩、极化率,以及能量、热焓和自由能。所有属性都是在量子化学的B3LYP/6-31G(2df,p)水平上计算的。此外,对于C7H10O2分子,在134k分子中有它的6,095个构象异构体。作者在更精确的G4MP2理论水平上报告了所有这些异构体的能量、热焓和原子化自由能。因此,这个数据集提供了一个相关的、一致的和全面的小有机分子化学空间的量子化学特性。这个数据库可以作为现有方法的基准数据,或用以开发新的方法,如量子力学/机器学习,以及构效关系的系统识别。

下载链接

https://figshare.com/collections/Quantum_chemistry_structures_and_properties_of_134_kilo_molecules/978904

数据实例

以第96323号分子为例,它的文件内容如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
23
gdb 96323 2.3019 1.4034 0.97232 0.8013 82.47 -0.2369 0.0834 0.3202 1303.241 0.205881 -425.431829 -425.422488 -425.421544 -425.465505 36.188
C 0.609551742 1.4734415897 0.2726890341 -0.395614
C -0.1569554231 0.211854578 -0.1317947222 0.124186
C 0.4242222684 -0.4260196123 -1.4074737374 -0.224964
C 0.0152014345 -1.8880850222 -1.6622126455 0.129342
C 0.1512925442 -2.2698539315 -3.1326739693 -0.399208
O 0.8622418685 -2.7850266223 -0.9451857566 -0.257625
C 0.6171914596 -2.885568344 0.4406936233 -0.067732
C 0.7891438417 -1.5795887223 1.2153003551 -0.095107
O -0.28227466 -0.6852158215 0.9731538045 -0.264312
H 1.651865498 1.2405977197 0.5167516022 0.11603
H 0.6145565349 2.2034268267 -0.543781234 0.112471
H 0.1460295771 1.9345506855 1.1488258906 0.121345
H -1.1978820539 0.4910495748 -0.3387205597 0.083236
H 0.1110708056 0.1972270981 -2.2535930476 0.097774
H 1.5206328928 -0.395984803 -1.3922546851 0.103375
H -1.028023431 -2.0395087323 -1.3400352427 0.072287
H 1.1783455958 -2.1072062768 -3.4754402316 0.121662
H -0.0907681152 -3.3264890512 -3.2722462888 0.121255
H -0.5205554793 -1.6702556716 -3.7539833516 0.110441
H -0.4027407455 -3.2590995473 0.6303313533 0.091878
H 1.32990717 -3.6295960536 0.8152978645 0.09897
H 0.7674583263 -1.8037024484 2.2889853048 0.103137
H 1.7663630286 -1.1302259523 0.9903878099 0.097173
89.8693 137.8036 205.8157 225.2276 236.9995 255.3172 320.2198 336.1025 365.6957 392.3339 474.5895 503.9977 557.7799 572.8842 772.3439 828.2845 858.8022 894.9002 929.91 937.3011 970.5139 1007.918 1040.3066 1086.933 1112.5869 1125.7607 1143.3962 1155.3111 1165.7174 1191.6552 1260.5965 1284.8805 1298.0522 1323.4443 1362.4171 1376.0458 1387.3307 1394.8047 1403.8993 1409.7887 1411.8108 1416.9243 1468.796 1481.2947 1484.1093 1485.6453 1495.2155 1497.1206 1501.7468 2970.4502 2974.985 3006.8596 3022.0378 3028.2129 3035.48 3041.1806 3059.2613 3064.8665 3071.3945 3101.8447 3112.4787 3119.0288 3123.1103
CC1CC(C)OCCO1 C[C@H]1C[C@@H](C)OCCO1
InChI=1S/C7H14O2/c1-6-5-7(2)9-4-3-8-6/h6-7H,3-5H2,1-2H3 InChI=1S/C7H14O2/c1-6-5-7(2)9-4-3-8-6/h6-7H,3-5H2,1-2H3/t6-,7+

各行数据的具体含义见下图:

1.jpg

其中,第二行的量子化学性质部分,每个数据代表的含义如下:

2.jpg

如何使用

以python为例,可以如下使用:

1
2
3
4
5
6
7
8
9
10
11
12
def load_data(filename):
atoms_xyz = []
with open(filename, 'r') as f:
content = f.read()
lines = content.split('\n')
mol_len = lines[0]
prop = lines[1].split()
quantum_property = prop[2:]
for line in lines[2:-4]:
atoms_xyz.append(line.split()[:-1])
smiles = lines[-3].split()[0]
return mol_len, quantum_property, atoms_xyz, smiles

引用