基于双边滤波与受限玻尔兹曼机的冷冻电镜单颗粒图像识别
Identification of Cryo-EM Single Particle Images Using Bilateral Filter and Restricted Boltzmann Machine

作者: 王桉迪 , 姚睿捷 , 黄强 :复旦大学生命科学学院,上海;

关键词: 冷冻电镜双边滤波受限玻尔兹曼机Cryo-EM Bilateral Filter Restricted Boltzmann Machine

摘要: 冷冻电镜技术(Cryo-EM)起源于20世纪70年代,是结构生物学中蛋白质与核酸分子结构研究的重要技术手段。21世纪以来,计算机性能的提升与直接电子检测相机的极大发展,使得人们在小样本低剂量样本条件下仍可获得接近原子分辨率级的三维结构模型。由于三维结构模型是利用多角度投影,通过大量二维冷冻电镜单颗粒图像重构所得,因此,二维单颗粒图像的识别与分类直接影响最终模型的分辨率。目前,通过冷冻电镜获得的图像大部分噪声较多,因此对二维单颗粒图像的筛选,往往需要耗费有经验的科学工作者耗费大量时间。针对此问题,本文运用计算机图形学与机器学习相结合的方法,在预处理阶段以双边滤波器(Bilateral Filter)对信噪比较低的图像进行边缘优化,并通过直方图均衡化实现图像信息增强,最后以少量高置信度图像为训练样本,通过受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)进行监督式学习并实现图像的分类与筛选,以提高二维单颗粒图像识别的效率与准确率。在方法检验阶段,首先,我们利用蛋白质数据库(Protein Data Bank, PDB)中已知的生物大分子结构,投影生成不同信噪比的模拟单颗粒模拟数据,验证了在低信噪比条件下应用本方法进行单颗粒图像识别分类的准确性。随后我们以瞬态受体电位离子通道蛋白子类V成员1 (Transient Receptor Potential cation channel subfamily V member 1,TRPV1)的真实二维单颗粒图像数据集进行识别分类与三维模型重构,通过cryoSPARC平台,以约53%的原始数据量重构出了与原分辨率3.6Å相近的模型。因此,本研究不仅提高了传统人工筛选的效率,也为冷冻电镜单颗粒二维图像识别提供了新思路。

Abstract: Cryo-EM is a crucial technological means to study protein and nucleic acid of structural biology which is originated in 1970s. The significant evolution of computing performance and direct electronic detection (DDD) camera make the atomic resolution of 3D structure of micromolecular under the condition of small dose possible since 21st century. The reconstruction of 3D model is based on identification and classification of 2D Cryo-EM single particle projection images which becomes an immediate cause of how good the resolution of final 3D model could share. Currently, the 2D single particle images selection was is such a time-consuming job even for the experienced scientific researchers as the signal noise ratio (SNR) is usually quite low. A new approach with the combination of computer graphics and machine learning is raised to this problem by using bilateral filter to optimize the detail of edge and histogram equalization to enhance graphic information in the pre-processing stage, moreover, small amount of high-confidence images was chosen as training sample under the restricted Boltzmann machine (RBM) network in supervised learning pattern to achieve the image selection and classification. In the verification stage, the effectiveness of this approach is proved to work well with simulated low SNR projection photos generated from the known micromolecular data from protein data bank (PDB). Subsequently, actual experimental 2D singlet particle data of transient receptor potential cation channel subfamily V member 1 (TRPV1) is applied to be identified and classified, and finally, a 3.6Å 3D structural model is reconstructed through cryoSPARC platform by using only approximate 53% of the original data. Consequently, this research is not only improving the manual efficiency, but also providing a broader perspective the identification of Cryo-EM single particle 2D images.

1. 引言

冷冻电镜技术Cryo-EM (Cryogenic Electron Microscopy)是当前结构生物学最重要的研究手段之一。相较于传统的X射线晶体学(X-Ray Crystallography)与核磁共振谱学NMR (Nuclear Magnetic Resonance)对生物分子样品的复杂要求,冷冻电镜技术提供了更为简单、直观的方式,使得许多结晶困难的蛋白分子结构得以解析,这一重大科学突破,也因此荣获2017年诺贝尔化学奖 [1] [2] [3]。自2013年由程一凡博士首次通过冷冻电镜技术解析出近原子分辨率为3.4Å的瞬态受体电位离子通道(TRPV1)结构开始至今,近年来,已有多位科学家通过此技术解出大量超高分辨率的生物大分子 [4] [5] [6],快速推动了结构生物学的发展。由于针对生物样品通常是低剂量成像,而且电镜数据噪声来源复杂,即便是利用直接电子相机DDD (Direct Detector Device camera)收集到的数据,信噪比通常也很低,而每个生物大分子结构的重建又需要大量的高质量二维单颗粒冷冻电镜图像,因此,图像的收集往往需要经验丰富的科研工作者长时间耐心挑取 [1]。为了解决此问题,科学家们先后开发了多种自动化的程序进行图像筛选 [7] [8] [9] [10],其中,英国MRC Laboratory of Molecular Biology的Sjors Scheres博士及其团队所开发的RELION系统基于人工挑选的单颗粒图像作为训练样本所实现的Auto Pick半自动化单颗粒挑选被广泛应用 [11],而由我国中科院高能计算所Zhang等人提出的基于深度神经网络分割的全自动单颗粒挑选程序PIXER也达到了与RELION一样好的效果 [12]。随着机器学习技术的不断成熟,科学家们开发了多种基于人工智能技术进行的单颗粒图像识别 [13] [14] [15],但对于低信噪比的冷冻电镜图像,单颗粒图像识别的准确率仍然较低。针对上述问题,本文选用受限玻尔兹曼机RBM (Restricted Boltzmann Machine)和双边滤波器BF (Bilateral Filter)相结合的方法,通过优化单颗粒图像的质量,并实现自动化分类,以提高二维单颗粒图像的识别效率,也为后续冷冻电镜单颗粒重构所需图像的筛选提供了新思路。

2. 方法与原理

2.1. 冷冻电镜单颗粒图像预处理

2.1.1. 双边滤波

冷冻电镜单颗粒图像通常具有低信噪比的特性 [16] (图1(A)),将其直接应用于受限玻尔兹曼机神经网络进行训练识别效果不佳。若设定较高的阈值进行筛选,则会减少三维结构重构所需的不同角度投影图像的数量;反之,则会引入大量假阳性杂质图像,进而放大在单颗粒图像的二维图像分类与三维结构重构过程中的计算误差。为解决此问题,我们引入双边滤波器对图像进行预处理,由于双边滤波器不仅可以准确保留图像中单颗粒的边缘特征信息 [17],还可以有效地过滤掉大部分单颗粒图像中所携带的噪声,契合了针对单颗粒图像信息增强的需求 [18] (图1(B))。

Figure 1. (A) Cryo-EM single particle photo of transient receptor potential cation channel subfamily V member 1 (TRPV1); (B) Cryo-EM single particle photo of TRPV1 after bilateral filter; (C) Cryo-EM single particle photo of TRPV1 after bilateral filter and histogram equalization

图1. (A) 瞬态受体电位离子通道蛋白子类V成员1 (Transient Receptor Potential cation channel subfamily V member 1)的冷冻电镜单颗粒图像;(B) 经过双边滤波器优化后的TRPV1冷冻电镜单颗粒图像;(C) 经过双边滤波器与直方图均衡化处理后的TRPV1冷冻电镜单颗粒图像

2.1.2. 直方图均衡化

由于单颗粒图像信息中的灰度值分布较为集中,采用常规线性对比度调整会使得图像丢失较多细节特征。为解决此问题,我们采用直方图均衡化技术 [19] (图1(C))。这一技术通过保持图像的原有亮度并增强图像的对比度,提高了受限玻尔兹曼机网络对单颗粒图像特征识别的准确度。

2.2. 受限玻尔兹曼机网络结构

受限玻尔兹曼机是一种基于能量最低化状态设计的模型,包含一个可视层与一个隐含层,且具有层内无连接,层间全连接的特征。可视层通常为数据输入层,隐含层可看作特征提取层,整个网络的训练目标是使网络参数趋于稳定,即实现整个体系能量最低化 [20]。当我们以图像作为训练样本时,图像的每一个像素点都与受限玻尔兹曼机网络可视层的一个单元相对应,而隐含层的单元可以被视为可视层输入单元的抽象特征,连接可视层与隐含层的为权重矩阵。权重矩阵的数值求解则是通过网络对大量输入样本进行正向传导与反向传导的多次迭代,并利用每次迭代间计算结果的差值进行修正,直到整个网络的重构误差趋于平稳(详见图2)。此时,每一组输入的训练数据样本,都可以通过训练后的网络由隐含层特征与权重矩阵反向传导后重构,也就实现了玻尔兹曼机网络的构建。

Figure 2. RBM network training process

图2. 受限玻尔兹曼机网络训练过程

Figure 3. Supervised learning of RBM data classification process

图3. 监督式受限玻尔兹曼机数据分类过程

受限玻尔兹曼机网络可以通过监督式学习或非监督式学习实现对图像的识别与分类。监督式学习的网络收敛更快,计算结果也更为精确。其原理为在输入单元中增加一个标签单元(详见图3),在计算网络收敛时,分别考虑在不同标签下整个网络能量最低的状态,也即对应不同标签下对应的类别。在网络训练完成后,每输入一个新的样本图像,均可分别根据标签求得不同能量状态,当整个网络能量最低时,这个样本便可根据网络计算结果归入对应标签下,从而实现监督式学习的分类功能 [21]。为提高对数据的识别准确率,本文拟采用多标签监督式学习的方式进行神经网络的训练,以少量置信度较高的样本为训练集,实现对冷冻电镜单颗粒图像中假阳性或杂质图像的剔除,从而提高三维模型构建所需数据的准确度 [22] [23]。

3. 结果与讨论

3.1. 双边滤波与直方图均衡化对冷冻电镜单颗粒图像的优化

为了验证双边滤波器与直方图均衡化对冷冻电镜高噪声单颗粒图像信息增强的有效性,我们使用了Yao等人所使用的模拟冷冻电镜单颗粒图像数据生成方法 [13],分别对同一信噪比条件下的原图像与经过预处理的图像进行测试。模拟冷冻电镜单颗粒图像的生成首先需要下载所需的PDB文件,此后利用Xmipp软件包中的xmipp_phantom_transform进行中心校正以及xmipp_volume_from_pdb程序将PDB文件转换为电子密度图,所得到的PDB电子密度图可利用xmipp_angular_project_library程序生成投影文件,最后根据需要添加不同强度的噪声信号 [13]。其中在信噪比为0.0625的图像(详见图4)下的测试结果显示,未经预处理的图像经过所训练的RBM网络进行分类,其正确率仅为68.52%;而相同条件下经过预处理后的图像,识别正确率可达99.95%,远高于未经预处理的图像,当信噪比更低时,RBM网络对未经处理的数据识别正确率更低。

Figure 4. (A) Simulated single particle images of SpCas9 SNR = 0.0625; (B) Preprocessed simulated single particle images of SpCas9 SNR = 0.0625

图4. (A) 模拟单颗粒SpCas9单颗粒投影图像,信噪比为0.0625;(B) 经过预处理的模拟单颗粒SpCas9单颗粒投影图像,信噪比为0.0625

3.2. 模拟SpCas9蛋白单颗粒图像的识别

考虑到实际冷冻电镜单颗粒图像的信噪比可能更低,为了测试受限玻尔兹曼机网络在不同信噪比环境下的识别准确率,我们选取不同信噪比的单颗粒SpCas9蛋白模拟结构投影图像与同等条件下的空白噪声图像为训练集,再以同等数量的模拟数据作为测试集进行检验(详见表1),以验证本文方法的有效性,模拟图像的生成方法与3.1中相同。我们得到以下数据:

Table 1. Identification accuracy of simulated SpCas9 and noise data under different SNR

表1. 不同信噪比条件下模拟单颗粒与噪声的识别准确率

由此可见,随着信噪比的不断下降,识别准确率有一定下降,在信噪比为0.0312条件下,识别准确率为98.14%;在信噪比低至0.0156时,识别准确率为95.42%;在更为极端的信噪比仅有0.0078的条件下,该网络的识别准确率仍可达92.46%,而此时,在不经过预处理的条件下,肉眼已经无法识别到图像中是否存在单颗粒(详见图5)。

Figure 5. (A) Simulated single particle images of SpCas9 SNR from 0.0625 to 0.0078; (B) Preprocessed simulated single particle images of SpCas9 SNR from 0.0625 to 0.0078

图5. (A) 模拟单颗粒SpCas9单颗粒投影图像,信噪比自0.0625到0.0078;(B) 经过预处理的模拟单颗粒SpCas9单颗粒投影图像,信噪比自0.0625到0.0078

3.3. 瞬态受体电位离子通道蛋白子类V成员1的冷冻电镜单颗粒识别与三维重构

在经过模拟数据集检验后,我们决定采用真实的冷冻电镜数据进行进一步实验,我们选取了电子显微镜公开图像数据库(Electron Microscopy Public Image Archive,简称EMPIAR)编号为10005的TRPV1原始冷冻电镜图像,利用PARSED工具进行颗粒的初步自动挑选 [13],从871张图片中获得了147,256个的单颗粒图像作为分类数据集。

此外,我们还随机选取100张原始冷冻电镜图像,利用RELION进行单颗图像筛选与二维图像分类,并选取置信度较高的前几个类别下的单颗粒图像作为阳性训练集,同时将分类靠后且外观显著为气泡或杂质的单颗粒图像构建为阴性训练集。在训练集的构建过程中,由于单张的单颗粒图像质量难以进行独立的质量评价,对于单颗粒图像的也分类尚未制定明确的标准,RELION作为冷冻电镜单颗粒二维图像分类应用最广泛的软件之一,其分类方法具有较高的置信度,因此可以作为训练样本参考。所挑选出的单颗粒训练样本共计10,418个,其中阳性样本7771个,占比74.59%,阴性2647个,占比25.41%。随后以此作为训练集对RBM网络进行训练,并在训练完成后对初步筛选出的147,256个单颗粒图像进行分类,进一步实现高置信度的单颗粒图像精确识别。

经过RBM网络识别与分类后,共计得到32,403个阳性单颗粒结果,由于RELION无法使用单独选择的单颗粒图像进行三维结构重构,因此我们利用cryoSPARC平台 [24] 二维分类功能进行进一步筛选,同样地我们仅选取二维分类中置信度较高的前20类(详见图6(A)、图6(B)),共计23636个单颗粒图像进行三维重构,并最终获得了分辨率约为3.63Å的三维密度图(详见图7)。

Figure 6. (A) Top 20 highest degree of confidence of 2D classes of TRPV1 single particle images by cryoSPARC; (B) Probability histogram of best 2D classes of single particle images; (C) Distributions of projection angles of TRPV1 single particle images

图6. (A) 基于cryoSPARC冷冻电镜图像处理平台所产生的置信度最高前20类瞬态受体电位离子通道蛋白子类V成员1单颗粒图像投影二维分类图;(B) 单颗粒图像二维分类处于最佳类别的概率分布直方图;(C) 瞬态受体电位离子通道蛋白子类V成员1单颗粒图像投影角度分布图

在单颗粒三维结构重构的过程中,所分配到不同角度相对应单颗粒投影图像的数量的连续性分布,也直接对最终三维模型的分辨率有较大影响。其中,图6(C)表示不同角度派位的分布情况红色代表单颗粒数较多,蓝色代表较少,可以看见在连续区间内,单颗粒图像的角度分布基本比较连续,也说明本方法所挑选的单颗粒投影图像分布均匀,未出现某些角度无法识别的状况。

Figure 7. (A-D) Projections of 3D Reconstruction Model of TRPV1 at different angels; (E) Curve diagram of GSFSC Resolution

图7. (A-D) 瞬态受体电位离子通道蛋白子类V成员1三维重构模型投影;(E) GSFSC分辨率曲线图

4. 结论

为了验证双边滤波器、直方图均衡化与受限玻尔兹曼机在冷冻电镜单颗粒图像识别中的应用,本文首先验证了在模拟高噪声条件下本方法的有效性;随后,在这一基础上,本文对真实的TRPV1的冷冻电镜单颗粒图像数据展开实际应用,并通过进一步的三维结构重构结果验证了方法的可行性。相较于Cheng等文章中利用35,645个非MotionCorr单颗粒图像获得的分辨率约3.4Å的三维结构 [4],在部分原始冷冻电镜原始图像文件无法完整下载导致数据的缺失的情况下,最终重构出了分辨率3.63Å的三维结构。本文方法说明了利用计算机图形学与机器学习的相关技术,可以有效的实现冷冻电镜单颗粒图像的识别与筛选,在保证一定准确率的基础上,相比较人工筛选颗粒大大提高了工作效率,也为冷冻电镜单颗粒二维图像的处理与优化提供了新思路。

基金项目

本论文的工作获得了国家自然科学基金项目(No. 31971377)的资助。

NOTES

*通讯作者。

文章引用: 王桉迪 , 姚睿捷 , 黄强 (2021) 基于双边滤波与受限玻尔兹曼机的冷冻电镜单颗粒图像识别。 生物物理学, 9, 34-42. doi: 10.12677/BIPHY.2021.91005

参考文献

[1] Cheng, Y. (2018) Single-Particle Cryo-EM—How Did It Get Here and Where Will It Go. Science, 361, 876-880.
https://doi.org/10.1126/science.aat4346

[2] Cheng, Y., Grigorieff, N., Penczek, P.A. and Walz, T. (2015) A Primer to Single-Particle Cryo-Electron Microscopy. Cell, 161, 438-449.
https://doi.org/10.1016/j.cell.2015.03.050

[3] Egelman, E.H. (2016) The Current Revolution in Cryo-EM. Biophysical Journal, 110, 1008-1012.
https://doi.org/10.1016/j.bpj.2016.02.001

[4] Liao, M., Cao, E., Julius, D. and Cheng, Y. (2013) Structure of the TRPV1 Ion Channel Determined by Electron Cryo-Microscopy. Nature, 504, 107-112.
https://doi.org/10.1038/nature12822

[5] Huai, C., Li, G., Yao, R., Zhang, Y., Cao, M., Kong, L., Jia, C., Yuan, H., Chen, H. and Lu, D. (2017) Structural Insights into DNA Cleavage Activation of CRISPR-Cas9 System. Nature Communications, 8, 1375.
https://doi.org/10.1038/s41467-017-01496-2

[6] Bai, R., Yan, C., Wan, R., Lei, J. and Shi, Y. (2017) Structure of the Post-Catalytic Spliceosome from Saccharomyces cerevisiae. Cell, 171, 1589-1598.
https://doi.org/10.1016/j.cell.2017.10.038

[7] Frank, J., Radermacher, M., Penczek, P., Zhu, J., Li, Y., Ladjadj, M. and Leith, A. (1996) SPIDER and WEB: Processing and Visualization of Images in 3D Electron Microscopy and Related Fields. Journal of Structural Biology, 116, 190-199.
https://doi.org/10.1006/jsbi.1996.0030

[8] Marabini, R., Masegosa, I., San Martın, M., Marco, S., Fernandez, J., De La Fraga, L., Vaquerizo, C. and Carazo, J. (1996) Xmipp: An Image Processing Package for Electron Microscopy. Journal of Structural Biology, 116, 237-240.
https://doi.org/10.1006/jsbi.1996.0036

[9] Ludtke, S.J., Baldwin, P.R. and Chiu, W. (1999) EMAN: Semiautomated Software for High-Resolution Single-Particle Reconstructions. Journal of Structural Biology, 128, 82-97.
https://doi.org/10.1006/jsbi.1999.4174

[10] Voss, N., Yoshioka, C., Radermacher, M., Potter, C. and Carragher, B. (2009) DoG Picker and TiltPicker: Software Tools to Facilitate Particle Selection in Single Particle Electron Microscopy. Journal of Structural Biology, 166, 205-213.
https://doi.org/10.1016/j.jsb.2009.01.004

[11] Scheres, S.H. (2012) RELION: Implementation of a Bayesian Approach to Cryo-EM Structure Determination. Journal of Structural Biology, 180, 519-530.
https://doi.org/10.1016/j.jsb.2012.09.006

[12] Zhang, J., Wang, Z., Chen, Y., Han, R., Liu, Z. and Sun, F. (2019) PIXER: An Automated Particle-Selection Method Based on Segmentation Using a Deep Neural Network. BMC Bioinformatics, 20, Article No. 41.
https://doi.org/10.1186/s12859-019-2614-y

[13] Yao, R., Qian, J. and Huang, Q. (2019) Deep-Learning with Synthetic Data Enables Automated Picking of Cryo-EM Particle Images of Biological Macromolecules. Bioinformatics, 36, 1252-1259.
https://doi.org/10.1093/bioinformatics/btz728

[14] Tegunov, D. and Cramer, P. (2019) Real-Time Cryo-Electron Microscopy Data Preprocessing with Warp. Nature Methods, 16, 1146-1152.
https://doi.org/10.1038/s41592-019-0580-y

[15] Wang, F., Gong, H., Liu, G., Li, M., Yan, C., Xia, T., Li, X. and Zeng, J. (2016) DeepPicker: A Deep Learning Approach for Fully Automated Particle Picking in Cryo-EM. Journal of Structural Biology, 195, 325-336.
https://doi.org/10.1016/j.jsb.2016.07.006

[16] Sigworth, F.J. (2016) Principles of Cryo-EM Single-Particle Image Processing. Microscopy, 65, 57-67.
https://doi.org/10.1093/jmicro/dfv370

[17] Pantelic, R.S., Ericksson, G., Hamilton, N. and Hankamer, B. (2007) Bilateral Edge Filter: Photometrically Weighted, Discontinuity Based Edge Detection. Journal of Structural Biology, 160, 93-102.
https://doi.org/10.1016/j.jsb.2007.07.005

[18] Zhang, M. and Gunturk, B.K. (2008) Multiresolution Bilateral Filtering for Image Denoising. IEEE Transactions on Image Processing, 17, 2324-2333.
https://doi.org/10.1109/TIP.2008.2006658

[19] Wang, Y., Chen, Q. and Zhang, B. (1999) Image Enhancement Based on Equal Area Dualistic Sub-Image Histogram Equalization Method. IEEE Transactions on Consumer Electronics, 45, 68-75.
https://doi.org/10.1109/30.754419

[20] Sutskever, I., Hinton, G.E. and Taylor, G.W. (2008) The Recurrent Temporal Restricted Boltzmann Machine. Proceedings of the Twenty-Second Annual Conference on Neural Information Processing Systems, Vancouver, 8-11 December 2008, 1601-1608.

[21] Larochelle, H., Mandel, M., Pascanu, R. and Bengio, Y. (2012) Learning Algorithms for the Classification Restricted Boltzmann Machine. The Journal of Machine Learning Research, 13, 643-669.

[22] Hinton, G.E. (2012) A Practical Guide to Training Restricted Boltzmann Machines. In: Neural Networks: Tricks of the Trade, Springer, Berlin, 599-619.
https://doi.org/10.1007/978-3-642-35289-8_32

[23] Salakhutdinov, R., Mnih, A. and Hinton, G. (2007) Restricted Boltzmann Machines for Collaborative Filtering. Proceedings of the 24th International Conference on Machine Learning, Corvallis, 20-24 June 2007, 791-798.
https://doi.org/10.1145/1273496.1273596

[24] Punjani, A., Rubinstein, J.L., Fleet, D.J. and Brubaker, M. (2017) cryoSPARC: Algorithms for Rapid Unsupervised Cryo-EM Structure Determination. Nature Methods, 14, 290-296.
https://doi.org/10.1038/nmeth.4169

分享
Top