姐妹花 DNAVec:基因组DNA序列的预检修词向量暗示 DNAVec: Pre-Trained Word Vector Representation of Genomic DNA Sequences
一之濑亚美莉

一之濑亚美莉

姐妹花 DNAVec:基因组DNA序列的预检修词向量暗示 DNAVec: Pre-Trained Word Vector Representation of Genomic DNA Sequences

发布日期:2024-11-04 00:31    点击次数:98

姐妹花 DNAVec:基因组DNA序列的预检修词向量暗示 DNAVec: Pre-Trained Word Vector Representation of Genomic DNA Sequences

西南交通大学生命科学与工程学院姐妹花,四川 成都

收稿日历:2021年4月23日;委用日历:2021年5月7日;发布日历:2021年6月1日

摘要

破译DNA序列所代表的信息是基因组磋磨的基本问题之一。基因调控编码由于存在多义性关系而变得稀奇复杂,而以往的生物信息学要津频频无法捕捉到DNA序列的隐含信息,尤其是在数据匮乏的情况下。因而从序列信息中预测DNA序列的结构和功能是策画生物学的一个挫折挑战。为了打法这一挑战,咱们引入了一种新的要津,通过使用当然话语处理界限的话语模子BERT将DNA序列暗示为连气儿词向量。通过对DNA序列进行建模,BERT灵验地从未标记的大数据中捕捉到了DNA序列中的序列特质。咱们将DNA序列的这种新的镶嵌暗示称为DNAVec (DNA-to-Vector)。此外,咱们不错从模子中索要出预检修的词向量用于暗示DNA序列,用于其他序列级别的分类任务。

枢纽词

BERT,DNA序列,预检修,当然话语处理

DNAVec: Pre-Trained Word Vector Representation of Genomic DNA Sequences

Mei Lang, Zhiyun Guo

School of Life Science and Engineering, Southwest Jiaotong University, Chengdu Sichuan

Received: Apr. 23rd, 2021; accepted: May 7th, 2021; published: Jun. 1st, 2021

ABSTRACT

Deciphering the information represented by DNA sequences is one of the fundamental problems of genomic research. Gene regulatory coding is complicated by the presence of polysense relationships, and previous bioinformatics methods often fail to capture the implicit information of DNA sequences, especially when data are scarce. Predicting the structure and function of DNA sequences from sequence information is thus an important challenge in computational biology. To address this challenge, we introduce a new approach to represent DNA sequences as continuous word vectors by using the language model BERT from the field of natural language processing. By modelling DNA sequences, BERT effectively captures the sequence properties in DNA sequences from unlabelled big data. We refer to this new embedding representation of DNA sequences as DNAVec (DNA-to-Vector). In addition, we can extract pre-trained word vectors from the model for representing DNA sequences for other sequence-level classification tasks.

探花黑丝

Keywords:BERT, DNA Sequence, Pre-Training, Nature Language Processing

Copyright © 2021 by author(s) and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

姐妹花

1. 媒介

最近,磋磨东谈主员发现东谈主类话语与生物话语之间存在一些通常之处。受此启发,设立生物话语处理模子不错为生物序列的磋磨提供一个全新的表面视角和可行的要津,但是,东谈主们要发现与东谈主类话语不同的生物模式的真确含义是相当贫寒的。磋磨东谈主员设立了一个叫的BioVec [1] 模子。该模子提供了一种全新的卵白质序列的暗示和特征索要要津。Wang等东谈主设立了一种名为生物向量(Bio2Vec)的生物话语处理模子 [2]。Bio2Vec提供了一个框架,允许磋磨东谈主员辩论生物序列的高下文信息和隐含语义信息。Chen等东谈主 [2] 垄断当然话语处理(NLP)时间取得了各卵白质序列的全局向量暗示。Heinzinger等 [3] 垄断深度双向话语模子ELMo [4] 从未标记的大数据中捕捉卵白质序列的生物物理特质。MENEGAUX等东谈主 [5] 设立了一称之为fastDNA的模子,此模子通过学习DNA序列所包含的k-mer的连气儿低维暗示,将DNA序列镶嵌到一个向量空间中。他们通过修改fastText开源库 [6] [7] 终明晰这个模子,其中触及到一个雷同的当然话语的k-mer镶嵌模子。Patrick Ng设立了一个名为DNAVec [8] 的要津,该要津基于NLP的一个首创性的模子Word2Vec [9] 来索要DNA序列的特征并给出合乎的暗示,不错更好地默契DNA序列的语义。以上实验遵守标明,垄断生物序列的语义信息对惩处基于序列的问题有很大匡助。此外,这些使命将在多样生物分类问题上也有潜在的应用。

上头磋磨的标明NLP在生物话语处理界限有很大的后劲,但是当然话语处理社区时间也不断的更新和发展,过去时间的不及也不可知足当下发展的需求。比如:之前的模子Word2Vec [9]、GloVe [10] 专注于学习与语境无关的词语表征,最近的磋磨ELMo [4] 使用了一个双向的话语模子学习高下文暗示,辘集在学习依赖语境的单词表征上,ELMo使用两个孤独的长短期挂牵网罗(LSTM) [11] 的组合,并不是真确预料上的高下文联系暗示。GloVe [10] 使用机器翻译将高下文信息镶嵌到单词中。这些当然话语处理时间诚然得到了平淡的应用,但它们对序列的暗示都不是真确预料上的高下文联系。BERT [12] 是平淡用于NLP界限的基于高下文联系的词暗示模子,同期在大多数的NLP应用中取得了源泉进的性能。在宽阔当然话语处理界限的实施标明BERT具有很强的暗示智商,而暗示学习 [13] 关于深度学习模子瑕瑜常挫折的。基于BERT这种对序列的暗示智商,因此在这篇著述中咱们基于全基因组DNA序列从新检修BERT模子,从而得到一个DNA序列的暗示模子。模子的可视化遵守标明,模子大约捕捉到DNA序列中很是的语义模式。

2. 预检修模子

2.1. 数据集

咱们的预检修模子是用hg38东谈主类基因组拼装chr1至chr22进行检修的。具体来说,它们是从UCSC (#human)下载的。此外,咱们排斥了X和Y染色体,以及线粒体和不决位的序列。

2.2. BERT:基于Transformer的双向话语模子

BERT是一个高下文联系的的词暗示模子。该模子是基于掩蔽话语模子和预检修的使用双向Tranformers [14]。由于话语模子的履行是异日的词不可被看见,过去的话语模子仅限于两个单向话语模子的组合(即从左到右和从右到左)。BERT使用了一个掩蔽话语模子,不错预测序列中立时掩蔽的词,因此不错用于学习高下文联系暗示。同期,它在大多数NLP任务上取得了源泉进的性能,同期只需要最小的特定任务架构修改就能用于其他任务。凭据BERT的作家,在当然话语模子中加入双向表征的信息,而不是单向表征的信息,关于表征当然话语中的词是至关挫折的。咱们假定这种双向暗示关于DNA序列的暗示亦然至关挫折的。因为复杂的DNA序列暗示也不是肤浅的从左到右或者从右到左的关系,基因调控元件之间亦然高下文联系的。

2.3. 分词

咱们莫得将每个碱基视为一个单一的标记,而是用k-mer暗示法将一个DNA序列标记化,这种要津已被平淡用于分析DNA序列。k-mer暗示法通过将每个脱氧核苷酸碱基与它的后续碱基指令起来,为其整合了更丰富的高下文信息。它们的指令称为k-mer。本文中咱们使用可变长k-mer ( 3 ≤ k ≤ 8 )来拼装DNA序列。具体要津如下:给定一个DNA序列S,率先通过在S上滑动长度为k的窗口将其疗养为重复的固定长度的k-mer,其中k值的弃取选拔芜乱立时采样。举例,GATCCCAC的变长k-mer (k = (4, 5, 6)不错是{GATC, ATCCC,TCCCAC}。分词示举例图1所示。在咱们的实验中,模子的词汇表包括k-mer的所有这个词罗列组合以及5个很是标记。[CLS]代表分类标记;[PAD]代表填充标记;[UNK]代表未知标记;[SEP]代表序列高下句分裂标记;[MASK]代表屏蔽标记。因此模子中的词汇共有87365个。

图1. 可变长k-mer从新拼装

2.4. 预检修

凭据之前的模子预检修使命 [12] [15],本实验的总体结构如图2所示,关于一段DNA序列(序列的最大输入长度为512),咱们将其标记为k-mers序列,并在其着手添加一个代表通盘序列的很是的标记[CLS]以及在终结添加一个暗示序列截至的很是的标记[SEP]。在检修流程中,咱们掩蔽序列中的某些k-mers,掩蔽的比例为占一段输入序列的15% (戒备过拟合以及减少模子的策画量)。在本磋磨中咱们使用BERT (L = 12, H = 512, A = 12)疏浚的模子结构进行检修,其中L代表代表模子的总的层数,即有12个Transformer结构单位,H代表覆盖层大小,A代表自可贵力头部,共有12个可贵力头部。咱们对预检修模子进行了共80 k步的检修,批处理量为8。学习率为4e−4。此外,咱们在配备2个NVIDIA Tesla K80 (240 k) GPU的机器上进行检修。

图2. 预检修模子结构

2.5. 词频–逆文档频率

tf-idf (term frequency-inverse document frequency)暗示词频–逆文档频率,tf (term frequency)是词频,idf (inverse document frequency)暗示逆文档频率,tf-idf权重是信息检索和文本挖掘中常用的加权时间。该权重是一种统计度量要津,用于评估一个单词对蚁合或语料库中的文档的挫折性。挫折性随单词在文档中出现的次数成比例增多,但会被单词在包含该单词的语料库中出现的频率对消,这有助于凭据某些单词在一般情况下出现更普通的事实进行调整。tf-idf策画要津为:

咱们界说 f ( t , d ) 为单词t在文档d中的出现频率,然后词频 f ( t , d ) 如公式2-1所示:

f ( t , d ) = f t , d ∑ t ′ ∈ d f t ′ , d (2-1)

逆文档频率idf界说如公式2-2所示:

i d f ( t ) = log 1 + n 1 + d f ( t ) + 1 (2-2)

其中n 在文档辘集文档的总和, d f ( t ) 是包含t的文档的数目, tf-idf 界说如公式2-3所示:

t f - i d f ( t , d ) = t f ( t , d ) × i d f ( t ) (2-3)

然后将得到的tf-idf向量用欧几里得范数进行归一化处理,如公式2-4所示:

v n o r m = v ‖ v ‖ 2 = v v 1 2 + v 2 2 + ⋅ ⋅ ⋅ + v n 2 (2-4)

3. 实验遵守

3.1. 模子可贵力机制分析

BERT以两个枢纽想想为基础:Transformer [14] 架构和无监督的预检修。这两个想想是BERT在好多应用上取的很好的原因。Transformer是一个序列模子,它毁灭了轮回神经网罗(RNN) [16] 的轮回结构,而选拔了王人备基于可贵力的要津 [17]。为了探索预检修到底学到了什么。咱们使用可视化器具bertviz [18] 对模子进行可视化,通过分析模子的可贵力机制咱们发现一些稀奇特有的和令东谈主骇怪的直不雅的可贵力模式。底下咱们发现了4种比拟挫折的可贵力机制模式,并为每一个特定的layer/head进行分析。

模式一:可贵力大部分放在3-mer上。在这个模式中,在特定位置的大部分可贵力指向序列中的3-mer标记。咱们不错在layer 0/head 3中看到这么的一个例子。(选中的头部由顶部神色条中卓绝暴露的正方形暗示),图3(a)暴露了对一个采选标记mer“gatccac”的可贵力模式。在本例中,险些所有这个词的可贵力都指向序列中的下一个令牌“cct”、“aaa”、“cct”。一个词可贵放在3-mer,可能是因为3-mer是密码子的,在一个序列中比拟挫折的序列单位的原因。

图3. 预检修模子中的可贵力机制可视化

模式二:在这个模式中,序列是一段管家基因序列。可贵力放在了除3-mer除外的所有这个词标记。举例,在图3(b)中layer3,head3中,“gcgc”可贵放在职何不包含“gat”、“aaa”、“cct”的k-mer。一项磋磨用k-mer频率算作特征来预测CpG岛,遵守标明东谈主类的CpG岛序列具有特有的k-mer模式,并不是立时序列,通过他们的分析,4-mer的表现最佳 [19]。标明CpG岛具有明显的4-mer散布。正如咱们所知谈的,CpG岛富集于管家基因,管家基因因为要看护在所有这个词细胞中平安抒发,而3-mer是比拟常见的转录密码子,在基因组属于转录比拟活跃的部分。因此,模式二可能学习到序列中隐含的调控语义。

模式三:可贵力放在了语料库中tf-idf值比拟高的k-mer上。咱们策画了全基因组DNA序列语料库中的k-mer的tf-idf值。其中tf-idf值前100的k-mer的词云图如图4所示。凭据图3(c)可知,可贵力机制放在了tf-idf值比拟高的mers上。模式三标明该模子能捕捉到语料库中的枢纽k-mer。

模式四:在这一模式中。可贵放在了疏浚或联系的词,包括源词自己。在图3(d)的例子中,“gagtgagt”的可贵力主要辘集在它自己和“gtgctg”、“tgctgga”上。这种模式不像其他模式那样明显,可贵力分散在许多不同的单词上,但是其可贵力雷同于当然话语界限把可贵力放在近义词上,标明模子大约拿获通常的语义。以上4种模式相貌了预检修模子中比拟常见的可贵模式,遵守标明该模子履行上得到了一些有预料的DNA序列特质。

图4. 前一百个tf-idf值比拟高的kmer的词云图

3.2. DNA序列的词向量暗示

长DNA序列的宽阔暗示之一是将其领会为较短的k-mer要素,在许多应用中,短k-mer被以为是联系的,如k = 6 [2],k ≤ 7 [20],k = 8 [21]。厄运的是,将k-mer算作一个one-hot向量进举止直的编码时任何一双one-hot之间的距离都是等距的,这暗示k-mer之间王人备莫得联系性。而况这种编码频频导致数据的空间维度很大,容易受到维数悲痛的影响。当应用最新的机器学习算法来惩处生物序列分析的问题时,这尤其成问题。因此,咱们提议了一种基于预检修的DNA序列暗示要津。辩论到BERT用于预检修的字典不可太大,咱们使用长度为3~8的k-mer。检修模子将每个k-mer镶嵌一个新的n维特征空间,为不同长度的k-mer生成特征向量。具体地,预检修镶嵌模子不错暗示为大小为 V × N 的投影矩阵,其中V为辞书大小,N为镶嵌特征空间的维数,词汇表V是所有这个词k-mer的组合和用于标记的5个很是标记的蚁合。在本论文中,咱们索要预检修模子的终末一层隐含层,得到一个大小为 V × 512 的镶嵌矩阵。每个单词都镶嵌在一个512维的空间中。咱们不错使用一个名为bert-as-service的器具(https://github.com/hanxiao/bert-as-service)获取高下文单词镶嵌。取得的预检修的词向量花样如图5所示。

图5. 预检修词向量暗示花样

4. 论断

当今预检修时间平淡应用于当然话语处理(NLP)和策画机视觉(CV)界限。但是在生物信息界限还很少应用到。DAN序列算作生物话语,其自己和当然话语有一定的通常性。因此本论文试图从话语处理的角度分析生物话语。但愿为DNA序列的解读提供新的发现或为生物问题的惩处提供新的视角。在本磋磨中,通过自监督的预检修要津来得到DNA序列的高下文联系暗示,这与之前的序列one-hot要津暗示或者序列高下文无关暗示极为不同。论文的主要孝顺是发布了一个预检修模子,咱们欲望咱们的模子也适用于其他序列分析任务,举例,从染色质可及性测序数据 [22] 和转录因子荟萃位点测序数据 [23] 中细目基因组调控元件。此外,由于RNA序列与DNA序列只收支一个碱基,而语法和语义基本保抓一致,咱们提议的要津展望也可能应用RNA序列数据 [24]。诚然在DNA上像当然话语样径直进行机器翻译是不可能的,但DNA序列的预检修模子提供了这种可能性的启示。算作一个基于DNA序列设立的预检修话语模子,它正确地捕捉到了DNA序列中覆盖的语法和语义。同期,本论文也突显了荟萃不同档次的数据对DNA序列进行解读的必要性。总而言之,咱们展望此预检修模子不错为基因序列分析带来先进的话语建模视角,为生物信息学界带来新的主张。

著述援用

郎 梅,郭志云. DNAVec:基因组DNA序列的预检修词向量暗示DNAVec: Pre-Trained Word Vector Representation of Genomic DNA Sequences[J]. 生物医学, 2021, 11(03): 121-128. https://doi.org/10.12677/HJBM.2021.113016

参考文件姐妹花



一之濑亚美莉

西南交通大学生命科学与工程学院姐妹花,四川 成都 收稿日历:2021年4月23日;委用日历:2021年5月7日;发布日历:2021年6月1日 摘要 破译DNA序列所代表的信息是基因组磋磨的基本问题之一。基因调控编码由于存在多义性关系而变得稀奇复杂,而以往的生物信息学要津频频无法捕捉到DNA序列的隐含信息,尤其是在数据匮乏的情况下。因而从序列信息中预测DNA序列的结构和功能是策画生物学的一个挫折挑战。为了打法这一挑战,咱们引入了一种新的要津,通过使用当然话语处理界限的话语模子BERT将DNA序列