Python的生物信息学：使用`Biopython`库进行基因序列分析和处理。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

Python生物信息学：利用Biopython进行基因序列分析和处理

各位同学，大家好！今天我们来探讨一个非常重要的领域：利用Python和Biopython库进行基因序列的分析和处理。在生物信息学领域，基因序列分析是基石，而Python凭借其强大的可读性和丰富的库支持，成为了生物信息学家首选的编程语言之一。Biopython库则专门为生物信息学应用而设计，提供了处理生物序列、数据库接口、比对算法等一系列工具，极大地简化了我们的工作流程。

1. Biopython简介与安装

Biopython是一个开源的Python库，专门用于处理生物信息学数据。它提供了各种模块，用于处理序列、数据库、比对、结构等生物信息学领域的常见任务。

安装Biopython:

通常情况下，我们可以使用pip安装Biopython：

pip install biopython

安装完成后，我们就可以在Python脚本中导入Biopython模块了：

from Bio import SeqIO
from Bio.Seq import Seq
from Bio.Alphabet import IUPAC

2. 序列对象：Seq和MutableSeq

Biopython中最基础的概念之一就是序列对象。Bio.Seq模块定义了Seq类，用于表示生物序列，例如DNA、RNA或蛋白质序列。

2.1 创建Seq对象:

我们可以直接使用字符串创建一个Seq对象：

from Bio.Seq import Seq
from Bio.Alphabet import IUPAC

dna_sequence = Seq("ATGC", IUPAC.unambiguous_dna)
print(dna_sequence)  # 输出: ATGC
print(dna_sequence.alphabet) # 输出: IUPACUnambiguousDNA()

这里，IUPAC.unambiguous_dna指定了序列的字母表，表示这是一个DNA序列，并且只包含明确的碱基（A、T、G、C）。

2.2 Seq对象的方法:

Seq对象提供了一系列方法用于序列操作，例如：

reverse_complement(): 返回序列的反向互补序列。
transcribe(): 将DNA序列转录为RNA序列。
translate(): 将DNA或RNA序列翻译成蛋白质序列。
count(sub): 计算序列中子序列sub出现的次数。
find(sub): 查找子序列sub在序列中首次出现的位置。

from Bio.Seq import Seq
from Bio.Alphabet import IUPAC

dna_sequence = Seq("ATGC", IUPAC.unambiguous_dna)

# 反向互补
reverse_complement = dna_sequence.reverse_complement()
print(reverse_complement) # 输出: GCAT

# 转录
rna_sequence = dna_sequence.transcribe()
print(rna_sequence) # 输出: AUGC

# 翻译 (需要长度是3的倍数)
dna_sequence_translation_ready = Seq("ATGCGA", IUPAC.unambiguous_dna)
protein_sequence = dna_sequence_translation_ready.translate()
print(protein_sequence) # 输出: MR

#计数
count_A = dna_sequence.count("A")
print(count_A) # 输出: 1

2.3 MutableSeq对象:

Seq对象是不可变的，如果需要修改序列，可以使用MutableSeq对象。

from Bio.Seq import MutableSeq
from Bio.Alphabet import IUPAC

mutable_sequence = MutableSeq("ATGC", IUPAC.unambiguous_dna)
mutable_sequence[0] = "G"
print(mutable_sequence) # 输出: GTGC

mutable_sequence.append("T")
print(mutable_sequence) # 输出: GTGCT

mutable_sequence.remove("T")
print(mutable_sequence) # 输出: GTGC

3. 序列文件读取与写入：SeqIO

Bio.SeqIO模块用于读取和写入各种格式的序列文件，例如FASTA、GenBank等。

3.1 读取序列文件:

SeqIO.parse()函数可以迭代地读取序列文件中的每条序列。

from Bio import SeqIO

# 读取FASTA文件
for record in SeqIO.parse("example.fasta", "fasta"):
    print(record.id)  # 序列ID
    print(record.seq) # 序列
    print(record.description) #序列描述

其中，example.fasta是一个FASTA格式的文件，内容如下：

>seq1 description1
ATGC
>seq2 description2
GCTA

SeqIO.parse()函数返回的是一个SeqRecord对象迭代器，每个SeqRecord对象包含序列的ID、序列、描述等信息。

3.2 写入序列文件:

SeqIO.write()函数可以将SeqRecord对象写入序列文件。

from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord
from Bio import SeqIO

# 创建SeqRecord对象
sequence1 = Seq("ATGC")
record1 = SeqRecord(sequence1, id="seq1", description="description1")

sequence2 = Seq("GCTA")
record2 = SeqRecord(sequence2, id="seq2", description="description2")

# 将SeqRecord对象写入FASTA文件
records = [record1, record2]
SeqIO.write(records, "output.fasta", "fasta")

这段代码将创建一个名为output.fasta的FASTA文件，其中包含两条序列。

3.3 支持的文件格式:

SeqIO模块支持多种文件格式，常见的格式包括：

格式名称	格式标识符	描述
FASTA	fasta	一种简单的文本格式，用于表示核酸或蛋白质序列。每条序列以">"开头的行作为ID，后面跟着序列。
GenBank	genbank	NCBI的基因库格式，包含序列、注释、参考文献等信息。
EMBL	embl	欧洲分子生物学实验室的序列数据库格式，类似于GenBank格式。
FASTQ	fastq	用于存储高通量测序数据的格式，包含序列和质量信息。每条序列由四行组成：ID、序列、"+"、质量字符串。
SwissProt	swiss	蛋白质序列数据库格式，包含蛋白质序列、功能注释、参考文献等信息。
Clustal	clustal	ClustalW/X多序列比对软件的输出格式。

可以通过SeqIO.convert()函数在不同格式之间转换文件。

from Bio import SeqIO

# 将GenBank文件转换为FASTA文件
SeqIO.convert("example.gb", "genbank", "output.fasta", "fasta")

4. 序列比对：Bio.pairwise2

Bio.pairwise2模块提供了进行序列比对的功能。它支持全局比对和局部比对，以及不同的计分方式。

4.1 全局比对:

全局比对旨在找到两个序列之间的最佳整体对齐方式。

from Bio import pairwise2
from Bio.Seq import Seq

# 定义序列
seq1 = Seq("GATTACA")
seq2 = Seq("GCATGCU")

# 进行全局比对
alignments = pairwise2.align.globalms(seq1, seq2, 2, -1, -0.5, -0.1)

# 打印比对结果
for alignment in alignments:
    print(pairwise2.format_alignment(*alignment))

pairwise2.align.globalms()函数进行全局比对，参数含义如下：

seq1, seq2: 要比对的两个序列。
2: 匹配得分。
-1: 不匹配得分。
-0.5: 缺口开放罚分。
-0.1: 缺口延伸罚分。

pairwise2.format_alignment()函数用于格式化比对结果。

4.2 局部比对:

局部比对旨在找到两个序列之间的最佳局部对齐方式。

from Bio import pairwise2
from Bio.Seq import Seq

# 定义序列
seq1 = Seq("GATTACA")
seq2 = Seq("GCATGCU")

# 进行局部比对
alignments = pairwise2.align.localms(seq1, seq2, 2, -1, -0.5, -0.1)

# 打印比对结果
for alignment in alignments:
    print(pairwise2.format_alignment(*alignment))

pairwise2.align.localms()函数进行局部比对，参数含义与全局比对相同。

4.3 其他比对方式:

Bio.pairwise2模块还提供了其他比对方式，例如：

globaldx(): 使用打分矩阵进行全局比对。
localdx(): 使用打分矩阵进行局部比对。

可以使用Bio.SubsMat模块加载不同的打分矩阵，例如BLOSUM62、PAM250等。

from Bio import pairwise2
from Bio.Seq import Seq
from Bio.SubsMat import MatrixInfo as matinfo

# 定义序列
seq1 = Seq("GATTACA")
seq2 = Seq("GCATGCU")

# 加载打分矩阵
matrix = matinfo.blosum62

# 进行全局比对
alignments = pairwise2.align.globaldx(seq1, seq2, matrix)

# 打印比对结果
for alignment in alignments:
    print(pairwise2.format_alignment(*alignment))

5. 数据库访问：Bio.Entrez

Bio.Entrez模块允许我们通过Python访问NCBI的Entrez数据库，例如PubMed、GenBank等。

5.1 发送请求:

我们可以使用Entrez.esearch()函数在数据库中搜索条目。

from Bio import Entrez

# 设置邮箱地址 (NCBI 要求)
Entrez.email = "[email protected]"

# 搜索PubMed数据库
handle = Entrez.esearch(db="pubmed", term="cancer")
record = Entrez.read(handle)
handle.close()

# 打印搜索结果
print(record["Count"]) # 搜索结果数量
print(record["IdList"]) # 符合搜索条件的ID列表

5.2 获取记录:

我们可以使用Entrez.efetch()函数获取数据库中的记录。

from Bio import Entrez

# 设置邮箱地址
Entrez.email = "[email protected]"

# 获取GenBank记录
handle = Entrez.efetch(db="nucleotide", id="NM_000518.5", rettype="gb", retmode="text")
record = handle.read()
handle.close()

# 打印记录
print(record)

NM_000518.5是人类β-珠蛋白基因的GenBank accession number。

5.3 其他Entrez函数:

Bio.Entrez模块还提供了其他函数，例如：

Entrez.esummary(): 获取数据库条目的摘要信息。
Entrez.elink(): 查找数据库条目之间的链接关系。

6. 实际案例：分析新冠病毒基因组

现在，让我们通过一个实际案例来演示如何使用Biopython分析新冠病毒（SARS-CoV-2）的基因组。

6.1 下载基因组序列:

首先，我们需要从NCBI下载新冠病毒的基因组序列。我们可以使用Bio.Entrez模块来实现。

from Bio import Entrez
from Bio import SeqIO

# 设置邮箱地址
Entrez.email = "[email protected]"

# 下载新冠病毒基因组序列
handle = Entrez.efetch(db="nucleotide", id="MN908947.3", rettype="fasta", retmode="text")
record = handle.read()
handle.close()

# 将序列保存到文件
with open("covid19.fasta", "w") as f:
    f.write(record)

MN908947.3是新冠病毒完整基因组的GenBank accession number。

6.2 分析基因组:

下载基因组序列后，我们可以使用Bio.SeqIO模块读取序列，并进行一些简单的分析。

from Bio import SeqIO
from Bio.Seq import Seq
from Bio.Alphabet import IUPAC

# 读取基因组序列
for record in SeqIO.parse("covid19.fasta", "fasta"):
    genome_sequence = record.seq
    break

# 计算基因组长度
genome_length = len(genome_sequence)
print(f"基因组长度: {genome_length}")

# 计算GC含量
gc_count = genome_sequence.count("G") + genome_sequence.count("C")
gc_content = gc_count / genome_length
print(f"GC含量: {gc_content}")

# 查找特定序列
target_sequence = Seq("ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTCTTGTAGATCTGTTCTCTAAACGAACTTTAAAATCTGTGTGG", IUPAC.unambiguous_dna) # 来自文献中的一段保守序列
location = genome_sequence.find(target_sequence)
print(f"目标序列位置: {location}")

6.3 翻译特定区域:

假设我们要翻译基因组中的一个特定区域，例如编码S蛋白的区域。我们需要知道S蛋白的起始位置和终止位置。在这里，我们假设已经获得了这些信息。

from Bio.Seq import Seq
from Bio.Alphabet import IUPAC

# S蛋白编码区域
start_position = 21563
end_position = 25384

# 提取S蛋白编码序列
s_protein_sequence = genome_sequence[start_position:end_position]

# 翻译S蛋白序列
protein_sequence = s_protein_sequence.translate()
print(f"S蛋白序列: {protein_sequence}")

需要注意的是，实际的基因组分析要复杂得多，例如需要进行基因预测、功能注释、变异分析等。这里只是一个简单的示例，演示了如何使用Biopython进行基因序列的读取、分析和翻译。

7. 进一步学习Biopython

这篇讲座只是对Biopython的简单介绍。Biopython还提供了许多其他功能，例如：

Bio.Cluster: 聚类分析。
Bio.Phylo: 系统发育树分析。
Bio.PDB: 蛋白质结构分析。

要深入学习Biopython，可以参考Biopython官方文档和教程。

8. 总结：Biopython简化序列分析的强大工具

今天我们学习了如何使用Biopython进行基因序列的分析和处理。Biopython提供了一系列强大的工具，可以帮助我们完成各种生物信息学任务，例如序列读取、写入、比对、数据库访问等。掌握Biopython对于从事生物信息学研究至关重要。