Biopython教程

Biopython高级序列操作

Biopython高级序列操作详细操作教程

在本章中，我们将讨论Biopython提供的一些高级序列功能。

1. 补码和反补码

核苷酸序列可以反向互补以获得新序列。而且互补序列可以反向互补以获得原始序列。Biopython提供了两种方法来实现此功能-补码和反向补码。如在下面给出的代码：

# Filename : example.py
# Copyright : 2020 By Lidihuo
# Author by : www.lidihuo.com
# Date : 2020-08-25
>>> from Bio.Alphabet import IUPAC
>>> nucleotide = Seq('TCGAAGTCAGTC', IUPAC.ambiguous_dna)
>>> nucleotide.complement()
Seq('AGCTTCAGTCAG', IUPACAmbiguousDNA())
>>>

在这里，complement()方法允许互补DNA或RNA序列。reverse_complement()方法对结果序列从左到右进行补充和反转。如下代码所示 -

# Filename : example.py
# Copyright : 2020 By Lidihuo
# Author by : www.lidihuo.com
# Date : 2020-08-25
>>> nucleotide.reverse_complement()
Seq('GACTGACTTCGA', IUPACAmbiguousDNA())

Biopython使用Bio.Data.IUPACData提供的ambiguous_dna_complement变量进行补码操作。

# Filename : example.py
# Copyright : 2020 By Lidihuo
# Author by : www.lidihuo.com
# Date : 2020-08-25
>>> from Bio.Data import IUPACData
>>> import pprint
>>> pprint.pprint(IUPACData.ambiguous_dna_complement) {
   'A': 'T',
   'B': 'V',
   'C': 'G',
   'D': 'H',
   'G': 'C',
   'H': 'D',
   'K': 'M',
   'M': 'K',
   'N': 'N',
   'R': 'Y',
   'S': 'S',
   'T': 'A',
   'V': 'B',
   'W': 'W',
   'X': 'X',
   'Y': 'R'}
>>>

2. GC内容

预测基因组DNA的碱基组成(GC含量)将显着影响基因组功能和物种生态。GC含量是GC核苷酸的数目除以总核苷酸。要获取GC核苷酸含量，请导入以下模块并执行以下步骤：

# Filename : example.py
# Copyright : 2020 By Lidihuo
# Author by : www.lidihuo.com
# Date : 2020-08-25
>>> from Bio.SeqUtils import GC
>>> nucleotide = Seq("GACTGACTTCGA",IUPAC.unambiguous_dna)
>>> GC(nucleotide)
50.0

3. 转录

转录是将DNA序列转换为RNA序列的过程。实际的生物转录过程是执行反向补体(TCAG→CUGA)以将DNA作为模板链来获得mRNA。但是，在生物信息学以及Biopython中，我们通常直接与编码链一起工作，并且可以通过将字母T更改为U来获得mRNA序列。

转录的简单示例如下：

# Filename : example.py
# Copyright : 2020 By Lidihuo
# Author by : www.lidihuo.com
# Date : 2020-08-25
>>> from Bio.Seq import Seq
>>> from Bio.Seq import transcribe
>>> from Bio.Alphabet import IUPAC
>>> dna_seq = Seq("ATGCCGATCGTAT",IUPAC.unambiguous_dna) >>> transcribe(dna_seq)
Seq('AUGCCGAUCGUAU', IUPACUnambiguousRNA())
>>>

要逆转录，T更改为U，如以下代码所示：

# Filename : example.py
# Copyright : 2020 By Lidihuo
# Author by : www.lidihuo.com
# Date : 2020-08-25
>>> rna_seq = transcribe(dna_seq)
>>> rna_seq.back_transcribe()
Seq('ATGCCGATCGTAT', IUPACUnambiguousDNA())

要获得DNA模板链，请反向互补逆转录的RNA，如下所示：

# Filename : example.py
# Copyright : 2020 By Lidihuo
# Author by : www.lidihuo.com
# Date : 2020-08-25
>>> rna_seq.back_transcribe().reverse_complement()
Seq('ATACGATCGGCAT', IUPACUnambiguousDNA())

4. 转换

转换是将RNA序列翻译成蛋白质序列的过程。考虑如下所示的RNA序列：

# Filename : example.py
# Copyright : 2020 By Lidihuo
# Author by : www.lidihuo.com
# Date : 2020-08-25
>>> rna_seq = Seq("AUGGCCAUUGUAAU",IUPAC.unambiguous_rna)
>>> rna_seq
Seq('AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGAUAG', IUPACUnambiguousRNA())

现在，将translate()函数应用于上面的代码中：

# Filename : example.py
# Copyright : 2020 By Lidihuo
# Author by : www.lidihuo.com
# Date : 2020-08-25
>>> rna_seq.translate()
Seq('MAIV', IUPACProtein())

上面的RNA序列很简单。考虑RNA序列 - AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGA，并应用translate()-

# Filename : example.py
# Copyright : 2020 By Lidihuo
# Author by : www.lidihuo.com
# Date : 2020-08-25
>>> rna = Seq('AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGA', IUPAC.unambiguous_rna)
>>> rna.translate()
Seq('MAIVMGR*KGAR', HasStopCodon(IUPACProtein(), '*'))

在此，终止密码子用星号*表示。

在translate()方法中可能会在第一个终止码子处终止。要执行此操作，可以在translate()中分配参数为：to_stop = True，如下所示：

# Filename : example.py
# Copyright : 2020 By Lidihuo
# Author by : www.lidihuo.com
# Date : 2020-08-25
>>> rna.translate(to_stop = True)
Seq('MAIVMGR', IUPACProtein())

此处，终止密码子不包含在结果序列中，因为它不包含一个。

转换表NCBI的“遗传密码”页面提供了Biopython使用的转换表的完整列表。下面来看一个标准表的示例以可视化代码-

Biopython使用此表将DNA转换为蛋白质，并找到终止码子。

找工作要求35岁以下，35岁以上的程序员都干什么去了？

长久以来，一直有一个问题困扰着技术人——如何打破“程序员的35岁职业魔咒”，这一天迟早会到来，或早或晚。

或许是选错了行业，程序员薪水虽高，但光鲜的外表下，背后的苦衷只有自己知道。三十多岁本该是一个人事业的黄金期，但技术变化日新月异，行业竞争异常残酷，对一个企业来说，永远有比你更年轻、劳动成本更低的人可以选择，这让你的中年危机提前到来。破局的智慧可以看看这本书！>>

<< Biopython序列 Biopython序列I/O操作 >>

昵称：邮箱：