Biopython — это самый большой и самый популярный пакет биоинформатики для Python. Он содержит ряд различных подмодулей для общих задач биоинформатики. Он разработан Чепменом и Чангом, в основном написан на Python. Он также содержит C-код для оптимизации сложной вычислительной части программного обеспечения. Он работает на Windows, Linux, Mac OS X и т. Д.
По сути, Biopython — это набор модулей Python, которые предоставляют функции для работы с последовательностями ДНК, РНК и белковых последовательностей, такими как обратное комплементация цепочки ДНК, поиск мотивов в белковых последовательностях и т. Д. Он предоставляет множество синтаксических анализаторов для чтения всех основных генетических баз данных. такие как GenBank, SwissPort, FASTA и т. д., а также оболочки / интерфейсы для запуска других популярных программ / инструментов биоинформатики, таких как NCBI BLASTN, Entrez и т. д., в среде Python. У него есть родственные проекты, такие как BioPerl, BioJava и BioRuby.
Характеристики
Biopython является портативным, понятным и имеет простой в освоении синтаксис. Некоторые из существенных особенностей перечислены ниже —
-
Интерпретируемый, интерактивный и объектно-ориентированный.
-
Поддерживает FASTA, PDB, GenBank, Blast, SCOP, PubMed / Medline, ExPASy.
-
Возможность работать с форматами последовательности.
-
Инструменты для управления белковыми структурами.
-
BioSQL — стандартный набор таблиц SQL для хранения последовательностей, а также функций и аннотаций.
-
Доступ к онлайн-сервисам и базе данных, включая сервисы NCBI (Blast, Entrez, PubMed) и сервисы ExPASY (SwissProt, Prosite).
-
Доступ к местным услугам, включая Blast, Clustalw, EMBOSS.
Интерпретируемый, интерактивный и объектно-ориентированный.
Поддерживает FASTA, PDB, GenBank, Blast, SCOP, PubMed / Medline, ExPASy.
Возможность работать с форматами последовательности.
Инструменты для управления белковыми структурами.
BioSQL — стандартный набор таблиц SQL для хранения последовательностей, а также функций и аннотаций.
Доступ к онлайн-сервисам и базе данных, включая сервисы NCBI (Blast, Entrez, PubMed) и сервисы ExPASY (SwissProt, Prosite).
Доступ к местным услугам, включая Blast, Clustalw, EMBOSS.
цели
Цель Biopython — предоставить простой, стандартный и расширенный доступ к биоинформатике через язык Python. Конкретные цели Биопиона перечислены ниже —
-
Обеспечение стандартизированного доступа к ресурсам биоинформатики.
-
Высококачественные, многоразовые модули и скрипты.
-
Быстрое манипулирование массивом, которое можно использовать в коде кластера, PDB, NaiveBayes и модели Маркова.
-
Анализ геномных данных.
Обеспечение стандартизированного доступа к ресурсам биоинформатики.
Высококачественные, многоразовые модули и скрипты.
Быстрое манипулирование массивом, которое можно использовать в коде кластера, PDB, NaiveBayes и модели Маркова.
Анализ геномных данных.
преимущества
Biopython требует очень мало кода и имеет следующие преимущества:
-
Предоставляет тип данных микрочипа, используемый в кластеризации.
-
Читает и пишет файлы типа Tree-View.
-
Поддерживает структурные данные, используемые для анализа, представления и анализа PDB.
-
Поддерживает данные журнала, используемые в приложениях Medline.
-
Поддерживает базу данных BioSQL, которая широко используется в качестве стандартной базы данных среди всех проектов в области биоинформатики.
-
Поддерживает разработку синтаксического анализатора, предоставляя модули для анализа файла биоинформатики в объект записи определенного формата или универсальный класс последовательности плюс функции.
-
Четкая документация, основанная на стиле поваренной книги.
Предоставляет тип данных микрочипа, используемый в кластеризации.
Читает и пишет файлы типа Tree-View.
Поддерживает структурные данные, используемые для анализа, представления и анализа PDB.
Поддерживает данные журнала, используемые в приложениях Medline.
Поддерживает базу данных BioSQL, которая широко используется в качестве стандартной базы данных среди всех проектов в области биоинформатики.
Поддерживает разработку синтаксического анализатора, предоставляя модули для анализа файла биоинформатики в объект записи определенного формата или универсальный класс последовательности плюс функции.
Четкая документация, основанная на стиле поваренной книги.
Пример тематического исследования
Давайте проверим некоторые варианты использования (популяционная генетика, структура РНК и т. Д.) И попытаемся понять, как Biopython играет важную роль в этой области —
Популяционная генетика
Популяционная генетика — это изучение генетической изменчивости в популяции, которая включает изучение и моделирование изменений частот генов и аллелей в популяциях в пространстве и времени.
Biopython предоставляет модуль Bio.PopGen для популяционной генетики. Этот модуль содержит все необходимые функции для сбора информации о классической популяционной генетике.
Структура РНК
Три основные биологические макромолекулы, которые необходимы для нашей жизни, это ДНК, РНК и белок. Белки являются рабочими лошадками клетки и играют важную роль в качестве ферментов. ДНК (дезоксирибонуклеиновая кислота) считается «светокопией» клетки. Он несет всю генетическую информацию, необходимую для роста клетки, потребления питательных веществ и размножения. РНК (рибонуклеиновая кислота) действует как «фотокопия ДНК» в клетке.
Biopython предоставляет объекты Bio.Sequence, которые представляют нуклеотиды, строительные блоки ДНК и РНК.