Статьи

Графические базы данных в семинаре по естественным наукам

Этот пост был изначально написан Майклом Хангером в блоге Neo4j.

Поскольку биотехнология является одной из горячих тем столетия, а графические базы данных растут в этом десятилетии, мы подумали, что было бы неплохо собрать вместе исследователей и разработчиков биоинформатики для семинара о применимости графических баз данных в биологических исследование и применение.

К счастью, профессор Леннарт Мартенс, руководитель группы в отделе медицинских исследований белков в VIB и Гентском университете, предложил провести семинар. Поэтому Рик Ван Брюгген и Леннарт Мартенс из Neo Technology организовали семинар и пригласили множество посетителей из разных областей.

26 участников нашли свой путь в живописный конференц-зал Университета Гента (бывший монастырь), чтобы провести целый день, наполненный презентациями, дискуссиями и практическим семинаром. Нас приветствовал плакат в натуральную величину
путей метаболического взаимодействия у людей.

После вступления Леннарта и Рика я
быстро ознакомился с NOSQL и, в частности, с графическими базами данных и их применимостью в широком спектре областей, в том числе со ссылкой на существующие биотехнологические приложения.

Тило Мут, доктор философии Леннарта, работает в области метапротеомики — интересного метода, связывающего фрагменты белка с потенциальными бактериальными мишенями и создающего мета-белки в соответствующих группах. Он представил тему и то, как они использовали графо-ориентированные модели данных, чтобы рассуждать о потенциальных отображениях.

Пабло Пареджа О, нет последовательности! представил
Bio4j исследовательскую базу данных (и платформу) с открытым исходным кодом, объединяющую множество различных источников информации о белках, геномах и таксономии. Bio4j также работает на Neo4j и в настоящее время поддерживает почти 1 млрд. Отношений. (Слайды
1 ,
2 ,
3 )

За время до обеда я ответил на несколько вопросов о Neo4j, особенно о дорожной карте, масштабировании, и мы выделили некоторые подходы к визуализации, такие как
Gephi ,
Cytoscape и
HivePlots .

Во время перерывов и обедов у нас было много интересных дискуссий о науках о жизни в целом, о работе с учеными и отдельных проблемах управления данными.

После обеда Энтони Лиекенс представил
biograph.be систему обнаружения знаний для поиска актуальной информации в области наук о жизни, например белков в реакциях, ранжированных по релевантности их публикации. Система использует алгоритм ранжирования страниц, который реализован с использованием умножения матриц в системе параллельной обработки.

Дэви СувиJanssen Pharmaceutica и
datablend.be представили различные
примеры использования
Graph Database из своего опыта работы в крупной фармацевтической компании. Он завершил презентацию введением в реализацию бегущего во времени графа поверх Datomic под названием
FluxGraph .

Затем Тило представил тему семинара «
Графовые базы данных в науках о жизни » и базу данных «Reactome» о путях взаимодействия человеческого белка. Он рассказал о некоторых API-интерфейсах Neo4j и о том, как их можно использовать для импорта данных из простых CSV-файлов в графическую базу данных. Участники создали свою среду разработки с
помощью проекта Neo4reactome, который мы подготовили заранее и успешно выполнили импорт.

После импорта данных мы рассмотрели некоторые
варианты использования , сначала визуализируя пути в
веб-интерфейсе Neo4j, а затем выполнили несколько запросов с использованием языка запросов Neo4j
Cypher, чтобы найти определенные белки (HBA и HBB) и пути их взаимодействия.

И пример задачи выглядел так:

Найти общие пути HBA и HBB

Оба белка должны быть вовлечены в определенные пути, которые легко найти путем опроса. Теперь мы хотим получить только те пути, которые имеют оба белка.

    START proteinA=node:proteins(accession = "P69905"),     
    proteinB=node:proteins(accession = "P68871") 
    MATCH (proteinA)-[:INVOLVED_IN]->(pathway)<-[:INVOLVED_IN]-(proteinB) 
    RETURN pathway

Полученные результаты

  • метаболизм
  • Обмен O2 / CO2 в эритроцитах
  • Поглощение углекислого газа и выделение кислорода эритроцитами
  • Поглощение кислорода и высвобождение углекислого газа эритроцитами

После семинара обсуждения продолжились по широкому кругу тем.

Я хочу еще раз поблагодарить Леннарта Мартенса, Тило Мута и Рика Ван Брюггена за организацию такого замечательного семинара.
И, конечно, Пабло Пареджа, Дэви Суви и Энтони Лиекенс за представление.
Несколько недель назад
мы
создали группу Google »
neo4j-biotech » и хотели бы пригласить всех присоединиться к этому дискуссионному форуму, чтобы участвовать в беседах в области биотехнологии с коллегами, имеющими аналогичный опыт и словарный запас.