Вслед за публикацией в блоге Рика ван Брюггена на графике QCon, который он создал перед конференцией на этой неделе , мне было любопытно, можем ли мы извлечь какие-либо интересные отношения между беседами на основе их тезисов.
Обсуждения уже сгруппированы по их дорожке хостинга, но, вероятно, будут некоторые совпадения в темах даже для выступлений на разных дорожках.
Поэтому я хотел извлечь темы и связать каждый разговор с темой, которая описывает его лучше всего.
Моей первой попыткой было следовать примеру, который использует факторизацию неотрицательной матрицы, которая очень хорошо работала для извлечения тем, но, казалось, не давала очевидного способа выяснить, как связать эти темы с отдельными беседами.
Вместо этого я в конечном итоге посмотрел на библиотеку lda, которая использует скрытое выделение дирихле и позволила мне достичь обеих целей.
У меня уже был некоторый код для запуска TF / IDF на каждом из выступлений, поэтому я подумал, что смогу передать вывод матрицы из этого в функцию LDA. Вот с чего я начал:
import csv from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer from sklearn.decomposition import NMF from collections import defaultdict from bs4 import BeautifulSoup, NavigableString from soupselect import select def uri_to_file_name(uri): return uri.replace("/", "-") sessions = {} with open("data/sessions.csv", "r") as sessions_file: reader = csv.reader(sessions_file, delimiter = ",") reader.next() # header for row in reader: session_id = int(row[0]) filename = "data/sessions/" + uri_to_file_name(row[4]) page = open(filename).read() soup = BeautifulSoup(page) abstract = select(soup, "div.brenham-main-content p") if abstract: sessions[session_id] = {"abstract" : abstract[0].text, "title": row[3] } else: abstract = select(soup, "div.pane-content p") sessions[session_id] = {"abstract" : abstract[0].text, "title": row[3] } corpus = [] titles = [] for id, session in sorted(sessions.iteritems(), key=lambda t: int(t[0])): corpus.append(session["abstract"]) titles.append(session["title"]) n_topics = 15 n_top_words = 50 n_features = 6000 vectorizer = TfidfVectorizer(analyzer='word', ngram_range=(1,1), min_df = 0, stop_words = 'english') matrix = vectorizer.fit_transform(corpus) feature_names = vectorizer.get_feature_names() import lda import numpy as np vocab = feature_names model = lda.LDA(n_topics=20, n_iter=500, random_state=1) model.fit(matrix) topic_word = model.topic_word_ n_top_words = 20 for i, topic_dist in enumerate(topic_word): topic_words = np.array(vocab)[np.argsort(topic_dist)][:-n_top_words:-1] print('Topic {}: {}'.format(i, ' '.join(topic_words)))
А если мы запустим это?
Topic 0: zoosk faced exposing expression external externally extra extraordinary extreme extremes face facebook facilitates faster factor factors fail failed failure Topic 1: zoosk faced exposing expression external externally extra extraordinary extreme extremes face facebook facilitates faster factor factors fail failed failure Topic 2: zoosk faced exposing expression external externally extra extraordinary extreme extremes face facebook facilitates faster factor factors fail failed failure Topic 3: zoosk faced exposing expression external externally extra extraordinary extreme extremes face facebook facilitates faster factor factors fail failed failure Topic 4: zoosk faced exposing expression external externally extra extraordinary extreme extremes face facebook facilitates faster factor factors fail failed failure Topic 5: zoosk faced exposing expression external externally extra extraordinary extreme extremes face facebook facilitates faster factor factors fail failed failure Topic 6: zoosk faced exposing expression external externally extra extraordinary extreme extremes face facebook facilitates faster factor factors fail failed failure Topic 7: zoosk faced exposing expression external externally extra extraordinary extreme extremes face facebook facilitates faster factor factors fail failed failure Topic 8: zoosk faced exposing expression external externally extra extraordinary extreme extremes face facebook facilitates faster factor factors fail failed failure Topic 9: 10 faced exposing expression external externally extra extraordinary extreme extremes face facebook facilitates faster factor factors fail failed failure Topic 10: zoosk faced exposing expression external externally extra extraordinary extreme extremes face facebook facilitates faster factor factors fail failed failure Topic 11: zoosk faced exposing expression external externally extra extraordinary extreme extremes face facebook facilitates faster factor factors fail failed failure Topic 12: zoosk faced exposing expression external externally extra extraordinary extreme extremes face facebook facilitates faster factor factors fail failed failure Topic 13: zoosk faced exposing expression external externally extra extraordinary extreme extremes face facebook facilitates faster factor factors fail failed failure Topic 14: zoosk faced exposing expression external externally extra extraordinary extreme extremes face facebook facilitates faster factor factors fail failed failure Topic 15: zoosk faced exposing expression external externally extra extraordinary extreme extremes face facebook facilitates faster factor factors fail failed failure Topic 16: zoosk faced exposing expression external externally extra extraordinary extreme extremes face facebook facilitates faster factor factors fail failed failure Topic 17: zoosk faced exposing expression external externally extra extraordinary extreme extremes face facebook facilitates faster factor factors fail failed failure Topic 18: zoosk faced exposing expression external externally extra extraordinary extreme extremes face facebook facilitates faster factor factors fail failed failure Topic 19: zoosk faced exposing expression external externally extra extraordinary extreme extremes face facebook facilitates faster factor factors fail failed failure
Как видите, в каждой теме есть один и тот же набор слов, а это не то, что мы хотим. Давайте переключим наш векторизатор TF / IDF на более простой счетчик:
vectorizer = CountVectorizer(analyzer='word', ngram_range=(1,1), min_df = 0, stop_words = 'english')
Остальная часть кода остается прежней, и это темы, которые извлекаются:
Topic 0: time people company did writing real way used let cassandra soundcloud successful know web organization audio lives swift stuck Topic 1: process development delivery platform developer continuous testing rapidly deployment implementing release demonstrate paas advice hard light predictable radically introduce Topic 2: way open space kind people change meetings ll lead powerful practice times everyday simple qconlondon organization unconference track extraordinary Topic 3: apache apis processing open spark distributed leading making environments solr cases brooklyn components existing ingestion contributing data target evolved Topic 4: management million effective cost halo gameplay player billion ad catastrophic store microsoft final music influence information launch research purchased Topic 5: product look like use talk problems working analysis projects challenges 2011 functionality useful spread business deep inside happens sensemaker Topic 6: ll computers started principles free focus face smaller atlas control uses products avoid computing ground billions mean volume consistently Topic 7: code end users developers just application way line apps mobile features sites hours issues applications write faster game better Topic 8: ve development teams use things world like time learned lessons think methods multiple story say customer developer experiences organisations Topic 9: software building docker built challenges monitoring gilt application discuss solution decision talk download source center critical decisions bintray customers Topic 10: years infrastructure tools language different service lot devops talk adoption scala popular clojure advantages introduced effectively looking wasn includes Topic 11: high does latency session requirements functional performance real world questions problem second engineering patterns gravity explain discuss expected time Topic 12: business make build technology technologies help trying developers parts want interfaces small best centres implementations critical moo databases going Topic 13: need design systems large driven scale software applications slow protocol change needs approach gets new contracts solutions complicated distributed Topic 14: architecture service micro architectures increasing talk microservices order market value values new present presents services scalable trading practices today Topic 15: java using fast robovm lmax ios presentation really jvm native best exchange azul hardware started project slowdowns goal bring Topic 16: data services using traditional create ways support uk large user person complex systems production impact art organizations accessing mirage Topic 17: agile team experience don work doing processes based key reach extra defined pressure machines nightmare practices learn goals guidance Topic 18: internet new devices programming things iot big number deliver day connected performing growing got state thing provided times automated Topic 19: cloud including deploy session api government security culture software type attack techniques environment digital secure microservice better creation interaction
Кажется, что некоторые из групп имеют смысл, например, Тема 11 содержит слова, относящиеся к высокопроизводительному коду с низкой задержкой; Тема 15 охватывает Java, JVM и другие связанные слова; но другие труднее расшифровать
например, и в теме 14, и в теме 19 речь идет о микросервисах, но в последней упоминаются «правительство» и «безопасность», поэтому, возможно, переговоры, связанные с этой темой, вообще касаются микросервисов.
Теперь давайте посмотрим, о каких темах чаще всего идет речь. Посмотрим на первую десятку:
doc_topic = model.doc_topic_ for i in range(0, 10): print("{} (top topic: {})".format(titles[i], doc_topic[i].argmax())) print(doc_topic[i].argsort()[::-1][:3]) To the Moon (top topic: 8) [ 8 0 11] Evolutionary Architecture and Micro-Services - A Match Enabled by Continuous Delivery (top topic: 14) [14 19 16] How SoundCloud uses Cassandra (top topic: 0) [0 6 5] DevOps and the Need for Speed (top topic: 18) [18 5 16] Neuro-diversity and agile (top topic: 7) [17 7 2] Java 8 in Anger (top topic: 7) [ 7 15 12] APIs that Change Lifestyles (top topic: 9) [ 9 6 19] Elasticsearch powers the Citizen Advice Bureau (CAB) to monitor trends in society before they become issues (top topic: 16) [16 12 19] Architecture Open Space (top topic: 2) [ 2 19 18] Don’t let Data Gravity crush your infrastructure (top topic: 11) [11 16 3]
Итак, наш третий доклад в списке «Как SoundCloud использует Cassandra» в конечном итоге помечается темой 0, в которой упоминается SoundCloud, так что это хорошо!
Topic 0: time people company did writing real way used let cassandra soundcloud successful know web organization audio lives swift stuck
Это следующие две темы 5 и 6, которые содержат следующие слова …
Topic 5: product look like use talk problems working analysis projects challenges 2011 functionality useful spread business deep inside happens sensemaker Topic 6: ll computers started principles free focus face smaller atlas control uses products avoid computing ground billions mean volume consistently
… которые не так интуитивно понятны. Что насчет Java 8 в Anger? Это было отмечено темами 7, 15 и 12:
Topic 7: code end users developers just application way line apps mobile features sites hours issues applications write faster game better Topic 15: java using fast robovm lmax ios presentation really jvm native best exchange azul hardware started project slowdowns goal bring Topic 12: business make build technology technologies help trying developers parts want interfaces small best centres implementations critical moo databases going
15 имеет смысл, поскольку здесь упоминается Java, и, возможно, 12 и 7 делают так же, как они оба упоминают разработчиков.
Таким образом, хотя выдвинутые темы не являются ужасными, я не думаю, что они также пока что особенно полезны. Вот некоторые из областей, в которых мне нужно провести дополнительные исследования:
- Как вы оцениваете успех тематического моделирования? Я следил за выходом алгоритма, но я думаю, что есть автоматизированный способ сделать это.
- Как вы определяете правильное количество тем? Я нашел статью, написанную Кристофом Грейнджером, в которой объясняется, как делать то, что мне нужно рассмотреть более подробно.
- Такое ощущение, что я смог бы вытащить лучшие темы, если бы у меня была онтология компьютерных / программных слов, а затем я пробежал по ним слова, чтобы получить темы.
- Другой подход, предложенный Майклом, состоит в том, чтобы найти самые популярные слова, используя CountVectorizer, и вместо этого пометить их тегами.
Если у вас есть предложения, дайте мне знать. Полный код на GitHub , если вы хотите , чтобы играть с ним.