В ThoughtWorks у нас нет линейных менеджеров, но люди могут выбрать спонсора — обычно это кто-то, кто работал в компании дольше / имеет больший опыт работы в отрасли, чем они, — которые могут помочь им лучше ориентироваться в организации.
Из слухов, что люди говорили о спонсорах в течение последних 6 лет, казалось, что большинство спонсировало большинство, и, вероятно, было несколько человек, у которых не было спонсора.
Казалось, это довольно хорошая проблема для визуализации в графике, поэтому я получил доступ к данным, провел несколько часов, приводя их в порядок, чтобы все имена соответствовали именам, которые есть в нашем приложении для укомплектования персоналом, а затем загрузил их в neo4j.
Сначала я пытался визуализировать данные в sigma.js, но здесь это не сработало — я думаю, что гораздо лучше, когда мы действительно хотим просмотреть график, тогда как здесь меня просто интересует общий снимок.
Поэтому я решил загрузить данные в Gephi и найти способ визуализации их с помощью этого.
Отношения на графике таковы:
Я создал это, используя следующее определение graphviz :
graph effectgraph { size="8,8"; rankdir=LR; person1[label="Person 1"]; person2[label="Person 2"]; person3[label="Person 3"]; officeA[label="Office A"]; officeA -- person1 [label="member_of"]; officeA -- person2 [label="member_of"]; officeA -- person3 [label="member_of"]; person1 -- person2 [label="sponsor_of"]; person2 -- person3 [label="sponsor_of"]; }
dot -Tpng v3.dot >> sponsors.png
Я написал скрипт на основе поста Макса де Марци в блоге, чтобы перевести данные в формат gexf, чтобы я мог загрузить их в gephi:
Сначала я получаю коллекцию всех людей, которые являются спонсорами, и сколько у них спонсоров:
def load_sponsors query = " START n = node(*)" query << " MATCH n-[r:sponsor_of]->n2" query << " RETURN ID(n), count(r) AS sponsees ORDER BY sponsees DESC" sponsors = {} @neo.execute_query(query)["data"].each do |id, sponsees| sponsors[id] = sponsees end sponsors end
Это создает хэш спонсоров с подсчетом количества спонсоров, которых я использовал в следующей функции для создания коллекции узлов:
def nodes query = " START n = node(*)" query << " MATCH n-[r:member_of]->o" query << " WHERE o.name IN ['London', 'Manchester', 'Hamburg'] AND not(has(r.end_date))" query << " RETURN DISTINCT(n.name), ID(n)" sponsors_sponsee_count = load_sponsors nodes = Set.new @neo.execute_query(query)["data"].each do |n| nodes << { "id" => n[1], "name" => n[0], "size" => 5 + ((sponsors_sponsee_count[n[1]] || 0) * 5) } end nodes end
У меня есть узлы, представляющие людей во всей организации, поэтому мне нужно отфильтровать, чтобы найти только людей, которые работают в ThoughtWorks Europe, поскольку именно здесь у меня есть данные спонсора. Я добавляю здесь свойство размера, чтобы люди, у которых было больше спонсоров, были более заметны на графике.
Затем у нас есть следующая функция для описания отношений «спонсор»:
def edges query = " START n = node(*)" query << " MATCH n-[r:sponsor_of]->n2" query << " RETURN ID(r), ID(n), ID(n2)" @neo.execute_query(query)["data"].collect{|n| {"id" => n[0], "source" => n[1], "target" => n[2]} } end
Я использую следующий код для генерации нужного мне формата XML:
xml = Builder::XmlMarkup.new(:target=>STDOUT, :indent=>2) xml.instruct! :xml xml.gexf 'xmlns' => "http://www.gephi.org/gexf", 'xmlns:viz' => "http://www.gephi.org/gexf/viz" do xml.graph 'defaultedgetype' => "directed", 'idtype' => "string", 'type' => "static" do xml.nodes :count => nodes.size do nodes.each do |n| xml.node :id => n["id"], :label => n["name"] do xml.tag!("viz:size", :value => n["size"]) xml.tag!("viz:color", :b => 255, :g => 255, :r => 255) xml.tag!("viz:position", 😡 => rand(100), :y => rand(100)) end end end xml.edges :count => edges.size do edges.each do |e| xml.edge:id => e["id"], :source => e["source"], :target => e["target"] end end end end
В итоге получается что-то вроде следующего:
<?xml version="1.0" encoding="UTF-8"?> <gexf xmlns="http://www.gephi.org/gexf" xmlns:viz="http://www.gephi.org/gexf/viz"> <graph defaultedgetype="directed" idtype="string" type="static"> <nodes count="274"> <node id="1331" label="Person 1"> <viz:size value="5"/> <viz:color b="255" g="255" r="255"/> <viz:position x="69" y="31"/> </node> .... </nodes> <edges count="187"> <edge id="7975" source="56" target="1374"/> </edges> </graph> </gexf>
Я установил расположение узлов для рандомизации, потому что алгоритмы Gephi, похоже, работают намного лучше.
Затем я могу создать файл gexf следующим образом:
ruby gephi_me.rb >> sponsors.gexf
Я загрузил его в Gephi и запустил алгоритмы Force Atlas и ‘Noverlap’ по графику, чтобы немного проще визуализировать данные:
Лучшие 4 спонсора на графике являются спонсорами для 28 человек между ними, а следующие 7 охватывают еще 35 человек.
Интересно, что в середине есть большая группа сирот, у которых нет спонсора — изначально я думал, что это немного странно, что есть так много людей, которые переехали в Великобританию из другой страны и имеют спонсора из этой страны. также входят в эту категорию.
Я написал следующий запрос, чтобы помочь мне узнать, кто такие сироты, заметив это на визуализации:
query = " START n = node(*)" query << " MATCH n-[r:member_of]->o, n<-[r2?:sponsor_of]-n2" query << " WHERE r2 is null and o.name IN ['London', 'Manchester', 'Hamburg'] AND not(has(r.end_date))" query << " RETURN DISTINCT(n.name), ID(n)"
Я хотел аннотировать изображение, чтобы указать, какие конкретные люди были для внутреннего использования, и несколько человек в твиттере указали мне на skitch, что сделало мою жизнь удивительно легкой, поэтому я очень рекомендую это.