tonatoz Sep 28 2011 at 16:03

Визуализация каталогов на Python средствами NetworkX

5 min

17K

Python*

From sandbox

+47

Comments 35

burjui Sep 28 2011 at 16:42

Оригинальный подход, молодец (:
Если сделать подобное в 3D и с размером шаров, пропорциональным размеру директорий или количеству файлов в них, получится прикольная утилита для анализа засорённости файлопомойки.

tonatoz Sep 28 2011 at 16:50

Спасибо.
Про соответствие шаров размеру идея тоже приходила в голову, а про 3D нет.
Надо будет попробовать. Возможно на чем то более мощном, чем питон. Он крут для быстрого создания прототипов, но пока я не смог заставить змия быстро работать.

AlexSky Sep 28 2011 at 17:32

Не соглашусь, здесь не питон будет узким местом.
Скорость работы будет, в основном, определяться скоростью работы с файловой системой.
Расход памяти будет большим в любом случае, и, большей частью, будет определяться потреблением networkx — все-таки число узлов огромное.

tonatoz Sep 28 2011 at 17:46

Да, проблема памяти существенна. Возможно, надо сбрасывать данные на диск, по мере увеличения графа. Но возникнет вопрос как потом вывести единый результат.

AlexSky Sep 28 2011 at 17:54

Скорее всего, без копания в кишках networkx не обойтись.

AlexSky Sep 28 2011 at 18:27

Немного потестил на 10 000 ребер (случайное соединение между 10 000 узлами).

Много времени уходит на построение самого графа. В коде это строка:
nx.draw(G, with_labels=False, node_color="blue", alpha= 0.6, node_size=50)

При этом было съедено около 50Mb памяти и потребовалось около получаса на построение.
Так что здесь все больше упирается в процессорное время, а не в память.

tonatoz Sep 29 2011 at 12:33

Как Вы думаете, стоит ли поменять библиотеку с matplotlib на pygraphviz для ускорения прорисовки? Pygraphviz это прямой интерфейс к библиотеке, а matplotlib делает расчеты, базируясь на NumPy, что может замедлять работу.

equand Sep 28 2011 at 17:34

И питон потянет, Вы просто не умеете его готовить.
Когда работаете с такими вещами, думаю и на C пришлось бы оптимизировать. Нечего весь disk tree в память структурой пихать :).
Жаль 3д мне не дается, так бы мог бы помочь.

tonatoz Sep 28 2011 at 17:43

И питон потянет, Вы просто не умеете его готовить.

Подозреваю, что так и есть.

Нечего весь disk tree в память структурой пихать :).

Как вариант, думаю, можно разбить прохождение диска на несколько этапови попытаться склеить результаты.

slovak Sep 28 2011 at 22:38

Лет шесть уже пользуюсь маленькой программкой Scanner для анализа той самой помойки. Там все реализовано не графом, а разветвленной диаграммой.

Но интересно то, что там же лежат Delphi sources утилиты. Работает быстро, думаю интересно будет покопаться.

ploop Sep 28 2011 at 23:38

Очень напоминает стандартный убунтовский «Анализатор использования дисков». Но последний кроме прочего умеет работать по сети (FTP, SSH, SMB и др.)

pavlo Sep 29 2011 at 10:03

классно, но вот шарики в 3D бы реализовать, так вообще просто круто было бы :)

tonatoz Sep 29 2011 at 12:46

Возможно, он не по каталогам ползет, а сразу читает Master File Table? Хотя, надо взглянуть на исходники.

bazilxp Sep 30 2011 at 11:04

w3.win.tue.nl/nl/onderzoek/onderzoek_informatica/visualization/sequoiaview/

Прикольный софт, квадратами всё кажет…

AlexSky Sep 28 2011 at 17:15

Интересное применение networkx.
Сейчас сам с ней работаю. Мы ее используем для построения схемы сети — дает очень хорошую картинку.

UFO just landed and posted this here

AlexSky Sep 29 2011 at 11:15

Строится автоматически. Руками можно перемещать узлы после построения. До релиза поделиться примерами и подробностями не могу, только картинкой.

hellman Sep 28 2011 at 17:18

Для анализа использования диска есть крутая тулза baobab (Disk Usage Analyzer). Во многих дистрах есть по дефолту

Pastafarianist Sep 28 2011 at 22:37

Под Windows есть весьма крутая утилитка WinDirStat. Выглядит оно как-то так:

powder96 Sep 28 2011 at 23:32

ИМХО, им определенно надо радиальный градиет заменить на линейный.

funca Sep 28 2011 at 17:33

для винды можно решить проще с помощью pywin32 — раз и два.

tonatoz Sep 28 2011 at 17:37

Да, я видел это расширение. Но было желание не использовать ничего стороннего, кроме networkx.
Так что я выбрал путь настоящего ниндзя.

sergeypid Sep 28 2011 at 17:57

Я все задачи визуализации графов делаю с помощью graphviz. На питоне скрипты пишут текстовые файлы типа

A -> B

B -> C

B -> D

и кормят их приложению graphviz. Полный контроль над внешним видом графов, надписи в узлах и на ребрах и генерация тегов AREA MAP и много еще чего. Правда операций линейной алгебры и теории графов не поддерживает. Не нужно держать в памяти весь граф дисковой системы — по мере обхода дерева просто пишешь в файл. А graphviz очень хорошо справляется с большими графами, правда может сгенерить простыню на 100Мб (графический файл PNG или JPEG).

Спасибо за наводку — попробую networkx тоже.

bya Sep 28 2011 at 21:09

Зачем 'кормить' их приложению graphviz, можно напрямую

import gv
g = gv.graph('tree')
a = gv.node(g, 'A')
b = gv.node(g, 'B')
e = gv.edge(a, b)
…
gv.layout(g, 'dot')
gv.render(g, file_format, filename)

sergeypid Sep 29 2011 at 08:25

Через gv вы создаете структуру в памяти. Если говорить об очень больших графах, то сливать данные в текстовый файл можно до бесконечности (правда бумаги много понадобится для распечатки графа :)

bya Sep 28 2011 at 21:16

PS. И лучше в формате PDF или SVG, тогда не будет 'на 100Мб (графический файл PNG или JPEG)'.

vetalik Sep 28 2011 at 18:32

Использую NetworkX для проекта. Очень хорош в паре с InfoViz (JS библиотека для визуализации графов) thejit.org/

UFO just landed and posted this here

EugeniyPetrov Sep 28 2011 at 20:25

D:/Работа/Документы/Старое/Всякий хлам/Нужно удалить/zzzzz/asfsdsfs/Порно? :)

Pastafarianist Sep 28 2011 at 22:43

Нее, труъ-ниндзя хранят порно в шифрованных многотомных архивах, разбросанных по разным дискам и замаскированных под DLL, EXE, SYS и прочие файлы, уже своим названием кричащие о своей неприкосновенности :)

burjui Sep 29 2011 at 02:30

Труъ-синоби хранят порно только в черепной коробке.

powder96 Sep 28 2011 at 23:37

Как найти давно спрятанные и забытые кучи добротного порно при помощи визуализцации списка каталогов, как граф.

DikUl Sep 29 2011 at 09:09

После прочтения сразу потянуло взять Python + NetworkX и тоже чего нибудь сбацать.

pavlo Sep 29 2011 at 10:06

гы, аналогично, уже полез тоже ;)

SaveTheRbtz Apr 15 2012 at 23:00

ИМХО, с помощью Python нужно собирать/парсить данные и генерировать графы в одном из общепринятых форматов, а анализировать результаты удобнее в Gephi

Show the best of all time