petropavel

Я решил в порядке самостоятельного изучения Python-а небольшие примеры разбирать (а то и писать) вместе с коллегой.
Примерно так, как было в анекдоте про лектора: "третий раз объяснил, уже сам понял, а они всё не понимают!!"

Первый пример: есть директория (с вложенными поддиректориями), в них лежат файлы с именами, сформированными по некоторому правилу. Нужные нам директории именуются по дате (в формате YYYYMMDD), + рекурсивно всё, что внутри.
Задача - отобрать файлы позднее определённой даты (по имени папки), перекодировать из MS-DOS в Windows-кодировку, сложить в общую папку кучей.
Пригодился модуль os (os.getcwd(), os.path.join(), os.walk() ), срезы строк, списки списков, списки туплов и пр (os.walk вообще благодатный пример, чтобы увидеть, что такое "простые" питоньи структуры данных).
Также файловые объекты, readlines(), итерация по readlines().
Из хулиганских побуждений впихнул туда ещё и лямбду:


outfile.writelines( map ( lambda s: s.decode("cp866").encode("cp1251"), infile.readlines() ))

Второй пример, из файла
счёт АКТПАСС 1(или 2)
счёт АКТИВ_ВХ сумма
счёт ПАССИВ_ВХ сумма
счёт ОБОРОТ_ДЕБ сумма
счёт ОБОРОТ КРЕ сумма
....

сделать такой:
счёт,А(П),сумма_вх_актив,сумма_вх_пассив,оборот_деб,оборот_кред,...
другой_счёт,А(П),сумма_вх_актив,сумма_вх_пассив,оборот_деб,оборот_кред,...

Тут удалось показать, что такое словари (получился словарь словарей), keys(), has_key(), sort()

Третий пример, для души - слить на диск содержимое веб-форума, для оффлайнового чтения.
Есть страничка-список тем, считать, отобрать оттуда ссылки определённого вида (на сами темы),
сохранить на диск сами темы, и рядышком сформировать оглавление index.html, корректно ссылающееся на сохранённые файлы.
Пригодились urllib (urllib2), регулярные выражения.
Заточки под общий случай веб-форума не требовалось, парсер строить решили не заморачиваться.

Правда, ещё не дописали - неплохо бы модифицировать ссылки на предыдущую-следующую тему внутри страничек, и до кучи скачивать аттачменты. Самый шик был бы ещё и вырезать из страничек шапки-подвалы-баннеры, но это уже потом.

Threaded | Top-Level Comments Only

From:

petropavel

да, можно было без лямбд:


outfile.writelines( [ s.decode("cp866").encode("cp1251") for s in infile.readlines() ] )

cd-riper.livejournal.com

граберы сайтов это вообще классическая задача, часто встающая на практике.

я в свое время решал для себя вопрос слива данный с сайтов, где публикуют объявления по недвижимости, а потом эти данные сортировал и анализировал. очень полезный был инструмент.

Некоторое время назад на работе потребовалось слить с сайта "коммерсанта" объявления о банкротстве за пару лет.

Там их было чуть более чем дофига, и не все статьи коммерсанта были объявлениями о банкротствах, а грабить без разбору весь сайт коммерсанта мы бы не потянули.

В результате я подобным скриптом надёргал индексных страничек, grep-ом из них отсеял только строчки со ссылками, и скормил полученный список старому доброму wget-у.

Питон, конечно, неплох, но по скорости работы питоновский urllib позорно слил wget-у, даже более чем позорно.

Товарищ аналитик, который заказывал эту информацию, слегка офигел от её количества, но уж что именно он потом с ней делал - его проблемы ))

не думаю, что дело в urllib, обычно узкое место это получение данных по сети... :)

S	M	T	W	T	F	S
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

пропитон

пропитон

no subject

no subject

no subject

no subject

Profile

September 2018

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags