суббота, 1 января 2011 г.
Сделал парсер намного более надежным. Теперь парсер работает немного быстрее, и не выдаст сообщение об окончании списка постов по ошибке.
Обновление не критичное. Ничего нового не привнесло.
Буду очень благодарен, если в комментариях напишите ваши пожелания по улучшению парсера. За прошедшее время совсем забыл все о чем меня просили.
Список функций:
1.Парсинг по заданному слову или выражению. Результаты можно сортировать по дате публикации или по релевантности. При этом при сортировке по дате результаты более тематические.
2. Парсинг статей заданной категории. При этом парсятся только статьи указанной категории или метки.
3.Экспорт в отдельные html файлы, rss ленту или html файл для дальнейшего импорта в zebroid или WPT, или в формат из шаблона.
4.Парсить можно популярные блоги, блоги целиком(статьи и комментарии из блогов), записи из блогов, записи из микроблогов, коментарии из блогов и микроблогов, форумы, все блоги и форумы.
5.Можно парсить определенный сервис(livejournal и т.п.) или даже отдельный блог.
6. Функция замены слов в тексте.(Файл replace.txt в папке парсера. Для замены слова "пользователь" на "читатель" добавте туда строку "пользователь=читатель", без кавычек.). Замена просиходит через регулярные выражения, что дает неограниченое пространство корректировки текста.
7.Рядом с каждой функцией есть знак вопроса, при нажатии на который вы получите краткую справку.
8. Удаление повторов. Парсер автоматически удаляет 90% повторных статей в случае если одна статья размещена на нескольких сервисах.(Присутствует с версии 1.1)
9.Добавлены стоп слова.(Файл stop_slova.txt в папке парсера. Писать надо по одному слову в строке. Если одно из этих слов встречается в тексте статьи то статья не сохраняется. Регистр значения не имеет. )
10.Можно парсить по собраному списку url статей, или запросов.
11. Можно указать лимит постов.
12. Есть предпросмотр постов позволяющий вручную отбирать подходящие посты. Показывает вид как в браузере, со ссылками и картинками, и чистый код стать который можно менять.
13. Автоматическая синонимизация текстов внутри парсера. Работает достаточно быстро и качественно. Есть синонимизация через сервер. Работает на очень неплохом уровне.
14. Автоматическое удаление указанных тегов.
15. Работа с прокси.
16. Поддержка профайлов. Это позволяет разбивать длинный парсинг на несколько этапов а также нет необходимости каждый раз настраивать парсер.
17. Можно разбивать текст на предложения и перемешивать. Это помогает уникализировать текст.
18.Опциональное добавление беклинка на источник, который в любом случе будет виден для поисковиков(даже если в парсере указать добавление к ссылкам).
19.Удобный и понятный интерфейс.
20.Сохранение последних настроек.
21.Встроенный генератор дорвеев.
22. Можно для каждого запроса указать количество обрабатываемых страниц базы. Это очень полезно при парсинге по списку.