Парсер html

fadetoblack · 24.04.08

Столкнулся с проблемой разбора хтмл и извлечения нужной мне информации:
1. написать движок, "нормализующий" html
2. парсить его как xml
все это геморр нездоровый.
Вот пример парсера

взятый от сюда http://blogs.gotdotnet.ru/personal/poigraem/PermaLink.aspx?guid=d0fd3f90-d3e4-4940-a62b-4fcfc172b85e
есть ли еще способы разбора хтмл?

Гость · 25.04.08

fadetoblack сказал(а):

Столкнулся с проблемой разбора хтмл и извлечения нужной мне информации:
1. написать движок, "нормализующий" html
2. парсить его как xml
все это геморр нездоровый.
Вот пример парсера

взятый от сюда http://blogs.gotdotnet.ru/personal/poigraem/PermaLink.aspx?guid=d0fd3f90-d3e4-4940-a62b-4fcfc172b85e
есть ли еще способы разбора хтмл?
Нажмите, чтобы раскрыть...

jtidy - лучше ничего нет. сторит сразу объектную модель документа

Philosoph · 27.04.08

Если для Delphi, то я использовала модуль Delphi HTMLParser:
http://www.tiaon.com/wordpress/delphi-htmlparser/
Парсит на ура, без всяких лишних танцев с бубном.
Есть и другие варианты, ищи в инете.
"Программист, помни: всё уже написано до нас!"

Желаю удачи!

The Last Winged · 29.04.08

имхо практически никак.
Хотя xhtml - проще некуда.

vchesnokov · 02.05.08

Можно взять по URL его HTML код и использовать для его анализа регулярные выражения (regular expressions).
Для примера можно глянуть http://www.regular-expressions.info/dotnetexample.html

fadetoblack · 04.05.08

А чем регулярные выражения отличаются от парсинга?

The Last Winged · 04.05.08

fadetoblack, А чем задница отличается от туловища?

Гость · 03.06.08

The Last Winged сказал(а):

fadetoblack, А чем задница отличается от туловища?
Нажмите, чтобы раскрыть...

не флуди, напиши по сути вопросаЮ если можешь!!!!

The Last Winged · 03.06.08

не флуди, напиши по сути вопросаЮ если можешь!!!!
Нажмите, чтобы раскрыть...

Я написал уже. Выше.
Человек спрашивает, чем отличается [часть предмета] от [этого же предмета, но всего]. И я лишь привел аналогию.

Hermes · 13.06.08

fadetoblack сказал(а):

все это геморр нездоровый
Нажмите, чтобы раскрыть...

Вы абсолютно правы. Если бы весь хтмл проходил валидатор, то проблем бы не было. А т.к. хтмл допускает написание документа как бог на душу положит без соблюдения стандартов, то рано или поздно возникает ситуция, когда парсер загибается.

Вход / Регистрация

Парсер html

fadetoblack Участник

Вложения:

1.jpg

Гость Гость

Philosoph Участник

The Last Winged Активный участник

vchesnokov Гость

fadetoblack Участник

The Last Winged Активный участник

Гость Гость

The Last Winged Активный участник

Hermes Активный участник

Вход / Регистрация

Волгоградский форум

Пользователи

Парсер html

fadetoblack Участник

Вложения:

1.jpg

Гость Гость

Philosoph Участник

The Last Winged Активный участник

vchesnokov Гость

fadetoblack Участник

The Last Winged Активный участник

Гость Гость

The Last Winged Активный участник

Hermes Активный участник