Столкнулся с проблемой разбора хтмл и извлечения нужной мне информации: 1. написать движок, "нормализующий" html 2. парсить его как xml все это геморр нездоровый. Вот пример парсера взятый от сюда http://blogs.gotdotnet.ru/personal/poigraem/PermaLink.aspx?guid=d0fd3f90-d3e4-4940-a62b-4fcfc172b85e есть ли еще способы разбора хтмл?
Если для Delphi, то я использовала модуль Delphi HTMLParser: http://www.tiaon.com/wordpress/delphi-htmlparser/ Парсит на ура, без всяких лишних танцев с бубном. Есть и другие варианты, ищи в инете. "Программист, помни: всё уже написано до нас!" Желаю удачи!
Можно взять по URL его HTML код и использовать для его анализа регулярные выражения (regular expressions). Для примера можно глянуть http://www.regular-expressions.info/dotnetexample.html
Я написал уже. Выше. Человек спрашивает, чем отличается [часть предмета] от [этого же предмета, но всего]. И я лишь привел аналогию.
Вы абсолютно правы. Если бы весь хтмл проходил валидатор, то проблем бы не было. А т.к. хтмл допускает написание документа как бог на душу положит без соблюдения стандартов, то рано или поздно возникает ситуция, когда парсер загибается.