есть инет ресурс, нужно считать интересующие заголовки и записать их в БД sql для дальнейшей работы с ними. Мною используется asp.net в связке с SQL 2005. Пока в голову приходит лексический анализатор который будет искать интересующие теги.... добавлено через 2 часа 53 минуты изъять информацию из HTML-документа. Подскажите, как это можно сделать способом отличным от чтения документа как текстового файла и его анализа по тэгам. Может есть какой-нибудь класс и соответствующие метода. Заранее благодарен, особенно за подробный ответ ))
учи pcre // или чётам в эй-ис-пи. реализовать -- проще некуда. либо тупо ч-з fopen при allow_open_urls = yes (ну, в похапэ такая директива есть в похапэ ини) или ч-з сокеты получить содержимое странички. потом по нему пройтись регулярками. после чего запихнуть получившийся массивчик в бд посредством примитивного запроса. // хотя что есть "разобрать нужные заголовки"? мож надо ещё ссылки выбирать из документа на другие документы этого сайта. тогда два массива, а не один и рекурсия.
хочу_вот_сказать, не поможет, задача другого уровня. ак что лексический анализатор тут имхо. P.S. а вот тем, кто для bb-тэгов re юзает - наверное надо поотрывать что-то. И дать почитать талмуд об XSS и человеческом факторе.
The Last Winged, это смотря как юзать. без reg_exp не мыслю жизни. дёшево и сердито. используется в каждом проекте неоднократно используется.