Я, являюсь администратором сайта Российской академии наук. Научные сотрудники, постоянно приносят мне материал, для опубликации в формате MS Word. Все их статьи содержат огромное кол-во таблиц и форматный текст.
Моя задача переконвертировать все это в HTML. Но после конвертирования, документ содержит огромное кол-во ненужных тегов.
Для этого, я использую простенький PHP скрипт.
пример:
CODE
<?php # В $text вставляю кашу, в которой сохраняет Word
# теперь фильтруем с помошью функции strip_tags echo strip_tags($text, '<table><td><tr><br><b>');# задаю теги, которые нужно оставить ?>
Так вот, после обработки этой каши, таблици все равно, остаются привязанны к стилю. В этоге, конечно текст сокращается, но все равно не так, как хотелось бы. Приходится все вычищать вручную. Мне надо, чтобы например вместо:<tr style='mso-yfti-irow:0;mso-yfti-firstrow:yes'> оставалось просто <tr> Подскажите пожалуйста способы борьбы с этим?
зы: Может есть, уже готовые проги, не обязательно скрипты?
barrakuda
Мне думается, можно так: preg_replace("/style=[^<]*>/", ">", $text); Использовать эту функцию и регулярные выражения.
alex220278
Это еще одна проблема с которой я обращаюсь на форум и сам-же опубликовываю ответ.