Automatyczne czyszczenie kodu HTML z tagów słów

HTML Cleaner - sprzątanie html tagi z „kosza”, które pozostają w dokumencie po zapisaniu strony w formacie html z programu MS Word .

MS Word

Dawno temu napisałem podobną wtyczkę, ale się spieszyło, teraz mechanizm został całkowicie przepisany.

Kod jest usuwany przez brute wymuszając wprowadzony ciąg, z którego jest generowany nowy, zawierający „czysty” kod . Wtyczka usuwa absolutnie wszystko z tagów, w tym tagów. html 5 . W tagach niesparowanych umieszczany jest symbol / (ukośnik). Puste znaczniki są usuwane, na przykład konstrukcja <p> </ p> zostanie usunięta, ponieważ nie zawiera niczego.

Istnieją dwa sposoby:

W MS Word wybierz dane, które chcesz usunąć ze śmieci, aby zaznaczyć wszystko, naciśnij Ctrl + A. Wklej skopiowany tekst w pole poniżej (należy wybrać zakładkę Wstaw dane MS Office), kliknij Zakończ.
Przed optymalizacją kodu wybierz „Zapisz jako ...” w programie Word, a następnie określ typ pliku „Filtruj stronę internetową”, następnie otwórz zapisany plik w edytorze tekstu, skopiuj kod i wklej w polu poniżej (należy wybrać zakładkę Wstaw HTML). „), Kliknij„ Zakończ ”.

W rezultacie otrzymasz czysty dziewiczy kod HTML.
Następujące atrybuty pozostają nietknięte:

„colspan”, „rowspan”, „href”, „src”, „type”, „value”, „lang”, „tabindex”, „title”, „code”, „alt”, „target”, „dir „,„ span ”,„ action ”,„ method ”

Nie zapomnij zostawić swojego komentarze to pomoże mi poprawić błędy lub wprowadzić ulepszenia.

Uzyskaj moje szkolenie w zakresie HTML i CSS, JavaScript, PHP, Pascal