### ### wwwfixpl - konwerter stron WWW (c) JS. ### ### PUBLIC DOMAIN - rozdawanie na prawo i lewo mile widziane. ### Można modyfikować i dostosowywać do własnych potrzeb do woli ### z jednym wyjątkiem - nie wolno używać programu (ani jego dowolnej ### modyfikacji) do wykonywania konwersji do innego niż standardowy ### (ISO-8859-2) kodowania polskich znaków. ### Własne, istotne poprawki proszę zgłaszać JS ### w celu dalszego rozpowszechniania. ### ### Wersja 2.1 (Maj 1998) ### ### Oryginalna lokalizacja: ### ftp://ftp.uci.agh.edu.pl/ogonki/konwertery/js/wwwfixpl ### ftp://ftp.uci.agh.edu.pl/ogonki/konwertery/js/wwwfixpl.txt ### I. Język -------- Perl - potrzebujesz mieć zainstalowany kompilator(?) tego języka. Znajdziesz go np. w http://www.perl.org/. Także pod DOS'a czy MS Windows. W systemach unixowych w _pierwszej_ linii programu po znakach #! ma być poprawna ścieżka wskazująca na binarium perl'a (zwykle /usr/bin/perl lub /usr/local/bin/perl). II. Opis użytkowy ----------------- Program wwwfixpl zasadniczo służy do konwersji polskich liter w plikach HTML. Program przewiduje najprzeróżniejsze dziwactwa wpisywane w miejsce polskich liter przez np. generatory HTML oraz dokłada odpowiednie informacje nagłówkowe, powodujące że skonwertowane polskie litery będą dobrze widziane w każdym programie stosującym się do standardów (także np. MS IE, itp). Zwykle uruchamia się go dla katalogów zawierających strony WWW - katalogów, w których występują pliki HTML - program wyszukuje te pliki (także w podkatalogach) i konwertuje te, które zmian wymagają. Można go uruchamiać wielokrotnie - nie grozi "nawarstwienie" się poprawek w wyniku kolejnych konwersji. Dla plików HTML program: - konwertuje polskie litery na ISO-8859-2 - dopisuje (lub poprawia) w sekcji HEAD tag META określający charset - usuwa znaki CR na końcach linii - ujmuje (jeśli jeszcze nie ma) dokument w tag ... - wymagany przez MSIE III. Sposób wywołania --------------------- wwwfixpl [opcje] argument ... Argumenty: Nazwy plików do poprawienia lub katalogów, dla których mają być wyszukane (wraz z podkatalogami) wszystkie pliki HTML. Gdy uruchomienie bez argumentów to przeszukiwany jest katalog bieżący. Opcje: -m - nie dodawiaj tagu META; -c - nie usuwaj zbędnych znaków CR; -t - nie dodawaj tag'u HTML; -f - nie usuwaj atrybutu FACE z tagów FONT -e ext1|ext2|... - podaje listę rozszerzeń nazw plików, które będą poddawane konwersji, np: -e htm -e html|shtml Domyślna lista to .htm, .html, .shtml (-e htm|html|shtml) -U - usprawnienie dzialania uzyskiwane dzieki tworzeniu w każdym przeszukiwanym katalogu pliku flagowego .wwwfixpl_flag - przy następnych uruchomieniach programu zmienione lub nowe pliki będą szybko wychwytywane gdyż będą młodsze niż plik flagowy -N - (no modify) udawaj że poprawiane pliki nie były modyfikowane w czasie procesu konwersji. -q - nie informuj na bieżaco o postępie prac -Q - nie wypisuj informacji zbiorczych (-qQ - zupełna cisza) -l - zamieniaj nazwy plików w i na małe litery -v - sygnalizuj kolejne etapy konwersji każdego z plików (kodowe oznaczenia kolejnych etapów: < - wczytania pliku, . - kopiowanie w pamięci, % - kilka prostych zamian, # - konwersja &#numer; na 8 bitów, P - CP1250/CP852 na ISO-8859-2, & - ISO-8859-1 entitles, c - usuwanie CRów, m - dodawanie META, h - dodawanie HTML, f - usuwanie FACE, > - koniec). -D - wykonuj konwersję z CP852 (OS/2, MS DOS) a nie z CP1250 IV. Opis działania ------------------ Program działa dwuetapowo: 1. Zbieranie listy nazw plików do konwersji - jeśli nie podano opcji -q, to program wypisuje wszystkie pzreszukiwane katalogi. Po przeszukaniu każdego katalogu wypisuwane są 3 liczby (liczba/liczba/liczba): objętość danego katalogu, aktualna wielkość tablicy nazw do sprawdzenia (początkowo inicjowana katalogiem bieżącym lub listą argumentów wywołania programu), ile do tej pory zebrano nazw plików do konwersji. 2. Konwersja: wykonuje się dla każdej z zebranych w etapie 1 nazw. Jeśli nie podano opcji -q to przed każdą konwersją wypisywane jest ile procentowo całej pracy już wykonano a po konwersji czy zaszły jakieś zmiany dla danego pliku. V. Autorzy: ----------- 1. Jarosław Strzałkowski - pierwszy pomysł; także przepisanie praktycznie na nowo wersji 2.0 na podstawie podsyłanych pomysłów i gotowych poprawek. 2. Tomasz Rys - ISO-8859-1 entitles 3. Zbigniew Zych - parę drobiazgow, w tym chyba też usuwanie CRów 4. Gregory BRZESKI - obsługa sytuacji gdy już jakieś META w tekście jest 5. Piotr Strycharz - opcja nomod 6. Już nie pamiętam kto: mądra uwaga by w tekście programu zapisywać polskie litery jako \ddd - tak żeby nic w trakcie transmisji nie poharatało kodów 8-bitowych.