Forum Debian Users Gang

menteith · 2014-10-29 16:55:34

Witam ponownie po wielu latach przerwy:)

Muszę przerobić ponad 400 plików - należy w nich zamienić fragmenty tekstów.

W plikach pdf może pojawić się taki fragment (wiele razy, raz, w ogóle):

[i]Fragment 1[/i]

Kod:

if (this.hostContainer) { 
    try {
        this.hostContainer.postMessage(['newPage', 'pp_322', 15259]);
    } 
    catch(e) { 
        console.println(e); 
    }
};

Chciałbym za każdym razem odnaleźć cyfry (zarówno arabskie, jak i rzymskie, ale przyjmijmy dla prostoty, że 0-9) w części 'pp_[b]xxx[/b]', w przykładzie jest to [b]322[/b]. Na moje niewprawne oko na początek trzeba będzie znaleźć sposób na odnalezienie tej cyfry. Po wielu bólach wpadłem na coś takiego (samodzielnie, więc pewnie z błędami, ale wygląda, że jest OK):

Kod:

(?<=pp_)\d+(?:\'\d+)?

Kolejny krok to zastąpienie [i]Fragmentu 1[/i] tym:

[i]Fragment 2[/i]

Kod:

this.zoomType = zoomtype.pref;
this.pageNum = 322-16;

(322-16 - chodzi mi tutaj o wynik odejmowania). I tutaj się moje umiejętności się kończą.

Podsumowując, potrzebuję pomocy przy skrypcie, który znajduje odpowiednią cyfrę z [i]Fragment 1[/i] plikach w określonym katalogu i wstawia ją po modyfikacji (odjęciu od niej liczby 16) do [i]Fragment 2[/i] i zapisuje tak zmieniony plik.

Pozdrawiam

Ostatnio edytowany przez menteith (2014-10-29 17:37:57)

Jacekalex · 2014-10-29 17:13:56

Bash i Sed do plików PDF?

Pierwszy raz słyszę radziłbym jednak zajrzeć do jakiegoś języka programowania, Pythona lub [url=http://www.perlmonks.org/?node_id=583813]Perla[/url].

Pozdro
;-)

menteith · 2014-10-29 17:33:12

Rozpakowany plik pdf jest plikiem tekstowym, można go edytować jak inny plik. Dlatego właśnie padło na bash, siedziałem nad innymi opcjami. Dla prosty pousuwam informacje o plikach pdf z pierwszego postu.

Trin · 2014-10-29 20:31:16

Weź perla - ułatwisz sobie życie i oszczędzisz czas. Otwierasz plik, przeczesujesz go linia po linii, szukasz linii która zawiera dany zestaw znaków, wygrzebujesz z niej dowolną ilość wystąpień cyferek po "pp_" - masz mechanizm grupowania, wrzucasz do zmiennej, odejmujesz 16. Taka sama zabawa ze wstawianiem obliczonej wartości w pożądane miejsce.

Z regexami jest tak, że nieraz uzyskujesz wyniki najmniej spodziewane więc lepiej dopieścić je maksymalnie pod względem szczegółów - to pozwoli uzyskać większą dokładność. Zwłaszcza na początku jeśli brak Ci wprawy to lepiej zbuduj takiego regexa żeby ci przypadkowych wartości nie skosiło. Oczywiście wszystko zależy od specyfiki tekstu - powtarzalności fragmentów, różnorodności itp. Tj. mniejsze prawdopodobieństwo że wykosisz śmieci kiedy masz jeden listing, niż kiedy masz ich np. sto, bo nie jesteś w stanie przewidzieć jak to się zachowa (w tym przypadku im więcej tekstu w języku naturalnym tym mniejsze pr-stwo błędu). Pracowałam nad przetwarzaniem kodów źródłowych 3 miesiące - perl świetnie dają radę ;)

w necie masa tooli typu regextester - polecam ćwiczyć, przydatne w sytuacji kiedy puszczanie skryptu i przeglądanie wyników zajmuje trochę czasu. Tam wrzucasz testowany tekst i tworzysz regexa, potem taki regex wędruje na "produkcję" - kiedy jesteś już w miarę pewien co do tego jak się parserek z takim regexem zachowa.

Jak gdzieś znajdę to podrzucę szkielet skryptu.

pzdr.

Ostatnio edytowany przez Trin (2014-10-29 20:41:07)

prosze · 2014-10-30 08:43:21

Czy zmieniony fragment pliku musi wyglądać tak?

Kod:

this.zoomType = zoomtype.pref;
this.pageNum = 322-16;

czy tak?

Kod:

this.zoomType = zoomtype.pref;
this.pageNum = 306;

==========================
W takim razie będą dwie wersje:

Zawartość pliku:

Kod:

if (this.hostContainer) { 
    try {
        this.hostContainer.postMessage(['newPage', 'pp_322', 15259]);
    } 
    catch(e) { 
        console.println(e); 
    }
};


this.zoomType = zoomtype.pref;
this.pageNum = 322-16;

1.

Kod:

pic@pic:~/Desktop/test$ awk 'match($0,/_/){x=substr($0,RSTART+RLENGTH,3)}/this.pageNum =/{gsub(/=.*/,"= "x-16)}1' a
if (this.hostContainer) { 
    try {
        this.hostContainer.postMessage(['newPage', 'pp_322', 15259]);
    } 
    catch(e) { 
        console.println(e); 
    }
};


this.zoomType = zoomtype.pref;
this.pageNum = 306
pic@pic:~/Desktop/test$

2.

Kod:

pic@pic:~/Desktop/test$ awk 'match($0,/_/){x=substr($0,RSTART+RLENGTH,3)}/this.pageNum =/{gsub(/=.*/,"= "x"-16")}1' a
if (this.hostContainer) { 
    try {
        this.hostContainer.postMessage(['newPage', 'pp_322', 15259]);
    } 
    catch(e) { 
        console.println(e); 
    }
};


this.zoomType = zoomtype.pref;
this.pageNum = 322-16
pic@pic:~/Desktop/test$

Ostatnio edytowany przez prosze (2014-10-30 13:27:58)

menteith · 2014-10-30 13:54:53

Dziękuję Wam bardzo za odpowiedzi. No to po kolei.
[b]Trin[/b]
[quote=Trin]Weź perla - ułatwisz sobie życie i oszczędzisz czas.[/quote]
No właśnie przeczesując Internet widziałem dużo opcji związanych z perlem właśnie.

[quote=Trin]Z regexami jest tak, że nieraz uzyskujesz wyniki najmniej spodziewane więc lepiej dopieścić je maksymalnie pod względem szczegółów[/quote]
[quote=Trin]w necie masa tooli typu regextester - polecam ćwiczyć, przydatne w sytuacji kiedy puszczanie skryptu i przeglądanie wyników zajmuje trochę czasu.[/quote]
Ten mój regexp właśnie ćwiczyłem na takm toolu - nie wyłapałem błędu, ale to nie oznacza, że go nie ma, a ryzykować niezbyt chcę.

[quote=Trin]Jak gdzieś znajdę to podrzucę szkielet skryptu.[/quote]
To jak znajdziesz to będzie super. Kiedyś przerabiałem kod perlowy który z plików jpg robił pdf - obsługiwał katalog podany jako argument. Pewnie się kiedyś przyda.

[b]prosze[/b], wielkie dzieki za kod i pomoc! Nie zawsze jestem w stanie odpowiedzieć od razu, dlatego przepraszam za opoóźnienie:) Chodziło mi o to:

Kod:

this.zoomType = zoomtype.pref;
this.pageNum = 306;

Jak przerobić Twój skrypt, żeby oprócz cyfr w postaci 0-9 obsługiwał także rzymskie (I, IV, X, XII itd.) - odejmował od nich 2, a przypadku pp_Cover lub pp_C odejmował 1?

Dziękuję jeszcze raz:)

winnetou · 2014-10-30 15:56:19

[quote=menteith]Jak przerobić Twój skrypt, żeby oprócz cyfr w postaci 0-9 obsługiwał także rzymskie (I, IV, X, XII itd.) - odejmował od nich 2, a przypadku pp_Cover lub pp_C odejmował 1?[/quote]
A to już wyższa szkoła jazdy ;) Ale podobno jest do tego odpowiedni [url=http://search.cpan.org/~tels/Math-Roman-1.07/lib/Math/Roman.pm]cpan[/url]
Ewentualnie wynajdywanie koła na nowo, i konwersja rzymskie-->arabskie-->odejmowanie-->rzymskie

menteith · 2014-10-30 16:22:30

Ta konwersja do zrobienia w sumie, bo zakres liczb rzymskich to I-XX. I regex (niestety, bo jak zauważyłą Trin) łatwo o blędy. Tutaj parę informacji o regexie i liczbach rzymskich
http://stackoverflow.com/questions/267399/how-do-you-match-only-valid-roman-numerals-with-a-regular-expression

Jacekalex · 2014-10-30 17:11:45

[quote=winnetou][quote=menteith]Jak przerobić Twój skrypt, żeby oprócz cyfr w postaci 0-9 obsługiwał także rzymskie (I, IV, X, XII itd.) - odejmował od nich 2, a przypadku pp_Cover lub pp_C odejmował 1?[/quote]
A to już wyższa szkoła jazdy ;) Ale podobno jest do tego odpowiedni [url=http://search.cpan.org/~tels/Math-Roman-1.07/lib/Math/Roman.pm]cpan[/url]
Ewentualnie wynajdywanie koła na nowo, i konwersja rzymskie-->arabskie-->odejmowanie-->rzymskie[/quote]
Czy poza prokreacją, znasz jakąś rzecz, do której nie ma modułu Perla? :D
Bo chyba nie jest ich zbyt wiele..... xD

prosze · 2014-10-30 19:50:52

To podaj fragment pliku wejściowego z cyframi rzymskimi oraz napisz jakiego wyniku oczekujesz .

Ostatnio edytowany przez prosze (2014-10-30 19:52:04)

menteith · 2014-10-30 21:21:15

Pierwsza możliwość to cyfry arabskie - [i]Fragment 1[/i].

Druga możliwość, czyli cyfry rzymskie (to samo co dla arabskich, tylko cyfra po pp_ jest rzymska):

Kod:

if (this.hostContainer) { 
    try {
        this.hostContainer.postMessage(['newPage', 'pp_vii', 15259]);
    } 
    catch(e) { 
        console.println(e); 
    }
};

A na wyjściu:

Kod:

this.zoomType = zoomtype.pref;
this.pageNum = vii-2;

this.pageNum = vii-2 - tutaj wynik pisany cyframi arabskimi, czyli powinno być this.pageNum = 5, a więc

Kod:

this.zoomType = zoomtype.pref;
this.pageNum = 5;

Trzecia możliwość: [u]pp_C[/u][u][/u] lub [u]pp_Cover[/u]:

Kod:

if (this.hostContainer) { 
    try {
        this.hostContainer.postMessage(['newPage', 'pp_Cover', 15259]);
    } 
    catch(e) { 
        console.println(e); 
    }
};

A na wyjściu:

Kod:

this.zoomType = zoomtype.pref;
this.pageNum = 0;

Tutaj na wyjściu zawsze 0.

Plików do zmiany jest 497, a wystąpień kodu w plikach jest łącznie 3112 - fajnie gdyby skrypt pokazywał ile przerobił dla rzymskich, arabskich i dla pp_Cover - wtedy łatwiej sprawdzić, czy coś były jakieś błędy. I może być także zamiastu kodu dla bash, perl, tak jak sugerowała Trin. Dla perla mam kod otwierający wszystkie pliki pdf w katalogu, jeśli to w czymś pomoże. Z góry dziekuje.

EDIT.
http://www.unix.com/shell-programming-and-scripting/156805-sort-roman-numerals.html

Tutaj jest informacja o konwersji arabic-roman.

Ostatnio edytowany przez menteith (2014-10-30 23:51:32)

prosze · 2014-10-31 07:50:06

[quote=menteith]Rozpakowany plik pdf jest plikiem tekstowym, można go edytować jak inny plik. Dlatego właśnie padło na bash, siedziałem nad innymi opcjami. Dla prosty pousuwam informacje o plikach pdf z pierwszego postu.[/quote]
Kolejne pytanie. Czy to są pliki .pdf, czy .txt? Jeżeli są to pliki .txt to podaj wynik poniższego polecenia:

Kod:

for x in *; do  awk '/pp_|this.pageNum/' "$x"; done > wynik.txt

Plik o nazwie "wynik.txt" zapodaj na darmowy hosting plików.

menteith · 2014-10-31 18:26:11

U mnie tworzy się pusty plik. Przykładowe pliki znajdują się tutaj:
http://pl.rghost.net/58815529

A moje pliki, to są pdfy, które są rozpakowane za pomocą narzędzia pdftk.

Uncompress PDF page streams for editing the PDF in a text editor (e.g., vim, emacs)[/quote]
Kod:
pdftk doc.pdf output doc.unc.pdf uncompress
Więcej info [url]https://www.pdflabs.com/docs/pdftk-cli-examples/[/url].

Ostatnio edytowany przez menteith (2014-10-31 18:28:56)

Time (s)	Query
0.00010	SET CHARSET latin2
0.00004	SET NAMES latin2
0.00120	SELECT u., g., o.logged FROM punbb_users AS u INNER JOIN punbb_groups AS g ON u.group_id=g.g_id LEFT JOIN punbb_online AS o ON o.ident='18.118.144.98' WHERE u.id=1
0.00096	REPLACE INTO punbb_online (user_id, ident, logged) VALUES(1, '18.118.144.98', 1732443321)
0.00041	SELECT * FROM punbb_online WHERE logged<1732443021
0.00055	SELECT t.subject, t.closed, t.num_replies, t.sticky, f.id AS forum_id, f.forum_name, f.moderators, fp.post_replies, 0 FROM punbb_topics AS t INNER JOIN punbb_forums AS f ON f.id=t.forum_id LEFT JOIN punbb_forum_perms AS fp ON (fp.forum_id=f.id AND fp.group_id=3) WHERE (fp.read_forum IS NULL OR fp.read_forum=1) AND t.id=26631 AND t.moved_to IS NULL
0.00006	SELECT search_for, replace_with FROM punbb_censoring
0.00318	SELECT u.email, u.title, u.url, u.location, u.use_avatar, u.signature, u.email_setting, u.num_posts, u.registered, u.admin_note, p.id, p.poster AS username, p.poster_id, p.poster_ip, p.poster_email, p.message, p.hide_smilies, p.posted, p.edited, p.edited_by, g.g_id, g.g_user_title, o.user_id AS is_online FROM punbb_posts AS p INNER JOIN punbb_users AS u ON u.id=p.poster_id INNER JOIN punbb_groups AS g ON g.g_id=u.group_id LEFT JOIN punbb_online AS o ON (o.user_id=u.id AND o.user_id!=1 AND o.idle=0) WHERE p.topic_id=26631 ORDER BY p.id LIMIT 0,25
0.00143	UPDATE punbb_topics SET num_views=num_views+1 WHERE id=26631
Total query time: 0.00793 s

Forum Debian Users Gang

Ogłoszenie

#1 2014-10-29 16:55:34

menteith - Użytkownik

[regex, bash, sed] Masowa modyfikacja plików

Kod:

Kod:

Kod:

#2 2014-10-29 17:13:56

Jacekalex - Podobno człowiek...;)

Re: [regex, bash, sed] Masowa modyfikacja plików

#3 2014-10-29 17:33:12

menteith - Użytkownik

Re: [regex, bash, sed] Masowa modyfikacja plików

#4 2014-10-29 20:31:16

Trin - Wredotka

Re: [regex, bash, sed] Masowa modyfikacja plików

#5 2014-10-30 08:43:21

prosze - Użytkownik

Re: [regex, bash, sed] Masowa modyfikacja plików

Kod:

Kod:

Kod:

Kod:

Kod:

#6 2014-10-30 13:54:53

menteith - Użytkownik

Re: [regex, bash, sed] Masowa modyfikacja plików

Kod:

#7 2014-10-30 15:56:19

winnetou - złodziej wirków ]:->

Re: [regex, bash, sed] Masowa modyfikacja plików

#8 2014-10-30 16:22:30

menteith - Użytkownik

Re: [regex, bash, sed] Masowa modyfikacja plików

#9 2014-10-30 17:11:45

Jacekalex - Podobno człowiek...;)

Re: [regex, bash, sed] Masowa modyfikacja plików

#10 2014-10-30 19:50:52

prosze - Użytkownik

Re: [regex, bash, sed] Masowa modyfikacja plików

#11 2014-10-30 21:21:15

menteith - Użytkownik

Re: [regex, bash, sed] Masowa modyfikacja plików

Kod:

Kod:

Kod:

Kod:

Kod:

#12 2014-10-31 07:50:06

prosze - Użytkownik

Re: [regex, bash, sed] Masowa modyfikacja plików

Kod:

#13 2014-10-31 18:26:11

menteith - Użytkownik

Re: [regex, bash, sed] Masowa modyfikacja plików

Kod:

#14 2014-10-31 19:49:40

prosze - Użytkownik

Re: [regex, bash, sed] Masowa modyfikacja plików

#15 2014-10-31 19:52:18

menteith - Użytkownik

Re: [regex, bash, sed] Masowa modyfikacja plików

#16 2014-10-31 20:04:33

Trin - Wredotka

Re: [regex, bash, sed] Masowa modyfikacja plików

#17 2014-10-31 20:08:44

menteith - Użytkownik

Re: [regex, bash, sed] Masowa modyfikacja plików

#18 2014-10-31 21:13:17

Trin - Wredotka

Re: [regex, bash, sed] Masowa modyfikacja plików

Kod:

#19 2014-10-31 23:16:44

Jacekalex - Podobno człowiek...;)

Re: [regex, bash, sed] Masowa modyfikacja plików

#20 2014-10-31 23:27:41

Trin - Wredotka

Re: [regex, bash, sed] Masowa modyfikacja plików

#21 2014-10-31 23:37:12