Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!
Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.
Witajcie.
Linuksa i basha używam już jakiś czas i potrafię conieco zrobić za pomocą grep, awk, cut, tr itp. Problem mam tylko, gdy muszę pracować na tekście który ma wiele linijek a interesowany mnie tekst znajduje się w innej linijce niż to co wygrepowałem. Przykład:
<div class="post">Tutaj jest linijka z wystąpieniem słowa post Kilka linijek tekstu </div>
Mam do przejścia kilkaset plików tekstowych i wycięcia z nich tego wszystkiego, co pojawia się pomiędzy <div class="post"> a kolejnym </div>. Dla utrudnienia dodam, że tekst ma różną długośc a <div class="post"> może się powtórzyć kilkukrotnie w jednym pliku (kilka tekstów będzie trzeba wygrepować). Czy przy pomocy znanych mi narzędzi będzie można to osiągnąć?
Offline
#!/usr/bin/perl open FH,"<",'/sciezka/do/pliku/z/tekstem'; while (<FH>){ if (/<div class="post">/../<\/div>/) { next if /<div class="post">/ || /<\/div>/; print } } close FH;
winnetou@hordeum-vulgare /tmp $ cat xx tekst przed ma 2 linijki <div class="post">Tutaj jest linijka z wystąpieniem słowa post Kilka linijek tekstu </div> tekst po ma 2 linijki s winnetou@hordeum-vulgare /tmp $ ./xp.pl Kilka linijek tekstu winnetou@hordeum-vulgare /tmp $
Offline
Nie działa. Pytanie tylko, czy linijka nie powinna zaczynać się od <div class="post">? Często zdarza się, że przed <div class="post"> jest jeszcze sporo białych znaków.
Offline
winnetou@hordeum-vulgare /tmp $ cat xx tekst przed ma 2 linijki tu jakiś teskt ze spacjami <div class="post">Tutaj jest linijka z wystąpieniem słowa post Kilka linijek tekstu </div> a tu też spacje i tekst tekst po ma 2 linijki s winnetou@hordeum-vulgare /tmp $ ./xp.pl Kilka linijek tekstu winnetou@hordeum-vulgare /tmp $
SOA #1
Natomiast jeśli w samym tagu <div> masz jakieś zbędne spacje to przerób pętle na regexpa :)
while (<FH>){ if (/<\s?div\s+?class="post"\s?>/../<\s?\/div\s?>/) { next if /<\s?div\s+?class="post"\s?>/ || /<\s?\/div\s?>/; print } }
Offline
Też nie działa. Może wrzuciłbym tu przykładowy plik z którego grepuję?
Offline
No to podaj plik z którym pracujesz, bo coś ściemniasz ;)
Offline
Time (s) | Query |
---|---|
0.00010 | SET CHARSET latin2 |
0.00004 | SET NAMES latin2 |
0.00058 | SELECT u.*, g.*, o.logged FROM punbb_users AS u INNER JOIN punbb_groups AS g ON u.group_id=g.g_id LEFT JOIN punbb_online AS o ON o.ident='3.14.249.104' WHERE u.id=1 |
0.00085 | REPLACE INTO punbb_online (user_id, ident, logged) VALUES(1, '3.14.249.104', 1732308999) |
0.00029 | SELECT * FROM punbb_online WHERE logged<1732308699 |
0.00084 | SELECT topic_id FROM punbb_posts WHERE id=285554 |
0.00006 | SELECT id FROM punbb_posts WHERE topic_id=27251 ORDER BY posted |
0.00057 | SELECT t.subject, t.closed, t.num_replies, t.sticky, f.id AS forum_id, f.forum_name, f.moderators, fp.post_replies, 0 FROM punbb_topics AS t INNER JOIN punbb_forums AS f ON f.id=t.forum_id LEFT JOIN punbb_forum_perms AS fp ON (fp.forum_id=f.id AND fp.group_id=3) WHERE (fp.read_forum IS NULL OR fp.read_forum=1) AND t.id=27251 AND t.moved_to IS NULL |
0.00015 | SELECT search_for, replace_with FROM punbb_censoring |
0.00151 | SELECT u.email, u.title, u.url, u.location, u.use_avatar, u.signature, u.email_setting, u.num_posts, u.registered, u.admin_note, p.id, p.poster AS username, p.poster_id, p.poster_ip, p.poster_email, p.message, p.hide_smilies, p.posted, p.edited, p.edited_by, g.g_id, g.g_user_title, o.user_id AS is_online FROM punbb_posts AS p INNER JOIN punbb_users AS u ON u.id=p.poster_id INNER JOIN punbb_groups AS g ON g.g_id=u.group_id LEFT JOIN punbb_online AS o ON (o.user_id=u.id AND o.user_id!=1 AND o.idle=0) WHERE p.topic_id=27251 ORDER BY p.id LIMIT 0,25 |
0.00081 | UPDATE punbb_topics SET num_views=num_views+1 WHERE id=27251 |
Total query time: 0.0058 s |