Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!

Ogłoszenie

Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.

#1  2015-04-07 09:54:11

  DeWu - Użytkownik

DeWu
Użytkownik
Zarejestrowany: 2013-03-26

Zabawa z tekstem

Witajcie.
Linuksa i basha używam już jakiś czas i potrafię conieco zrobić za pomocą grep, awk, cut, tr itp. Problem mam tylko, gdy muszę pracować na tekście który ma wiele linijek a interesowany mnie tekst znajduje się w innej linijce niż to co wygrepowałem. Przykład:

Kod:

<div class="post">Tutaj jest linijka z wystąpieniem słowa post
Kilka
linijek
tekstu
</div>

Mam do przejścia kilkaset plików tekstowych i wycięcia z nich tego wszystkiego, co pojawia się pomiędzy <div class="post"> a kolejnym </div>. Dla utrudnienia dodam, że tekst ma różną długośc a <div class="post"> może się powtórzyć kilkukrotnie w jednym pliku (kilka tekstów będzie trzeba wygrepować). Czy przy pomocy znanych mi narzędzi będzie można to osiągnąć?

Offline

 

#2  2015-04-07 10:18:02

  winnetou - złodziej wirków ]:->

winnetou
złodziej wirków ]:->
Skąd: Jasło/Rzeszów kiedyś Gdańs
Zarejestrowany: 2008-03-31
Serwis

Re: Zabawa z tekstem

Kod:

#!/usr/bin/perl

open FH,"<",'/sciezka/do/pliku/z/tekstem';

while (<FH>){
    if (/<div class="post">/../<\/div>/) {
        next if /<div class="post">/ || /<\/div>/;
        print
    }
}
close FH;

Kod:

winnetou@hordeum-vulgare /tmp $ cat xx
tekst przed
ma 2 linijki
<div class="post">Tutaj jest linijka z wystąpieniem słowa post
Kilka
linijek
tekstu
</div>
tekst po ma 2 linijki
s
winnetou@hordeum-vulgare /tmp $ ./xp.pl 
Kilka
linijek
tekstu
winnetou@hordeum-vulgare /tmp $

LRU: #472938
[b]napisz do mnie:[/b] ola@mojmail.eu
[url=http://valhalla.org.pl]Hołmpejdż[/url] | [url=http://valhalla.org.pl/foto]Galerie[/url] | [url=http://valhalla.org.pl/tech]"Twórczość"[/url] || [url=http://img.munn.in]Free Image Hosting[/url]

Offline

 

#3  2015-04-07 10:40:31

  DeWu - Użytkownik

DeWu
Użytkownik
Zarejestrowany: 2013-03-26

Re: Zabawa z tekstem

Nie działa. Pytanie tylko, czy linijka nie powinna zaczynać się od <div class="post">? Często zdarza się, że przed <div class="post"> jest jeszcze sporo białych znaków.

Offline

 

#4  2015-04-07 10:43:13

  winnetou - złodziej wirków ]:->

winnetou
złodziej wirków ]:->
Skąd: Jasło/Rzeszów kiedyś Gdańs
Zarejestrowany: 2008-03-31
Serwis

Re: Zabawa z tekstem

Kod:

winnetou@hordeum-vulgare /tmp $ cat xx 
tekst przed
ma 2 linijki
tu jakiś     teskt ze spacjami             <div class="post">Tutaj jest linijka z wystąpieniem słowa post
Kilka
linijek
tekstu
</div> a tu też spacje i tekst 
tekst po ma 2 linijki
s
winnetou@hordeum-vulgare /tmp $ ./xp.pl 
Kilka
linijek
tekstu
winnetou@hordeum-vulgare /tmp $

SOA #1


Natomiast jeśli w samym tagu <div> masz jakieś zbędne spacje to przerób pętle na regexpa :)

Kod:

while (<FH>){
  if (/<\s?div\s+?class="post"\s?>/../<\s?\/div\s?>/) {
    next if /<\s?div\s+?class="post"\s?>/ || /<\s?\/div\s?>/;
    print
  }
}

LRU: #472938
[b]napisz do mnie:[/b] ola@mojmail.eu
[url=http://valhalla.org.pl]Hołmpejdż[/url] | [url=http://valhalla.org.pl/foto]Galerie[/url] | [url=http://valhalla.org.pl/tech]"Twórczość"[/url] || [url=http://img.munn.in]Free Image Hosting[/url]

Offline

 

#5  2015-04-09 10:23:58

  DeWu - Użytkownik

DeWu
Użytkownik
Zarejestrowany: 2013-03-26

Re: Zabawa z tekstem

Też nie działa. Może wrzuciłbym tu przykładowy plik z którego grepuję?

Offline

 

#6  2015-04-09 11:05:14

  winnetou - złodziej wirków ]:->

winnetou
złodziej wirków ]:->
Skąd: Jasło/Rzeszów kiedyś Gdańs
Zarejestrowany: 2008-03-31
Serwis

Re: Zabawa z tekstem

No to podaj plik z którym pracujesz, bo coś ściemniasz ;)


LRU: #472938
[b]napisz do mnie:[/b] ola@mojmail.eu
[url=http://valhalla.org.pl]Hołmpejdż[/url] | [url=http://valhalla.org.pl/foto]Galerie[/url] | [url=http://valhalla.org.pl/tech]"Twórczość"[/url] || [url=http://img.munn.in]Free Image Hosting[/url]

Offline

 

Stopka forum

Powered by PunBB
© Copyright 2002–2005 Rickard Andersson
To nie jest tylko forum, to nasza mała ojczyzna ;-)

[ Generated in 0.008 seconds, 11 queries executed ]

Informacje debugowania

Time (s) Query
0.00013 SET CHARSET latin2
0.00007 SET NAMES latin2
0.00087 SELECT u.*, g.*, o.logged FROM punbb_users AS u INNER JOIN punbb_groups AS g ON u.group_id=g.g_id LEFT JOIN punbb_online AS o ON o.ident='3.145.10.80' WHERE u.id=1
0.00065 REPLACE INTO punbb_online (user_id, ident, logged) VALUES(1, '3.145.10.80', 1732306543)
0.00049 SELECT * FROM punbb_online WHERE logged<1732306243
0.00053 SELECT topic_id FROM punbb_posts WHERE id=285553
0.00116 SELECT id FROM punbb_posts WHERE topic_id=27251 ORDER BY posted
0.00066 SELECT t.subject, t.closed, t.num_replies, t.sticky, f.id AS forum_id, f.forum_name, f.moderators, fp.post_replies, 0 FROM punbb_topics AS t INNER JOIN punbb_forums AS f ON f.id=t.forum_id LEFT JOIN punbb_forum_perms AS fp ON (fp.forum_id=f.id AND fp.group_id=3) WHERE (fp.read_forum IS NULL OR fp.read_forum=1) AND t.id=27251 AND t.moved_to IS NULL
0.00006 SELECT search_for, replace_with FROM punbb_censoring
0.00083 SELECT u.email, u.title, u.url, u.location, u.use_avatar, u.signature, u.email_setting, u.num_posts, u.registered, u.admin_note, p.id, p.poster AS username, p.poster_id, p.poster_ip, p.poster_email, p.message, p.hide_smilies, p.posted, p.edited, p.edited_by, g.g_id, g.g_user_title, o.user_id AS is_online FROM punbb_posts AS p INNER JOIN punbb_users AS u ON u.id=p.poster_id INNER JOIN punbb_groups AS g ON g.g_id=u.group_id LEFT JOIN punbb_online AS o ON (o.user_id=u.id AND o.user_id!=1 AND o.idle=0) WHERE p.topic_id=27251 ORDER BY p.id LIMIT 0,25
0.00074 UPDATE punbb_topics SET num_views=num_views+1 WHERE id=27251
Total query time: 0.00619 s