Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!

Ogłoszenie

Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.

#1  2012-02-13 20:24:50

  hello_world - Członek DUG

hello_world
Członek DUG
Skąd: Rymanów Zdrój
Zarejestrowany: 2010-06-03
Serwis

Przetwarzanie pliku html

Mam problem z przetworzeniem pliku html.
Niby file pokazuje format HTML cat również poprawnie go pokazuje natomiast polecenie cat plik.html |less już pokazuje mi tak jakby był binarką
Plik był generowany przez program księgowy
próbowałem w przeglądarce zapisać go jako tekstowy i lipa.

Offline

 

#2  2012-02-13 21:04:13

  P@blo - Nadworny matematyk

P@blo
Nadworny matematyk
Skąd: Wrocław v Jasło
Zarejestrowany: 2010-11-11

Re: Przetwarzanie pliku html

Ja osobiście nie rozumiem w czym problem. Jakbyś pokazał wyniki tego cat i cat ...|less jakiś kawałek, to może dochodzenie by poszło sprawniej.... Może coś w stylu [tt]cat plik.html > plik[/tt] pomoże?


[tt]ThinkPadX220i
| Procesor: Intel(R) Core(TM) i3-2310M CPU @ 2.10GHz |
|  Debian: sid   |   Arch: amd64   |   Sound: alsa   |
| No DE | WM: DWM  |  DM: .bash_profile  |  BIOS+MBR |[/tt]

Offline

 

#3  2012-02-13 21:18:24

  hello_world - Członek DUG

hello_world
Członek DUG
Skąd: Rymanów Zdrój
Zarejestrowany: 2010-06-03
Serwis

Re: Przetwarzanie pliku html

cat plik_html |less wygląda tak
[url]http://ubuntuone.com/1ihIUvu4W6jDseLKYQBEeO[/url]
Bez less jak zcatuje pokazuje mi normalnie znaczniki z trescią.

Może coś w stylu cat plik.html > plik pomoże?[/quote]
Próbowałem nic nie daje

Offline

 

#4  2012-02-13 21:21:18

  Minio - Użyszkodnik

Minio
Użyszkodnik
Skąd: Brno, Česko
Zarejestrowany: 2007-12-22
Serwis

Re: Przetwarzanie pliku html

Dlaczego [tt]cat plik.html |less[/tt] zamiast [tt]less plik.html[/tt]?


Spinnen Essen: [url=http://fluxboxpl.org/portal/]FluxboxPL[/url] [url=http://przepis-na-lo.pl/]Przepis na LibreOffice[/url]

Offline

 

#5  2012-02-13 21:21:34

  P@blo - Nadworny matematyk

P@blo
Nadworny matematyk
Skąd: Wrocław v Jasło
Zarejestrowany: 2010-11-11

Re: Przetwarzanie pliku html

A... Wszystko jasne... Musisz usunąć białe znaki coś w stylu:

Kod:

cat plik |sed 's/\s//g'

Jak się nie uda podeślij mi jakoś ten plik...

P.S.
Oczywiście głowy nie daje, że to jest to co opisałem, ale tak mi się wydaje ;p


[tt]ThinkPadX220i
| Procesor: Intel(R) Core(TM) i3-2310M CPU @ 2.10GHz |
|  Debian: sid   |   Arch: amd64   |   Sound: alsa   |
| No DE | WM: DWM  |  DM: .bash_profile  |  BIOS+MBR |[/tt]

Offline

 

#6  2012-02-13 21:21:47

  Jacekalex - Podobno człowiek...;)

Jacekalex
Podobno człowiek...;)
Skąd: /dev/urandom
Zarejestrowany: 2008-01-07

Re: Przetwarzanie pliku html

Pewnie kodowanie, np base64, rot13 czy coś podobnego.

Przeglądarki potrafią to interpretować, w przeciwieństwie do ludzi.
W każdym razie, jak przeglądarka to otwiera, to znaczy, że da się to odczytać.


W demokracji każdy naród ma taką władzę, na jaką zasługuje ;)
Si vis pacem  para bellum  ;)       |       Pozdrawiam :)

Offline

 

#7  2012-02-13 21:30:19

  hello_world - Członek DUG

hello_world
Członek DUG
Skąd: Rymanów Zdrój
Zarejestrowany: 2010-06-03
Serwis

Re: Przetwarzanie pliku html

@Minio
Jakoś tak z przyzwyczajenia ale dzięki twój sposób to nawet mi wypluwa że plik może być binarny.
P@blo
Twój sposób owszem usunął białe znaki ale kodowanie pozostało. Pliku natomiast nie prześlę bo są w nim dane firmy, musisz zrozumieć.

To może inaczej jak sprawdzić w czym to jest kodowane?

Offline

 

#8  2012-02-13 21:32:36

  NIC - Członek DUG

NIC
Członek DUG
Skąd: Wrocław
Zarejestrowany: 2006-12-25
Serwis

Re: Przetwarzanie pliku html

Skoro cat go catuje, a less go źle lessuje to problem jest w less. I faktycznie, bo na przykład "less" puszczone na "git log" z kolorkami pokazuje znaki kolorów jako jakieś krzaczki czy coś.

Pewnie interesuje się opcja "-r".
"less -r $PLIK" lub to brzydsze "cat $PLIK | less -r"


Stronka-dom: [url]http://titek.victorygames.pl[/url]
Jabber: nic@jabster.pl
Hobby: kompilowanie Linuksa, Bluetooth
Dystrybucja: żadna, bliski krewny LFS, składak

Offline

 

#9  2012-02-13 21:35:23

  hello_world - Członek DUG

hello_world
Członek DUG
Skąd: Rymanów Zdrój
Zarejestrowany: 2010-06-03
Serwis

Re: Przetwarzanie pliku html

@NIC
nie pomogło

Offline

 

#10  2012-02-13 21:35:29

  P@blo - Nadworny matematyk

P@blo
Nadworny matematyk
Skąd: Wrocław v Jasło
Zarejestrowany: 2010-11-11

Re: Przetwarzanie pliku html

Spoko rozumiem... Myślałem, że to problem typu - napisałem plik pod win i chce go oglądnąć pod lin. Bo win nawet ma znaczek na 'enter' i z tym i się skojarzyło :)


[tt]ThinkPadX220i
| Procesor: Intel(R) Core(TM) i3-2310M CPU @ 2.10GHz |
|  Debian: sid   |   Arch: amd64   |   Sound: alsa   |
| No DE | WM: DWM  |  DM: .bash_profile  |  BIOS+MBR |[/tt]

Offline

 

#11  2012-02-13 21:40:06

  hello_world - Członek DUG

hello_world
Członek DUG
Skąd: Rymanów Zdrój
Zarejestrowany: 2010-06-03
Serwis

Re: Przetwarzanie pliku html

A tak mi pluje jak zapuszcze na ten plik kawalek kodu pythona

Kod:

#!/usr/bin/python
# -*- coding: utf-8 -*-
 
lista_linijek = []
for linijka in open('/home/tk/Praca/nowy.txt', 'r'):
   print(linijka)
   lista_linijek.append(linijka)
      
print(lista_linijek)

[url]http://ubuntuone.com/3ZieC6cRLGHXLhNr9PvWSM[/url]

Offline

 

#12  2012-02-13 21:54:53

  NIC - Członek DUG

NIC
Członek DUG
Skąd: Wrocław
Zarejestrowany: 2006-12-25
Serwis

Re: Przetwarzanie pliku html

Chyba pomyliłeś link, bo to nie do pythona, ale do HTMLa. I wygląda na UTF-16.

Spróbuj: export LESSCHARSET="utf-16"; less $PLIK

Can less display non-English language characters?

Less has two ways to display non-English characters. If your system uses a non-ASCII single-byte character set, you should set up your system with the correct "locale" settings. If your system does not support setlocale, you can set the LESSCHARSET or LESSCHARDEF environment variable to tell less what language you are using. See the section "NATIONAL CHARACTER SETS" in the man page for details.

If your system supports the UTF-8 encoding of Unicode for non-ASCII text, as many modern systems do, you should either set your locale to something that includes the string "UTF-8" or "UTF8" (either uppercase or lowercase is ok), or set LESSCHARSET to "utf-8".[/quote]
źródło: http://www.greenwoodsoftware.com/less/faq.html

Ostatnio edytowany przez NIC (2012-02-13 21:55:18)


Stronka-dom: [url]http://titek.victorygames.pl[/url]
Jabber: nic@jabster.pl
Hobby: kompilowanie Linuksa, Bluetooth
Dystrybucja: żadna, bliski krewny LFS, składak

Offline

 

#13  2012-02-13 22:04:27

  hello_world - Członek DUG

hello_world
Członek DUG
Skąd: Rymanów Zdrój
Zarejestrowany: 2010-06-03
Serwis

Re: Przetwarzanie pliku html

Po eksporcie
less plik.html
invalid charset name

Offline

 

#14  2012-02-13 22:12:12

  NIC - Członek DUG

NIC
Członek DUG
Skąd: Wrocław
Zarejestrowany: 2006-12-25
Serwis

Re: Przetwarzanie pliku html

Tak. less nie obsługuje UTF-16. less obsługuje tylko i wyłącznie ASCII i UTF8.

Więc potrzebujesz konwertować, np.

Kod:

iconv -f utf-16 < $PLIK | less

Stronka-dom: [url]http://titek.victorygames.pl[/url]
Jabber: nic@jabster.pl
Hobby: kompilowanie Linuksa, Bluetooth
Dystrybucja: żadna, bliski krewny LFS, składak

Offline

 

#15  2012-02-13 22:14:17

  hello_world - Członek DUG

hello_world
Członek DUG
Skąd: Rymanów Zdrój
Zarejestrowany: 2010-06-03
Serwis

Re: Przetwarzanie pliku html

To samo co wyżej u mnie w poście

Offline

 

#16  2012-02-13 22:18:12

  NIC - Członek DUG

NIC
Członek DUG
Skąd: Wrocław
Zarejestrowany: 2006-12-25
Serwis

Re: Przetwarzanie pliku html

A tak. Wybacz. Dałem tam Ci exporta. To cofnie tamten krok i już less zacznie działać w tej sesji terminala :)

Kod:

unset LESSCHARSET

Stronka-dom: [url]http://titek.victorygames.pl[/url]
Jabber: nic@jabster.pl
Hobby: kompilowanie Linuksa, Bluetooth
Dystrybucja: żadna, bliski krewny LFS, składak

Offline

 

#17  2012-02-13 22:20:22

  hello_world - Członek DUG

hello_world
Członek DUG
Skąd: Rymanów Zdrój
Zarejestrowany: 2010-06-03
Serwis

Re: Przetwarzanie pliku html

O zadziałało
Super dzięki, już powoli czacha mi się przegrzewała.

Offline

 

Stopka forum

Powered by PunBB
© Copyright 2002–2005 Rickard Andersson
To nie jest tylko forum, to nasza mała ojczyzna ;-)

[ Generated in 0.010 seconds, 11 queries executed ]

Informacje debugowania

Time (s) Query
0.00012 SET CHARSET latin2
0.00004 SET NAMES latin2
0.00117 SELECT u.*, g.*, o.logged FROM punbb_users AS u INNER JOIN punbb_groups AS g ON u.group_id=g.g_id LEFT JOIN punbb_online AS o ON o.ident='3.144.43.194' WHERE u.id=1
0.00077 REPLACE INTO punbb_online (user_id, ident, logged) VALUES(1, '3.144.43.194', 1732689078)
0.00049 SELECT * FROM punbb_online WHERE logged<1732688778
0.00062 SELECT topic_id FROM punbb_posts WHERE id=194521
0.00122 SELECT id FROM punbb_posts WHERE topic_id=20660 ORDER BY posted
0.00070 SELECT t.subject, t.closed, t.num_replies, t.sticky, f.id AS forum_id, f.forum_name, f.moderators, fp.post_replies, 0 FROM punbb_topics AS t INNER JOIN punbb_forums AS f ON f.id=t.forum_id LEFT JOIN punbb_forum_perms AS fp ON (fp.forum_id=f.id AND fp.group_id=3) WHERE (fp.read_forum IS NULL OR fp.read_forum=1) AND t.id=20660 AND t.moved_to IS NULL
0.00005 SELECT search_for, replace_with FROM punbb_censoring
0.00091 SELECT u.email, u.title, u.url, u.location, u.use_avatar, u.signature, u.email_setting, u.num_posts, u.registered, u.admin_note, p.id, p.poster AS username, p.poster_id, p.poster_ip, p.poster_email, p.message, p.hide_smilies, p.posted, p.edited, p.edited_by, g.g_id, g.g_user_title, o.user_id AS is_online FROM punbb_posts AS p INNER JOIN punbb_users AS u ON u.id=p.poster_id INNER JOIN punbb_groups AS g ON g.g_id=u.group_id LEFT JOIN punbb_online AS o ON (o.user_id=u.id AND o.user_id!=1 AND o.idle=0) WHERE p.topic_id=20660 ORDER BY p.id LIMIT 0,25
0.00074 UPDATE punbb_topics SET num_views=num_views+1 WHERE id=20660
Total query time: 0.00683 s