Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!

Ogłoszenie

Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.

#1  2012-03-14 17:37:53

  torpeda80 - Użytkownik

torpeda80
Użytkownik
Zarejestrowany: 2007-03-28

[+] wget sciaganie - wątpliwość

Witam
Mam małą watpliwość odnosnie ściagania stron przez wget mianowicie dlaczego niektóre strony program wget siacga całe po przez: wget --recursive a niektóre wogóle nie chcę ruszyć. czy tu chodzi może o zabezpieczenia stron odnośnie ściagania? Chodzi mi o takie strony które udostepniają jakieś materiały w zakładce download w postaci plików pdf ale wget ich nie chwyta a wchodząc przez www można pobrać te materiały. Oczywiście większość stron pobiera mi wget tylko niektóre niechce zaciagać.

Ostatnio edytowany przez torpeda80 (2012-03-15 22:34:43)

Offline

 

#2  2012-03-14 17:52:30

  NIC - Członek DUG

NIC
Członek DUG
Skąd: Wrocław
Zarejestrowany: 2006-12-25
Serwis

Re: [+] wget sciaganie - wątpliwość

Daj przykłady stron lub/i log z działania. Pewnie strona nie jest w HTMLu ale w mieszance z mikronezji. wget nie rozszyfruje dziwadeł bo to proste narzędzie.

Dla Firefoksa polecam wtyczkę: DownThemAll!


Stronka-dom: [url]http://titek.victorygames.pl[/url]
Jabber: nic@jabster.pl
Hobby: kompilowanie Linuksa, Bluetooth
Dystrybucja: żadna, bliski krewny LFS, składak

Offline

 

#3  2012-03-14 17:54:01

  azhag - Admin łajza

azhag
Admin łajza
Skąd: Warszawa
Zarejestrowany: 2005-11-15

Re: [+] wget sciaganie - wątpliwość

[img]http://1.bp.blogspot.com/-VS97kqRSLbo/TwOjMQTwZNI/AAAAAAAAAFw/K5Bezd6MtRU/s1600/szklana_kula.jpg[/img]

Widzę... maszyny... i... plik tekstowy... miano jego... miano... tak, widzę robots.txt.


Błogosławieni, którzy czynią FAQ.
[url=http://www.opencaching.pl]opencaching[/url] :: [url=http://dug.net.pl/sources.list]debian sources.list[/url] :: [url=http://www.linuxportal.pl/blogi/azhag/wpisy]coś jakby blog[/url] :: [url=http://dug.net.pl/]polski portal debiana[/url] :: linux user #403712

Offline

 

#4  2012-03-14 18:09:13

  torpeda80 - Użytkownik

torpeda80
Użytkownik
Zarejestrowany: 2007-03-28

Re: [+] wget sciaganie - wątpliwość

Podaję przykładowo stronę (podobnych stron oczywiście jest więcej):
np.:  http://www.ely.pg.gda.pl/kelime/
Jest to strona uczelni i są tam udostepinone pliki do pobrania. Chciałem scignąć pliki to za pomocą wget ale nie mogę.

Kod:

torpich@armira:~$ wget --recursive --server-response --level=10 http://www.ely.pg.gda.pl/kelime/
--2012-03-14 18:04:52--  http://www.ely.pg.gda.pl/kelime/
Translacja www.ely.pg.gda.pl (www.ely.pg.gda.pl)... 153.19.44.252
Łączenie się z www.ely.pg.gda.pl (www.ely.pg.gda.pl)|153.19.44.252|:80... połączono.
Żądanie HTTP wysłano, oczekiwanie na odpowiedź... 
  HTTP/1.1 200 OK
  Date: Wed, 14 Mar 2012 17:04:50 GMT
  Server: Apache
  Last-Modified: Mon, 07 Apr 2008 05:31:09 GMT
  ETag: "11d1f-2ab-44a41c669e140"
  Accept-Ranges: bytes
  Content-Length: 683
  Keep-Alive: timeout=5, max=100
  Connection: Keep-Alive
  Content-Type: text/html
Długość: 683 [text/html]
Zapis do: `www.ely.pg.gda.pl/kelime/index.html'

100%[======================================>] 683         --.-K/s   w  0s      

2012-03-14 18:04:53 (39,4 MB/s) - zapisano `www.ely.pg.gda.pl/kelime/index.html' [683/683]

Wczytywanie robots.txt; proszę zignorować błędy.
--2012-03-14 18:04:53--  http://www.ely.pg.gda.pl/robots.txt
Ponowne użycie połączenia do www.ely.pg.gda.pl:80.
Żądanie HTTP wysłano, oczekiwanie na odpowiedź... 
  HTTP/1.1 200 OK
  Date: Wed, 14 Mar 2012 17:04:50 GMT
  Server: Apache
  Last-Modified: Sat, 21 Mar 2009 10:38:45 GMT
  ETag: "9cdb-1301-4659ea348b278"
  Accept-Ranges: bytes
  Content-Length: 4865
  Keep-Alive: timeout=5, max=99
  Connection: Keep-Alive
  Content-Type: text/plain
Długość: 4865 (4,8K) [text/plain]
Zapis do: `www.ely.pg.gda.pl/robots.txt'

100%[======================================>] 4.865       --.-K/s   w  0,002s  

2012-03-14 18:04:53 (2,43 MB/s) - zapisano `www.ely.pg.gda.pl/robots.txt' [4865/4865]

FINISHED --2012-03-14 18:04:53--
Total wall clock time: 0,08s
Downloaded: 2 files, 5,4K in 0,002s (2,75 MB/s)
torpich@armira:~$

robots.txt:

Kod:

#
# robots.txt generated by www.1-hit.com's robot generator
# Please, we do NOT allow nonauthorized robots any longer.
#
User-agent: *
Disallow: /DCC-cgi-bin/

User-agent: *
Disallow: /dcc/

User-agent: *
Disallow: /komisja/

User-agent: *
Disallow: /ksnopek/

User-agent: *
Disallow: /phpMyAdmin/

User-agent: *
Disallow: /pub/

User-agent: *
Disallow: /pub1/

User-agent: *
Disallow: /squirrel/

User-agent: *
Disallow: /mambo/

User-agent: *
Disallow: /mambo1/

User-agent: *
Disallow: /mrtg/

User-agent: *
Disallow: /mysql/

User-agent: *
Disallow: /new/

User-agent: *
Disallow: //


User-agent: asterias
Disallow: /
User-agent: BackDoorBot/1.0
Disallow: /
User-agent: Black Hole
Disallow: /
User-agent: BlowFish/1.0
Disallow: /
User-agent: BotALot
Disallow: /
User-agent: BuiltBotTough
Disallow: /
User-agent: Bullseye/1.0
Disallow: /
User-agent: BunnySlippers
Disallow: /
User-agent: Cegbfeieh
Disallow: /
User-agent: CheeseBot
Disallow: /
User-agent: CherryPicker
Disallow: /
User-agent: CherryPickerElite/1.0
Disallow: /
User-agent: CherryPickerSE/1.0
Disallow: /
User-agent: CopyRightCheck
Disallow: /
User-agent: cosmos
Disallow: /
User-agent: Crescent
Disallow: /
User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
Disallow: /
User-agent: DittoSpyder
Disallow: /
User-agent: EmailCollector
Disallow: /
User-agent: EmailSiphon
Disallow: /
User-agent: EmailWolf
Disallow: /
User-agent: EroCrawler
Disallow: /
User-agent: ExtractorPro
Disallow: /
User-agent: Foobot
Disallow: /
User-agent: Harvest/1.5
Disallow: /
User-agent: hloader
Disallow: /
User-agent: httplib
Disallow: /
User-agent: humanlinks
Disallow: /
User-agent: InfoNaviRobot
Disallow: /
User-agent: JennyBot
Disallow: /
User-agent: Kenjin Spider
Disallow: /
User-agent: Keyword Density/0.9
Disallow: /
User-agent: LexiBot
Disallow: /
User-agent: libWeb/clsHTTP
Disallow: /
User-agent: LinkextractorPro
Disallow: /
User-agent: LinkScan/8.1a Unix
Disallow: /
User-agent: LinkWalker
Disallow: /
User-agent: LNSpiderguy
Disallow: /
User-agent: lwp-trivial
Disallow: /
User-agent: lwp-trivial/1.34
Disallow: /
User-agent: Mata Hari
Disallow: /
User-agent: Microsoft URL Control - 5.01.4511
Disallow: /
User-agent: Microsoft URL Control - 6.00.8169
Disallow: /
User-agent: MIIxpc
Disallow: /
User-agent: MIIxpc/4.2
Disallow: /
User-agent: Mister PiX
Disallow: /
User-agent: moget
Disallow: /
User-agent: moget/2.1
Disallow: /
User-agent: mozilla/4
Disallow: /
User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
Disallow: /
User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows 95)
Disallow: /
User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows 98)
Disallow: /
User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows NT)
Disallow: /
User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows XP)
Disallow: /
User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows 2000)
Disallow: /
User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows ME)
Disallow: /
User-agent: mozilla/5
Disallow: /
User-agent: NetAnts
Disallow: /
User-agent: NICErsPRO
Disallow: /
User-agent: Offline Explorer
Disallow: /
User-agent: Openfind
Disallow: /
User-agent: Openfind data gathere
Disallow: /
User-agent: ProPowerBot/2.14
Disallow: /
User-agent: ProWebWalker
Disallow: /
User-agent: QueryN Metasearch
Disallow: /
User-agent: RepoMonkey
Disallow: /
User-agent: RepoMonkey Bait & Tackle/v1.01
Disallow: /
User-agent: RMA
Disallow: /
User-agent: SiteSnagger
Disallow: /
User-agent: SpankBot
Disallow: /
User-agent: spanner
Disallow: /
User-agent: suzuran
Disallow: /
User-agent: Szukacz/1.4
Disallow: /
User-agent: Teleport
Disallow: /
User-agent: TeleportPro
Disallow: /
User-agent: Telesoft
Disallow: /
User-agent: The Intraformant
Disallow: /
User-agent: TheNomad
Disallow: /
User-agent: TightTwatBot
Disallow: /
User-agent: Titan
Disallow: /
User-agent: toCrawl/UrlDispatcher
Disallow: /
User-agent: True_Robot
Disallow: /
User-agent: True_Robot/1.0
Disallow: /
User-agent: turingos
Disallow: /
User-agent: URLy Warning
Disallow: /
User-agent: VCI
Disallow: /
User-agent: VCI WebViewer VCI WebViewer Win32
Disallow: /
User-agent: Web Image Collector
Disallow: /
User-agent: WebAuto
Disallow: /
User-agent: WebBandit
Disallow: /
User-agent: WebBandit/3.50
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: WebEnhancer
Disallow: /
User-agent: WebmasterWorldForumBot
Disallow: /
User-agent: WebSauger
Disallow: /
User-agent: Website Quester
Disallow: /
User-agent: Webster Pro
Disallow: /
User-agent: WebStripper
Disallow: /
User-agent: WebZip
Disallow: /
User-agent: WebZip/4.0
Disallow: /
User-agent: Wget
Disallow: /
User-agent: Wget/1.5.3
Disallow: /
User-agent: Wget/1.6
Disallow: /
User-agent: WWW-Collector-E
Disallow: /
User-agent: Xenu's
Disallow: /
User-agent: Xenu's Link Sleuth 1.1c
Disallow: /
User-agent: Zeus
Disallow: /
User-agent: Zeus 32297 Webster Pro V2.9 Win32
Disallow: /

Ostatnio edytowany przez torpeda80 (2012-03-14 18:31:29)

Offline

 

#5  2012-03-14 18:52:26

  kamikaze - Administrator

kamikaze
Administrator
Zarejestrowany: 2004-04-16

Re: [+] wget sciaganie - wątpliwość

A mana czytał w ogóle? Chyba najprościej byłoby poczytać jak wget to robi: "Wget can follow links in HTML, XHTML, and CSS pages, to create local versions of remote web sites, fully recreating the directory structure of the original site.  This is sometimes referred to as "recursive downloading."  While doing that, Wget respects the Robot Exclusion Standard (/robots.txt)."

Offline

 

#6  2012-03-14 18:57:34

  Yampress - Imperator

Yampress
Imperator
Zarejestrowany: 2007-10-18

Re: [+] wget sciaganie - wątpliwość

a pomyślałeś , że niektóre strony są pisane w htmlu a niektóre to cmsy ?

Offline

 

#7  2012-03-14 19:06:11

  torpeda80 - Użytkownik

torpeda80
Użytkownik
Zarejestrowany: 2007-03-28

Re: [+] wget sciaganie - wątpliwość

Nie czytałem dokładnie ale juz przeczytałem. Tylko skąd wiem ze ta strona to była robiona w cms (prawy-pokaż źródło strony, jak nie ma dużo treści to cms)?
Jak można sciągnąć taką stronę pod cms?

Ostatnio edytowany przez torpeda80 (2012-03-14 19:09:02)

Offline

 

#8  2012-03-14 19:31:49

  Jacekalex - Podobno człowiek...;)

Jacekalex
Podobno człowiek...;)
Skąd: /dev/urandom
Zarejestrowany: 2008-01-07

Re: [+] wget sciaganie - wątpliwość

Dopisać do wgeta kawałek kodu, żeby zaczął sobie radzić z linkami zapisanymi w skyptach javascript, lub osadzonych w jakichś kaszankach z ajaxa, javy czy flasha?

Nic prostszego, banalnie proste :DDDDD

Jak nie ściaga jakiegoś linka, to weź sobie walnij w przeglądarce ctrl+u albo "pokaż źródło", i zobacz, co na tej stronie w ogóle siedzi.

To by było na tyle
;-)

Ostatnio edytowany przez Jacekalex (2012-03-14 20:33:17)


W demokracji każdy naród ma taką władzę, na jaką zasługuje ;)
Si vis pacem  para bellum  ;)       |       Pozdrawiam :)

Offline

 

#9  2012-03-14 19:45:48

  kamikaze - Administrator

kamikaze
Administrator
Zarejestrowany: 2004-04-16

Re: [+] wget sciaganie - wątpliwość

A te CMSy to w czym są pisane? W CMS-ie? ;]

Offline

 

#10  2012-03-14 20:16:16

  fervi - Użytkownik

fervi
Użytkownik
Zarejestrowany: 2010-03-14

Re: [+] wget sciaganie - wątpliwość

CMS'y? w PHP, Zazwyczaj (dodatkowo) w CSS, JS z bazą danych MySQL / PostgreSQL / inną

PHP to standard chyba :P

Fervi

Offline

 

#11  2012-03-14 20:42:19

  Jacekalex - Podobno człowiek...;)

Jacekalex
Podobno człowiek...;)
Skąd: /dev/urandom
Zarejestrowany: 2008-01-07

Re: [+] wget sciaganie - wątpliwość

http://www.ely.pg.gda.pl/robots.txt

Kod:

...
User-agent: Wget
Disallow: /
User-agent: Wget/1.5.3
Disallow: /
User-agent: Wget/1.6
Disallow: /
.....

Kod:

man wget 
........
       -U nazwa-agenta
       --user-agent=nazwa-agenta
           Serwerowi HTTP przedstawia się jako agent o podanej nazwie.

Zawsze conieco można wykombinować....

Zwłaszcza, ze:

To ignore robots.txt and no-follow, use something like:

wget -e robots=off --wait 1 http://your.site.here[/quote]
Sznurek:
http://wget.addictivecode.org/FrequentlyAskedQuestions#How_can_I_make_Wget_ignore_the_robots.txt_file.2BAC8-no-follow_attribute.3F

Pozdro
;-)

Ostatnio edytowany przez Jacekalex (2012-03-14 20:49:40)


W demokracji każdy naród ma taką władzę, na jaką zasługuje ;)
Si vis pacem  para bellum  ;)       |       Pozdrawiam :)

Offline

 

#12  2012-03-14 21:08:31

  Minio - Użyszkodnik

Minio
Użyszkodnik
Skąd: Brno, Česko
Zarejestrowany: 2007-12-22
Serwis

Re: [+] wget sciaganie - wątpliwość

[quote=Yampress]a pomyślałeś , że niektóre strony są pisane w htmlu a niektóre to cmsy ?[/quote]
Co ma piernik do wiatraka?

HTML (+CSS + JS) to sposób prezentacji danych. Dane są wyciągane z bazy danych przez CMS właśnie i prezentowane w dogodnej dla użytkownika formie (może to być HTML, może CSV, może PDF, może DOC — co tylko programista CMS-a wymyśli).

Innymi słowy: mieszasz frontend i backend.


Spinnen Essen: [url=http://fluxboxpl.org/portal/]FluxboxPL[/url] [url=http://przepis-na-lo.pl/]Przepis na LibreOffice[/url]

Offline

 

#13  2012-03-14 21:48:51

  kamikaze - Administrator

kamikaze
Administrator
Zarejestrowany: 2004-04-16

Re: [+] wget sciaganie - wątpliwość

[quote=fervi]CMS'y? w PHP, Zazwyczaj (dodatkowo) w CSS, JS z bazą danych MySQL / PostgreSQL / inną

PHP to standard chyba :P

Fervi[/quote]
To weź takiego CMSa i sprawdź źródło strony, ile PHP zobaczysz? Tyle ile widzi wget czyli nic ;]

Offline

 

#14  2012-03-14 21:51:16

  fervi - Użytkownik

fervi
Użytkownik
Zarejestrowany: 2010-03-14

Re: [+] wget sciaganie - wątpliwość

@kamikaze

Z tego co wiem Wget (jak i przeglądarki) pobierają gotowy kod HTML, chyba, że jesteś jedynym człowiekiem na ziemii i potrafisz pobrać kod PHP, wtedy poproszę kod Google'a i Ogame (de facto jest wersja Open Source :D)

Fervi

Offline

 

#15  2012-03-14 22:39:46

  kamikaze - Administrator

kamikaze
Administrator
Zarejestrowany: 2004-04-16

Re: [+] wget sciaganie - wątpliwość

[quote=fervi]@kamikaze

Z tego co wiem Wget (jak i przeglądarki) pobierają gotowy kod HTML, chyba, że jesteś jedynym człowiekiem na ziemii i potrafisz pobrać kod PHP, wtedy poproszę kod Google'a i Ogame (de facto jest wersja Open Source :D)

Fervi[/quote]
Chyba o tym mówie, problemy z czytaniem ze zrozumieniem?

Offline

 

#16  2012-03-14 22:48:34

  thomsson - Dyskutant

thomsson
Dyskutant
Zarejestrowany: 2011-10-26

Re: [+] wget sciaganie - wątpliwość

[quote=torpeda80]Witam
Chodzi mi o takie strony które udostepniają jakieś materiały w zakładce download w postaci plików pdf ale wget ich nie chwyta a wchodząc przez www można pobrać te materiały[/quote]
Nie rozumiem ;) chcesz pobrać stronę czy załącznik? bo jeśli załącznik to podaj link do załącznika i wtedy zaciągnie ci załącznik, a jeśli podasz link do strony to ci zassie stronę.


ilin napisał
[i]"DUG to tez moja mała ojczyzna"[/i]

Offline

 

#17  2012-03-14 22:49:51

  fervi - Użytkownik

fervi
Użytkownik
Zarejestrowany: 2010-03-14

Re: [+] wget sciaganie - wątpliwość

[quote=kamikaze][quote=fervi]@kamikaze

Z tego co wiem Wget (jak i przeglądarki) pobierają gotowy kod HTML, chyba, że jesteś jedynym człowiekiem na ziemii i potrafisz pobrać kod PHP, wtedy poproszę kod Google'a i Ogame (de facto jest wersja Open Source :D)

Fervi[/quote]
Chyba o tym mówie, problemy z czytaniem ze zrozumieniem?[/quote]
Chyba tak, bo zrozumiałem twój post jako "PHP? Człowieku, ja tam widzę tylko HTML'a"

Fervi

Offline

 

#18  2012-03-14 22:58:16

  kamikaze - Administrator

kamikaze
Administrator
Zarejestrowany: 2004-04-16

Re: [+] wget sciaganie - wątpliwość

A nie ja to patrze ciągle z perspektywy wgeta, któremu wszystko jedno czy HTML-a wypluł PHP czy inne ustrojstwo. Bo Yampress podzielił strony na HTML-owe i CMS-y, co jest błędem. Czy strona w pisana w czystym HTML-u czy pisana jakimś języku, który go generuje na podstawie napisanego kodu wynik jest podobny.

Offline

 

#19  2012-03-15 02:45:19

  zlyZwierz - Moderator

zlyZwierz
Moderator
Zarejestrowany: 2005-02-18
Serwis

Re: [+] wget sciaganie - wątpliwość

[quote=azhag][url]http://1.bp.blogspot.com/-VS97kqRSLbo/TwOjMQTwZNI/AAAAAAAAAFw/K5Bezd6MtRU/s1600/szklana_kula.jpg[/url]

Widzę... maszyny... i... plik tekstowy... miano jego... miano... tak, widzę robots.txt.[/quote]
Azhag - pls, zrob miniaturkę i dodaj BB taga do niej :)


[url=http://www.netfix.pro]www.netfix.pro[/url]

Offline

 

#20  2012-03-15 22:34:12

  torpeda80 - Użytkownik

torpeda80
Użytkownik
Zarejestrowany: 2007-03-28

Re: [+] wget sciaganie - wątpliwość

Dziękuje za odpowiedzi. Temat zamykam, przydały się wskazówki.
Pozdrawiam

Offline

 

Stopka forum

Powered by PunBB
© Copyright 2002–2005 Rickard Andersson
To nie jest tylko forum, to nasza mała ojczyzna ;-)

[ Generated in 0.009 seconds, 11 queries executed ]

Informacje debugowania

Time (s) Query
0.00010 SET CHARSET latin2
0.00004 SET NAMES latin2
0.00119 SELECT u.*, g.*, o.logged FROM punbb_users AS u INNER JOIN punbb_groups AS g ON u.group_id=g.g_id LEFT JOIN punbb_online AS o ON o.ident='3.21.21.209' WHERE u.id=1
0.00126 REPLACE INTO punbb_online (user_id, ident, logged) VALUES(1, '3.21.21.209', 1732678454)
0.00046 SELECT * FROM punbb_online WHERE logged<1732678154
0.00039 SELECT topic_id FROM punbb_posts WHERE id=197663
0.00005 SELECT id FROM punbb_posts WHERE topic_id=20890 ORDER BY posted
0.00055 SELECT t.subject, t.closed, t.num_replies, t.sticky, f.id AS forum_id, f.forum_name, f.moderators, fp.post_replies, 0 FROM punbb_topics AS t INNER JOIN punbb_forums AS f ON f.id=t.forum_id LEFT JOIN punbb_forum_perms AS fp ON (fp.forum_id=f.id AND fp.group_id=3) WHERE (fp.read_forum IS NULL OR fp.read_forum=1) AND t.id=20890 AND t.moved_to IS NULL
0.00007 SELECT search_for, replace_with FROM punbb_censoring
0.00111 SELECT u.email, u.title, u.url, u.location, u.use_avatar, u.signature, u.email_setting, u.num_posts, u.registered, u.admin_note, p.id, p.poster AS username, p.poster_id, p.poster_ip, p.poster_email, p.message, p.hide_smilies, p.posted, p.edited, p.edited_by, g.g_id, g.g_user_title, o.user_id AS is_online FROM punbb_posts AS p INNER JOIN punbb_users AS u ON u.id=p.poster_id INNER JOIN punbb_groups AS g ON g.g_id=u.group_id LEFT JOIN punbb_online AS o ON (o.user_id=u.id AND o.user_id!=1 AND o.idle=0) WHERE p.topic_id=20890 ORDER BY p.id LIMIT 0,25
0.00078 UPDATE punbb_topics SET num_views=num_views+1 WHERE id=20890
Total query time: 0.006 s