Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!
Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.
Witam
Mam małą watpliwość odnosnie ściagania stron przez wget mianowicie dlaczego niektóre strony program wget siacga całe po przez: wget --recursive a niektóre wogóle nie chcę ruszyć. czy tu chodzi może o zabezpieczenia stron odnośnie ściagania? Chodzi mi o takie strony które udostepniają jakieś materiały w zakładce download w postaci plików pdf ale wget ich nie chwyta a wchodząc przez www można pobrać te materiały. Oczywiście większość stron pobiera mi wget tylko niektóre niechce zaciagać.
Ostatnio edytowany przez torpeda80 (2012-03-15 22:34:43)
Offline
Daj przykłady stron lub/i log z działania. Pewnie strona nie jest w HTMLu ale w mieszance z mikronezji. wget nie rozszyfruje dziwadeł bo to proste narzędzie.
Dla Firefoksa polecam wtyczkę: DownThemAll!
Offline
[img]http://1.bp.blogspot.com/-VS97kqRSLbo/TwOjMQTwZNI/AAAAAAAAAFw/K5Bezd6MtRU/s1600/szklana_kula.jpg[/img]
Widzę... maszyny... i... plik tekstowy... miano jego... miano... tak, widzę robots.txt.
Offline
Podaję przykładowo stronę (podobnych stron oczywiście jest więcej):
np.: http://www.ely.pg.gda.pl/kelime/
Jest to strona uczelni i są tam udostepinone pliki do pobrania. Chciałem scignąć pliki to za pomocą wget ale nie mogę.
torpich@armira:~$ wget --recursive --server-response --level=10 http://www.ely.pg.gda.pl/kelime/ --2012-03-14 18:04:52-- http://www.ely.pg.gda.pl/kelime/ Translacja www.ely.pg.gda.pl (www.ely.pg.gda.pl)... 153.19.44.252 Łączenie się z www.ely.pg.gda.pl (www.ely.pg.gda.pl)|153.19.44.252|:80... połączono. Żądanie HTTP wysłano, oczekiwanie na odpowiedź... HTTP/1.1 200 OK Date: Wed, 14 Mar 2012 17:04:50 GMT Server: Apache Last-Modified: Mon, 07 Apr 2008 05:31:09 GMT ETag: "11d1f-2ab-44a41c669e140" Accept-Ranges: bytes Content-Length: 683 Keep-Alive: timeout=5, max=100 Connection: Keep-Alive Content-Type: text/html Długość: 683 [text/html] Zapis do: `www.ely.pg.gda.pl/kelime/index.html' 100%[======================================>] 683 --.-K/s w 0s 2012-03-14 18:04:53 (39,4 MB/s) - zapisano `www.ely.pg.gda.pl/kelime/index.html' [683/683] Wczytywanie robots.txt; proszę zignorować błędy. --2012-03-14 18:04:53-- http://www.ely.pg.gda.pl/robots.txt Ponowne użycie połączenia do www.ely.pg.gda.pl:80. Żądanie HTTP wysłano, oczekiwanie na odpowiedź... HTTP/1.1 200 OK Date: Wed, 14 Mar 2012 17:04:50 GMT Server: Apache Last-Modified: Sat, 21 Mar 2009 10:38:45 GMT ETag: "9cdb-1301-4659ea348b278" Accept-Ranges: bytes Content-Length: 4865 Keep-Alive: timeout=5, max=99 Connection: Keep-Alive Content-Type: text/plain Długość: 4865 (4,8K) [text/plain] Zapis do: `www.ely.pg.gda.pl/robots.txt' 100%[======================================>] 4.865 --.-K/s w 0,002s 2012-03-14 18:04:53 (2,43 MB/s) - zapisano `www.ely.pg.gda.pl/robots.txt' [4865/4865] FINISHED --2012-03-14 18:04:53-- Total wall clock time: 0,08s Downloaded: 2 files, 5,4K in 0,002s (2,75 MB/s) torpich@armira:~$
robots.txt:
# # robots.txt generated by www.1-hit.com's robot generator # Please, we do NOT allow nonauthorized robots any longer. # User-agent: * Disallow: /DCC-cgi-bin/ User-agent: * Disallow: /dcc/ User-agent: * Disallow: /komisja/ User-agent: * Disallow: /ksnopek/ User-agent: * Disallow: /phpMyAdmin/ User-agent: * Disallow: /pub/ User-agent: * Disallow: /pub1/ User-agent: * Disallow: /squirrel/ User-agent: * Disallow: /mambo/ User-agent: * Disallow: /mambo1/ User-agent: * Disallow: /mrtg/ User-agent: * Disallow: /mysql/ User-agent: * Disallow: /new/ User-agent: * Disallow: // User-agent: asterias Disallow: / User-agent: BackDoorBot/1.0 Disallow: / User-agent: Black Hole Disallow: / User-agent: BlowFish/1.0 Disallow: / User-agent: BotALot Disallow: / User-agent: BuiltBotTough Disallow: / User-agent: Bullseye/1.0 Disallow: / User-agent: BunnySlippers Disallow: / User-agent: Cegbfeieh Disallow: / User-agent: CheeseBot Disallow: / User-agent: CherryPicker Disallow: / User-agent: CherryPickerElite/1.0 Disallow: / User-agent: CherryPickerSE/1.0 Disallow: / User-agent: CopyRightCheck Disallow: / User-agent: cosmos Disallow: / User-agent: Crescent Disallow: / User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0 Disallow: / User-agent: DittoSpyder Disallow: / User-agent: EmailCollector Disallow: / User-agent: EmailSiphon Disallow: / User-agent: EmailWolf Disallow: / User-agent: EroCrawler Disallow: / User-agent: ExtractorPro Disallow: / User-agent: Foobot Disallow: / User-agent: Harvest/1.5 Disallow: / User-agent: hloader Disallow: / User-agent: httplib Disallow: / User-agent: humanlinks Disallow: / User-agent: InfoNaviRobot Disallow: / User-agent: JennyBot Disallow: / User-agent: Kenjin Spider Disallow: / User-agent: Keyword Density/0.9 Disallow: / User-agent: LexiBot Disallow: / User-agent: libWeb/clsHTTP Disallow: / User-agent: LinkextractorPro Disallow: / User-agent: LinkScan/8.1a Unix Disallow: / User-agent: LinkWalker Disallow: / User-agent: LNSpiderguy Disallow: / User-agent: lwp-trivial Disallow: / User-agent: lwp-trivial/1.34 Disallow: / User-agent: Mata Hari Disallow: / User-agent: Microsoft URL Control - 5.01.4511 Disallow: / User-agent: Microsoft URL Control - 6.00.8169 Disallow: / User-agent: MIIxpc Disallow: / User-agent: MIIxpc/4.2 Disallow: / User-agent: Mister PiX Disallow: / User-agent: moget Disallow: / User-agent: moget/2.1 Disallow: / User-agent: mozilla/4 Disallow: / User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95) Disallow: / User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows 95) Disallow: / User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows 98) Disallow: / User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows NT) Disallow: / User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows XP) Disallow: / User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows 2000) Disallow: / User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows ME) Disallow: / User-agent: mozilla/5 Disallow: / User-agent: NetAnts Disallow: / User-agent: NICErsPRO Disallow: / User-agent: Offline Explorer Disallow: / User-agent: Openfind Disallow: / User-agent: Openfind data gathere Disallow: / User-agent: ProPowerBot/2.14 Disallow: / User-agent: ProWebWalker Disallow: / User-agent: QueryN Metasearch Disallow: / User-agent: RepoMonkey Disallow: / User-agent: RepoMonkey Bait & Tackle/v1.01 Disallow: / User-agent: RMA Disallow: / User-agent: SiteSnagger Disallow: / User-agent: SpankBot Disallow: / User-agent: spanner Disallow: / User-agent: suzuran Disallow: / User-agent: Szukacz/1.4 Disallow: / User-agent: Teleport Disallow: / User-agent: TeleportPro Disallow: / User-agent: Telesoft Disallow: / User-agent: The Intraformant Disallow: / User-agent: TheNomad Disallow: / User-agent: TightTwatBot Disallow: / User-agent: Titan Disallow: / User-agent: toCrawl/UrlDispatcher Disallow: / User-agent: True_Robot Disallow: / User-agent: True_Robot/1.0 Disallow: / User-agent: turingos Disallow: / User-agent: URLy Warning Disallow: / User-agent: VCI Disallow: / User-agent: VCI WebViewer VCI WebViewer Win32 Disallow: / User-agent: Web Image Collector Disallow: / User-agent: WebAuto Disallow: / User-agent: WebBandit Disallow: / User-agent: WebBandit/3.50 Disallow: / User-agent: WebCopier Disallow: / User-agent: WebEnhancer Disallow: / User-agent: WebmasterWorldForumBot Disallow: / User-agent: WebSauger Disallow: / User-agent: Website Quester Disallow: / User-agent: Webster Pro Disallow: / User-agent: WebStripper Disallow: / User-agent: WebZip Disallow: / User-agent: WebZip/4.0 Disallow: / User-agent: Wget Disallow: / User-agent: Wget/1.5.3 Disallow: / User-agent: Wget/1.6 Disallow: / User-agent: WWW-Collector-E Disallow: / User-agent: Xenu's Disallow: / User-agent: Xenu's Link Sleuth 1.1c Disallow: / User-agent: Zeus Disallow: / User-agent: Zeus 32297 Webster Pro V2.9 Win32 Disallow: /
Ostatnio edytowany przez torpeda80 (2012-03-14 18:31:29)
Offline
A mana czytał w ogóle? Chyba najprościej byłoby poczytać jak wget to robi: "Wget can follow links in HTML, XHTML, and CSS pages, to create local versions of remote web sites, fully recreating the directory structure of the original site. This is sometimes referred to as "recursive downloading." While doing that, Wget respects the Robot Exclusion Standard (/robots.txt)."
Offline
a pomyślałeś , że niektóre strony są pisane w htmlu a niektóre to cmsy ?
Offline
Nie czytałem dokładnie ale juz przeczytałem. Tylko skąd wiem ze ta strona to była robiona w cms (prawy-pokaż źródło strony, jak nie ma dużo treści to cms)?
Jak można sciągnąć taką stronę pod cms?
Ostatnio edytowany przez torpeda80 (2012-03-14 19:09:02)
Offline
Dopisać do wgeta kawałek kodu, żeby zaczął sobie radzić z linkami zapisanymi w skyptach javascript, lub osadzonych w jakichś kaszankach z ajaxa, javy czy flasha?
Nic prostszego, banalnie proste :DDDDD
Jak nie ściaga jakiegoś linka, to weź sobie walnij w przeglądarce ctrl+u albo "pokaż źródło", i zobacz, co na tej stronie w ogóle siedzi.
To by było na tyle
;-)
Ostatnio edytowany przez Jacekalex (2012-03-14 20:33:17)
Offline
A te CMSy to w czym są pisane? W CMS-ie? ;]
Offline
CMS'y? w PHP, Zazwyczaj (dodatkowo) w CSS, JS z bazą danych MySQL / PostgreSQL / inną
PHP to standard chyba :P
Fervi
Offline
http://www.ely.pg.gda.pl/robots.txt
... User-agent: Wget Disallow: / User-agent: Wget/1.5.3 Disallow: / User-agent: Wget/1.6 Disallow: / .....
man wget ........ -U nazwa-agenta --user-agent=nazwa-agenta Serwerowi HTTP przedstawia się jako agent o podanej nazwie.
Zawsze conieco można wykombinować....
Zwłaszcza, ze:
To ignore robots.txt and no-follow, use something like:
wget -e robots=off --wait 1 http://your.site.here[/quote]
Sznurek:
http://wget.addictivecode.org/FrequentlyAskedQuestions#How_can_I_make_Wget_ignore_the_robots.txt_file.2BAC8-no-follow_attribute.3F
Pozdro
;-)Ostatnio edytowany przez Jacekalex (2012-03-14 20:49:40)
W demokracji każdy naród ma taką władzę, na jaką zasługuje ;)
Si vis pacem para bellum ;) | Pozdrawiam :)
Offline
[quote=Yampress]a pomyślałeś , że niektóre strony są pisane w htmlu a niektóre to cmsy ?[/quote]
Co ma piernik do wiatraka?
HTML (+CSS + JS) to sposób prezentacji danych. Dane są wyciągane z bazy danych przez CMS właśnie i prezentowane w dogodnej dla użytkownika formie (może to być HTML, może CSV, może PDF, może DOC — co tylko programista CMS-a wymyśli).
Innymi słowy: mieszasz frontend i backend.
Offline
[quote=fervi]CMS'y? w PHP, Zazwyczaj (dodatkowo) w CSS, JS z bazą danych MySQL / PostgreSQL / inną
PHP to standard chyba :P
Fervi[/quote]
To weź takiego CMSa i sprawdź źródło strony, ile PHP zobaczysz? Tyle ile widzi wget czyli nic ;]
Offline
@kamikaze
Z tego co wiem Wget (jak i przeglądarki) pobierają gotowy kod HTML, chyba, że jesteś jedynym człowiekiem na ziemii i potrafisz pobrać kod PHP, wtedy poproszę kod Google'a i Ogame (de facto jest wersja Open Source :D)
Fervi
Offline
[quote=fervi]@kamikaze
Z tego co wiem Wget (jak i przeglądarki) pobierają gotowy kod HTML, chyba, że jesteś jedynym człowiekiem na ziemii i potrafisz pobrać kod PHP, wtedy poproszę kod Google'a i Ogame (de facto jest wersja Open Source :D)
Fervi[/quote]
Chyba o tym mówie, problemy z czytaniem ze zrozumieniem?
Offline
[quote=torpeda80]Witam
Chodzi mi o takie strony które udostepniają jakieś materiały w zakładce download w postaci plików pdf ale wget ich nie chwyta a wchodząc przez www można pobrać te materiały[/quote]
Nie rozumiem ;) chcesz pobrać stronę czy załącznik? bo jeśli załącznik to podaj link do załącznika i wtedy zaciągnie ci załącznik, a jeśli podasz link do strony to ci zassie stronę.
Offline
[quote=kamikaze][quote=fervi]@kamikaze
Z tego co wiem Wget (jak i przeglądarki) pobierają gotowy kod HTML, chyba, że jesteś jedynym człowiekiem na ziemii i potrafisz pobrać kod PHP, wtedy poproszę kod Google'a i Ogame (de facto jest wersja Open Source :D)
Fervi[/quote]
Chyba o tym mówie, problemy z czytaniem ze zrozumieniem?[/quote]
Chyba tak, bo zrozumiałem twój post jako "PHP? Człowieku, ja tam widzę tylko HTML'a"
Fervi
Offline
A nie ja to patrze ciągle z perspektywy wgeta, któremu wszystko jedno czy HTML-a wypluł PHP czy inne ustrojstwo. Bo Yampress podzielił strony na HTML-owe i CMS-y, co jest błędem. Czy strona w pisana w czystym HTML-u czy pisana jakimś języku, który go generuje na podstawie napisanego kodu wynik jest podobny.
Offline
[quote=azhag][url]http://1.bp.blogspot.com/-VS97kqRSLbo/TwOjMQTwZNI/AAAAAAAAAFw/K5Bezd6MtRU/s1600/szklana_kula.jpg[/url]
Widzę... maszyny... i... plik tekstowy... miano jego... miano... tak, widzę robots.txt.[/quote]
Azhag - pls, zrob miniaturkę i dodaj BB taga do niej :)
Offline
Dziękuje za odpowiedzi. Temat zamykam, przydały się wskazówki.
Pozdrawiam
Offline
Time (s) | Query |
---|---|
0.00009 | SET CHARSET latin2 |
0.00009 | SET NAMES latin2 |
0.00121 | SELECT u.*, g.*, o.logged FROM punbb_users AS u INNER JOIN punbb_groups AS g ON u.group_id=g.g_id LEFT JOIN punbb_online AS o ON o.ident='3.15.17.60' WHERE u.id=1 |
0.00139 | REPLACE INTO punbb_online (user_id, ident, logged) VALUES(1, '3.15.17.60', 1732678423) |
0.00061 | SELECT * FROM punbb_online WHERE logged<1732678123 |
0.00035 | SELECT topic_id FROM punbb_posts WHERE id=197708 |
0.00006 | SELECT id FROM punbb_posts WHERE topic_id=20890 ORDER BY posted |
0.00050 | SELECT t.subject, t.closed, t.num_replies, t.sticky, f.id AS forum_id, f.forum_name, f.moderators, fp.post_replies, 0 FROM punbb_topics AS t INNER JOIN punbb_forums AS f ON f.id=t.forum_id LEFT JOIN punbb_forum_perms AS fp ON (fp.forum_id=f.id AND fp.group_id=3) WHERE (fp.read_forum IS NULL OR fp.read_forum=1) AND t.id=20890 AND t.moved_to IS NULL |
0.00010 | SELECT search_for, replace_with FROM punbb_censoring |
0.00105 | SELECT u.email, u.title, u.url, u.location, u.use_avatar, u.signature, u.email_setting, u.num_posts, u.registered, u.admin_note, p.id, p.poster AS username, p.poster_id, p.poster_ip, p.poster_email, p.message, p.hide_smilies, p.posted, p.edited, p.edited_by, g.g_id, g.g_user_title, o.user_id AS is_online FROM punbb_posts AS p INNER JOIN punbb_users AS u ON u.id=p.poster_id INNER JOIN punbb_groups AS g ON g.g_id=u.group_id LEFT JOIN punbb_online AS o ON (o.user_id=u.id AND o.user_id!=1 AND o.idle=0) WHERE p.topic_id=20890 ORDER BY p.id LIMIT 0,25 |
0.00086 | UPDATE punbb_topics SET num_views=num_views+1 WHERE id=20890 |
Total query time: 0.00631 s |