Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!

Ogłoszenie

Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.

#1  2013-03-12 03:51:16

  winnetou - złodziej wirków ]:->

winnetou
złodziej wirków ]:->
Skąd: Jasło/Rzeszów kiedyś Gdańs
Zarejestrowany: 2008-03-31
Serwis

Duplikaty plików

Miałem ostatnio jazdy z dyskami. Skończyło się na photorec'u. Wszystko było by pięknie gdyby nie to, że część plików została odzyskana X razy. To co photorec odzyskał już posortowałem - kosztowało mnie to kilkanaście godzin przed moniotrem ale na tym na czym mi zależało (fotki) zostało w 95-98% odzyskane. Teraz pytanie za milion punków - jakiego softu użyć do odnajdywania duplikatów? Testowałem fdups i łamańca z perlem i md5 ale to nie działa dokładnie tak jak by pasowało.
Część plików to rawy, część jpg/png. Jpg/png można w sumie olać - bo to co wiem, że jest z rawów wywołam sobie jeszcze raz. Jak ugryźć duplikaty RAWów? Mógłbym to zrobić ręcznie ale nie na 10k plików :) Na oko wiem gdzie są duplikaty ale znalezienie ich ręcznie w katalogu, który ma 1-2k plików będzie "troszkę" uciążliwe.

Dawno temu (jak jeszcze dinozaury biegały po ziemi) korzystałem z takiego softu pod win 98/XP i spisywał się genialnie (ale nie pamiętam nazwy więc vbox w win XP i zasoby montowane po sambie odpadają)

Wszelkie sugestie mile widziane ;)
Jak ktoś ma pomysł/alogrytm na wykorzystanie diffa również będę mega zainteresowany.


LRU: #472938
[b]napisz do mnie:[/b] ola@mojmail.eu
[url=http://valhalla.org.pl]Hołmpejdż[/url] | [url=http://valhalla.org.pl/foto]Galerie[/url] | [url=http://valhalla.org.pl/tech]"Twórczość"[/url] || [url=http://img.munn.in]Free Image Hosting[/url]

Offline

 

#2  2013-03-12 08:27:35

  andreq - Członek DUG

andreq
Członek DUG
Skąd: Nisko
Zarejestrowany: 2005-01-11

Re: Duplikaty plików

W Digikam-ie jest funkcja wyszukiwania duplikatów, u mnie z NEF-ami poszło bardzo dobrze.

Offline

 

#3  2013-03-12 08:32:35

  pioki - Użytkownik

pioki
Użytkownik
Zarejestrowany: 2010-04-10

Re: Duplikaty plików

Możesz też spróbować coś takiego:

Kod:

md5sum * | sort -n | uniq -w 32 -d

warto zajrzeć do `man uniq` zamiast opcji -d (wypisuje które pliki mają duplikaty) można rozważyć użycie -u lub -D...

Ostatnio edytowany przez pioki (2013-03-12 09:04:47)

Offline

 

#4  2013-03-12 11:34:51

  winnetou - złodziej wirków ]:->

winnetou
złodziej wirków ]:->
Skąd: Jasło/Rzeszów kiedyś Gdańs
Zarejestrowany: 2008-03-31
Serwis

Re: Duplikaty plików

pioki - podobne łamańce tstowałem - średnio się spisały. Na razie znalazłem [url=http://en.flossmanuals.net/FSlint/Introduction/]FSLint[/url] wygląda na to, że się całkiem z sensem spisze.
Digikama zaraz obczaję ;)


LRU: #472938
[b]napisz do mnie:[/b] ola@mojmail.eu
[url=http://valhalla.org.pl]Hołmpejdż[/url] | [url=http://valhalla.org.pl/foto]Galerie[/url] | [url=http://valhalla.org.pl/tech]"Twórczość"[/url] || [url=http://img.munn.in]Free Image Hosting[/url]

Offline

 

#5  2013-03-12 11:51:04

  yossarian - Szczawiożerca

yossarian
Szczawiożerca
Skąd: Shangri-La
Zarejestrowany: 2011-04-25

Re: Duplikaty plików

Może coś z tego:
http://forum.dug.net.pl/viewtopic.php?pid=215231#p215231

Offline

 

#6  2013-03-12 12:52:56

  prosze - Użytkownik

prosze
Użytkownik
Zarejestrowany: 2012-09-25

Re: Duplikaty plików

Kod:

find $PWD -name "*.jpg" | awk 'BEGIN{FS="."}{system("mkdir " $NF "; mv -v --backup=numbered  " $0 " " $NF)}'

Wyszukuje pliki wg wzorca (w katalogu bieżącym i jego podkatalogach) i tworzy katalogi o takiej samej nazwie jak rozszerzenie pliku.
Dla prawidłowego działania żaden z katalogów nie może mieć w swojej nazwie kropki "." Przenosi pliki do katalogów o takiej samej nazwie jak rozszerzenie pliku. Przenoszone są również duplikaty plików, które dostają kolejny numer, ale są ukryte (włączyć wyświetlanie ukrytych plików).

Offline

 

#7  2013-03-12 14:45:39

  winnetou - złodziej wirków ]:->

winnetou
złodziej wirków ]:->
Skąd: Jasło/Rzeszów kiedyś Gdańs
Zarejestrowany: 2008-03-31
Serwis

Re: Duplikaty plików

@prosze - fotki mam już posortowane (o czym pisałem w pierwszym poście).
Jest sobie przykładowe drzewko katalogów

Kod:

“”” Atex_inne
ƒ   “”” f105063971.orf
ƒ   “”” f105107051.orf
ƒ   “”” f105253619.orf
ƒ   “”” f105485267.orf
ƒ   “”” f105671531.orf
ƒ   “”” f75639707.orf
ƒ   “”” f87833259.orf
ƒ   “”” f88071251.orf
ƒ   “”” f93880411.orf
ƒ    ”” f94419915.orf
“”” Atex_studio
ƒ   “”” f108285019.orf
ƒ   “”” f108307083.orf
ƒ   “”” f108329003.orf
ƒ   “”” f108350979.orf
ƒ   “”” f206202019.orf
ƒ   “”” f206225059.orf
ƒ   “”” f206247587.orf
ƒ   “”” f206270371.orf
ƒ   “”” f206293155.orf
ƒ    ”” f206315683.orf

I w katalogu są duplikaty ;]
sortowanie po rozszerzeniach już dawno sobie zrobiłem i do tego rawy jeszcze posortowałem "kategoriami". Teraz tylko rozbija się o wynalezienie duplikatów i usunięcie/przeniesienie do innego katalogu. Zabawy z md5 już testowałem i momentami nie bardzo zdaje to egzamin.

@yossarian - rdfind nie widzę w gentoo (a nie chce mi się kompilować ręcznie ;P). duff i LSlint raczej dają radę. - wstępnie na 10k rawów znalazło mi
41GB duplikatół w 2290 plików ;)

--- EDYTKA ---
duff/fslint mają jedna wadę - problem z minimalnymi różnicami np w jasności fotki ;/ No ale w sumie są w stanie zwolnić mi jakieś 60-70GB miejsca z duplikatów. A to już duuuużo. Nic to pokombinuje z innymi algorytmami (sha1/sha512 i md5 nie wyłapują tych różnic) a digikam zassa mi połowe kde ;(

Ostatnio edytowany przez winnetou (2013-03-13 01:12:22)


LRU: #472938
[b]napisz do mnie:[/b] ola@mojmail.eu
[url=http://valhalla.org.pl]Hołmpejdż[/url] | [url=http://valhalla.org.pl/foto]Galerie[/url] | [url=http://valhalla.org.pl/tech]"Twórczość"[/url] || [url=http://img.munn.in]Free Image Hosting[/url]

Offline

 

#8  2013-03-13 06:09:41

  pioki - Użytkownik

pioki
Użytkownik
Zarejestrowany: 2010-04-10

Re: Duplikaty plików

duff ma opcję -t:

-t      Thorough mode.  Distrust digests as a guarantee for equality.  In thorough mode, duff compares files [b]byte by byte when their sizes
             match.[/b][/quote]
ale ja bym chyba nie zaryzykował ;)

Offline

 

#9  2013-03-13 12:34:37

  lukaz1987 - Członek DUG

lukaz1987
Członek DUG
Zarejestrowany: 2008-08-12

Re: Duplikaty plików

Freedup [url]http://www.freedup.org/download.html[/url]

Ostatnio edytowany przez lukaz1987 (2013-03-13 12:36:44)

Offline

 

Stopka forum

Powered by PunBB
© Copyright 2002–2005 Rickard Andersson
To nie jest tylko forum, to nasza mała ojczyzna ;-)

[ Generated in 0.008 seconds, 11 queries executed ]

Informacje debugowania

Time (s) Query
0.00013 SET CHARSET latin2
0.00004 SET NAMES latin2
0.00100 SELECT u.*, g.*, o.logged FROM punbb_users AS u INNER JOIN punbb_groups AS g ON u.group_id=g.g_id LEFT JOIN punbb_online AS o ON o.ident='18.223.195.127' WHERE u.id=1
0.00126 REPLACE INTO punbb_online (user_id, ident, logged) VALUES(1, '18.223.195.127', 1732635384)
0.00071 SELECT * FROM punbb_online WHERE logged<1732635084
0.00056 SELECT topic_id FROM punbb_posts WHERE id=227211
0.00004 SELECT id FROM punbb_posts WHERE topic_id=23127 ORDER BY posted
0.00054 SELECT t.subject, t.closed, t.num_replies, t.sticky, f.id AS forum_id, f.forum_name, f.moderators, fp.post_replies, 0 FROM punbb_topics AS t INNER JOIN punbb_forums AS f ON f.id=t.forum_id LEFT JOIN punbb_forum_perms AS fp ON (fp.forum_id=f.id AND fp.group_id=3) WHERE (fp.read_forum IS NULL OR fp.read_forum=1) AND t.id=23127 AND t.moved_to IS NULL
0.00010 SELECT search_for, replace_with FROM punbb_censoring
0.00095 SELECT u.email, u.title, u.url, u.location, u.use_avatar, u.signature, u.email_setting, u.num_posts, u.registered, u.admin_note, p.id, p.poster AS username, p.poster_id, p.poster_ip, p.poster_email, p.message, p.hide_smilies, p.posted, p.edited, p.edited_by, g.g_id, g.g_user_title, o.user_id AS is_online FROM punbb_posts AS p INNER JOIN punbb_users AS u ON u.id=p.poster_id INNER JOIN punbb_groups AS g ON g.g_id=u.group_id LEFT JOIN punbb_online AS o ON (o.user_id=u.id AND o.user_id!=1 AND o.idle=0) WHERE p.topic_id=23127 ORDER BY p.id LIMIT 0,25
0.00091 UPDATE punbb_topics SET num_views=num_views+1 WHERE id=23127
Total query time: 0.00624 s