Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!
Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.
Miałem ostatnio jazdy z dyskami. Skończyło się na photorec'u. Wszystko było by pięknie gdyby nie to, że część plików została odzyskana X razy. To co photorec odzyskał już posortowałem - kosztowało mnie to kilkanaście godzin przed moniotrem ale na tym na czym mi zależało (fotki) zostało w 95-98% odzyskane. Teraz pytanie za milion punków - jakiego softu użyć do odnajdywania duplikatów? Testowałem fdups i łamańca z perlem i md5 ale to nie działa dokładnie tak jak by pasowało.
Część plików to rawy, część jpg/png. Jpg/png można w sumie olać - bo to co wiem, że jest z rawów wywołam sobie jeszcze raz. Jak ugryźć duplikaty RAWów? Mógłbym to zrobić ręcznie ale nie na 10k plików :) Na oko wiem gdzie są duplikaty ale znalezienie ich ręcznie w katalogu, który ma 1-2k plików będzie "troszkę" uciążliwe.
Dawno temu (jak jeszcze dinozaury biegały po ziemi) korzystałem z takiego softu pod win 98/XP i spisywał się genialnie (ale nie pamiętam nazwy więc vbox w win XP i zasoby montowane po sambie odpadają)
Wszelkie sugestie mile widziane ;)
Jak ktoś ma pomysł/alogrytm na wykorzystanie diffa również będę mega zainteresowany.
Offline
W Digikam-ie jest funkcja wyszukiwania duplikatów, u mnie z NEF-ami poszło bardzo dobrze.
Offline
Możesz też spróbować coś takiego:
md5sum * | sort -n | uniq -w 32 -d
warto zajrzeć do `man uniq` zamiast opcji -d (wypisuje które pliki mają duplikaty) można rozważyć użycie -u lub -D...
Ostatnio edytowany przez pioki (2013-03-12 09:04:47)
Offline
pioki - podobne łamańce tstowałem - średnio się spisały. Na razie znalazłem [url=http://en.flossmanuals.net/FSlint/Introduction/]FSLint[/url] wygląda na to, że się całkiem z sensem spisze.
Digikama zaraz obczaję ;)
Offline
Może coś z tego:
http://forum.dug.net.pl/viewtopic.php?pid=215231#p215231
Offline
find $PWD -name "*.jpg" | awk 'BEGIN{FS="."}{system("mkdir " $NF "; mv -v --backup=numbered " $0 " " $NF)}'
Wyszukuje pliki wg wzorca (w katalogu bieżącym i jego podkatalogach) i tworzy katalogi o takiej samej nazwie jak rozszerzenie pliku.
Dla prawidłowego działania żaden z katalogów nie może mieć w swojej nazwie kropki "." Przenosi pliki do katalogów o takiej samej nazwie jak rozszerzenie pliku. Przenoszone są również duplikaty plików, które dostają kolejny numer, ale są ukryte (włączyć wyświetlanie ukrytych plików).
Offline
@prosze - fotki mam już posortowane (o czym pisałem w pierwszym poście).
Jest sobie przykładowe drzewko katalogów
Atex_inne f105063971.orf f105107051.orf f105253619.orf f105485267.orf f105671531.orf f75639707.orf f87833259.orf f88071251.orf f93880411.orf f94419915.orf Atex_studio f108285019.orf f108307083.orf f108329003.orf f108350979.orf f206202019.orf f206225059.orf f206247587.orf f206270371.orf f206293155.orf f206315683.orf
I w katalogu są duplikaty ;]
sortowanie po rozszerzeniach już dawno sobie zrobiłem i do tego rawy jeszcze posortowałem "kategoriami". Teraz tylko rozbija się o wynalezienie duplikatów i usunięcie/przeniesienie do innego katalogu. Zabawy z md5 już testowałem i momentami nie bardzo zdaje to egzamin.
@yossarian - rdfind nie widzę w gentoo (a nie chce mi się kompilować ręcznie ;P). duff i LSlint raczej dają radę. - wstępnie na 10k rawów znalazło mi
41GB duplikatół w 2290 plików ;)
--- EDYTKA ---
duff/fslint mają jedna wadę - problem z minimalnymi różnicami np w jasności fotki ;/ No ale w sumie są w stanie zwolnić mi jakieś 60-70GB miejsca z duplikatów. A to już duuuużo. Nic to pokombinuje z innymi algorytmami (sha1/sha512 i md5 nie wyłapują tych różnic) a digikam zassa mi połowe kde ;(
Ostatnio edytowany przez winnetou (2013-03-13 01:12:22)
Offline
duff ma opcję -t:
-t Thorough mode. Distrust digests as a guarantee for equality. In thorough mode, duff compares files [b]byte by byte when their sizes
match.[/b][/quote]
ale ja bym chyba nie zaryzykował ;)
Offline
Freedup [url]http://www.freedup.org/download.html[/url]
Ostatnio edytowany przez lukaz1987 (2013-03-13 12:36:44)
Offline
Time (s) | Query |
---|---|
0.00013 | SET CHARSET latin2 |
0.00004 | SET NAMES latin2 |
0.00100 | SELECT u.*, g.*, o.logged FROM punbb_users AS u INNER JOIN punbb_groups AS g ON u.group_id=g.g_id LEFT JOIN punbb_online AS o ON o.ident='18.223.195.127' WHERE u.id=1 |
0.00126 | REPLACE INTO punbb_online (user_id, ident, logged) VALUES(1, '18.223.195.127', 1732635384) |
0.00071 | SELECT * FROM punbb_online WHERE logged<1732635084 |
0.00056 | SELECT topic_id FROM punbb_posts WHERE id=227211 |
0.00004 | SELECT id FROM punbb_posts WHERE topic_id=23127 ORDER BY posted |
0.00054 | SELECT t.subject, t.closed, t.num_replies, t.sticky, f.id AS forum_id, f.forum_name, f.moderators, fp.post_replies, 0 FROM punbb_topics AS t INNER JOIN punbb_forums AS f ON f.id=t.forum_id LEFT JOIN punbb_forum_perms AS fp ON (fp.forum_id=f.id AND fp.group_id=3) WHERE (fp.read_forum IS NULL OR fp.read_forum=1) AND t.id=23127 AND t.moved_to IS NULL |
0.00010 | SELECT search_for, replace_with FROM punbb_censoring |
0.00095 | SELECT u.email, u.title, u.url, u.location, u.use_avatar, u.signature, u.email_setting, u.num_posts, u.registered, u.admin_note, p.id, p.poster AS username, p.poster_id, p.poster_ip, p.poster_email, p.message, p.hide_smilies, p.posted, p.edited, p.edited_by, g.g_id, g.g_user_title, o.user_id AS is_online FROM punbb_posts AS p INNER JOIN punbb_users AS u ON u.id=p.poster_id INNER JOIN punbb_groups AS g ON g.g_id=u.group_id LEFT JOIN punbb_online AS o ON (o.user_id=u.id AND o.user_id!=1 AND o.idle=0) WHERE p.topic_id=23127 ORDER BY p.id LIMIT 0,25 |
0.00091 | UPDATE punbb_topics SET num_views=num_views+1 WHERE id=23127 |
Total query time: 0.00624 s |