Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!
Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.
Muszę zeskanować pewną unikalną książkę.
Teraz pytanie.
Jak widzę xsane oferuje skanowanie do PDFa i nawet działa.
Problem w tym ze tekst jest w poprzek (tak muszę położyć książkę na scannerze.)
Da sie to w jakimś sofcie obrócić o 90 stopni ?
Ewentualnie do jakiego formatu scanować aby najmniej było roboty przy składaniu wszystkiego w jakiś jeden sensowny dokument. PDF czy DOC czy ODT nawet txt.
Chodzi o to aby cała księzka byl w jednym dokumencie elektronicznym.
Offline
Zobacz pakiet imagemagick i polecenie convert.
Offline
Zeskanuj do obrazów, ustaw jak chcesz (np. ww. [tt]convertem[/tt], gimpem) i połącz... [tt]convertem[/tt]:
convert plik1.jpg plik2.jpg plik3.jpg plik.pdf
Offline
[quote=azhag]Zeskanuj do obrazów, ustaw jak chcesz (np. ww. convertem, gimpem) i połącz... convertem:[/quote]
Tak to będzie dobre wyjście.
Dzięki.
Offline
[b]ilin[/b], skanuj do formatu png. Następnie tak jak napisali wcześniej popraw w gimpie. Minimalna rozdzielczość to 300dpi. Użyj najlepiej 450dpi.. Jeżeli będziesz ją rozpoznawał to strony posiadające obrazki skanuj dzieląc na tekst i grafikę.
[b]Dodano:[/b]
Format png jest lepiej przenośny do programów rozpoznawania tekstu pod Windows. Nie opłaca się skanować do formatu tif. Format tif tworzony pod Linuksem często jest źle interpretowany w Windows np. przez program ocr recognita.
Mając pliki png możesz jej wstawić do np. Openoffice i następnie pdf.
Ostatnio edytowany przez fnmirk (2009-09-24 15:53:09)
Offline
Skanuję w maksymalnej jakosci to chyba 600dpi
W PNG to strasznie duże pliki wychodzą jeden scan jakieś 84Mb.
Zacząłem robić do jpeg.
Jakość niezgorsza.
Jeszcze przetestuję zmniejszyć rozdzielczość jak pogorszy się jakość względem wagi dokumentu.
Obrazków tam nie ma bo to książka historyczna można powiedzieć.
Offline
[quote=fnmirk]Mając pliki png możesz jej wstawić do np. Openoffice i następnie pdf.[/quote]
Convert obsługuje PNG, tak samo jak JPG, GIF i inne popularne formaty.
Offline
Wystarczy 300-450.dpi. Książka nie była drukowa z większą rozdzielczością niż 200-300dpi. Nie ma sensu skanować z większą rozdzielczością.
Nie wszystkie strony musisz skanować w kolorze. Maksymalna wielkość pliku skanowanej strony u mnie, w kolorze i w formacie A4 nie przekracza nigdy 40-50MB.
Jeżeli skanujesz po dwie strony w jednym przebiegu to później je podzielisz i będzie mniej.
Png jest formatem bezstratnym i lepszym do przechowywania obrazków niż jpg.
[quote="ilin"]Skanuję w maksymalnej jakosci to chyba 600dpi[/quote]
Nie skanujesz w takiej. Skaner to przetwarza i niepotrzebnie marnujesz miejsce na dysku. Lepiej jest wykonać skan obrazka w mniejszej o połowę rozdzielczości, uzyskując mniejszy plik wynikowy. Przeciętnie jest to 300-450dpi i następnie w razie potrzeby wykonać interpolację w programie graficznym. Wyjdzie na to samo i uzyskamy; lepszą jakość. Większość skanerów przy wyższych rozdzielczościach wspomagają się interpolacją i robią to gorzej niż programy graficzne.
Ostatnio edytowany przez fnmirk (2009-09-24 16:36:07)
Offline
Pozwólcie, że się podepnę...
Musze zeskanować książkę do pdf. Problem jest taki, że chciałbym mieć możliwość przeszukiwania w niej, jak to w pdf'ach bywa. Ona sama jest jednym wielkim czarno-białym kserem książki (uważam, że dobrym). Są tam kody (oczywiście w ang), ale głownie polski tekst.
Jak to zrobić dobrze, żeby się nie narobić za wiele (nie chce robić tego kilka razy ;p) i jakim programem. Wiem, że pod Linux'a nie ma takiej możliwość więc może ktoś coś zna pod $hit'a? Rozumiem, że będę musiał to zeskanować jakimś programem do OCR do jakiegoś formatu (nie wiem jakiego) a potem z tego zrobić pdf? Może da się zrobić to bezpośrednio? Nie wiem też ile dpi i w ogóle...
Robił ktoś kiedyś takie cuś? Z jakim wynikiem?
Pozdrawiam
Offline
Pod windowsa jest bardzo dobry ale komercyjny
[url=http://www.finereader.pl/]finereader[/url]
Pod lina tez już się poprawia.
[url=http://packages.debian.org/wheezy/tesseract-ocr]tesseract-ocr[/url] plus [url=http://packages.debian.org/wheezy/tesseract-ocr-pol]tesseract-ocr-pol[/url]
Nakładka na to
[url=http://packages.debian.org/sid/yagf]yagf[/url]
Potestuj na 1-2 stronach i wybierz optymalne parametry.
Offline
Będę patrzeć. Dzięki bardzo.
Offline
Przepraszam za offtop, ale nie mogłem się powstrzymać. Czytając temat "Skanowanie książki", od razu skojarzyło mi się pytanie: "czy mogę?", "czy jest to legalne"?, a nie jak to zrobić:)
Offline
Oczywiście, że jest legalne. Jeżeli masz prywatny egzemplarz drukowanej książki, to nikt nie powinien się wtrącać, co z nim robisz.
Samo zdigitalizowanie książki nie jest przestępstwem i jest jak najbardziej dopuszczalne moralnie. Wątpliwości można mieć co najwyżej odnośnie do rozpowszechniania książki w takim formacie.
Offline
@P@blo:
Tylko radze na cuda nie liczyć, niestety nawet komercyjne programy często potrafią mieć problemy z OCR, do tego dochodzi konieczność ręcznego przeglądania każdej zeskanowanej strony i szukania błędów - tak więc nie jest to szybki proces. No chyba że coś się zmieniło w przeciągu ostatnich 3 lat, ale wątpię.
Pozdro.
Offline
FineReader się uczy.Po kilku zeskanowanych stronach będzie błędy wyłapywał w mig.
Offline
No po pierwszych próbach mogę powiedzieć, że tesseract w ogóle nie potrafi sobie poradzić. Właściwie to nic nie przeczytał... Tak więc szczerze odradzam... No a mam trial FinReader'a i tu jest inna bajka. Rzeczywiście czasami nie wyłapie wszystkiego ale powiedzmy 95% zrobi dobrze. No niestety, jest komercyjny :/
Pozdrawiam
Offline
Zawsze można zeskanować do pdf lub png i użyć OCR'a online, których jest cała masa. Bezpłatnych oczywiście.
Osobiście polecam: [url]http://www.newocr.com/[/url]. Używam od dość dawna.
Offline
Najlepszym formatem dla skanowanych książek jest DjVu. W Polsce mało znany i stosowany a szkoda, bo pozwala na zachowanie oryginalnego wyglądu stron przy zdumiewająco małym rozmiarze pliku. Podobnie jak w PDFie jest możliwość nałożenia niewidocznego zOCRowanego tekstu na obrazkowe strony, co umożliwia łatwe wyszukiwanie. Wiem, że są pod Debianem narzędzia do tworzenia plików DjVu ale nie miałem okazji ich wypróbować, bo nie mam skanera. Jeżeli ktoś z Was używał, to ciekaw jestem wrażeń.
Offline
tesseract się gubi przy skanowaniu w niskiej rozdzielczości.
Offline
No to jak wielka ma być ta rozdzielczość? Robiłem na 300dpi bo 600 się nie dało (nie wiem czemu)...
[b]@radziojedi:[/b] Sugerujesz, że mam zrobić pdf (z jpeg'ów - tak mi się wydaje) powiedzmy czymś takim jak [deb]simple-scan[/deb] (bo tego używam na co dzień do skanowania, a potem tym konwerterem?
[b]EDIT:[/b] O JEJ! To co mi podałeś (online) to po jednej stronie robi? To stanowczo za dużo na klikanie... Książka ma bardzo dużo stron... Mogę zeskanować, ale potem, żeby to wszystko się samo zrobiło... No i żeby obrazki też kopiował... Bo podany tego nie robi...
Ostatnio edytowany przez P@blo (2012-03-25 12:52:28)
Offline
Time (s) | Query |
---|---|
0.00011 | SET CHARSET latin2 |
0.00004 | SET NAMES latin2 |
0.00118 | SELECT u.*, g.*, o.logged FROM punbb_users AS u INNER JOIN punbb_groups AS g ON u.group_id=g.g_id LEFT JOIN punbb_online AS o ON o.ident='3.15.7.212' WHERE u.id=1 |
0.00063 | REPLACE INTO punbb_online (user_id, ident, logged) VALUES(1, '3.15.7.212', 1732529836) |
0.00050 | SELECT * FROM punbb_online WHERE logged<1732529536 |
0.00047 | SELECT topic_id FROM punbb_posts WHERE id=198441 |
0.00152 | SELECT id FROM punbb_posts WHERE topic_id=15072 ORDER BY posted |
0.00087 | SELECT t.subject, t.closed, t.num_replies, t.sticky, f.id AS forum_id, f.forum_name, f.moderators, fp.post_replies, 0 FROM punbb_topics AS t INNER JOIN punbb_forums AS f ON f.id=t.forum_id LEFT JOIN punbb_forum_perms AS fp ON (fp.forum_id=f.id AND fp.group_id=3) WHERE (fp.read_forum IS NULL OR fp.read_forum=1) AND t.id=15072 AND t.moved_to IS NULL |
0.00005 | SELECT search_for, replace_with FROM punbb_censoring |
0.00110 | SELECT u.email, u.title, u.url, u.location, u.use_avatar, u.signature, u.email_setting, u.num_posts, u.registered, u.admin_note, p.id, p.poster AS username, p.poster_id, p.poster_ip, p.poster_email, p.message, p.hide_smilies, p.posted, p.edited, p.edited_by, g.g_id, g.g_user_title, o.user_id AS is_online FROM punbb_posts AS p INNER JOIN punbb_users AS u ON u.id=p.poster_id INNER JOIN punbb_groups AS g ON g.g_id=u.group_id LEFT JOIN punbb_online AS o ON (o.user_id=u.id AND o.user_id!=1 AND o.idle=0) WHERE p.topic_id=15072 ORDER BY p.id LIMIT 0,25 |
0.00075 | UPDATE punbb_topics SET num_views=num_views+1 WHERE id=15072 |
Total query time: 0.00722 s |