Forum Debian Users Gang

ilin · 2009-09-24 08:36:44

Muszę zeskanować pewną unikalną książkę.

Teraz pytanie.

Jak widzę xsane oferuje skanowanie do PDFa i nawet działa.
Problem w tym ze tekst jest w poprzek (tak muszę położyć książkę na scannerze.)

Da sie to w jakimś sofcie obrócić o 90 stopni ?

Ewentualnie do jakiego formatu scanować aby najmniej było roboty przy składaniu wszystkiego w jakiś jeden sensowny dokument. PDF czy DOC czy ODT nawet txt.
Chodzi o to aby cała księzka byl w jednym dokumencie elektronicznym.

Piotr3ks · 2009-09-24 08:58:15

Zobacz pakiet imagemagick i polecenie convert.

azhag · 2009-09-24 09:17:12

Zeskanuj do obrazów, ustaw jak chcesz (np. ww. [tt]convertem[/tt], gimpem) i połącz... [tt]convertem[/tt]:

Kod:

convert plik1.jpg plik2.jpg plik3.jpg plik.pdf

ilin · 2009-09-24 14:28:15

[quote=azhag]Zeskanuj do obrazów, ustaw jak chcesz (np. ww. convertem, gimpem) i połącz... convertem:[/quote]
Tak to będzie dobre wyjście.

Dzięki.

fnmirk · 2009-09-24 15:44:03

[b]ilin[/b], skanuj do formatu png. Następnie tak jak napisali wcześniej popraw w gimpie. Minimalna rozdzielczość to 300dpi. Użyj najlepiej 450dpi.. Jeżeli będziesz ją rozpoznawał to strony posiadające obrazki skanuj dzieląc na tekst i grafikę.

[b]Dodano:[/b]
Format png jest lepiej przenośny do programów rozpoznawania tekstu pod Windows. Nie opłaca się skanować do formatu tif. Format tif tworzony pod Linuksem często jest źle interpretowany w Windows np. przez program ocr recognita.

Mając pliki png możesz jej wstawić do np. Openoffice i następnie pdf.

Ostatnio edytowany przez fnmirk (2009-09-24 15:53:09)

ilin · 2009-09-24 16:04:49

Skanuję w maksymalnej jakosci to chyba 600dpi

W PNG to strasznie duże pliki wychodzą jeden scan jakieś 84Mb.

Zacząłem robić do jpeg.
Jakość niezgorsza.
Jeszcze przetestuję zmniejszyć rozdzielczość jak pogorszy się jakość względem wagi dokumentu.

Obrazków tam nie ma bo to książka historyczna można powiedzieć.

azhag · 2009-09-24 16:17:37

[quote=fnmirk]Mając pliki png możesz jej wstawić do np. Openoffice i następnie pdf.[/quote]
Convert obsługuje PNG, tak samo jak JPG, GIF i inne popularne formaty.

fnmirk · 2009-09-24 16:20:30

Wystarczy 300-450.dpi. Książka nie była drukowa z większą rozdzielczością niż 200-300dpi. Nie ma sensu skanować z większą rozdzielczością.

Nie wszystkie strony musisz skanować w kolorze. Maksymalna wielkość pliku skanowanej strony u mnie, w kolorze i w formacie A4 nie przekracza nigdy 40-50MB.

Jeżeli skanujesz po dwie strony w jednym przebiegu to później je podzielisz i będzie mniej.

Png jest formatem bezstratnym i lepszym do przechowywania obrazków niż jpg.

[quote="ilin"]Skanuję w maksymalnej jakosci to chyba 600dpi[/quote]
Nie skanujesz w takiej. Skaner to przetwarza i niepotrzebnie marnujesz miejsce na dysku. Lepiej jest wykonać skan obrazka w mniejszej o połowę rozdzielczości, uzyskując mniejszy plik wynikowy. Przeciętnie jest to 300-450dpi i następnie w razie potrzeby wykonać interpolację w programie graficznym. Wyjdzie na to samo i uzyskamy; lepszą jakość. Większość skanerów przy wyższych rozdzielczościach wspomagają się interpolacją i robią to gorzej niż programy graficzne.

Ostatnio edytowany przez fnmirk (2009-09-24 16:36:07)

P@blo · 2012-03-24 19:37:22

Pozwólcie, że się podepnę...

Musze zeskanować książkę do pdf. Problem jest taki, że chciałbym mieć możliwość przeszukiwania w niej, jak to w pdf'ach bywa. Ona sama jest jednym wielkim czarno-białym kserem książki (uważam, że dobrym). Są tam kody (oczywiście w ang), ale głownie polski tekst.

Jak to zrobić dobrze, żeby się nie narobić za wiele (nie chce robić tego kilka razy ;p) i jakim programem. Wiem, że pod Linux'a nie ma takiej możliwość więc może ktoś coś zna pod $hit'a? Rozumiem, że będę musiał to zeskanować jakimś programem do OCR do jakiegoś formatu (nie wiem jakiego) a potem z tego zrobić pdf? Może da się zrobić to bezpośrednio? Nie wiem też ile dpi i w ogóle...

Robił ktoś kiedyś takie cuś? Z jakim wynikiem?

Pozdrawiam

ilin · 2012-03-24 19:46:27

Pod windowsa jest bardzo dobry ale komercyjny
[url=http://www.finereader.pl/]finereader[/url]

Pod lina tez już się poprawia.

[url=http://packages.debian.org/wheezy/tesseract-ocr]tesseract-ocr[/url] plus [url=http://packages.debian.org/wheezy/tesseract-ocr-pol]tesseract-ocr-pol[/url]

Nakładka na to

[url=http://packages.debian.org/sid/yagf]yagf[/url]

Potestuj na 1-2 stronach i wybierz optymalne parametry.

P@blo · 2012-03-24 20:30:12

Będę patrzeć. Dzięki bardzo.

radziojedi · 2012-03-24 20:52:52

Przepraszam za offtop, ale nie mogłem się powstrzymać. Czytając temat "Skanowanie książki", od razu skojarzyło mi się pytanie: "czy mogę?", "czy jest to legalne"?, a nie jak to zrobić:)

Minio · 2012-03-24 20:57:59

Oczywiście, że jest legalne. Jeżeli masz prywatny egzemplarz drukowanej książki, to nikt nie powinien się wtrącać, co z nim robisz.

Samo zdigitalizowanie książki nie jest przestępstwem i jest jak najbardziej dopuszczalne moralnie. Wątpliwości można mieć co najwyżej odnośnie do rozpowszechniania książki w takim formacie.

Huk · 2012-03-24 21:49:08

@P@blo:

Tylko radze na cuda nie liczyć, niestety nawet komercyjne programy często potrafią mieć problemy z OCR, do tego dochodzi konieczność ręcznego przeglądania każdej zeskanowanej strony i szukania błędów - tak więc nie jest to szybki proces. No chyba że coś się zmieniło w przeciągu ostatnich 3 lat, ale wątpię.

Pozdro.

Bodzio · 2012-03-24 22:02:11

FineReader się uczy.Po kilku zeskanowanych stronach będzie błędy wyłapywał w mig.

P@blo · 2012-03-24 22:11:57

No po pierwszych próbach mogę powiedzieć, że tesseract w ogóle nie potrafi sobie poradzić. Właściwie to nic nie przeczytał... Tak więc szczerze odradzam... No a mam trial FinReader'a i tu jest inna bajka. Rzeczywiście czasami nie wyłapie wszystkiego ale powiedzmy 95% zrobi dobrze. No niestety, jest komercyjny :/

Pozdrawiam

radziojedi · 2012-03-24 22:15:15

Zawsze można zeskanować do pdf lub png i użyć OCR'a online, których jest cała masa. Bezpłatnych oczywiście.
Osobiście polecam: [url]http://www.newocr.com/[/url]. Używam od dość dawna.

rafi · 2012-03-25 01:03:10

Najlepszym formatem dla skanowanych książek jest DjVu. W Polsce mało znany i stosowany a szkoda, bo pozwala na zachowanie oryginalnego wyglądu stron przy zdumiewająco małym rozmiarze pliku. Podobnie jak w PDFie jest możliwość nałożenia niewidocznego zOCRowanego tekstu na obrazkowe strony, co umożliwia łatwe wyszukiwanie. Wiem, że są pod Debianem narzędzia do tworzenia plików DjVu ale nie miałem okazji ich wypróbować, bo nie mam skanera. Jeżeli ktoś z Was używał, to ciekaw jestem wrażeń.

ilin · 2012-03-25 07:40:44

tesseract się gubi przy skanowaniu w niskiej rozdzielczości.

P@blo · 2012-03-25 12:16:32

No to jak wielka ma być ta rozdzielczość? Robiłem na 300dpi bo 600 się nie dało (nie wiem czemu)...

[b]@radziojedi:[/b] Sugerujesz, że mam zrobić pdf (z jpeg'ów - tak mi się wydaje) powiedzmy czymś takim jak [deb]simple-scan[/deb] (bo tego używam na co dzień do skanowania, a potem tym konwerterem?

[b]EDIT:[/b] O JEJ! To co mi podałeś (online) to po jednej stronie robi? To stanowczo za dużo na klikanie... Książka ma bardzo dużo stron... Mogę zeskanować, ale potem, żeby to wszystko się samo zrobiło... No i żeby obrazki też kopiował... Bo podany tego nie robi...

Ostatnio edytowany przez P@blo (2012-03-25 12:52:28)

Time (s)	Query
0.00010	SET CHARSET latin2
0.00004	SET NAMES latin2
0.00133	SELECT u., g., o.logged FROM punbb_users AS u INNER JOIN punbb_groups AS g ON u.group_id=g.g_id LEFT JOIN punbb_online AS o ON o.ident='3.22.42.189' WHERE u.id=1
0.00103	UPDATE punbb_online SET logged=1732530596 WHERE ident='3.22.42.189'
0.00042	SELECT * FROM punbb_online WHERE logged<1732530296
0.00094	DELETE FROM punbb_online WHERE ident='3.144.8.79'
0.00146	DELETE FROM punbb_online WHERE ident='3.149.231.122'
0.00137	SELECT topic_id FROM punbb_posts WHERE id=198447
0.00005	SELECT id FROM punbb_posts WHERE topic_id=15072 ORDER BY posted
0.00123	SELECT t.subject, t.closed, t.num_replies, t.sticky, f.id AS forum_id, f.forum_name, f.moderators, fp.post_replies, 0 FROM punbb_topics AS t INNER JOIN punbb_forums AS f ON f.id=t.forum_id LEFT JOIN punbb_forum_perms AS fp ON (fp.forum_id=f.id AND fp.group_id=3) WHERE (fp.read_forum IS NULL OR fp.read_forum=1) AND t.id=15072 AND t.moved_to IS NULL
0.00005	SELECT search_for, replace_with FROM punbb_censoring
0.00519	SELECT u.email, u.title, u.url, u.location, u.use_avatar, u.signature, u.email_setting, u.num_posts, u.registered, u.admin_note, p.id, p.poster AS username, p.poster_id, p.poster_ip, p.poster_email, p.message, p.hide_smilies, p.posted, p.edited, p.edited_by, g.g_id, g.g_user_title, o.user_id AS is_online FROM punbb_posts AS p INNER JOIN punbb_users AS u ON u.id=p.poster_id INNER JOIN punbb_groups AS g ON g.g_id=u.group_id LEFT JOIN punbb_online AS o ON (o.user_id=u.id AND o.user_id!=1 AND o.idle=0) WHERE p.topic_id=15072 ORDER BY p.id LIMIT 0,25
0.00193	UPDATE punbb_topics SET num_views=num_views+1 WHERE id=15072
Total query time: 0.01514 s

Forum Debian Users Gang

Ogłoszenie

#1 2009-09-24 08:36:44

ilin - Palacz

Skanowanie książki

#2 2009-09-24 08:58:15

Piotr3ks - Też człowiek :-)

Re: Skanowanie książki

#3 2009-09-24 09:17:12

azhag - Admin łajza

Re: Skanowanie książki

Kod:

#4 2009-09-24 14:28:15

ilin - Palacz

Re: Skanowanie książki

#5 2009-09-24 15:44:03

fnmirk - Użytkownik

Re: Skanowanie książki

#6 2009-09-24 16:04:49

ilin - Palacz

Re: Skanowanie książki

#7 2009-09-24 16:17:37

azhag - Admin łajza

Re: Skanowanie książki

#8 2009-09-24 16:20:30

fnmirk - Użytkownik

Re: Skanowanie książki

#9 2012-03-24 19:37:22

P@blo - Nadworny matematyk

Re: Skanowanie książki

#10 2012-03-24 19:46:27

ilin - Palacz

Re: Skanowanie książki

#11 2012-03-24 20:30:12

P@blo - Nadworny matematyk

Re: Skanowanie książki

#12 2012-03-24 20:52:52

radziojedi - Gambini

Re: Skanowanie książki

#13 2012-03-24 20:57:59

Minio - Użyszkodnik

Re: Skanowanie książki

#14 2012-03-24 21:49:08

Huk - Smoleńsk BULWA!

Re: Skanowanie książki

#15 2012-03-24 22:02:11

Bodzio - Ojciec Założyciel

Re: Skanowanie książki

#16 2012-03-24 22:11:57

P@blo - Nadworny matematyk

Re: Skanowanie książki

#17 2012-03-24 22:15:15

radziojedi - Gambini

Re: Skanowanie książki

#18 2012-03-25 01:03:10

rafi - Użytkownik

Re: Skanowanie książki

#19 2012-03-25 07:40:44

ilin - Palacz

Re: Skanowanie książki

#20 2012-03-25 12:16:32

P@blo - Nadworny matematyk

Re: Skanowanie książki

Stopka forum

Informacje debugowania