Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!

Ogłoszenie

Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.

#1  2009-09-24 08:36:44

  ilin - Palacz

ilin
Palacz
Skąd: PRLu
Zarejestrowany: 2006-05-03

Skanowanie książki

Muszę zeskanować pewną unikalną książkę.

Teraz pytanie.

Jak widzę xsane oferuje skanowanie do PDFa i nawet działa.
Problem w tym ze tekst jest w poprzek (tak muszę położyć książkę na scannerze.)

Da sie to w jakimś sofcie obrócić o 90 stopni ?

Ewentualnie do jakiego formatu scanować aby najmniej było roboty przy składaniu wszystkiego w jakiś jeden sensowny dokument. PDF czy DOC czy ODT nawet txt.
Chodzi o to aby cała księzka byl w jednym dokumencie elektronicznym.


[b]Problemy rozwiązujemy na forum nie na PW[/b] -> Niech inni na tym skorzystają.
[url=http://dug.net.pl/]Polski portal Debiana[/url]

Offline

 

#2  2009-09-24 08:58:15

  Piotr3ks - Też człowiek :-)

Piotr3ks
Też człowiek :-)
Skąd: Białystok
Zarejestrowany: 2007-06-24

Re: Skanowanie książki

Zobacz pakiet imagemagick i polecenie convert.

Offline

 

#3  2009-09-24 09:17:12

  azhag - Admin łajza

azhag
Admin łajza
Skąd: Warszawa
Zarejestrowany: 2005-11-15

Re: Skanowanie książki

Zeskanuj do obrazów, ustaw jak chcesz (np. ww. [tt]convertem[/tt], gimpem) i połącz... [tt]convertem[/tt]:

Kod:

convert plik1.jpg plik2.jpg plik3.jpg plik.pdf

Błogosławieni, którzy czynią FAQ.
[url=http://www.opencaching.pl]opencaching[/url] :: [url=http://dug.net.pl/sources.list]debian sources.list[/url] :: [url=http://www.linuxportal.pl/blogi/azhag/wpisy]coś jakby blog[/url] :: [url=http://dug.net.pl/]polski portal debiana[/url] :: linux user #403712

Offline

 

#4  2009-09-24 14:28:15

  ilin - Palacz

ilin
Palacz
Skąd: PRLu
Zarejestrowany: 2006-05-03

Re: Skanowanie książki

[quote=azhag]Zeskanuj do obrazów, ustaw jak chcesz (np. ww. convertem, gimpem) i połącz... convertem:[/quote]
Tak to będzie dobre wyjście.

Dzięki.


[b]Problemy rozwiązujemy na forum nie na PW[/b] -> Niech inni na tym skorzystają.
[url=http://dug.net.pl/]Polski portal Debiana[/url]

Offline

 

#5  2009-09-24 15:44:03

  fnmirk - Użytkownik

fnmirk
Użytkownik
Zarejestrowany: 2008-02-19

Re: Skanowanie książki

[b]ilin[/b], skanuj do formatu png. Następnie tak jak napisali wcześniej popraw w gimpie. Minimalna rozdzielczość to 300dpi. Użyj najlepiej 450dpi.. Jeżeli będziesz ją rozpoznawał to strony posiadające obrazki skanuj dzieląc na tekst i grafikę.

[b]Dodano:[/b]
Format png jest lepiej przenośny do programów rozpoznawania tekstu pod Windows. Nie opłaca się skanować do formatu tif. Format tif tworzony pod Linuksem często jest źle interpretowany w Windows np. przez program ocr recognita.

Mając pliki png możesz jej wstawić do np. Openoffice i następnie pdf.

Ostatnio edytowany przez fnmirk (2009-09-24 15:53:09)

Offline

 

#6  2009-09-24 16:04:49

  ilin - Palacz

ilin
Palacz
Skąd: PRLu
Zarejestrowany: 2006-05-03

Re: Skanowanie książki

Skanuję w maksymalnej jakosci to chyba 600dpi

W PNG to strasznie duże pliki wychodzą jeden scan jakieś 84Mb.

Zacząłem robić do jpeg.
Jakość niezgorsza.
Jeszcze przetestuję zmniejszyć rozdzielczość jak pogorszy się jakość względem wagi dokumentu.

Obrazków tam nie ma bo to książka historyczna można powiedzieć.


[b]Problemy rozwiązujemy na forum nie na PW[/b] -> Niech inni na tym skorzystają.
[url=http://dug.net.pl/]Polski portal Debiana[/url]

Offline

 

#7  2009-09-24 16:17:37

  azhag - Admin łajza

azhag
Admin łajza
Skąd: Warszawa
Zarejestrowany: 2005-11-15

Re: Skanowanie książki

[quote=fnmirk]Mając pliki png możesz jej wstawić do np. Openoffice i następnie pdf.[/quote]
Convert obsługuje PNG, tak samo jak JPG, GIF i inne popularne formaty.


Błogosławieni, którzy czynią FAQ.
[url=http://www.opencaching.pl]opencaching[/url] :: [url=http://dug.net.pl/sources.list]debian sources.list[/url] :: [url=http://www.linuxportal.pl/blogi/azhag/wpisy]coś jakby blog[/url] :: [url=http://dug.net.pl/]polski portal debiana[/url] :: linux user #403712

Offline

 

#8  2009-09-24 16:20:30

  fnmirk - Użytkownik

fnmirk
Użytkownik
Zarejestrowany: 2008-02-19

Re: Skanowanie książki

Wystarczy 300-450.dpi. Książka nie była drukowa z większą rozdzielczością niż 200-300dpi. Nie ma sensu skanować z większą rozdzielczością.

Nie wszystkie strony musisz skanować w kolorze. Maksymalna wielkość pliku skanowanej strony u mnie, w kolorze i w formacie A4 nie przekracza nigdy 40-50MB.

Jeżeli skanujesz po dwie strony w jednym przebiegu to później je podzielisz i będzie mniej.

Png jest formatem bezstratnym i lepszym do przechowywania obrazków niż jpg.


[quote="ilin"]Skanuję w maksymalnej jakosci to chyba 600dpi[/quote]
Nie skanujesz w takiej. Skaner to przetwarza i niepotrzebnie marnujesz miejsce na dysku. Lepiej jest wykonać skan obrazka w mniejszej o połowę rozdzielczości, uzyskując mniejszy plik wynikowy. Przeciętnie jest to 300-450dpi i następnie w razie potrzeby wykonać interpolację w programie graficznym. Wyjdzie na to samo i uzyskamy; lepszą jakość. Większość skanerów przy wyższych rozdzielczościach wspomagają się interpolacją i robią to gorzej niż programy graficzne.

Ostatnio edytowany przez fnmirk (2009-09-24 16:36:07)

Offline

 

#9  2012-03-24 19:37:22

  P@blo - Nadworny matematyk

P@blo
Nadworny matematyk
Skąd: Wrocław v Jasło
Zarejestrowany: 2010-11-11

Re: Skanowanie książki

Pozwólcie, że się podepnę...

Musze zeskanować książkę do pdf. Problem jest taki, że chciałbym mieć możliwość przeszukiwania w niej, jak to w pdf'ach bywa. Ona sama jest jednym wielkim czarno-białym kserem książki (uważam, że dobrym). Są tam kody (oczywiście w ang), ale głownie polski tekst.

Jak to zrobić dobrze, żeby się nie narobić za wiele (nie chce robić tego kilka razy ;p) i jakim programem. Wiem, że pod Linux'a nie ma takiej możliwość więc może ktoś coś zna pod $hit'a? Rozumiem, że będę musiał to zeskanować jakimś programem do OCR do jakiegoś formatu (nie wiem jakiego) a potem z tego zrobić pdf? Może da się zrobić to bezpośrednio? Nie wiem też ile dpi i w ogóle...

Robił ktoś kiedyś takie cuś? Z jakim wynikiem?

Pozdrawiam


[tt]ThinkPadX220i
| Procesor: Intel(R) Core(TM) i3-2310M CPU @ 2.10GHz |
|  Debian: sid   |   Arch: amd64   |   Sound: alsa   |
| No DE | WM: DWM  |  DM: .bash_profile  |  BIOS+MBR |[/tt]

Offline

 

#10  2012-03-24 19:46:27

  ilin - Palacz

ilin
Palacz
Skąd: PRLu
Zarejestrowany: 2006-05-03

Re: Skanowanie książki

Pod windowsa jest bardzo dobry ale komercyjny
[url=http://www.finereader.pl/]finereader[/url]

Pod lina tez już się poprawia.

[url=http://packages.debian.org/wheezy/tesseract-ocr]tesseract-ocr[/url] plus [url=http://packages.debian.org/wheezy/tesseract-ocr-pol]tesseract-ocr-pol[/url]

Nakładka na to

[url=http://packages.debian.org/sid/yagf]yagf[/url]

Potestuj na 1-2 stronach i wybierz optymalne parametry.


[b]Problemy rozwiązujemy na forum nie na PW[/b] -> Niech inni na tym skorzystają.
[url=http://dug.net.pl/]Polski portal Debiana[/url]

Offline

 

#11  2012-03-24 20:30:12

  P@blo - Nadworny matematyk

P@blo
Nadworny matematyk
Skąd: Wrocław v Jasło
Zarejestrowany: 2010-11-11

Re: Skanowanie książki

Będę patrzeć. Dzięki bardzo.


[tt]ThinkPadX220i
| Procesor: Intel(R) Core(TM) i3-2310M CPU @ 2.10GHz |
|  Debian: sid   |   Arch: amd64   |   Sound: alsa   |
| No DE | WM: DWM  |  DM: .bash_profile  |  BIOS+MBR |[/tt]

Offline

 

#12  2012-03-24 20:52:52

  radziojedi - Gambini

radziojedi
Gambini
Skąd: Śrem
Zarejestrowany: 2008-08-08

Re: Skanowanie książki

Przepraszam za offtop, ale nie mogłem się powstrzymać. Czytając temat "Skanowanie książki", od razu skojarzyło mi się pytanie: "czy mogę?", "czy jest to legalne"?, a nie jak to zrobić:)


"Given enough eyeballs, all bugs are shallow"
Eric Raymond, The Cathedral and the Bazaar: Musings on Linux and Open Source by an Accidental Revolutionary

Offline

 

#13  2012-03-24 20:57:59

  Minio - Użyszkodnik

Minio
Użyszkodnik
Skąd: Brno, Česko
Zarejestrowany: 2007-12-22
Serwis

Re: Skanowanie książki

Oczywiście, że jest legalne. Jeżeli masz prywatny egzemplarz drukowanej książki, to nikt nie powinien się wtrącać, co z nim robisz.

Samo zdigitalizowanie książki nie jest przestępstwem i jest jak najbardziej dopuszczalne moralnie. Wątpliwości można mieć co najwyżej odnośnie do rozpowszechniania książki w takim formacie.


Spinnen Essen: [url=http://fluxboxpl.org/portal/]FluxboxPL[/url] [url=http://przepis-na-lo.pl/]Przepis na LibreOffice[/url]

Offline

 

#14  2012-03-24 21:49:08

  Huk - Smoleńsk BULWA!

Huk
Smoleńsk BULWA!
Zarejestrowany: 2006-11-08

Re: Skanowanie książki

@P@blo:

Tylko radze na cuda nie liczyć, niestety nawet komercyjne programy często potrafią mieć problemy z OCR, do tego dochodzi konieczność ręcznego przeglądania każdej zeskanowanej strony i szukania błędów - tak więc nie jest to szybki proces. No chyba że coś się zmieniło w przeciągu ostatnich 3 lat, ale wątpię.

Pozdro.

Offline

 

#15  2012-03-24 22:02:11

  Bodzio - Ojciec Założyciel

Bodzio
Ojciec Założyciel
Skąd: Gorlice
Zarejestrowany: 2004-04-17
Serwis

Re: Skanowanie książki

FineReader się uczy.Po kilku zeskanowanych stronach będzie błędy wyłapywał w mig.


Debian jest lepszy niż wszystkie klony
Linux register users: #359018
[img]http://www.freebsd.org/gifs/powerlogo.gif[/img]
[url=https://goo.gl/photos/5XGKFkvaMimLwM2s9]Beskid Niski[/url]

Offline

 

#16  2012-03-24 22:11:57

  P@blo - Nadworny matematyk

P@blo
Nadworny matematyk
Skąd: Wrocław v Jasło
Zarejestrowany: 2010-11-11

Re: Skanowanie książki

No po pierwszych próbach mogę powiedzieć, że tesseract w ogóle nie potrafi sobie poradzić. Właściwie to nic nie przeczytał... Tak więc szczerze odradzam... No a mam trial FinReader'a i tu jest inna bajka. Rzeczywiście czasami nie wyłapie wszystkiego ale powiedzmy 95% zrobi dobrze. No niestety, jest komercyjny :/

Pozdrawiam


[tt]ThinkPadX220i
| Procesor: Intel(R) Core(TM) i3-2310M CPU @ 2.10GHz |
|  Debian: sid   |   Arch: amd64   |   Sound: alsa   |
| No DE | WM: DWM  |  DM: .bash_profile  |  BIOS+MBR |[/tt]

Offline

 

#17  2012-03-24 22:15:15

  radziojedi - Gambini

radziojedi
Gambini
Skąd: Śrem
Zarejestrowany: 2008-08-08

Re: Skanowanie książki

Zawsze można zeskanować do pdf lub png i użyć OCR'a online, których jest cała masa. Bezpłatnych oczywiście.
Osobiście polecam: [url]http://www.newocr.com/[/url]. Używam od dość dawna.


"Given enough eyeballs, all bugs are shallow"
Eric Raymond, The Cathedral and the Bazaar: Musings on Linux and Open Source by an Accidental Revolutionary

Offline

 

#18  2012-03-25 01:03:10

  rafi - Użytkownik

rafi
Użytkownik
Skąd: Częstochowa
Zarejestrowany: 2006-03-12

Re: Skanowanie książki

Najlepszym formatem dla skanowanych książek jest DjVu. W Polsce mało znany i stosowany a szkoda, bo pozwala na zachowanie oryginalnego wyglądu stron przy zdumiewająco małym rozmiarze pliku. Podobnie jak w PDFie jest możliwość nałożenia niewidocznego zOCRowanego tekstu na obrazkowe strony, co umożliwia łatwe wyszukiwanie. Wiem, że są pod Debianem narzędzia do tworzenia plików DjVu ale nie miałem okazji ich wypróbować, bo nie mam skanera. Jeżeli ktoś z Was używał, to ciekaw jestem wrażeń.


Furie terribili!
Circondatemi,
Sequidatemi
Con faci orribili!

Offline

 

#19  2012-03-25 07:40:44

  ilin - Palacz

ilin
Palacz
Skąd: PRLu
Zarejestrowany: 2006-05-03

Re: Skanowanie książki

tesseract  się gubi przy skanowaniu w niskiej rozdzielczości.


[b]Problemy rozwiązujemy na forum nie na PW[/b] -> Niech inni na tym skorzystają.
[url=http://dug.net.pl/]Polski portal Debiana[/url]

Offline

 

#20  2012-03-25 12:16:32

  P@blo - Nadworny matematyk

P@blo
Nadworny matematyk
Skąd: Wrocław v Jasło
Zarejestrowany: 2010-11-11

Re: Skanowanie książki

No to jak wielka ma być ta rozdzielczość? Robiłem na 300dpi bo 600 się nie dało (nie wiem czemu)...

[b]@radziojedi:[/b] Sugerujesz, że mam zrobić pdf (z jpeg'ów - tak mi się wydaje) powiedzmy czymś takim jak [deb]simple-scan[/deb] (bo tego używam na co dzień do skanowania, a potem tym konwerterem?

[b]EDIT:[/b] O JEJ! To co mi podałeś (online) to po jednej stronie robi? To stanowczo za dużo na klikanie... Książka ma bardzo dużo stron... Mogę zeskanować, ale potem, żeby to wszystko się samo zrobiło... No i żeby obrazki też kopiował... Bo podany tego nie robi...

Ostatnio edytowany przez P@blo (2012-03-25 12:52:28)


[tt]ThinkPadX220i
| Procesor: Intel(R) Core(TM) i3-2310M CPU @ 2.10GHz |
|  Debian: sid   |   Arch: amd64   |   Sound: alsa   |
| No DE | WM: DWM  |  DM: .bash_profile  |  BIOS+MBR |[/tt]

Offline

 

Stopka forum

Powered by PunBB
© Copyright 2002–2005 Rickard Andersson
To nie jest tylko forum, to nasza mała ojczyzna ;-)

[ Generated in 0.010 seconds, 11 queries executed ]

Informacje debugowania

Time (s) Query
0.00011 SET CHARSET latin2
0.00006 SET NAMES latin2
0.00092 SELECT u.*, g.*, o.logged FROM punbb_users AS u INNER JOIN punbb_groups AS g ON u.group_id=g.g_id LEFT JOIN punbb_online AS o ON o.ident='18.226.187.210' WHERE u.id=1
0.00062 REPLACE INTO punbb_online (user_id, ident, logged) VALUES(1, '18.226.187.210', 1732531151)
0.00063 SELECT * FROM punbb_online WHERE logged<1732530851
0.00041 SELECT topic_id FROM punbb_posts WHERE id=198458
0.00006 SELECT id FROM punbb_posts WHERE topic_id=15072 ORDER BY posted
0.00067 SELECT t.subject, t.closed, t.num_replies, t.sticky, f.id AS forum_id, f.forum_name, f.moderators, fp.post_replies, 0 FROM punbb_topics AS t INNER JOIN punbb_forums AS f ON f.id=t.forum_id LEFT JOIN punbb_forum_perms AS fp ON (fp.forum_id=f.id AND fp.group_id=3) WHERE (fp.read_forum IS NULL OR fp.read_forum=1) AND t.id=15072 AND t.moved_to IS NULL
0.00005 SELECT search_for, replace_with FROM punbb_censoring
0.00108 SELECT u.email, u.title, u.url, u.location, u.use_avatar, u.signature, u.email_setting, u.num_posts, u.registered, u.admin_note, p.id, p.poster AS username, p.poster_id, p.poster_ip, p.poster_email, p.message, p.hide_smilies, p.posted, p.edited, p.edited_by, g.g_id, g.g_user_title, o.user_id AS is_online FROM punbb_posts AS p INNER JOIN punbb_users AS u ON u.id=p.poster_id INNER JOIN punbb_groups AS g ON g.g_id=u.group_id LEFT JOIN punbb_online AS o ON (o.user_id=u.id AND o.user_id!=1 AND o.idle=0) WHERE p.topic_id=15072 ORDER BY p.id LIMIT 0,25
0.00226 UPDATE punbb_topics SET num_views=num_views+1 WHERE id=15072
Total query time: 0.00687 s