Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!

Ogłoszenie

Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.

#1  2014-05-08 00:46:42

  Jacekalex - Podobno człowiek...;)

Jacekalex
Podobno człowiek...;)
Skąd: /dev/urandom
Zarejestrowany: 2008-01-07

Czym konwertować PDF do XML?

Cześć

Mam trochę wyciągów z banku, które chciałbym w miarę bezstresowo zapakować do bazy SQL, a same wyciągi są w PeDOFilach.

Kształt dosyć standardowy, mniej więcej taki, jak w Mbanku.

Kłopot polega na tym, ze po potraktowaniu takiego wyciągu pdftotext robi się kaszanka, której parsowanie, to horror, tabelka w PDF - na wyjściu każda nazwa, data i kwota w osobnej linii.

Dlatego fajnie byłby konwertować bezpośrednio do XML albo csv, te formaty są znacznie łatwiejsze do obróbki.


W demokracji każdy naród ma taką władzę, na jaką zasługuje ;)
Si vis pacem  para bellum  ;)       |       Pozdrawiam :)

Offline

 

#2  2014-05-08 01:22:22

  winnetou - złodziej wirków ]:->

winnetou
złodziej wirków ]:->
Skąd: Jasło/Rzeszów kiedyś Gdańs
Zarejestrowany: 2008-03-31
Serwis

Re: Czym konwertować PDF do XML?

może po prostu [url=http://sourceforge.net/projects/pdf2xml/]pdf2xml[/url]
albo pdf2html i potem perl do obróbki (całkiem nieźle sobie radzi z html)


LRU: #472938
[b]napisz do mnie:[/b] ola@mojmail.eu
[url=http://valhalla.org.pl]Hołmpejdż[/url] | [url=http://valhalla.org.pl/foto]Galerie[/url] | [url=http://valhalla.org.pl/tech]"Twórczość"[/url] || [url=http://img.munn.in]Free Image Hosting[/url]

Offline

 

#3  2014-05-08 01:36:21

  Jacekalex - Podobno człowiek...;)

Jacekalex
Podobno człowiek...;)
Skąd: /dev/urandom
Zarejestrowany: 2008-01-07

Re: Czym konwertować PDF do XML?

Z html'em próbowałem, i mam jedno wielkie pole BODY, w nim cały wyciąg, tabelka rozsypana, tylko znaczniki nowych wierszy <br>.
Sytuacja taka sama, jak z pdftotext.

Ciekawe, czy ten pdf2xml coś pomoże.


W demokracji każdy naród ma taką władzę, na jaką zasługuje ;)
Si vis pacem  para bellum  ;)       |       Pozdrawiam :)

Offline

 

#4  2014-06-15 14:51:18

  ethanak - Użytkownik

ethanak
Użytkownik
Skąd: Ungwenor
Zarejestrowany: 2010-07-19
Serwis

Re: Czym konwertować PDF do XML?

jeszcze aktualne? bo mam zrobiony systemik (cs co prawda ale na parę funkcji można przymknąć oko) do parsowania wyciągów z mbanku, pdf2html plus parę linijek w pythonie... daj znać na prv bo rzadko tu zaglądam.


Nim mechaniczne larum zagrasz mi, kanalio,
głosząc nadejście Javy - śmiertelnego wroga!
[i]Zespół Adwokacki Dyskrecja[/i]

Offline

 

#5  2014-06-15 16:11:22

  Jacekalex - Podobno człowiek...;)

Jacekalex
Podobno człowiek...;)
Skąd: /dev/urandom
Zarejestrowany: 2008-01-07

Re: Czym konwertować PDF do XML?

Niezbyt aktualne, poradziłem sobie na piechotę, nie było tego aż tyle, żeby to było niewykonalne.

Ale jak masz jakiegoś gotowca do Mbanku, to możesz go wrzucić,
nie twierdzę że konkretnie mnie, ale setce innych pacjentów się pewnie przyda. ;)
Mbank po pdf2html jest czytelny i ma prostą strukturę dokumentu, gdzie bez kłopotu się wyczesuje odpowiednie zmienne.

Tu miałem o całe piekło trudniejszy przypadek z jednego francuskiego banku, który na swojej stronie z serwisem online był jeszcze  niedawno na  etapie ActiveX, a wyciągi wyglądają nie lepiej. ;P

Pozdro
;-)

Ostatnio edytowany przez Jacekalex (2014-06-15 16:18:21)


W demokracji każdy naród ma taką władzę, na jaką zasługuje ;)
Si vis pacem  para bellum  ;)       |       Pozdrawiam :)

Offline

 

Stopka forum

Powered by PunBB
© Copyright 2002–2005 Rickard Andersson
To nie jest tylko forum, to nasza mała ojczyzna ;-)

[ Generated in 0.009 seconds, 11 queries executed ]

Informacje debugowania

Time (s) Query
0.00012 SET CHARSET latin2
0.00006 SET NAMES latin2
0.00072 SELECT u.*, g.*, o.logged FROM punbb_users AS u INNER JOIN punbb_groups AS g ON u.group_id=g.g_id LEFT JOIN punbb_online AS o ON o.ident='18.223.196.171' WHERE u.id=1
0.00111 UPDATE punbb_online SET logged=1716028278 WHERE ident='18.223.196.171'
0.00034 SELECT * FROM punbb_online WHERE logged<1716027978
0.00028 SELECT topic_id FROM punbb_posts WHERE id=269680
0.00134 SELECT id FROM punbb_posts WHERE topic_id=25771 ORDER BY posted
0.00047 SELECT t.subject, t.closed, t.num_replies, t.sticky, f.id AS forum_id, f.forum_name, f.moderators, fp.post_replies, 0 FROM punbb_topics AS t INNER JOIN punbb_forums AS f ON f.id=t.forum_id LEFT JOIN punbb_forum_perms AS fp ON (fp.forum_id=f.id AND fp.group_id=3) WHERE (fp.read_forum IS NULL OR fp.read_forum=1) AND t.id=25771 AND t.moved_to IS NULL
0.00028 SELECT search_for, replace_with FROM punbb_censoring
0.00060 SELECT u.email, u.title, u.url, u.location, u.use_avatar, u.signature, u.email_setting, u.num_posts, u.registered, u.admin_note, p.id, p.poster AS username, p.poster_id, p.poster_ip, p.poster_email, p.message, p.hide_smilies, p.posted, p.edited, p.edited_by, g.g_id, g.g_user_title, o.user_id AS is_online FROM punbb_posts AS p INNER JOIN punbb_users AS u ON u.id=p.poster_id INNER JOIN punbb_groups AS g ON g.g_id=u.group_id LEFT JOIN punbb_online AS o ON (o.user_id=u.id AND o.user_id!=1 AND o.idle=0) WHERE p.topic_id=25771 ORDER BY p.id LIMIT 0,25
0.00140 UPDATE punbb_topics SET num_views=num_views+1 WHERE id=25771
Total query time: 0.00672 s