Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!
Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.
Cześć
Mam trochę wyciągów z banku, które chciałbym w miarę bezstresowo zapakować do bazy SQL, a same wyciągi są w PeDOFilach.
Kształt dosyć standardowy, mniej więcej taki, jak w Mbanku.
Kłopot polega na tym, ze po potraktowaniu takiego wyciągu pdftotext robi się kaszanka, której parsowanie, to horror, tabelka w PDF - na wyjściu każda nazwa, data i kwota w osobnej linii.
Dlatego fajnie byłby konwertować bezpośrednio do XML albo csv, te formaty są znacznie łatwiejsze do obróbki.
Offline
może po prostu [url=http://sourceforge.net/projects/pdf2xml/]pdf2xml[/url]
albo pdf2html i potem perl do obróbki (całkiem nieźle sobie radzi z html)
Offline
Z html'em próbowałem, i mam jedno wielkie pole BODY, w nim cały wyciąg, tabelka rozsypana, tylko znaczniki nowych wierszy <br>.
Sytuacja taka sama, jak z pdftotext.
Ciekawe, czy ten pdf2xml coś pomoże.
Offline
jeszcze aktualne? bo mam zrobiony systemik (cs co prawda ale na parę funkcji można przymknąć oko) do parsowania wyciągów z mbanku, pdf2html plus parę linijek w pythonie... daj znać na prv bo rzadko tu zaglądam.
Offline
Niezbyt aktualne, poradziłem sobie na piechotę, nie było tego aż tyle, żeby to było niewykonalne.
Ale jak masz jakiegoś gotowca do Mbanku, to możesz go wrzucić,
nie twierdzę że konkretnie mnie, ale setce innych pacjentów się pewnie przyda. ;)
Mbank po pdf2html jest czytelny i ma prostą strukturę dokumentu, gdzie bez kłopotu się wyczesuje odpowiednie zmienne.
Tu miałem o całe piekło trudniejszy przypadek z jednego francuskiego banku, który na swojej stronie z serwisem online był jeszcze niedawno na etapie ActiveX, a wyciągi wyglądają nie lepiej. ;P
Pozdro
;-)
Ostatnio edytowany przez Jacekalex (2014-06-15 16:18:21)
Offline
Time (s) | Query |
---|---|
0.00012 | SET CHARSET latin2 |
0.00006 | SET NAMES latin2 |
0.00072 | SELECT u.*, g.*, o.logged FROM punbb_users AS u INNER JOIN punbb_groups AS g ON u.group_id=g.g_id LEFT JOIN punbb_online AS o ON o.ident='18.223.196.171' WHERE u.id=1 |
0.00111 | UPDATE punbb_online SET logged=1716028278 WHERE ident='18.223.196.171' |
0.00034 | SELECT * FROM punbb_online WHERE logged<1716027978 |
0.00028 | SELECT topic_id FROM punbb_posts WHERE id=269680 |
0.00134 | SELECT id FROM punbb_posts WHERE topic_id=25771 ORDER BY posted |
0.00047 | SELECT t.subject, t.closed, t.num_replies, t.sticky, f.id AS forum_id, f.forum_name, f.moderators, fp.post_replies, 0 FROM punbb_topics AS t INNER JOIN punbb_forums AS f ON f.id=t.forum_id LEFT JOIN punbb_forum_perms AS fp ON (fp.forum_id=f.id AND fp.group_id=3) WHERE (fp.read_forum IS NULL OR fp.read_forum=1) AND t.id=25771 AND t.moved_to IS NULL |
0.00028 | SELECT search_for, replace_with FROM punbb_censoring |
0.00060 | SELECT u.email, u.title, u.url, u.location, u.use_avatar, u.signature, u.email_setting, u.num_posts, u.registered, u.admin_note, p.id, p.poster AS username, p.poster_id, p.poster_ip, p.poster_email, p.message, p.hide_smilies, p.posted, p.edited, p.edited_by, g.g_id, g.g_user_title, o.user_id AS is_online FROM punbb_posts AS p INNER JOIN punbb_users AS u ON u.id=p.poster_id INNER JOIN punbb_groups AS g ON g.g_id=u.group_id LEFT JOIN punbb_online AS o ON (o.user_id=u.id AND o.user_id!=1 AND o.idle=0) WHERE p.topic_id=25771 ORDER BY p.id LIMIT 0,25 |
0.00140 | UPDATE punbb_topics SET num_views=num_views+1 WHERE id=25771 |
Total query time: 0.00672 s |