Friday, 2014-10-10

--- Log opened Fri Oct 10 00:00:49 2014
-!- whynot [~chatzilla@irc.pirati.cz] has quit [Quit: Of all the nine lives I´ve lived, this is the worst.]01:11
-blondie:#chliv- [Podatelna TO] sledujuserialy.cz - reklama - commit - https://forum.pirati.cz/podatelna-technickeho-odboru-f228/sledujuserialy-cz-reklama-commit-t26500.html01:56
-!- dj-bobr [~dj-bobr@irc.pirati.cz] has quit [Ping timeout: 240 seconds]09:09
-!- dj-bobr_wrk [~webchat@irc.pirati.cz] has joined #chliv10:20
dj-bobr_wrkty vole.. shock.. prijdu do prace a mam v prichozi poste (fyzicky) reklamaci od SPOJE.NET .. neni nad to delat reklamacniho technika, clovek pozna zajimavy lidi a firmy :D10:51
-!- cowboy-case [~webchat@irc.pirati.cz] has joined #chliv12:10
cowboy-case"-*12:10
neohttps://www.facebook.com/didoprdeletyzmrdefejsbukovej/posts/87597179242089213:02
-!- cowboy-case [~webchat@irc.pirati.cz] has quit [Ping timeout: 240 seconds]14:07
-blondie:#chliv- [Podatelna TO] Vlastní vyhledávání v Googlu - https://forum.pirati.cz/podatelna-technickeho-odboru-f228/vlastni-vyhledavani-v-googlu-t26508.html16:30
-!- next_ghost [~next_ghos@irc.pirati.cz] has joined #chliv16:55
-!- whynot [~chatzilla@irc.pirati.cz] has joined #chliv17:21
-!- dj-bobr_wrk [~webchat@irc.pirati.cz] has quit [Quit: Page closed]17:56
-!- Hygroscopa [~chatzilla@irc.pirati.cz] has joined #chliv18:22
-!- Hygroscopa [~chatzilla@irc.pirati.cz] has quit [Quit: ChatZilla 0.9.91 [Firefox 32.0.3/20140923175406]]19:12
-!- aleman [~aleman@irc.pirati.cz] has joined #chliv19:20
-!- aleman [~aleman@irc.pirati.cz] has quit [Quit: Bye]19:20
-!- aleman [~aleman@irc.pirati.cz] has joined #chliv19:20
neoetalon: co je ze serverem?19:22
neotedy s webem...19:22
neoto zkusim precachovat...19:24
-!- quar [~mobile@irc.pirati.cz] has joined #chliv19:26
-!- quar [~mobile@irc.pirati.cz] has quit [Quit: You just lost the GAME!!]19:34
neouz je to ok.19:38
next_ghostetalon, neo: volby už jsou napůl za náma, takže bych vám asi měl dopředu říct, co je ten tajemnej projekt, na kterej budu potřebovat stranický servery20:30
neoDDoS CNB?20:31
next_ghostetalon, neo: takže ve zkratce - vyloupíme národní digitální knihovnu a ze všech knih, na který už vypršel monopol, naděláme plnohodnotný e-booky20:32
neoVis, ze se to tady loguje? :)20:32
next_ghostvim20:32
neook...20:32
whynotProc takova terminologie (vyloupeni) ? Skutecnost je o neco mene dramaticka...20:33
neoosvobozeni20:33
next_ghostwhynot: právě aby to bylo dramatičtější XD20:33
neoVelka knizni loupes20:33
neo*z20:33
whynotNo, zni to jako dobry napad, pokud to neni vtip.20:35
next_ghostneni to vtip, mam napsanej crawler, kterej vezme URL jednotlivejch stránek z metadat v tomhle formátu: http://kramerius.nkp.cz/kramerius/mets/ABA001/1122652320:36
whynotSkoda, ze jen ty s vyprselymi autorskymi pravy...20:37
next_ghosta naimportuje jednotlivý knížky do databáze k dalšímu zpracování20:37
whynotVytecne. Jsem zvedava na reakce...20:37
next_ghostdigitální knihovna obsahuje obrázky ve formátu DjVu a neupravený OCR texty20:38
next_ghostcrawler ty obrázky převede do PNG kvůli zobrazení v prohlížeči (cca. 500kB na stránku)20:38
whynotJakou tak maji OCR chybovost?20:39
next_ghosta potom přes webový rozhraní, který ještě neni hotový, budem formou crowdsourcingu opravovat chyby v OCR20:39
neonapiseme na to system?20:39
neonebo uz ho mas?20:39
next_ghostodhaduju míň než 1%, ty texty jsou podstatně čistší než co dokážu zkonvertovat z obrázků sám, ale chyby tam jsou20:40
neoprohnal bych to slovnikem... ten neco opravi ne?20:40
next_ghostmam ten crawler, kterej importuje knížky a konvertuje obrázky20:40
whynotTak to je lepsi, nez jsem myslela. 20:40
next_ghostwhynot: 1% chybovost = 18 chyb na jednu normostranu20:40
next_ghostv 300stránkový knížce jsou to 3 strany jenom samejch chyb20:41
next_ghostneo: ale slovník ti zlikviduje i úmyslný úpravy slov20:42
neonext_ghost: jak to myslis?20:42
whynotProc to tedy uchovavaji v takove neprakticke podobe? (spis recnicka otazka)20:43
next_ghostneo: třeba hovorový formy nebo archaický tvary20:43
whynotObzvlast DjVu je podle me pro primou cetbu strasne zlo.20:43
neonext_ghost: Tak zalezi co mu nastavis...20:43
next_ghostwhynot: DjVu je 20x menší než PNG při stejný kvalitě20:43
neonext_ghost: minimalne by je to melo doakazat zvyraznit..20:43
next_ghostneo: IMHO je daleko jednodušší využít kontrolu pravopisu v prohlížeči a nechat rozhodnout člověka20:44
next_ghostneo: ty OCR texty jsou dost čistý na to, aby slovník nadělal víc škody než užitku20:44
neoTak nemusi mit kazdy kontrolu v prohlizeci... muzeme neco zvyraznit automaticky predem sami..20:45
klipnext_ghost: kolik to je celkem dat ke stazeni? :)20:47
next_ghostklip: na NKP necelejch 12000 knih, NDK má skoro 89000, ale nevim kde má veřejný metadata20:49
next_ghostpokud už NDK vůbec má veřejný metadata20:49
next_ghostpřed hodinou jsem jim posílal dotaz, takže uvidíme v pondělí20:49
next_ghostna počet stránek je to 3 miliony z NKP a 23 milionů z NDK20:50
neonext_ghost: a to uz si vyradil ty, kde jeste neuplynula lhuta 70 let?20:50
next_ghostneo: nevyřadil, protože nevim který to jsou20:51
neoTak datum vydani tam maji nekde v tech metadatech, ne?20:51
next_ghostneo: na NKP má rok vydání vyplněnej jenom malej zlomek knih, ale skoro všechno je tam hodně starý, takže skoro všechno nejspíš pude zpracovat20:52
next_ghostneo: z NDK nemam kde vzít metadata20:52
next_ghostneo: ale počítej s tim, že budem zpracovávat najednou max. pár desítek knížek a stránky se budou importovat podle potřeby20:53
next_ghostrozhodně nemam v úmyslu naimportovat 13 terabajtů na jeden zátah20:54
klip:)20:55
klipKramerius je Open Source, pekny20:55
next_ghosthmm, tak podle webových vyhledávání v NDK maj jenom 622460 stránek z knih vydanejch do konce roku 189020:57
next_ghostdo konce roku 1944 je to 2 756 546 stran20:59
neoTo uz jde..20:59
next_ghostz toho část jsou noviny a časopisy, takže jenom necelý 2 miliony jsou z knížek21:00
next_ghostmeh, tak v NKP některý knížky nemaj OCR texty... třeba tahle: http://kramerius.nkp.cz/kramerius/mets/ABA001/1124974821:02
next_ghosttak ty můžem taky vyřadit, protože tam budou obrázky totálně nečitelný21:02
neoJako, ze to nepujde prohnat ani OCRkem?21:05
next_ghostneo: http://kramerius.nkp.cz/kramerius/document/ABA001_2659500134.djvu21:05
next_ghostenjoy21:05
next_ghostTesseract mi první řádek přlouská asi takhle: flfowiř; omup bo 5 pah'čľy, bez bo 8621:07
next_ghostlepší OCR nemam21:07
kliptak to bude asi spíš těma historickejma fontama, ne? a proto to nemají v OCR ani oni :)21:12
next_ghostno právě...21:12
klipto nepřečtu ani já21:12
kliplol21:12
next_ghostšvabach...21:12
klipto je nějaká kuchařka :) wokurková omáčka21:13
next_ghostjmenuje se to Wyborná Pražská kuchařská kniha (rok vydání 1805)21:14
neoTo zni chutne :)21:14
klipto ještě někdo nevymyslel nějakej OCR, kdy bys ho ty písmenka naučil? kde to jsme? :)21:15
klipnasekat písmenka, seřadit podle podobnosti, rozsekat na písmena a šup21:16
next_ghostklip: Tesseract je neuronová síť, můžeš ho začít trénovat na švabach21:19
klipnj, to bude ale každá knížka trochu jiným fontem, ne? :)21:21
neocrowdtraining...21:21
next_ghostklip: neuronový síti je to jedno21:22
klipnewocr.com taky používá Tesseract :) nfowif; omup bo 3 pah'čľy, bcg bo !5621:22
neojo to vypada lepe...21:22
neo:]21:22
next_ghostneo: jo, když nám lidi přelouskaj celou jednu švabachovou knížku do čitelnýho textu, tak by to mohlo stačit21:22
next_ghostklip: vybrals tam češtinu?21:23
klipjj21:23
next_ghostneo: od TO budu potřebovat kromě železa ještě propojení webovýho rozhraní na uživatelský účty21:27
next_ghostneo: vyber si, jestli to webový rozhraní chcete provozovat pod wiki nebo jako samostatnej web někde bokem21:28
neonext_ghost: Jak na uzivatelske ucty?21:28
next_ghostneo: musí tam bejt pár lidí co to budou administrovat a asi by bylo vhodný udržovat statistiky nejlepších přispěvatelů21:28
neoJa bych spustil celkove asi jako takovy samostatny projekt...21:29
next_ghostneo: stačí mí ID účtu a nějakej příznak, jestli je ten člověk admin nebo běžnej uživatel21:29
next_ghostneo: a technický požadavky: Linux, PostgreSQL server s aspoň 5GB místa pro data, PHP na webserveru i jako interpret běžnejch skriptů + následující moduly: curl, pcntl, pcre, pdo_pgsql, posix, libxml21:43
neonext_ghost: hmm... asi bude potreba popohnat rozpocet TO...21:44
neonext_ghost: Takze chces aby se na tom strana podilela proste technicky?21:45
next_ghostna foru projekt oficiálně oznámim v neděli ráno21:45
next_ghostneo: nemam kde jinde ten projekt hostovat21:45
neoJa nejsem ani clen TO :) .... je to na zz_coruvar / etalon  ...21:45
neochtelo by to kopnout do RP ...21:45
neonext_ghost: treba tenhle projekt zrychli lidi v RP ...21:46
neoa hlavne take skonci volby...21:46
next_ghostneo: a předpokládam, že by tenhle projekt moh dostat prachy na údržbu serverů v PaRo21:46
next_ghostneo: volby jsou hlavní důvod, proč jsem tohle neoznámil už někdy v květnu21:46
klipRDF uložiště, SPARQL-endpoint a REST API bude taky potřeba někam šoupnout. A myslím, že bychom se měli zamýšlet už teď na nějakém clusterovatelném řešení.22:41
klipuž jen kvůli redundanci pro případ zásahu vyšší moci, a nebo kvůli možnému přímému útoku (např. zabavení policí na soudní příkaz), nebo kvůli možným distribuovaným útokům22:45
neoklip: jo... ale nejdriv by bylo dobre mit aspon prototyp ;)22:46
neopokud jde o software....22:46
kliptak ono by se docela snadno převedl provoz i současných systémů do kontejnerů. pak by stačil deis pro managování poolu clusterů a pouštět na tom clusteru kontejnery a linkovat si je k sobě.22:50
neoh22:52
neohmmm22:52
neoNevite nekdo kde najdu takove to "Zapsano u soudu, C, vlozka 343434,... " atd.?22:52
neojestli je na to nejaky online rejstrik..22:53
klipprávnickej lorem ipsum? nebo mluvíš o něčem jiném? :)22:53
neopotrebuju najit k sobe, kde jsem zapsany presne...22:53
neona zivnostnaku to nemam...22:53
klipaha, nevim22:54
next_ghostneo: ARES22:54
neotam to nikde neni...22:54
next_ghostřekni mi IČO22:55
-!- dj-bobr [~dj-bobr@irc.pirati.cz] has joined #chliv22:55
neonext_ghost: 7135832322:55
neotam je jen nejaky evidujici urad...22:55
neoJa vubec nevim jak to funguje... jestli jsem nekde zapsany stylem "pismeno C, vlozka 34352" atd. ... jeslti to neni jen u firem  z Prahy nebo nejak tak.23:01
next_ghostneo: nemáš tenhle typ záznamu23:01
next_ghostevidující úřad je něco jinýho a nejspíš se soudní zápis týká jenom firem23:02
next_ghostty máš na ARESu jenom záznamy RES a RŽP, soudní zápis je u záznamu OR23:03
next_ghosttřeba tady: http://wwwinfo.mfcr.cz/cgi-bin/ares/darv_or.cgi?ico=26168685&jazyk=cz&xml=123:04
neojasne... ok.23:05
-!- whynot [~chatzilla@irc.pirati.cz] has quit [Quit: Of all the nine lives I´ve lived, this is the worst.]23:41
--- Log closed Sat Oct 11 00:00:49 2014

Generated by irclog2html.py 2.13.1 by Marius Gedminas - find it at mg.pov.lt!