--- Log opened Fri Oct 10 00:00:49 2014 | ||
-!- whynot [~chatzilla@irc.pirati.cz] has quit [Quit: Of all the nine lives I´ve lived, this is the worst.] | 01:11 | |
-blondie:#chliv- [Podatelna TO] sledujuserialy.cz - reklama - commit - https://forum.pirati.cz/podatelna-technickeho-odboru-f228/sledujuserialy-cz-reklama-commit-t26500.html | 01:56 | |
-!- dj-bobr [~dj-bobr@irc.pirati.cz] has quit [Ping timeout: 240 seconds] | 09:09 | |
-!- dj-bobr_wrk [~webchat@irc.pirati.cz] has joined #chliv | 10:20 | |
dj-bobr_wrk | ty vole.. shock.. prijdu do prace a mam v prichozi poste (fyzicky) reklamaci od SPOJE.NET .. neni nad to delat reklamacniho technika, clovek pozna zajimavy lidi a firmy :D | 10:51 |
---|---|---|
-!- cowboy-case [~webchat@irc.pirati.cz] has joined #chliv | 12:10 | |
cowboy-case | "-* | 12:10 |
neo | https://www.facebook.com/didoprdeletyzmrdefejsbukovej/posts/875971792420892 | 13:02 |
-!- cowboy-case [~webchat@irc.pirati.cz] has quit [Ping timeout: 240 seconds] | 14:07 | |
-blondie:#chliv- [Podatelna TO] Vlastní vyhledávání v Googlu - https://forum.pirati.cz/podatelna-technickeho-odboru-f228/vlastni-vyhledavani-v-googlu-t26508.html | 16:30 | |
-!- next_ghost [~next_ghos@irc.pirati.cz] has joined #chliv | 16:55 | |
-!- whynot [~chatzilla@irc.pirati.cz] has joined #chliv | 17:21 | |
-!- dj-bobr_wrk [~webchat@irc.pirati.cz] has quit [Quit: Page closed] | 17:56 | |
-!- Hygroscopa [~chatzilla@irc.pirati.cz] has joined #chliv | 18:22 | |
-!- Hygroscopa [~chatzilla@irc.pirati.cz] has quit [Quit: ChatZilla 0.9.91 [Firefox 32.0.3/20140923175406]] | 19:12 | |
-!- aleman [~aleman@irc.pirati.cz] has joined #chliv | 19:20 | |
-!- aleman [~aleman@irc.pirati.cz] has quit [Quit: Bye] | 19:20 | |
-!- aleman [~aleman@irc.pirati.cz] has joined #chliv | 19:20 | |
neo | etalon: co je ze serverem? | 19:22 |
neo | tedy s webem... | 19:22 |
neo | to zkusim precachovat... | 19:24 |
-!- quar [~mobile@irc.pirati.cz] has joined #chliv | 19:26 | |
-!- quar [~mobile@irc.pirati.cz] has quit [Quit: You just lost the GAME!!] | 19:34 | |
neo | uz je to ok. | 19:38 |
next_ghost | etalon, neo: volby už jsou napůl za náma, takže bych vám asi měl dopředu říct, co je ten tajemnej projekt, na kterej budu potřebovat stranický servery | 20:30 |
neo | DDoS CNB? | 20:31 |
next_ghost | etalon, neo: takže ve zkratce - vyloupíme národní digitální knihovnu a ze všech knih, na který už vypršel monopol, naděláme plnohodnotný e-booky | 20:32 |
neo | Vis, ze se to tady loguje? :) | 20:32 |
next_ghost | vim | 20:32 |
neo | ok... | 20:32 |
whynot | Proc takova terminologie (vyloupeni) ? Skutecnost je o neco mene dramaticka... | 20:33 |
neo | osvobozeni | 20:33 |
next_ghost | whynot: právě aby to bylo dramatičtější XD | 20:33 |
neo | Velka knizni loupes | 20:33 |
neo | *z | 20:33 |
whynot | No, zni to jako dobry napad, pokud to neni vtip. | 20:35 |
next_ghost | neni to vtip, mam napsanej crawler, kterej vezme URL jednotlivejch stránek z metadat v tomhle formátu: http://kramerius.nkp.cz/kramerius/mets/ABA001/11226523 | 20:36 |
whynot | Skoda, ze jen ty s vyprselymi autorskymi pravy... | 20:37 |
next_ghost | a naimportuje jednotlivý knížky do databáze k dalšímu zpracování | 20:37 |
whynot | Vytecne. Jsem zvedava na reakce... | 20:37 |
next_ghost | digitální knihovna obsahuje obrázky ve formátu DjVu a neupravený OCR texty | 20:38 |
next_ghost | crawler ty obrázky převede do PNG kvůli zobrazení v prohlížeči (cca. 500kB na stránku) | 20:38 |
whynot | Jakou tak maji OCR chybovost? | 20:39 |
next_ghost | a potom přes webový rozhraní, který ještě neni hotový, budem formou crowdsourcingu opravovat chyby v OCR | 20:39 |
neo | napiseme na to system? | 20:39 |
neo | nebo uz ho mas? | 20:39 |
next_ghost | odhaduju míň než 1%, ty texty jsou podstatně čistší než co dokážu zkonvertovat z obrázků sám, ale chyby tam jsou | 20:40 |
neo | prohnal bych to slovnikem... ten neco opravi ne? | 20:40 |
next_ghost | mam ten crawler, kterej importuje knížky a konvertuje obrázky | 20:40 |
whynot | Tak to je lepsi, nez jsem myslela. | 20:40 |
next_ghost | whynot: 1% chybovost = 18 chyb na jednu normostranu | 20:40 |
next_ghost | v 300stránkový knížce jsou to 3 strany jenom samejch chyb | 20:41 |
next_ghost | neo: ale slovník ti zlikviduje i úmyslný úpravy slov | 20:42 |
neo | next_ghost: jak to myslis? | 20:42 |
whynot | Proc to tedy uchovavaji v takove neprakticke podobe? (spis recnicka otazka) | 20:43 |
next_ghost | neo: třeba hovorový formy nebo archaický tvary | 20:43 |
whynot | Obzvlast DjVu je podle me pro primou cetbu strasne zlo. | 20:43 |
neo | next_ghost: Tak zalezi co mu nastavis... | 20:43 |
next_ghost | whynot: DjVu je 20x menší než PNG při stejný kvalitě | 20:43 |
neo | next_ghost: minimalne by je to melo doakazat zvyraznit.. | 20:43 |
next_ghost | neo: IMHO je daleko jednodušší využít kontrolu pravopisu v prohlížeči a nechat rozhodnout člověka | 20:44 |
next_ghost | neo: ty OCR texty jsou dost čistý na to, aby slovník nadělal víc škody než užitku | 20:44 |
neo | Tak nemusi mit kazdy kontrolu v prohlizeci... muzeme neco zvyraznit automaticky predem sami.. | 20:45 |
klip | next_ghost: kolik to je celkem dat ke stazeni? :) | 20:47 |
next_ghost | klip: na NKP necelejch 12000 knih, NDK má skoro 89000, ale nevim kde má veřejný metadata | 20:49 |
next_ghost | pokud už NDK vůbec má veřejný metadata | 20:49 |
next_ghost | před hodinou jsem jim posílal dotaz, takže uvidíme v pondělí | 20:49 |
next_ghost | na počet stránek je to 3 miliony z NKP a 23 milionů z NDK | 20:50 |
neo | next_ghost: a to uz si vyradil ty, kde jeste neuplynula lhuta 70 let? | 20:50 |
next_ghost | neo: nevyřadil, protože nevim který to jsou | 20:51 |
neo | Tak datum vydani tam maji nekde v tech metadatech, ne? | 20:51 |
next_ghost | neo: na NKP má rok vydání vyplněnej jenom malej zlomek knih, ale skoro všechno je tam hodně starý, takže skoro všechno nejspíš pude zpracovat | 20:52 |
next_ghost | neo: z NDK nemam kde vzít metadata | 20:52 |
next_ghost | neo: ale počítej s tim, že budem zpracovávat najednou max. pár desítek knížek a stránky se budou importovat podle potřeby | 20:53 |
next_ghost | rozhodně nemam v úmyslu naimportovat 13 terabajtů na jeden zátah | 20:54 |
klip | :) | 20:55 |
klip | Kramerius je Open Source, pekny | 20:55 |
next_ghost | hmm, tak podle webových vyhledávání v NDK maj jenom 622460 stránek z knih vydanejch do konce roku 1890 | 20:57 |
next_ghost | do konce roku 1944 je to 2 756 546 stran | 20:59 |
neo | To uz jde.. | 20:59 |
next_ghost | z toho část jsou noviny a časopisy, takže jenom necelý 2 miliony jsou z knížek | 21:00 |
next_ghost | meh, tak v NKP některý knížky nemaj OCR texty... třeba tahle: http://kramerius.nkp.cz/kramerius/mets/ABA001/11249748 | 21:02 |
next_ghost | tak ty můžem taky vyřadit, protože tam budou obrázky totálně nečitelný | 21:02 |
neo | Jako, ze to nepujde prohnat ani OCRkem? | 21:05 |
next_ghost | neo: http://kramerius.nkp.cz/kramerius/document/ABA001_2659500134.djvu | 21:05 |
next_ghost | enjoy | 21:05 |
next_ghost | Tesseract mi první řádek přlouská asi takhle: flfowiř; omup bo 5 pah'čľy, bez bo 86 | 21:07 |
next_ghost | lepší OCR nemam | 21:07 |
klip | tak to bude asi spíš těma historickejma fontama, ne? a proto to nemají v OCR ani oni :) | 21:12 |
next_ghost | no právě... | 21:12 |
klip | to nepřečtu ani já | 21:12 |
klip | lol | 21:12 |
next_ghost | švabach... | 21:12 |
klip | to je nějaká kuchařka :) wokurková omáčka | 21:13 |
next_ghost | jmenuje se to Wyborná Pražská kuchařská kniha (rok vydání 1805) | 21:14 |
neo | To zni chutne :) | 21:14 |
klip | to ještě někdo nevymyslel nějakej OCR, kdy bys ho ty písmenka naučil? kde to jsme? :) | 21:15 |
klip | nasekat písmenka, seřadit podle podobnosti, rozsekat na písmena a šup | 21:16 |
next_ghost | klip: Tesseract je neuronová síť, můžeš ho začít trénovat na švabach | 21:19 |
klip | nj, to bude ale každá knížka trochu jiným fontem, ne? :) | 21:21 |
neo | crowdtraining... | 21:21 |
next_ghost | klip: neuronový síti je to jedno | 21:22 |
klip | newocr.com taky používá Tesseract :) nfowif; omup bo 3 pah'čľy, bcg bo !56 | 21:22 |
neo | jo to vypada lepe... | 21:22 |
neo | :] | 21:22 |
next_ghost | neo: jo, když nám lidi přelouskaj celou jednu švabachovou knížku do čitelnýho textu, tak by to mohlo stačit | 21:22 |
next_ghost | klip: vybrals tam češtinu? | 21:23 |
klip | jj | 21:23 |
next_ghost | neo: od TO budu potřebovat kromě železa ještě propojení webovýho rozhraní na uživatelský účty | 21:27 |
next_ghost | neo: vyber si, jestli to webový rozhraní chcete provozovat pod wiki nebo jako samostatnej web někde bokem | 21:28 |
neo | next_ghost: Jak na uzivatelske ucty? | 21:28 |
next_ghost | neo: musí tam bejt pár lidí co to budou administrovat a asi by bylo vhodný udržovat statistiky nejlepších přispěvatelů | 21:28 |
neo | Ja bych spustil celkove asi jako takovy samostatny projekt... | 21:29 |
next_ghost | neo: stačí mí ID účtu a nějakej příznak, jestli je ten člověk admin nebo běžnej uživatel | 21:29 |
next_ghost | neo: a technický požadavky: Linux, PostgreSQL server s aspoň 5GB místa pro data, PHP na webserveru i jako interpret běžnejch skriptů + následující moduly: curl, pcntl, pcre, pdo_pgsql, posix, libxml | 21:43 |
neo | next_ghost: hmm... asi bude potreba popohnat rozpocet TO... | 21:44 |
neo | next_ghost: Takze chces aby se na tom strana podilela proste technicky? | 21:45 |
next_ghost | na foru projekt oficiálně oznámim v neděli ráno | 21:45 |
next_ghost | neo: nemam kde jinde ten projekt hostovat | 21:45 |
neo | Ja nejsem ani clen TO :) .... je to na zz_coruvar / etalon ... | 21:45 |
neo | chtelo by to kopnout do RP ... | 21:45 |
neo | next_ghost: treba tenhle projekt zrychli lidi v RP ... | 21:46 |
neo | a hlavne take skonci volby... | 21:46 |
next_ghost | neo: a předpokládam, že by tenhle projekt moh dostat prachy na údržbu serverů v PaRo | 21:46 |
next_ghost | neo: volby jsou hlavní důvod, proč jsem tohle neoznámil už někdy v květnu | 21:46 |
klip | RDF uložiště, SPARQL-endpoint a REST API bude taky potřeba někam šoupnout. A myslím, že bychom se měli zamýšlet už teď na nějakém clusterovatelném řešení. | 22:41 |
klip | už jen kvůli redundanci pro případ zásahu vyšší moci, a nebo kvůli možnému přímému útoku (např. zabavení policí na soudní příkaz), nebo kvůli možným distribuovaným útokům | 22:45 |
neo | klip: jo... ale nejdriv by bylo dobre mit aspon prototyp ;) | 22:46 |
neo | pokud jde o software.... | 22:46 |
klip | tak ono by se docela snadno převedl provoz i současných systémů do kontejnerů. pak by stačil deis pro managování poolu clusterů a pouštět na tom clusteru kontejnery a linkovat si je k sobě. | 22:50 |
neo | h | 22:52 |
neo | hmmm | 22:52 |
neo | Nevite nekdo kde najdu takove to "Zapsano u soudu, C, vlozka 343434,... " atd.? | 22:52 |
neo | jestli je na to nejaky online rejstrik.. | 22:53 |
klip | právnickej lorem ipsum? nebo mluvíš o něčem jiném? :) | 22:53 |
neo | potrebuju najit k sobe, kde jsem zapsany presne... | 22:53 |
neo | na zivnostnaku to nemam... | 22:53 |
klip | aha, nevim | 22:54 |
next_ghost | neo: ARES | 22:54 |
neo | tam to nikde neni... | 22:54 |
next_ghost | řekni mi IČO | 22:55 |
-!- dj-bobr [~dj-bobr@irc.pirati.cz] has joined #chliv | 22:55 | |
neo | next_ghost: 71358323 | 22:55 |
neo | tam je jen nejaky evidujici urad... | 22:55 |
neo | Ja vubec nevim jak to funguje... jestli jsem nekde zapsany stylem "pismeno C, vlozka 34352" atd. ... jeslti to neni jen u firem z Prahy nebo nejak tak. | 23:01 |
next_ghost | neo: nemáš tenhle typ záznamu | 23:01 |
next_ghost | evidující úřad je něco jinýho a nejspíš se soudní zápis týká jenom firem | 23:02 |
next_ghost | ty máš na ARESu jenom záznamy RES a RŽP, soudní zápis je u záznamu OR | 23:03 |
next_ghost | třeba tady: http://wwwinfo.mfcr.cz/cgi-bin/ares/darv_or.cgi?ico=26168685&jazyk=cz&xml=1 | 23:04 |
neo | jasne... ok. | 23:05 |
-!- whynot [~chatzilla@irc.pirati.cz] has quit [Quit: Of all the nine lives I´ve lived, this is the worst.] | 23:41 | |
--- Log closed Sat Oct 11 00:00:49 2014 |
Generated by irclog2html.py 2.13.1 by Marius Gedminas - find it at mg.pov.lt!