Provedeno deseto harvestiranje nacionalne internetske domene: Napravljene tematske zbirke sadržaja o potresu i koronavirusu

Nacionalna i sveučilišna knjižnica u Zagrebu u suradnji sa Sveučilišnim računskim centrom Sveučilišta u Zagrebu (Srce) provela je deseto pobiranje (harvestiranje) hrvatske nacionalne internetske domene. Prikupljeni su i pohranjeni javno dostupni sadržaji svih mrežnih sjedišta na vršnoj .hr domeni, uključujući from.hr i com.hr.

Od 111.357 aktivnih domena pobiranjem je preuzeto 19 TB sadržaja spremljenog u format WARC. Datoteke u ovom formatu komprimirane su te zauzimaju 11 TB diskovnog prostora, a korišten je popis aktivnih domena koji je Nacionalnoj i sveučilišnoj knjižnici u Zagrebu dostavila služba Hrvatske akademske i istraživačke mreže (CARNET) za upravljanje nacionalnom domenom Republike Hrvatske.

Pobiranje je provedeno pomoću alata otvorenog koda Heritrix, a robot koji je provodio pobiranje dolazi s IP adrese 61.53.3.11 i predstavljao se kao Mozilla/5.0 (compatible; heritrix/3.4.x).

Sadržaji prikupljeni desetim pobiranjem hrvatske nacionalne internetske domene dostupni su na stranicama Hrvatskog arhiva weba, na kojima se mogu pregledavati i sadržaji pohranjeni u prethodnih devet pobiranja, kao i tematske zbirke te sadržaji prikupljeni selektivnim pobiranjima.

U tijeku prikupljanje mrežnih sadržaja o snažnom potresu u Petrinji, Glini i okolici

Budući da Hrvatski arhiv weba izgrađuje tematske zbirke koje brzo nestaju s weba, pokrenuto je i prikupljanje mrežnog sadržaja o potresima na području Sisačko-moslavačke županije.

Posljednjih nekoliko tjedana svjedoci smo silne količine mrežnog sadržaja o potresima u okolici Siska, Petrinje i Gline te njihovim posljedicama na području Sisačko-moslavačke, Karlovačke i Zagrebačke županije. Internet je postao glavno mjesto pronalaženja korisnih informacija, poput uputa kako sudjelovati u prikupljanju novčanih sredstava za pomoć teško pogođenim područjima, ponude smještaja, hrane, higijenskih potrepština, odjeće i obuće, ali i prijeko potrebne medicinske i psihološke pomoći, govori Inge Rudomino, knjižničarska savjetnica u Hrvatskom arhivu weba, te dodaje kako će rezultati harvestiranja biti dostupni u sklopu tematske zbirke na stranicama HAW-a.

HAW poziva na prikupljanje sadržaja o koronavirusu

Na Hrvatskom arhivu weba do danas je objavljeno 17 tematskih zbirki o aktualnim temama ili događajima od nacionalnog značaja, među njima i tematska zbirka COVID-19.

Hrvatski arhiv weba prikuplja i trajno arhivira mrežne sadržaje o toj temi od početka globalne pandemije koronavirusa (SARS-CoV-2) i bolesti COVID-19. Prvo harvestiranje je provedeno od 15. do 17. svibnja 2020., a drugo od 10. do 14. studenoga 2020. godine i do sada je prikupljeno 4386 URL-ova ukupne veličine 294 GB.

Zbirka sadrži web-stranice i news portale koji pokrivaju teme o podrijetlu koronavirusa, načinu širenju zaraze, svjedočenja oboljelih, službene evidencije o broju žrtava i preporuke liječnika, političara i znanstvenika i stručnjaka. Također, pokriva medicinske, znanstvene, društvene, ekonomske i političke aspekte ove pandemije, objašnjava Inge Rudomino.

Budući da je pandemija bolesti COVID-19 i dalje u tijeku, zbirka će se uskoro proširiti s novim harvestiranjima, a kako bi se što sveobuhvatnije prikupio relevantan sadržaj, iz Hrvatskog arhiva weba pozivaju javnost da šalju svoje prijedloge mrežnih sadržaja putem obrasca dostupnog i na stranicama HAW-a.

Hrvatski arhiv weba dio međunarodnog projekta Developing Bloom Filters for Web Archives’ Holdings

Nacionalna i sveučilišna knjižnica u Zagrebu i Los Alamos National Laboratory (LANL) Research Library u sklopu međunarodnog projekta Developing Bloom Filters for Web Archives’ Holdings rade na razvoju programskog rješenja za izradu Bloom filtera na primjeru sadržaja pohranjenih u Hrvatskom arhivu weba koji će se moći primijeniti i na druge arhive internetskog sadržaja u svijetu te omogućiti djelotvorniji i sigurniji pristup sadržajima ovakvih arhiva kao i izradu servisa za istodobno pretraživanje više arhiva odjednom.

Projekt se počeo provoditi početkom ove godine i financijski ga podupire Konzorcij za dugoročnu pohranu internetskog sadržaja (International Internet Preservation Consortium – IIPC), a kao partner NSK u razvoju i održavanju Hrvatskog arhiva weba na njemu će sudjelovati i Sveučilišni računski centar Sveučilišta u Zagrebu (Srce).

Još brže do najnovijih tech inovacija. Preuzmi DNEVNIK.hr aplikaciju

Provedeno deseto harvestiranje nacionalne internetske domene: Napravljene tematske zbirke sadržaja o potresu i koronavirusu

Vezane vijesti

${title}

Još vijesti

${title}

Nastavi čitati

Ukrajina od Velike Britanije dobila novi sustav protuzračne obrane koji bi mogao riješiti jedan bitan problem

Američka obavještajna agencija NSA ima važno upozorenje za korisnike iPhonea

Očekivanja su velika, a Apple bi ih mogao premašiti: Evo što donosi potpuno novi iPhone Air

Eksplozija ih nije obeshrabrila: Iz SpaceX-a najavili kako se već pripremaju za novo lansiranje Starshipa

Nesretna žena iz Pule u dvije različite prevare ostala bez više od 50 tisuća eura

Apple prošle godine pao na treće mjesto na mobilnom tržištu u Kini