Autor Wątek: Plan działania czyli jak to sobie wyobrażamy  (Przeczytany 75345 razy)

0 użytkowników i 1 Gość przegląda ten wątek.

Offline Rafał Rufus Magryś

  • Administrator
  • st. kustosz(ka)
  • *****
  • Wiadomości: 1506
  • Płeć: Mężczyzna
Plan działania czyli jak to sobie wyobrażamy
« dnia: Wrzesień 11, 2007, »
Witajcie,

 I stało się - prawie oficjalnie rozpoczynamy tworzenie Narodowego Archiwum Cyfrowego. Niezmiernie cieszę się, jako gorący zwolennik opensource, że będzimy opierali NAC o otwarte standardy i tworzyli otwarte systemy dla NAC.
W tym momencie chciałbym zarysować wstępne etapy rozwoju projektu i czekać też na Wasze propozycje - myślę, że wymiana wiedzy będzie stanowiło podstawę naszych działań :)...:

1) Chcielibyśmy przy Waszym wsparciu zbudować społeczność która wspomoże budowę NAC przez stworznie unikalnych na skalę światową rozwiązań,

2) Tworzenie oprogramowania:

a) Myślę, że należałoby zacząć od czegoś prostego np. interfejsu do imagemagick
np. w gtk2 żeby był dostępny na wiele platform (zadania: wsadowe
przetwarzanie wielkich i wieluset plików: skalowanie, zmiana formatu,
dodawanie znaku wodnego) - kod byłby dostępny na powstającej stronie NAC w dziale "wolne
oprogramowanie".  Przy tej okazji chcielibyśmy zebrać grupę ludzi, którzy będą liderami kolejnych projektów,

b) system zarządzania procesem digitalizacji mikrofilmów w Polsce - rozwiązanie
sieciowe typu klient-serwer ale być może udałoby się to rozwinąć o jakąś
technologię z pożytkiem dla wszystkich rozwiązań open source,

c) system ZoSIA (Zintegrowany System Informacji Archiwalnej) oparty na
światowych standardach archiwalnych (EAD, EAG, EAC, METS etc.) oraz
informatycznych (XML + jakiś wolny język programowania) do implementacji w Archiwach Państwowych i jako open source dostępny dla wszystkich zainteresowanych. System ma pomoć w odejściu od MS Access ktory stanowi jednyną przeszkodę do wdrożenia np. OpenOffice'a w tych instytycjach

d) późniejsza rozbudowa systemu wzbogacanie go o nowe funkcje (może nawet obieg
dokumentów w instytucji np.?),

Obszernie na temat tworzenia NAC w oparciu o open source będę mówił podczas tegorocznej "Jesieni linuxowej" w Rybniku (jeszcze mnie nie ma w agendzie ale dziś jutro powinienem się tam znaleźć).

Wkrótce kolejne wiadomości - bo dzień bez newsa o NAC to dzień stracony... :)


Pozdrawiam,

P.S. jabber do kontaktów: laforza@linux.pl
skype: rufiozol
« Ostatnia zmiana: Wrzesień 11, 2007, wysłana przez Rafał Rufus Magryś »
Rafał "Rufus" Magryś
...patience is a virtue...

Offline piotrpsz

  • słuchacz(ka)
  • Wiadomości: 10
  • Płeć: Mężczyzna
    • beesoft.org
Odp: Plan działania czyli jak to sobie wyobrażamy
« Odpowiedź #1 dnia: Wrzesień 11, 2007, »
Jesli przydalby sie Wam programista C++ to jestem do dyspozycji.

pozdrawiam
piotr

Offline bla

  • słuchacz(ka)
  • Wiadomości: 2
Odp: Plan działania czyli jak to sobie wyobrażamy
« Odpowiedź #2 dnia: Wrzesień 11, 2007, »
Witam,
  chciałbym pogratulować pomysłu, życzyć sukcesu i dodać swoje 3 grosze do początkowej dyskusji, a mianowicie
dodać komentarz do punktu 2)...

  Zazwyczaj przy takich projektach programistycznych na początku rozważań wypada ustalić język programowania, w którym będą realizowane poszczególne fragmenty całości. Jeśli taki nie jest oczywiście odgórnie narzucony ;). Żeby nie okazało się potem, że każdy kawałek jest w czym innym, bo integracji to nie pomoże...

Wziąłbym pod uwagę przy wyborze:
a) Grono osób władających tym językiem (ok, lubię OCaml, ale kto w nim będzie programował?)
b) To czy język pasuje do konkretnego zadania, a więc:
* Jego szybkość,
* Dostępność bibliotek.
* Poziom abstrakcji języka.
d) Przenośność między systemami operacyjnymi

  I biorąc pod uwagę powyższe, osobiście zaproponowałbym Pythona, wszędzie tam gdzie szybkość języka nie gra głównej roli. (Ma ogromny zasób gotowych bibliotek, wysoki poziom abstrakcji, szybko się w nim pisze, jest przejrzysty i bardzo przenośny). IMHO do oprogramowania imagemagick nadał by się znakomicie.

  Wszędzie tam gdzie szybkość odgrywa decydującą rolę użyłbym C lub ostatecznie C++. Bibliotek - pełno, stanowi praktycznie lingua franca wolnego oprogramowania. Choć oprogramowanie, a szczególnie jakieś nakładki GUI na istniejące narzędzia, tworzyć będzie się w nim wolniej niż w Pythonie...

  Jakieś komentarze? :)

  Pozdrawiam,
Tomasz bla Fortuna

(Jabber Id: bla at af.gliwice.pl)

Offline dPeS

  • słuchacz(ka)
  • Wiadomości: 4
Odp: Plan działania czyli jak to sobie wyobrażamy
« Odpowiedź #3 dnia: Wrzesień 11, 2007, »
Powitać wszystkich,

Moje kilka uwag :
1. fajno, że projekt jest z założenia otwarty ale jeśli ma brać w nim większa liczba ludzi to dobrze byłoby wiedzieć kilka rzeczy :
 - czym dysponujemy (dostepny sprzet - także taki który to wszystko wczyta, poinstalowany soft) ?
 - co jest do zrobienia (orientacyjna ilość danych - nikt ,,z internetu'' nie wie tak naprawde ,,o co chodzi'') ?
 - jaki jest czasowy plan prac tudzież jak to widzą decydenci (ile czasu na projekt, etc...) ?

... (tu zapewne będzie masa kolejnych pytań - moim zdaniem dla każdego takiego zagadnienia trzeba by zrobić oddzielny wątek)

2. na ogół projekt ma takie dość ważne etapy :

 - opracowanie koncepcji - czyli odpowiedź na pytania - co trzeba zrobić? kto to będzie robił? ile czasu mu to zajmie? (tu również powstaje czasowy plan działania)
 - stworzenie projektu - czyli odpowiedź na pytanie JAK zrobić to co zostało ustalone wyżej ??? 
(mały przyład : jeśli klikaniem będzie się zajmowała mało obeznana osoba to tworzenie gui dla narzędzi konsolowych mija się z celem bo i tak parametry będą ustalane ,,na sztywno'' i lepiej byłoby zrobić formatkę z kilkoma przyciskami odpalającymi skrypty, które np same się aktualizują przez sieć - słowem brakuje KONCEPCJI I PLANU)
- implementacja - jak już będzie wiadomo co, jak i gdzie ma działać można brać się do roboty - to w jakim języku co i jak pisać można będzie powiedzieć dopiero po długich rozmowach i stworzeniu projektu
- testy i WDROŻENIE od którego tak naprawde będzie zależało wrażenie jakie zostawią otwarte standardy i oprogramowanie...

warto też zapoznać się z opisami wdrożeń, których w sieci jest sporo (są również poradniki jak prowadzić otwarte projekty programistyczne)

dPeS

Offline Rafał Rufus Magryś

  • Administrator
  • st. kustosz(ka)
  • *****
  • Wiadomości: 1506
  • Płeć: Mężczyzna
Odp: Plan działania czyli jak to sobie wyobrażamy
« Odpowiedź #4 dnia: Wrzesień 11, 2007, »
Witam,

 Bardzo dziękuję za poważne potraktowanie tematu. Chcieliśmy rozpocząć już całą akcję, żeby się działo i się nie zmieniło. Do poniedziałku (17 września, ale pewnie wcześniej) powstaną wszystkie opisy, oraz zostaną uruchomione również odpowiednie narzędzia.
W tym momencie cieszę się bardzo, że jest spora grupa, która będzie wspomagała NAC.
Damy radę... I NIE MA INNEJ OPCJI... ;)...

Pozdrawiam
Rafał "Rufus" Magryś
...patience is a virtue...

Offline mikmach

  • słuchacz(ka)
  • Wiadomości: 3
Odp: Plan działania czyli jak to sobie wyobrażamy
« Odpowiedź #5 dnia: Wrzesień 11, 2007, »
Co z formatem przechowywania plików cyfrowych? W pełni Open Source jest PNG, ale o ile się nie mylę są problemy z dołączaniem informacji "drukarskich".

Jakie metadane? EXIF można chyba sobie darować, IPTC szeroko wspierany, ale powoli odchodzi do lamusa. XMP to a) dopiero wchodzi w szersze użycie b) to tylko kontener, w jego ramach nadal trzeba wybrać jakiś standard: IPTC Core, Dublin Core czy coś bardziej specjalistycznego?

Czy jest sens wyważać otwarte (częściowo) drzwi i pisać od zera program? W dodatku taki program powinien nie tylko pozwalać na podstawowe operacje na plikach, ale i szersze zarządzanie. Jest już obecnie kilka dostępnych, a za kilka miesięcy na MS-Windows wachlarz aplikacji będzie jeszcze szerszy kiedy w końcu programy na KDE będą tam normalnie działać (Digikam, Kphotoalbum).

Offline bla

  • słuchacz(ka)
  • Wiadomości: 2
Odp: Plan działania czyli jak to sobie wyobrażamy
« Odpowiedź #6 dnia: Wrzesień 11, 2007, »
Co z formatem przechowywania plików cyfrowych? W pełni Open Source jest PNG, ale o ile się nie mylę są problemy z dołączaniem informacji "drukarskich".

Dla ułatwienia przeszukiwania plików (jakiekolwiek one by nie były tekstowe, graficzne) część danych można trzymać w bazie danych. W tym wszystkie, które mógłby zawierać taki nagłówek. Wtedy niezależnie od rodzaju pliku masz ujednolicony interfejs dostępu do autora, daty powstania, zaarchiwizowania; wszystkiego co by było potrzebne.

Myślałem czy w ogóle do tego brać bazę danych...:
1) Zbiór plików na nośniku
2) Zbiór plików indeksowany w bazie danych
3) Baza danych z danymi binarnymi + opisem
Ale takie coś już nie raz nie dwa sprawdzili w praktyce i na pewno wiadomo jak każdy przypadek by działał. (Mi się najbardziej podoba 2).
4) Rozważał ktoś zastosowanie repozytoriów? Myślałem czy da się tutaj do czegoś wykorzystać GITa. Ale prócz rozwoju aplikacji do zarządzania archiwum chyba się nie przyda...

dPeS dobrze mówi, że warto zacząć od ogólnego opisu tego co chce się stworzyć. Zbioru założeń, opisu potrzebnych interfejsów i podsumowania dostępnego materiału. Może jakieś WIKI? Forum to jedno... Potem (lub równolegle!) można dyskutować takie techniczne szczegóły. Można by drugi wątek założyć... ;-) Ja o technikaliach chętnie porozmawiam, a w ogóle założenia mieszałbym się z rozwagą (archiwistyki nie kończyłem; choć mam znajomego, którego mogę męczyć).

Pozdrawiam,

Offline firestarter

  • słuchacz(ka)
  • Wiadomości: 2
Odp: Plan działania czyli jak to sobie wyobrażamy
« Odpowiedź #7 dnia: Wrzesień 11, 2007, »
jeśli byście potrzebowali administratora do serwerów linuxowych to służę radą i pomocą.


Nie jestem może mistrzem programowania, ale co nie co o tworzeniu projektów wiem. I naprawdę radzę starannie wybrać platformę na jakiej będzie to tworzone. Dobrze by było wiedzieć na jakie zaplecze możecie liczyć. Co macie na początek? Na jaką pomoc możecie liczyć? Zrobienie ankiety na temat umiejętności ochotników dałoby wam obraz sytuacji kto bierze udział w projekcie:
Ilu ich jest?
jakie mają umiejętności?
wiek
można by było wstępnie wyłonić osoby które mają predyspozycje do kierowania teamami - ankieta musiałby być dobrze zrobiona.

Offline mikmach

  • słuchacz(ka)
  • Wiadomości: 3
Odp: Plan działania czyli jak to sobie wyobrażamy
« Odpowiedź #8 dnia: Wrzesień 11, 2007, »

Myślałem czy w ogóle do tego brać bazę danych...:

2) Zbiór plików indeksowany w bazie danych

Jakaś forma bazy danych jest niezbędna. Choćby po to by można ją sobie można było ściągnąć i robić kwerendy niezależnie od samych plików przedstawiających archiwa. Patrzę w tej chwili od strony potrzeb użytkownika. To zresztą osobna kwestia. Dla kogo obecnie jest ten projekt? Czy ma ułatwić pracę archiwistom, czy ostatecznym użytkownikom archiwów?

dPeS dobrze mówi, że warto zacząć od ogólnego opisu tego co chce się stworzyć. Zbioru założeń, opisu potrzebnych interfejsów i podsumowania dostępnego materiału.

Pełna zgoda. OP był dość ogólnikowy. Szczegółów, szczegółów :)

Offline Tomasz Kalota

  • słuchacz(ka)
  • Wiadomości: 9
    • Tomasz Kalota
Odp: Plan działania czyli jak to sobie wyobrażamy
« Odpowiedź #9 dnia: Wrzesień 11, 2007, »
(...) I stało się - prawie oficjalnie rozpoczynamy tworzenie Narodowego Archiwum Cyfrowego. Niezmiernie cieszę się, jako gorący zwolennik opensource, że będzimy opierali NAC o otwarte standardy i tworzyli otwarte systemy dla NAC.(...)

Świetnie, że ruszacie z tym projektem. Bibliotekarze 2.0 zaczynają Wam kibicować :) (zob. wątek archiwiści robią to w NAC). Mam przy okazji pytanie. Czy zamierzacie udostępniać oraz zbierać metadane przez OAI-PMH? Umożliwiłoby to zintegrowanie bibliotek cyfrowych z NAC oraz usprawniłoby przeszukiwanie większego zasobu cyfrowego. Czekam z niecierpliwością na szczegółowe opisy projektu.

Offline Mariusz Bułkowski

  • słuchacz(ka)
  • Wiadomości: 1
  • Płeć: Mężczyzna
    • Mariusz Bułkowski
Odp: Plan działania czyli jak to sobie wyobrażamy
« Odpowiedź #10 dnia: Wrzesień 12, 2007, »
A ja się zastanawiam jakimi zasobami (ludzkimi / sprzętowymi / finansowymi) dysponują inicjatorzy pomysłu.
To po pierwsze. Czy wszystko ma zostać zrobione na zasadzie pracy wolontariuszy czy tez posiadacie własne zaplecze (ile osób?)

Czy jest ustalone (albo kiedy bedzie) czym ma być ten projekt ? Co ma robić ? Kiedy ma zostać zrealizowany ? Jakie ma spełniać wymagania .....

Czy są jakieś już projekty podobne na których mozna bazowac ?


Pozycjonujemy dla Ciebie http://seo4you.pl/

Offline Rafał Rufus Magryś

  • Administrator
  • st. kustosz(ka)
  • *****
  • Wiadomości: 1506
  • Płeć: Mężczyzna
Odp: Plan działania czyli jak to sobie wyobrażamy
« Odpowiedź #11 dnia: Wrzesień 12, 2007, »
Witam,

 Zgodnie z sugestiami podam wszystkie dane oraz rozbije wątek na kilka. W tym momencie będzie ich 3:
1) Budowa lokalnego gui do imagemagicka - ale może napisanie nowego progsa czy dostosowanie do specyficznych potrzeb to co już jest na "rynku" - aby rozpocząć w sumie od czegoś małego, aby zobaczyć jak się nam ułoży współpraca,

2) Budowa webowego gui do imagemagicka czy do gd (jak wyżej z dostosowaniem) będzie go można wykorzystać do Zintegrowanego Systemu Zarządzania Informacją (ZoSIA) jaki planujemy wdrożyć we wszystkich archiwach,

3) Budowa systemu do zarządzania mikrofilmowaniem w Polsce jako fragment systemu ZoSIA,

Pozdrawiam

Rafał
Rafał "Rufus" Magryś
...patience is a virtue...

Offline keneida

  • słuchacz(ka)
  • Wiadomości: 1
Odp: Plan działania czyli jak to sobie wyobrażamy
« Odpowiedź #12 dnia: Wrzesień 12, 2007, »
czy zastanawialiście się nad dopasowaniem jednego z systemów cms?
Na stronach "open library" można znaleźć info o procesie digitalizacji zasobów i tego jakich programów oni użyli

Offline Rafał Rufus Magryś

  • Administrator
  • st. kustosz(ka)
  • *****
  • Wiadomości: 1506
  • Płeć: Mężczyzna
Odp: Plan działania czyli jak to sobie wyobrażamy
« Odpowiedź #13 dnia: Wrzesień 12, 2007, »
I jeszcze jedna uwaga NAC nie jest jednym wielki programem ale instytucją, która będzie korzystać z kilku systemów wspomagających zarządzanie danymi. Każdy projekt co zobaczycie w opisach będzie trochę inny ale zrealizuje główne zadanie wolny dostęp do polskiej kultury.

Pozdrawiam,

Rafał
Rafał "Rufus" Magryś
...patience is a virtue...

Offline thebodzio

  • słuchacz(ka)
  • Wiadomości: 1
Odp: Plan działania czyli jak to sobie wyobrażamy
« Odpowiedź #14 dnia: Wrzesień 12, 2007, »
Bardzo ucieszyła mnie informacja o starcie projektu archiwistycznego mającego w założeniu opierać się na otwartych rozwiązaniach. Kudos! :)

Chciałem dorzucić do dyskusji kilka swoich uwag.

mikmach postawił bardzo słuszne pytanie o format, w którym będą przechowywane dane. bla z kolei zauważył, że bardzo ważną rzeczą jest kategoryzacja tych danych. Łącznie z głosem dPeS uważam te głosy za podstawowe dla całości przedsięwzięcia.

Dane są przecież w tym projekcie najważniejsze i odpowiedni dobór strategii ich digitalizacji umożliwi korzystanie z nich niezależnie od trendów w dziedzinie tworzenia oprogramowania. Sam dobór narzędzi programistycznych i aplikacji, które mają zostać przy ich pomocy stworzone jest już, śmiem to tak nazwać, wtórny po opracowaniu dokładnej specyfikacji działania cyfrowego systemu archiwalnego. IMHO specyfikacja ta powinna zawierać opis:

1. Struktury i formy gromadzonych danych (podstawowe dla dalszych działań).
2. Przewidywanych dróg obiegu danych (umożliwia zaplanowanie odpowiednich aplikacji klienckich i serwerowych).
3. Sposobu przeprowadzania digitalizacji (bardzo ścisły – określający możliwy do zastosowania sprzęt, parametry, z którymi należy dokonywać digitalizacji, sposób formułowania ewentualnego opisu).
4. Protokołów używanych w cyfrowych kanałach przetwarzania danych (umożliwia implementację niezależnych narzędzi do korzystania  z zasobów archiwalnych).
5. Dokumentów zewnętrznych, na których opiera się specyfikacja, a które nie zostały włączone w jej treść aby uniknąć ich dublowania.

Wydaje mi się, że te kilka punktów wpasowuje się w ogólny plan działania zaproponowany przez dPeS.

Tyle tytułem pomysłów na ogólny kształt systemu, chciałbym się natomiast odnieść do propozycji użycia formatu png do gromadzenia zeskanowanych danych.

Pewne jest, że skanowanie będzie podstawą systemu.

png jest bardzo obiecujący jako format nieobarczony patentami niemniej jednak podobnie jak pozostałe formaty graficzne (pomijając możliwości stosowania takich czy innych przestrzeni kolorów, masek alfa itd.) służyłby do jednej rzeczy – przechowywania płaskiego obrazu strony fizycznego dokumentu. To oznacza, że aby w zeskanowanym dokumencie umieścić jego opis, czy np. jego tekst pozyskany np. metodą ocr należy użyć odpowiedniego formatu tzw. metadanych. Co do „słabego radzenia sobie png'a z danymi drukarskimi” uważam, że nie ma to najmniejszego znaczenia. Dla dzisiejszych skanerów (nie zanosi się na zmianę tego w najbliższej przyszłości) naturalną modelem kolorów jest model RGB. W przypadku większości skanerów model ten ograniczony jest przestrzenią zdefiniowaną profilem sRGB (niestety, jako, że jest to nieco „przyciasna” przestrzeń jak dla RGB). Dla „druku” z kolei przyjazny jest model CMYK (przestrzeń kolorów znów określona odpowiednim profilem) oraz modele wynikające z zastosowania poszczególnych farb drukarskich odpowiedniego systemu np. PANTONE. Konwersja z RGB do np. CMYK w przypadku przechowywania skanowanych dokumentów mijałaby się jednak z celem, gdyż taka konwersja mogłaby pociągnąć za sobą porzucenie lub degenerację części informacji o kolorze. Dlatego uważam, że przestrzeń RGB jest odpowiednia do przechowywania zeskanowanych danych.

Drugą sprawą, którą należy rozważyć poza otwartością danego formatu jest też jego ekonomiczność w porównaniu z pozostałymi formatami. Bardzo ważna jest przestrzeń, którą te same dane zajmują w pamięci masowej w różnych reprezentacjach. Do wyboru mamy formaty stratne i bezstratne. Główną zaletą bezstratnych jest dokładność, a wadą rozmiary. Odwrotnie jest w przypadku formatów stratnych. Z moich doświadczeń wynika, że do przechowywania zeskanowanych obrazów jak najbardziej nadają się formaty stratne o ile tylko próg określający odrzucanie części informacji jest odpowiednio ustawiony. Świetnie radzi sobie w takim wypadku np. JPEG2K, czy w ogóle formaty oparte na kompresji falkowej.

W końcu należy pamiętać, że często dokumenty archiwalne są wielostronicowe. To oznacza, że należy zachować przy digitalizacji również informację o stronach. Można ją umieścić w metadanych, można również wykorzystać natywne możliwości formatu. Możliwość przechowywania dokumentów wielostronicowych posiadają np. TIFF, PDF czy DjVu. TIFF jest formatem bezstratnym i potencjalnie wymagającym rozmiarowo. Poza tym umieszczanie w nim np. hiperlinków jest problematyczne. Z tej trójki PDF i DjVu mogą reprezentować wielostronicowe dokumenty, zawierać hiperlinki, spisy treści itp. Obydwa posiadają otwarte specyfikacje. Ich podstawową różnicą jest to, że PDF został stworzony przede wszystkim jako kontener dla poligrafii natomiast DjVu od początku był pomyślany jako format archiwizacyjny. Istotnie posiada on wiele zalet predestynujących go do takich zastosowań.

Nie chcę już przedłużać tego i tak długaśnego postu, ale konkludując chciałbym zaproponować właśnie DjVu jako format przechowywania zeskanowanych materiałów. Robię to tym chętniej, że istnieją narzędzia na licencji GPL pozwalające na tworzenie dokumentów DjVu i korzystanie z dobrodziejstw tego formatu.