Muszę przyznać, że bardzo pouczające są przykłady wskazane przez panią Hannę
Dopiero teraz tu zajrzałem (czekam na odpowiedź czy nasze przygotowane zgodnie z
Rozporządzeniem Ministra Spraw Wewnętrznych i Administracji z dnia 2 listopada 2006 "paczki archiwalne" są poprawne technicznie) to rzuciłem okiem na forum.
Wydaje mi się, że przykłady te tylko potwierdzają iż tworzenie i późniejsze stosowanie wielkich, skomplikowanych tezaurusów staje się powoli nieopłacalne (to nie jest dobre słowo ale nie znalazłem lepszego). Nie znaczy to jednak, że danych nie należy porządkować i zaprowadzeniem takie porządku jest właśnie cytowane przeze mnie wyżej rozporządzenie.
Tu zachęcony przykładami pani Hanny dodam, że zawsze dziwiło mnie w MARC-u odrębne pole danych na twórcę (100) i potem dodatkowe opisywanie tegoż samego twórcy w oddzielnym polu (700). Jakby nie można było od razu wykorzystać już istniejącej informacji o twórcy.
Inni twórcy odpowiedzialni na powstanie dzieła trafiają już do pola 700. Z czysto technicznego punktu widzenia pole 100 w takim przypadku mogłoby nie istnieć. Podobnie z indeksami "na końcu' (!) inwentarza. Także elektronicznego
- ale to już inny temat.
Co do jakości danych to zawsze
errare humamum est. I jeśli
fachowiec od katalogowania pomyli się to taka pomyłka zostanie na lata.
Jednak zupełnie czym innym jest pozwalanie (z założenia!) na wpisywanie danych w sposób nieuporządkowany np
<date>(1988) 2004</date>
<addressline> PL 00-263 WARSZAWA ul. Długa 7</addressline>
<langusage>Opis w języku<language>polskim</language></langusage>
<unitid>k. 626-626v.</unitid>
unitdate>Warschovie, 1456.12.14 (fer. 3 in crast. S. Lucie)</unitdate>
<langmaterial>Księgi ziemskie błońskie prowadzono w języku łacińskim, jedynie do nielicznych wpisów, zwłaszcza rot przysiąg świadków z pierwszej połowy XV w., użyto języka polskiego.</langmaterial>
Powyższe to fragmenty "wnętrza" inwentarza EAD ogłoszonego na stronie AGAD. Pięknie się on wyświetla i wprawia w zachwyt archiwistów, którzy oczekują danych uporządkowanych w sposób klasyczny. Nie chodzi tu o to jaki to inwentarz i jaki zawiera ładunek informacji merytorycznej ( bo na pewno jest t znakomite opracowanie) tylko o pokazanie pewnej zasady, która w tym przypadku ma miejsce: w konkretne znaczniki XML-owe wpisuje się już cokolwiek bez zastanowienia się czy taki sposób opisu pozwoli np
- posortować zgromadzoną dokumentację wg daty,
- posortować po identyfikatorach jednostek archiwalnych,
- wyszukiwac precyzyjnie po tym w jakim języku zostały przygotowane materiały?
Już słyszę odpowiedź że oczywiście tak, że można przecież wyszukać bo mamy utrzmaną strukturę: opis języka jednostki archiwalnej znajduje się pomiędzy znacznikami <langmaterial>, a daty mamy pomędzy znacznikami <date>. I tu dochodzimy do sedna: jeżeli w taki opisie wykonywanym "z ręki" ktoś się pomyli i zamiast "łacińskim" napisze "łącińskim" albo zamiast 1854-10-05 wpisze 5.10.1854 to żaden system informatyczny nie będzie w stanie walidować poprawności wpisanej informacji. Oczywiście traktowanie dat jak tekstu dowolnie wpisanego nie pozwoli na prezyzyjne wyszukiwanie wg daty nie mówiąc o sortowaniu po takich danych.
Dodaję ten głos w dyskusji aby zwrócić Waszą uwagę, że walidacja danych dotyczyć powinna nie tylko haseł w opracowanym precyzyjnie tezaurusie.