Tuesday, December 23, 2008

XML::Simple & utf-8

將 DSpace 的資料轉到 Excel ,先匯出 Dublin Core 格式的資料:

dsrun org.dspace.app.itemexport.ItemExport -t COLLECTION -n id -d director

其中 id 是從資料庫中找出的,跟網址列上的 handle id 不同。然後寫個程式將此 XML 格式轉到 HTML,原先用 XML::Simple 模組來讀取 XML 格式的 Dublin Core 資料,可是有些資料出現下列的錯誤訊息:

utf8 "\xB8" does not map to Unicode at ...

然後有些欄位出現部分亂碼,在 CentOS 5+Perl 5.8.8 和 WXP+ActivePerl 5.10.0 build 1003 都出現亂碼。後來在 5.10.0 使用 XML::Twig 模組,不需要 utf8::decode 也不會出現亂碼,處理 XML::Simple 抱怨有問題的資料也跟在 DSpace 網頁上看到的一樣。


Sunday, July 22, 2007

GreaseMonkey on IE

關於 User script 或是客戶端 scripts,Mozilla/Firefox 常用的有 GreaseMonkey,最近發現 IE 有 Turnabout,基本型只能安裝 Reify 所提供的功能,進階型才能安裝其他從網路上下載的功能,這項限制可能是基於安全性的考量。
目前基本型只有 5 項估能,跟圖書館相關的功能是利用 Book Burro 來比較購書網站的價格。根據網站資料,目前 IE 只支援 IE 6,較新的 IE 7 尚未支援,所以 Windows Vista 的使用者就無福享受了,還是使用 Firefox 較沒有相容性的問題,安全性也較佳
GreaseMonkeyTurnabout 的程式並不完全相容,還需要一些修改。

Labels: , , , ,

Thursday, November 16, 2006

Web 2.0 小學網站

Andy Powell 在 Building a Web 2.0 school Web site 提到如何幫助 Newbridge Primary School小學建一個網站。該校是兩個在同一地方的學校合併後的新學校,可用來建網站的資源只有儲存空間,雖然也提供ASP程式,因為作者不熟悉且不太願意去學,所以不想弄得太複雜,所以使用外部 Web 2.0 服務來建動態網頁部分。
建出來的網站 雖然不花俏,但是使用標準技術 (XHTML 和 CSS) 的結果是容易取用 (accessible)。這個網站混搭 (mash-up) 來自 Google Calendar (calendar entries), Flickr (images), Blogger (blogs); Del.icio.us (links) 和 Google Maps (maps) 的內容。
相片是來自學校的 Flickr 帳號;連結到站外是使用 Del.icio.us 服務;行事曆採用 Google calendar;學刊和其他新聞用 blog 來管理;每個課程也都有自己的 blog 帳號。
伺服端使用簡單的 ASP 和 XSL 轉換 (transformation) 處理來自 Blogger 和 Del.icio.us 的 RSS 成為 XHTML,網頁上使用 Javascript 來加入 Google 和 Flickr 的內容。
整個網站的建構並不用太多程式,只是善加利用其他網站提供的 Web 2.0 網站元件或 RSS,對於想要快速建立一個機構/單位的網站,可以參考看看。

Thursday, August 31, 2006

Google提供古典文學全文下載

對於圖書館界或是文化愛好者,合法的免費全書下載(pdf影像檔,不是文字檔)是有點遠的理想,Google在2006/8/31宣佈的這項消息,將這個理想拉近的不少。

雖然 Gutenberg 計劃提供全文下載,但是目前總數還不到兩萬冊,百萬圖書計劃的藏書量目前也只約一萬冊,這兩個計劃的結果都是經過OCR或人工檢測過的全文檔,Google Print 計劃似乎將全文檔供自己檢索用,但是讀者只能看到影像檔,而且只能一頁一頁的閱讀,不能下載到電腦或PDA來離線閱讀。這次將全書製作成pdf檔提供下載,對於上網不便的讀者而言是個利多,唯一的遺憾是Google沒有提供全文,無法在PDF中搜尋,要搜尋還是要道Google Print網站。

古典文學的全書下載提供了讀者一個閱讀上的便利,不用上網也可以品味人文,只是不知道可以全書下載的電子書有多少冊?根據估計,已無版權的書約10%以上,參予Google Print計劃的圖書館就提供千萬冊以上圖數,所以已無版權的圖書在百萬冊以上,若Google可以將這百萬冊圖書釋出,可能比一般圖書館的總館藏還多(台灣有百萬件館藏的圖書館大約不到10個),對於文化或知識的普及,貢獻不小。

Friday, May 05, 2006

圖書館流通藝術

圖書館的館藏量統計和流通統計也可以成為藝術品,美國西雅圖公共圖書館(Seattle Public Library)於去年(2005)完成的計劃:看見看不到的東西(Making Visible the Invisible),在流通櫃檯後面裝設6台LCD螢幕,根據杜威分類法來顯示館藏量及流通量,以及當日讀者借出館藏的關鍵字或主題分佈,可以讓硬梆梆的統計數據以即時的方式顯現出來,變成一個活生生的藝術作品。
一篇專訪該計劃的作者 George Legrady 對於執行該計劃的過程、構想、觀念等,非常有趣。

Tuesday, May 02, 2006

meta-account for patron

整合檢索 (meta-search) 已經逐漸流行開來了,雖然廠商的要價偏高,還是有些學校/單位開始使用,對於讀者在找資料方面的便利性而言,是毋庸置疑的。但是當讀者到數個圖書館借書時,要追蹤各到期日以免被罰款等,就不是那麼幸運了。好消息是 Libraryref 的免費服務,可以整合多個圖書館的讀者資訊,設立自訂的逾期前通知 (例如三天、一星期等),整合借閱資料和預約資料的一個服務系統,補強某些圖書館自動化系統的弱點,例如我用的圖書館自動化系統只能針對某類讀者設定固定天數的逾期前通知,無法根據個人的喜好設定通知時間。

不過壞消息是該系統目前只支援 Dynix 的系統,且不含 Java-based 的 Dynix WebPAC,且目前支援的圖書館清單中,並沒有台灣的圖書館。

主動出擊的參考館員

看到一則 RSS 的巧妙運用於參考服務,根據 AltRef 的 Brian Matthew 的 blog,他訂閱學生的 blog,然後搜尋像 "library", "assignment" 等關鍵字,當他發現學生有功課上的需要時,他就在迴響處指出一些有用的資源。

有些讀者指出這樣似乎有窺竊學生隱私權的爭議,可是該作者表示,只要在關於學術或研究上的文章做回應,學生並不在意這種"侵入性"的行為。關於花費時間的問題,該作者表示目前訂閱接近100個部落格,每天約有30-40個新文章,其中有7-8個符合設定的關鍵字搜尋,這中間約2個是有關參考或研究方面,所以每天只花了 10-20 分鐘在這項"工作"上,每週再做個大清倉,以免遺漏了些什麼,這花了30-45分鐘,所以時間方面還可接受。

Thursday, March 16, 2006

xISBN + LibraryLookup

xISBN OCLC 的一個實驗性計劃,輸入一個 ISBN,xISBN 網路服務傳回一組相關的 ISBN,可能是不同版本的圖書,或是不同出版社的出版品,傳回來的格式可以是 XML 或 XHTML。
例如,http://labs.oclc.org/xisbn/0192816640 傳回 ISBN 為 0192816640 的 XML 格式的相關圖書,http://labs.oclc.org/xisbn/0192816640.html 傳回 XHTML 格式的結果。
該系統的運作原理,基本上是根據 OCLC 的 WorldCat 計劃中的 FRBR 化書目資料,FRBR 可以將一本圖書的不同版次或語言或不同內容形式的書目資料集合在一起,例如紙本圖書、電子書和有聲書,也可將不同語言的翻譯作品集合在一起,有興趣的讀者可以參考 FRBR 網站。

LibraryLookup 是 Jon Udell 三年前的一項小計劃,利用 Bookmarklet 技術,也就是將一小段 JavaScript 拖到瀏覽器的工具列,當你在圖書相關網站時 (例如 Amazon, BN, isbn.ru)且網址含有 ISBN 時,點一下工具列的 Bookmarklet 來直接連到附近的圖書館或是學校圖書館的公用目錄系統(OPAC/WebPAC)。ISBN資料的擷取和連結到公用目錄系統的瑣事,就由該 Bookmarklet 來處理,好處是非常便利的檢查鄰近圖書館的藏書,不一定要從購書網站取得想要的資料。

xISBN Bookmarks 網站是結合 xISNB 和 Bookmarklet 的一項實驗,在挑選一個設定好的圖書館 WebPAC 或新增設定後,輸入一個 ISBN,左側框架(frame)顯示相關的 ISBN,右側框架顯示查詢圖書館公用目錄的結果,這項技術對於找書的便利性增進不少。

因為 xISBN 是根據 Worldcat 資料庫中的資料來搜尋相關書籍,難免有重英文而輕中文的狀況,畢竟 Worldcat 的中文資料還不是那麼多,要用這種方式來找中文書,找不到其他相關圖書的機率可能還蠻高的。