2010年4月25日日曜日

XMLDBに翻弄される…


MEDLINE(PubMed)の検索インデックスで使われているシソーラスデータでMeSH(Medical Subject Headings)というものがある。
1年毎の改訂で、最新版のダウンロードはフリー。
こいつがXMLファイルで提供されていて、
安易にXMLDBを使ってみようと思ったのは浅はかだった…

現在構想しているシステムのサブシステムで、MeSHデータの検索ができるようにしたい。
しかしXMLDBは時間がかかりすぎる。
eXistというものを意気揚々といれてハマった。
これはDOMでツリー構造を保存している?
MeSHのデータは300MB弱で、余裕でOutOfMemoryError。
(ひねくれてjavaヒープメモリを数Gbとか用意してやりたくなるが、諦めた)
IBMのDB2 Express-Cがフリーで使えるが、なんかめんどくさくなった(笑)
高速を謳っている他のXMLDBは金がないので手が出せない。
結局、今後の処理のことも考えて、memcache+MySQLみたいな感じにしとくか、と思い始めた。

なんか1日ちょっとで終わる予定の工程が1週間以上伸びてる;

0 件のコメント:

コメントを投稿