月夜見: XMLDBに翻弄される…

MEDLINE(PubMed)の検索インデックスで使われているシソーラスデータでMeSH(Medical Subject Headings)というものがある。

1年毎の改訂で、最新版のダウンロードはフリー。

こいつがXMLファイルで提供されていて、

安易にXMLDBを使ってみようと思ったのは浅はかだった…

現在構想しているシステムのサブシステムで、MeSHデータの検索ができるようにしたい。

しかしXMLDBは時間がかかりすぎる。

eXistというものを意気揚々といれてハマった。

これはDOMでツリー構造を保存している？

MeSHのデータは300MB弱で、余裕でOutOfMemoryError。

（ひねくれてjavaヒープメモリを数Gbとか用意してやりたくなるが、諦めた）

IBMのDB2 Express-Cがフリーで使えるが、なんかめんどくさくなった（笑）

高速を謳っている他のXMLDBは金がないので手が出せない。

結局、今後の処理のことも考えて、memcache+MySQLみたいな感じにしとくか、と思い始めた。

なんか1日ちょっとで終わる予定の工程が1週間以上伸びてる；

月夜見