MEDLINE(PubMed)の検索インデックスで使われているシソーラスデータでMeSH(Medical Subject Headings)というものがある。
1年毎の改訂で、最新版のダウンロードはフリー。
こいつがXMLファイルで提供されていて、
安易にXMLDBを使ってみようと思ったのは浅はかだった…
現在構想しているシステムのサブシステムで、MeSHデータの検索ができるようにしたい。
しかしXMLDBは時間がかかりすぎる。
eXistというものを意気揚々といれてハマった。
これはDOMでツリー構造を保存している?
MeSHのデータは300MB弱で、余裕でOutOfMemoryError。
(ひねくれてjavaヒープメモリを数Gbとか用意してやりたくなるが、諦めた)
IBMのDB2 Express-Cがフリーで使えるが、なんかめんどくさくなった(笑)
高速を謳っている他のXMLDBは金がないので手が出せない。
結局、今後の処理のことも考えて、memcache+MySQLみたいな感じにしとくか、と思い始めた。
なんか1日ちょっとで終わる予定の工程が1週間以上伸びてる;
0 件のコメント:
コメントを投稿