スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

Tag:スポンサー広告 

【Solr】独自にカスタムした辞書をSolrに組み込む方法

今回はSolrに対してカスタムされた辞書の組み込み方法を紹介します
OSはCentOS 5.5を使用しています

事前準備

この事前準備は環境が整っている方は読み飛ばしていただいて結構です

antのインストール
最初自分でダウンロードしてビルドしようと考えましたが、yumで一発解決です
yum install ant

svnのインストール
yum install mod_dav_svn subversion

antとsvnがそろえば事前準備は完了です

ここからの流れをざっくりまとめると

1. 辞書をもとに形態素解析するライブラリのソースのダウンロード
2. カスタム辞書の編集、追加
3. 辞書をもとに形態素解析するライブラリのコンパイル
4. Solrへ組み込み

という流れになります

Lucense GoSenのライブラリのソースコードを取得&コンパイル

svn checkout http://lucene-gosen.googlecode.com/svn/trunk/ lucene-gosen-read-only

辞書のダウンロード

cd lucene-gosen-read-only/dictionary
ant -Ddictype=naist-chasen

カスタム辞書の追加

cd lucene-gosen-read-only/dictionary/naist-chasen
vim fashion.csv

"Vネック",2000,名詞,一般,*,*,*,*,"Vネック","ブイネック","ブイネック"
"ショートパンツ",2000,名詞,一般,*,*,*,*,"ショートパンツ","ショートパンツ","ショートパンツ"
"タートルネック",2000,名詞,一般,*,*,*,*,"タートルネック","タートルネック","タートルネック"

辞書のコンパイル

辞書のダウンロードのステップ時に出来たコンパイル済みのものを一度クリーンします
ant -Ddictype=naist-chasen clean-sen
カスタム辞書(今回の例ではfashion.csv)と一緒にコンパイル
ant -Ddictype=naist-chasen -Dcustom.dics=fashion.csv

ライブラリのコンパイル

ソースをcheckoutしたディレクトリに移動
cd lucene-gosen-read-only
ant -Ddictype=naist-chasen

ここで lucene-gesen-read-only/dist/以下に
lucene-gosen-1.2-dev-naist-chasen.jarが出来ているはずです

Solrへの組み込み

mkdir /solr/lib
cp lucense-gosen-read-only/dist/lucene-gosen-1.2-dev-naist-chasen.jar /solr/lib/
vim /solr/conf/schema.xml


<analyzer>
<tokenizer class="solr.JapaneseTokenizerFactory"/>
</analyzer>


を適宜fieldType要素の中に入れて、Solrを再起動すればOK

この3つの単語を辞書として組み込んだ場合

Vネックがきたい

V ネック が きたい

という感じで分かれていたのが

Vネック が きたい

という風に分解されるようになりました

以上カスタム辞書をSolrに組み込む方法の紹介でした
スポンサーサイト
テーマ : プログラミング
ジャンル : コンピュータ

Tag:solr  Trackback:0 comment:0 

プロフィール

6rats

Author:6rats
こんにちは、ITベンチャーで働くエンジニアです
主に自分の周りで起きた技術的なことをメモとして書き残して行きます。
Android以外にもRuby/Ruby on RailsやFuelPHPなどなどたまにやります。基本的なスタンスとしては興味があるもしくは必要になったらいろんなことにチャレンジします。
最近はiOSアプリ開発を始めています。

購読
follow us in feedly
個人プロダクト

Androidアプリ

Twitterクライアント

Webアプリケーション

EcPriceWatch(Amazon価格の推移を計測、最安値を知らせるサービス)
Google AdSense
ブログ村
にほんブログ村 IT技術ブログへ
にほんブログ村
ブロとも申請フォーム

この人とブロともになる

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。