WikipediaのデータをOracleにインポート

全文検索を試したいなーと思いつつ、テストデータの準備が大変なので、
Wikipedia日本語版のダウンロードデータを試すことにしました。
ダウンロードしたデータは後々、
Oracle TextやSolrのdataimport使うことを前提にOracleへ突っ込むことにします。

解凍すると6GB程のXMLファイルなんですが、xml2sqlというツールを使うと、
MySQLやPostgreSQL形式のデータインポート形式のファイルを作成することができます。

xml2sqlは最近のWikipediaダウンロードデータに対応してないので、
以下のページを参考に、PostgreSQL形式のインポートデータを作ります。

cat jawiki-20120104-pages-articles.xml| sed -e 's///' | /usr/local/bin/xml2sql -p

作成したデータ(text.sql）はIDとTEXT部分で構成されたタブ区切りのデータなので、
あとは、SQL*Loaderで読み込ませることができます。

ロード先のテーブル定義はこんなかんじ

create table wikipedia ( id varchar(10),text clob);

制御ファイルはこんなかんじ

LOAD DATA
INFILE 'Z:\TEXT.sql'
APPEND
INTO TABLE wikipedia
FIELDS TERMINATED BY X'09'
TRAILING NULLCOLS
(
"ID",
"TEXT" CHAR(1000000)
)

あとは、WikipediaのデータはUT8なので、NLS_LANGをJapanese_Japan.AL32UTF8などにして、

sqlldr solr/solr skip=3 readsize=2000000 control=cont.ctl

SQL*Loaderを実行すれば、wikipediaのデータをOracleに突っ込めます。

1/16　追記
Loadする行数が多すぎてそのままだとSQL*Loader-510が発生するので、sqlldrにreadsize=200000
を追記