◆wikipediaのデータのダウンロード
日本語のサイトから、データをダウンロードしてきます。
http://download.wikimedia.org/jawiki/
pages-articles.xml.bz2 現在の版のXMLダンプ をダウンロードする
XML形式なので、xml2sqlを利用して、mysqldump 形式にデータを変換。
$wget ftp://ftp.tietew.jp/pub/wikipedia/xml2sql-0.5.tar.gz
$tar xzvf xml2sql-0.5.tar.gz
$cd xml2sql-0.5
$./configure
$make
$sudo make install
通常では、これで正常にインストールできるのですが、
configure: error: expat 1.95.8 or later is required.
こんなエラーが場合によっては、こんなエラーがでます。
configureファイルを解析すると原因は分かるのですが、
--with-expat=DIRECTORY でPATHをしていしてあげると解消されました。
$bunzip2 -c jawiki-latest-pages-meta-current.xml.bz2 | xml2sql
データを入れる前にテーブルを作成します。
create database corpus;
use corpus;
CREATE TABLE page (
page_id int unsigned NOT NULL auto_increment,
page_namespace int NOT NULL,
page_title varchar(255) binary NOT NULL,
page_restrictions tinyblob NOT NULL,
page_counter bigint unsigned NOT NULL default '0',
page_is_redirect tinyint unsigned NOT NULL default '0',
page_is_new tinyint unsigned NOT NULL default '0',
page_random real unsigned NOT NULL,
page_touched binary(14) NOT NULL default '',
page_latest int unsigned NOT NULL,
page_len int unsigned NOT NULL,
PRIMARY KEY page_id (page_id),
UNIQUE INDEX name_title (page_namespace,page_title),
-- Special-purpose indexes
INDEX (page_random),
INDEX (page_len)
);
CREATE TABLE revision (
rev_id int unsigned NOT NULL auto_increment,
rev_page int unsigned NOT NULL,
rev_text_id int unsigned NOT NULL,
rev_comment tinyblob NOT NULL,
rev_user int unsigned NOT NULL default '0',
rev_user_text varchar(255) binary NOT NULL default '',
rev_timestamp binary(14) NOT NULL default '',
rev_minor_edit tinyint unsigned NOT NULL default '0',
rev_deleted tinyint unsigned NOT NULL default '0',
rev_len int unsigned,
rev_parent_id int unsigned default NULL,
PRIMARY KEY rev_page_id (rev_page, rev_id),
UNIQUE INDEX rev_id (rev_id),
INDEX rev_timestamp (rev_timestamp),
INDEX page_timestamp (rev_page,rev_timestamp),
INDEX user_timestamp (rev_user,rev_timestamp),
INDEX usertext_timestamp (rev_user_text,rev_timestamp)
) MAX_ROWS=10000000 AVG_ROW_LENGTH=1024;
CREATE TABLE text (
old_id int unsigned NOT NULL auto_increment,
old_text mediumblob NOT NULL,
old_flags tinyblob NOT NULL,
PRIMARY KEY old_id (old_id)
) MAX_ROWS=10000000 AVG_ROW_LENGTH=10240;

携帯SEOで重要なのは、被リンクです。
自分のページがどの程度、リンクされているかという指標です。
ここで気をつけなければならないのは、外部サイトからのリンクなのか、内部サイトからのリンクなのかということです

今回は、この内部からのリンクを効率よく携帯SEOに役立てる裏技をご紹介します

例えば、
A: http://hogehoge.jp/
B: http://puge.hogehoge.jp/
といった形で、自分のドメイン+サブドメインのサイトをリンクすると内部リンクとして認識され、
携帯SEOにはあまり効果を発揮しません。
そこで、A,BのIPアドレスをそれぞれ別で用意します。
そうすることで、サブドメインでも、メインのドメインと同一サイトと認識されずに、
外部のサイトと認識されるようです。
IPエイリアスができる人はお試しください。

SEOを十分にしてGoogleにインデックス登録されたはずのURLが、
Googleで検索していると、検索結果のページタイトルやサマリーが文字化けしていることがあります

どういうわけか、以下のように「縺」「繝」「繧」という糸偏の漢字がかなりの頻度で出没しています

結果からいうと
metaタグでは、下のようにshift_JISで指定しているにも関わらず、
UTF-8でファイルを送信しているケースの場合に起こる現象のようです。
携帯SEO対策をする前に、
出力形式は、全てShift-JISになるように調整しましょう


