>  教育サービス > 筑波ウェブコーパス

筑波ウェブコーパス

オフィシャルサイト
ウェブサイトから構築した11億語の大規模日本語コーパスです。
検索ツール(NINJAL-LWP for TWC)で、語彙の共起関係などを調べることができます。
NINJAL-LWP for TWC

使用データ

TWC ver.1.10では、日本語のウェブサイトから収集した11億3800万語のデータを使用しています。

機能

NINJAL-LWP for TWC(ニンジャル・エルダブリュピー・フォー・ティーダブリュシー、略称NLT)は、レキシカルプロファイリングという手法を用いて、名詞や動詞などの内容語の共起関係や文法的振る舞いを網羅的に表示することができます。

NLTでは、コロケーションや文法的振る舞いの情報を抽出するために、BCCWJのデータにアノテーションを付与した上で解析しています。アノテーションに使用している解析器・辞書は以下の通りです。

  • 形態素解析 MeCab 0.98 + IPA辞書 2.7.0
    *形態素解析用のIPA辞書は、代表表記の情報を含まないため、独自に拡張して代表表記に対応させています。
  • 係り受け解析 CaboCha 0.60

使い方

NINJAL-LWP for TWCのマニュアル(ワークショップでの配布資料)を公開しています。