睡人亭トップ >> 授業用 >> N-gramモデルを利用したテキスト分析 >> 実際にmorogramを使ってみよう
最終更新日:
参照

morogramを使う前に

実際にmorogramを使ってみよう

sortlで並び替え

ngmergeで比較しよう

batファイルで楽をしよう

NGSMデータを加工しよう―その1―

NGSMデータを加工しよう―その2―

N-gramインデックス

N-gramモデルを利用したテキスト分析

実際にmorogramを使ってみよう

morogramの使い方 ―その1―morogramの使い方 ―その2―morogramの使い方 ―その3―注意事項

ページ先頭

morogramの使い方 ―その1―

  1. 立命の共用パソコンの場合は、ZIPファイルにマウスカーソルを合わせて右クリックするとコンテキストメニューが表示されますので、そこから[クイック解凍]を選択してください。
  1. 解凍後、生成されたファイルとフォルダをパスの通ったフォルダにコピーしてください。
  2. 立命の共用パソコンの場合は、フロッピーディスクではなく、必ず一次保存用フォルダ[一時保存用(d:\temp)]にコピーしてください。

ページ先頭

morogramの使い方 ―その2―

  1. 初めに[スタートメニュー]→[プログラム]→[コマンドプロンプト]を実行します。
コマンドプロンプト起動
  1. 下図のように[D:\TEMP]以外のフォルダが選択されていた場合は、以下の数値の順番に従って入力してください。
C:\ コマンドプロンプト
C:\>_
  1. [D:]と入力して[Enter]キーを押します。
  2. 左端のプロンプトが[C:\]から[D:\]に変わったのを確認したら、[cd temp\morogram]と入力します。
  3. これで、一時保存用フォルダ[実態は、d:\temp\morogram]に移動しました。
C:\ コマンドプロンプト
C:\D:
D:\>cd temp\morogram
D:\temp\morogram>
  1. そのフォルダに、どのような名前のファイルとサブフォルダがあるかは、dirコマンドで見る事が出来ます。その際、オプションの/Wを付けて実行すると、ワイド一覧形式で閲覧する事が出来ます。
C:\ コマンドプロンプト
E:\temp\morogram>dir /w
ドライブ E のボリューム ラベルは DATA です
ボリューム シリアル番号は FCF6-AFC2 です

E:\temp\morogram のディレクトリ

[.] [..] NGMERGE.PL
SORTL.EXE morogram-0.7.1w.exe
3 個のファイル 1,024,357 バイト
2 個のディレクトリ 1,922,961,408 バイトの空き領域

E:\temp\morogram>
  1. 移動後、[perl morogram-0.7.1.pl]と入力して[Enter]キーを押します。
  1. 下図のようなメッセージが表示されたら、morogramを使う準備が整いました。

オリジナル版

C:\ コマンドプロンプト
D:\TEMP\morogram>perl morogram-0.7.1.pl

morogram: N-gram tool version 0.7.1,
by Shigeki Moro (moro@ya.sakura.ne.jp).

Usage: perl morogram-0.7.1.pl [switches] input_file > output_file
--help Display this help.
--f=n Set minimum frequency (default: n=2).
--g=min,max Set minimum and maximal gram (default: min=1, max=256).
--p Delete punctuations.
--e Regard &Mnnnnnn; as a charcter.
--BOM Print Byte Order Mark (BOM).

実行ファイル版

C:\ コマンドプロンプト
D:\TEMP\morogram>morogram-0.7.1w.exe

morogram: N-gram tool version 0.7.1,
by Shigeki Moro (moro@ya.sakura.ne.jp).

Usage: morogram-0.7.1w.exe [switches] input_file > output_file
--help Display this help.
--f=n Set minimum frequency (default: n=2).
--g=min,max Set minimum and maximal gram (default: min=1, max=256).
--p Delete punctuations.
--e Regard &Mnnnnnn; as a charcter.
--BOM Print Byte Order Mark (BOM).

deleting temporary tables...failed
Total time: 0 hour(s) 0 minute(s) 0 second(s)

ページ先頭

morogramの使い方 ―その3―

オリジナル版

C:\ コマンドプロンプト
perl morogram-0.7.1.pl [オプション(複数指定可能)] 入力ファイル名 > 出力ファイル名

実行ファイル版

C:\ コマンドプロンプト
morogram-0.7.1w.exe [オプション(複数指定可能)] 入力ファイル名 > 出力ファイル名

オプション

オプション 説明
--help ヘルプの表示
--f=n 最小頻度の指定

数値は半角で指定。

無指定では、「頻度2以上」が指定される

--g=min,max 最小・最大グラムの指定

数値は半角で指定。

無指定では「最小1」「最大256」が設定される)

単一gram数を指定する場合は、min,max両方に同じ数値を入力

--p 句読点の消去
--e 実体参照形式&Mnnnnnn;(1≦nnnnn≦131,072)を一文字として扱う

この番号は、今昔文字鏡の文字鏡番号等を利用可能

※現在のバージョンではこのオプション付きでの実行にバグがあるので、利用は推奨しない。

--BOM Byte Order Markを出力

実行例

オリジナル版

C:\ コマンドプロンプト
perl morogram-0.7.1.pl --f=1 --g=2,5 100.txt > 101.txt

実行ファイル版

C:\ コマンドプロンプト
morogram-0.7.1w.exe --f=1 --g=2,5 100.txt > 101.txt

ページ先頭

morogramの出力形式

頻度[水平タブ]文字列[水平タブ]gram数
51       曰君子    3
110      君子      2
458      子曰      2
68       孔子      2
55       曰君      2
71       而不      2

ページ先頭

注意事項

ページ先頭


睡人亭謹製