電子テキスト入門

電子テキストとは何か?

ページ内目次

電子テキスト入門目次

睡人亭内参照ページ

睡人亭トップ 授業用電子テキスト入門電子テキストとは何か?

コンピュータ上で作成されたデータの種別(バイナリファイル・テキストファイル)の説明、デジタルテキストとテキストデータについて説明します。

ページ先頭

バイナリファイルとテキストファイル

コンピューター上で作成されたデータは、全てデジタル化(0と1との組み合わせのみで構築)されています。

これらデータには、文字(テキスト)だけで作られた物、また映像・音楽・画像はもとより、様々なアプリケーションソフトで作成されたデータや、個々のプログラムファイルも含まれます。

これらのファイルの中で、テキストデータ(文字)のみで作成されたデータを「テキストファイル」、それ以外の全てのファイルを「バイナリファイル」と呼びます。

テキストファイル
文字コードを示すビット列のみで組み合わされたファイルです。
見ただけで何が書かれているか判読可能なものを指します。
バイナリファイル
文字データ以外の様々な情報を織り込んであるファイルです。
ファイルの中身を見ても、何が書いてあるか一見してわからないものを指します。
テキストファイル以外のファイルは、全てバイナリファイルです(画像・音声・映像・WordやExcelの文書ファイルetc.)。
バイナリファイルの中には、内容の一部に可読可能なテキストデータを含んでいるものもあります。

Shift_JISでエンコードされたテキストファイルの中身(バイナリエディタBZで閲覧)

Word2003で保存されたファイルの中身(バイナリエディタBZで閲覧)

電子テキストとは何か?

電子テキストとは「何らかの文字集合で定義された文字と、特定のビット列との対応のルールに従い、0と1との組み合わせのみで構築された文字列データの事」を指します。

言い換えると「ある特定の文字集合に収録された文字(制御記号を含む)のみを、またある特定のエンコーディングスキームに従ってデジタル化したデータのみで作られたデータファイル」になるかと思います。

もっと簡単に言えば、「文字+制御記号」だけで作成されたファイルだと思っていただければよいでしょう。

「デジタルテキスト」「電子テキスト」と呼ばれる事もあります。

上記の定義に従って構築されたテキストデータを、特に「プレーン(な)テキスト」「フラットテキスト」と呼ぶ場合があります。

テキストデータ(テキストコーパス)とは何か?

テキストデータ
狭義の「テキスト」とは文書(そこの書かれた文字)そのものを指します。
コーパス
「資料の総体」
特定のテキストを対象として分析を行う場合、そのテキストが「コーパス」となります。
最近では、大規模な電子テキストの集合を「コーパス」と呼ぶようになってきました。これは、電子テキストをコンピュータで分析する研究手法の進展に伴うものといえるでしょう。
公開されているテキストコーパスの利用
最近、大部な書籍をデジタル化するのみならず、大規模なテキストコーパスの公開が進んでいます。
東京大学史料編纂所の各種データベースや、青空文庫、国文学資料館の古典データベースが日本では有名ですが、海外のデータベース(『二十五史』『四庫全書』『ブリタニカ大百科事典』「プロジェクトグーテンベルグ」など)も押さえておく必要があるでしょう。

睡人亭謹製