How to use

 

Dialouge Text Mining Tool (DTMT)の利用方法を紹介します。

 

DTMTは、発言の量と発言の順番の関係を可視化し、話し合いの定量的な評価情報を得るためのツールです。WSなどの議事録(発言録)を利用して、話し合いの場を振り返り、WSの運営・ファシリテーション・議論の技法に習熟する上で、ご活用頂ければ幸いです。

 

DTMTは、以下の4つのツールから成ります。

 

以下、利用手順です。

 

1)  発言録の準備

まず、発言録をExcelで作成する必要があります。以下のように、1行に1名の発言として、3列の情報として整備します。

1列目は、IDを記載します。IDとは、発言の順番であり昇順に並んでいる必要があります。

2列目は、発言者を記載します。

3列目は、発言を記載します。その発言者のその際の発言すべてを1つのセルに入力して下さい。

 

列名は、図に示されている通り、ID, person, sentenceとする必要があります。半角で、大文字小文字の違いに注意して入力して下さい。

 

これ以降のツールを利用するためには、ExcelファイルをCSVファイルという形式のファイルに変換する必要があります。発言録が日本語か英語かで手順が違います。

英語のテキストの場合

Excelで入力が済んだら、メニューから、ファイル→名前を付けて保存、ファイル形式として「CSVカンマ区切り(.csv)」を選択して下さい。ファイルの名前は任意でOKです。

なお、DTMTの入力用のCSVファイルは、文字コードがshift-jisである必要があります。WindowsのExcelで作成した場合は特に何も気にしなくて問題ないと思いますが、MacのExcelで作成した場合は以下の変換ツールを使ってEXCEL→CSVに変換することをお勧めします。もちろん、Windowsの場合も、以下のツールで変換してもOKです。

日本語のテキストの場合

日本語の発言録を利用する際は、これ以降のツールで語数を数える際に、英語のように単語がスペースで区切られていないので、品詞で文章を分割する「分かち書き」をする必要があります。DTMTでは補助的なツールとして、日本語のテキストを分かち書きにし、さらに、名詞だけを抽出する分かち書きツールがあります。とにかくまず日本語のテキストを分析したいという場合は、以下を利用してみてください。

入力ファイルのEXCELの発言録が右のような名詞のみのCSVファイルに変換されます。

 

これで入力ファイルの準備が整いました。

 

 

2)  テキストの分割

テキスト分割ツールを使って、任意の発言数で、自由に発言録を分割することができます。なお、発言数として、ある発言者が一度話し始めてから次の発言者が発言するまでを1発言としてカウントします。たとえば、30と指定すると、全部で300発言からなる発言録の入力CSVファイルを読み込ませた場合、10個のCSVファイルに分割されます。このツールを使うことによって、時間経過を追った分析を行うことができます。

以下のサイトから、

https://r-aps.shinyapps.io/cut-text/

Browseボタンを押して、先ほど作成した入力用のCSVファイルを読み込ませます。

次に「By how many utterances do you want to separate the text?」の下に、分割したい発言数を数字で入力します。

最後に Downloadボタンを押せば、指定した発言数で分割されたCSVファイルがZIPファイルとしてダウンロードされます。保存する場所を聞かれるので、PCの任意の場所に保存して下さい。

不要なファイルがサーバーに残っていると誤作動する可能性があるため、ツールを利用する前には毎回Clearボタンを押して下さい。

 

ダウンロードされたZIPファイルをダブルクリックすると、その中に分割されたCSVファイルが表示されるはずです。どのように分割されたか、ひとつひとつクリックして内容を確認することができます。なお、Macの場合は、EXCELで日本語のCSVファイルを開くと文字化けしますので、アプリケーションNumbersで開くようにして下さい。

 

ツール利用後は、次の利用者の方のために、また、個人情報保護の観点から、Deleteボタンを押して、アップロードした入力用のCSVファイルを削除して下さい。

 

全体を分析したい場合は、入力用のCSVファイルを上と同様にテキスト分割ツールに読み込ませ、分割の発言数として発言録のExcelの最後の発言IDを入力してください。

 

 

3)  述べ語数の比率・異なり語数の比率の算出&可視化

以下のサイトから、

https://r-aps.shinyapps.io/tm-index/

Browseボタンを押して、保存したZIPファイルを読み込ませます。

不要なファイルがサーバーに残っていると誤作動する可能性があるため、ツールを利用する前には毎回Clearボタンを押して下さい。

以下のようなグラフと表が出力されるはずです。横軸Time.Stepは発言区間を示し、分割されたCSVのファイル名と対応します。

Word Count Ratioとは、発言の中の述べ語数の割合を計算したものです。ここで、述べ語数とは、発言の中で使われた単語の総数のことです。この割合が大きいということは、たくさん発言したということを意味します。

Type-Token Ratioは、タイプ・トークン比とも呼ばれます。述べ語数に対する異なり語数の割合を計算したものです。ここで、異なり語数とは単語の種類のことです。タイプ・トークン比は、述べ語数に対して、どのくらいたくさんの種類の単語を使用したのかを示します。この割合が大きいほど、さまざまな単語を使って発言をしていたということを意味します。

Yule’s Kは、ユールのK特性値とも呼ばれます。タイプ・トークン比と同様に単語の多様性を示す指標です。K特性値が小さいほど、さまざまな単語を使って発言をしていたということを示します。K特性値はテキストの長さ(単語の量)に依存するので注意が必要です。大量のテキストを分析する際に使うとよいでしょう。

 

ツール利用後は、次の利用者の方のために、また、個人情報保護の観点から、Deleteボタンを押して、アップロードした入力用のCSVファイルを削除して下さい。

 

 

4)  発言のネットワークの可視化

発言ごとの順番により、発言者を線で結ぶことで、会話のやり取りをネットワークとして表現します。たとえば、発言者A,B,Cが、A-B-A-Cの順で発言した場合、A-B,B-A,A-Cのように発言者が結ばれていきます。

以下のサイトから、

https://r-aps.shinyapps.io/network/

Browseボタンを押して、保存したZIPファイルを読み込ませます。

次に「For which stage do you want to draw the conversation network?」の下に、会話のネットワークを表示させたい発言区間を1〜の数字で入力します。

不要なファイルがサーバーに残っていると誤作動する可能性があるため、ツールを利用する前には毎回Clearボタンを押して下さい。

以下のようネットワークが表示されるはずです。

ツール利用後は、次の利用者の方のために、また、個人情報保護の観点から、Deleteボタンを押して、アップロードした入力用のCSVファイルを削除して下さい。

 

 

5)  発言のネットワークの指標算出&可視化

前のステップで構築したネットワークに対して、社会ネットワーク分析の指標を利用して、 話し合いにおける発言者の位置付けや役割を分析することができます。

 

以下のサイトから、

https://r-aps.shinyapps.io/network-index/

Browseボタンを押して、保存したZIPファイルを読み込ませます。

不要なファイルがサーバーに残っていると誤作動する可能性があるため、ツールを利用する前には毎回Clearボタンを押して下さい。

以下のようなグラフと表が出力されるはずです。横軸Time.Stepは発言区間を示し、分割されたCSVのファイル名と対応します。

Degreeは、次数中心性と呼ばれ、発言者から出ている線の数を評価します。たくさん線が出ているということは、たくさん発言のやり取りをしたということです。

Closenessは、近接中心性と呼ばれ、発言者どれだけ話し合いの中心であったかを評価します。あらゆる発言者と繋がるのに必要な線の数が短いほど中心的であったと解釈されます。

Betweennessは、媒介中心性と呼ばれ、どれだけ会話のやり取りを仲介したかを評価します。他の発言者2名のあらゆる組み合わせにおいて、もっとも短く結ばれる経路にいるほど中心的であったと解釈されます。

 

ツール利用後は、次の利用者の方のために、また、個人情報保護の観点から、Deleteボタンを押して、アップロードした入力用のCSVファイルを削除して下さい。