デスクトップ版剽窃チェッカー

デスクトップ版剽窃チェッカー概要

文章が剽窃かどうか(他の人が書いた文をコピペしたものかどうか)を確認するためのソフトです。以下の2つのモードがあります。

・Web検索モード
ウェブ上に同一の文がないかどうか検索し、ヒット件数を返します。
→結果サンプル(TBA)

・ファイル比較モード
複数のファイルを比較し、同一の文がないかどうかを調べます。
→結果サンプル(TBA)

分析可能ファイル:doc, docx, pdf, odt, jtd, html, txt


取り扱い種別

フリーソフト(広告あり)
※3回に1回の割合で広告サイトが表示されます。

要件

・Windows PC
・Microsoft .Net Framework 3.0以上
・ブラウザ(Chorme推奨)

利用させて頂いているもの

xdoc2txt
※PDF, docなどの変換に使用

tablesorter
※表の並び換えに使用(MIT License)

bootstrap
※htmlの整形に使用(Apache License 2.0)

フォルダ構成

【フォルダ】
css
 ---スタイルシートが含まれています。変更しないでください。
fonts
 ---フォントファイルが含まれています。変更しないでください。
html
 ---結果を格納します。初回実行時に生成されます。名前を変更しないでください。
images
 ---イメージファイルが含まれています。変更しないでください。
js
 ---スクリプトが含まれています。変更しないでください。
settings
 ---「設定」タブから読み込むデフォルトのフォルダです。ここにテキスト整形用のファイルを格納しておくと便利です。
txt
 ---WordファイルやPDFファイルをテキストデータに変換したものを格納します。初回実行時に生成されます。名前を変更しないでください。
 
【ファイル】
readme.html
 ---本ファイル
licenses.txt
 ---ライセンスについて記載しています。
HyousetsuChecker.exe
 ---実行ファイル。起動するにはこれをダブルクリックしてください。
xdoc2txt.exe
 ---docx, PDFなどを変換するためのプログラムです(再配布の許可を得ています)。削除しないでください。
xdoc2txt.txt
 ---上記プログラムの説明です。


免責事項

開発には細心の注意を払っていますが、このソフトの使用によって引きこされたいかなる損害も補償致しません。自己責任でお使いください。また、分析対象のファイルは必ずバックアップしてから実行してください。ソフトを起動した時点でこの事項に同意したことと見なします。

著作権

著作権は「剽窃チェッカー」の開発者Satoru UCHIDAに帰属します。無断での複製・配付を禁じます。また、雑誌等で取り上げる場合はご一報頂ければ幸いです。

TOPへ戻る 

起動・インストール・アンインストール

インストールは不要です。フォルダに含まれている実行ファイル(HosetsuChecker.exe)をダブルクリックすればプログラムが起動します。レジストリなどは使用していませんので、フォルダごとファイルを消せばアンインストールが完了します。

ブラウザの設定

[Chromeの設定]
特別な設定は必要ありません。このブラウザの使用を強く薦めます。

[Internet Explorerの設定]
・「個々のファイルの分析結果」→「文をクリック」で正しく表示するための設定
検索結果を表示するためにYahoo!に接続します。IEでは、クロスサイトスクリプティングの疑いがあるとして、この部分でエラーがでます。


これを回避するには、「インターネットオプション」から以下の画面に従って、「http://search.yahoo.co.jp」を「信頼済みサイト」に登録してください。※livedoor, exciteを検索エンジンとして使用する場合は、「http://search.livedoor.com」、「http://websearch.excite.co.jp」を同様に追加してください。

(1)インターネットオプション→セキュリティ→信頼済みサイト



(2)「サイト」→「このウェブサイトをゾーンに追加する」にURLを記述→「このゾーンのサイトにはすべてサーバーの接続(https:)を必要とする」のチェックを外す



(3)追加されたことを確認してください。



・テーブルソーターの表示
テーブルの並び替えを有効にするには、以下の画面で「ブロックされているコンテンツを許可」をクリックしてください。




[Firefoxの設定]
特別な設定は必要ありませんが、「分析結果の一覧」からファイル名をクリックすると以下の画面が現れることがあります。これはローカルファイル(パソコンに保存れているファイル)へのアクセスを認識しないために起こるようです。アドレスバーを選択し、エンターを押すと更新されファイルが表示されいます。



TOPへ戻る 

ソフトの使い方



【実行モードのタブ】
(1)ファイルを選択
ボタンを押してから選択するか、リストボックスにドラッグ&ドロップでも読み込めます。

(2)モードの選択
(a) 「Webを検索」は対象文字列をインターネットで検索し、ヒット件数を示します。インターネットに接続している必要があります。処理には時間がかかります。
★入力:日本語など全角文字列を含む場合、80文字が最大入力です。英語など半角文字列のみの場合、30単語が上限です。「文字数が多すぎる」というメッセージが多い場合、区切りの指定を工夫してください。

(b) 「ファイル間比較」は、複数のファイルを対象に、文字列が重複していないかを調べます。比較的短時間で終わります。

(3)文字コードの選択
テキストファイル以外が対象の場合、デフォルトのままで問題ありませんが、テキストファイルを対象とする場合は文字コードに注意してください。また、同時に複数の文字コードを混ぜて分析することはできません。

(4)実行
分析には時間がかかる場合があります。気長にお待ちください。途中で分析をやめる場合は「処理を中止」のボタンを押してください。

設定

(1)Web検索の設定
(a) 「汎用条件」では、X件以上あれば、一般的な表現として剽窃とは見なさない、という基準を設定します。
(b) 「最小文字列」は、検索タームの最小値を決めます。短すぎるとヒット件数が多くなり、正しい結果にならない場合があります。
(c) 「検出基準」は、剽窃が疑われるファイルであると判定する割合です。例えば、20%の設定だと、10文中2文以上が疑わしい場合、そのファイルを赤で表示します。
(d) 「分析用のテキストファイルを削除する」にチェックすると、Wordファイルを分析するために一時的に生成されたテキストファイル(txtフォルダ)を分析後に削除します。
(e) 検索エンジンはyahoo, livedoor, exciteを選択できます。yahooは連続使用をすると検索結果を取得できなくなることがあります。livedoor, exciteはyahooに比べて検索ヒット数が少なくなる傾向にあります。

(2)分割モード
文の分割基準を設定します。長すぎる文はヒットしにくく、短すぎる文はヒットが多くなります。ほどよい長さになるよう、この設定で調整してください。デフォルトでは句読点で区切ります。

ファイルから読み込む場合、「ファイルから読み込む」にチェックを入れ、「ファイルを開く」で指定してください。ファイルは、一行に1つ区切りとなる記号や文字列を入れます。

例えば:
===========
when
while
since
till
===========
とファイル中で指定すると、これらの文字列を区切りとして認識し、I was taking a bath when he gave me a call.という文は、「I was taking a bath」と「he gave me a call」に分割して検索されます。

(3)文章の整形
文章の部分的な修正による偽装を見抜くための機能です。例えば、「です。」「ます。」などを削除して検索・比較することができます。

ファイルで指定する場合、次のように書きます。

【置き換え】
===========
でした->だった
ありました->あった
===========
この設定で、「昨日は雨でした」という文は「昨日は雨だった」として検索されます。

【削除】
===========
でした->
ありました->
===========

削除をする場合は、->の後にスペースを入力してください。「昨日は雨でした」という文は「昨日は雨」として検索されます。

TOPへ戻る 

Q / A

Q 検索結果のリンク先のページが開けません。どうしてですか。
A ブラウザの設定がうまくできていない可能性があります。インターネットエクスプローラー、FireFoxをお使いの場合は、こちらで設定を確認してください。

Q 英語・日本語以外も検索できますか。
A 可能です。WordファイルやUTF8のテキストファイルで試してみてください。ただし、区切り文字に注意してください。

Q 剽窃がないと思えるファイルも赤で表示されてしまいますが、どうしてですか。
A 一般的な表現が多く含まれている可能性があります。設定の①汎用条件、あるいは③検出基準を変更してみてください。

Q 広告の表示を消すことはできますか。
A フリーで運営するため、広告を表示させて頂いています。現時点では広告を無くす設定はできません。ただし、学術用途などでどうしても困る場合は応相談としますので、御連絡ください。

Q 広告を掲載することはできますか。
A ランダムで表示されるページに記載することができるよう計画しています。書籍の広告などが最適かもしれません。詳細はお問い合わせください。

連絡先

info@lagiarism.strud.net

TOPへ戻る