カテゴリー別アーカイブ: 阪口周

12月15日 阪口周

@先週の集中セミナで、辞書作りのステップまで終了。
続けて、レビューやブログのマイニングのステップだが、読み取れなかったりと試行錯誤している段階です。つまり進捗はあまりないです。どうしてもわからなければ、また集中セミナで先生に相談。

@対象の文書
*ウィリアム・アイリッシュ「幻の女」
http://bookmeter.com/b/4150705518

*ギャビン・アイラル「深夜プラス1」
http://saiten.dip.jp/mystery/main/list_review/2671

*アーサー・コナン・ドイル「シャーロック・ホームズの冒険」
http://www.geocities.jp/henri_de_regnier/holmes/holmes_book.htm

→比較的、登場人物の名前が出てくるレビューであることを意識。
有名な本であるほど長文での記述があり、使いやすい。
ほかにも、登場人物が多い小説など、選ぶ基準はいろいろあるので、その点も、今日のセミナで整理していきたい。

ougonbrg1
の読み取り結果
*fullname起動:文書内で唯一、フルネームでの記述であるヴァン・ダインに関して、固有名詞とは読み取れず、辞書データを確認すると正式にs・s・ヴァン・ダインで登録している登録しているため、読み取れないことがわかり、この文書データに関してはfullnameは全く機能しないことが分かった。
*seimei起動時、エラリィ・ポゥ・ルルゥの3つがそれぞれ、辞書でエラリー・ポールルーで登録しているので読み取れなかった。また、ヴァン・ダインの記述に関しては前半のヴァンは固有名詞で読み取れたが、ダインは一般名詞になってしまった。

@スケジュール
*12月15日集中セミナ:文書データの読み取り・文書の選考基準の整理→解析結果の評価の仕方を決める。(うまく進めば実際の評価まで進む)
*12月22日ゼミ:評価結果の整理
*12月22日集中セミナ:卒論執筆開始

12月08日 阪口周

@前回のコメントの外来語の表現の揺らぎについての選択について
・レビューから人名を精度よく抽出できるようにユーザ辞書作成
・人名の揺らぎを補正するロジックに特化する
二つの選択があるとコメントいただいたが
以前から行っていた上のレビューから人名を精度よく抽出できるようにユーザ辞書作成を選択

@今週したこと
・フルネーム
%e3%83%95%e3%83%ab%e3%83%8d%e3%83%bc%e3%83%a0
・苗字
%e8%8b%97%e5%ad%97
・名前
%e5%90%8d%e5%89%8d

→人名データを作成(細かい部分はまだ完成していない。先生に確認しつつ進めたい部分がある。)。3つの人名データを使う。ミドルネームはそれだけで用いられることはないので無視する予定。
→12月8日のセミナでcsvファイルにして辞書に追加していく。
→フルネームだけでなく姓名を用いることによって、1~3のデータを追加したそれぞれの辞書の精度を比較できる。それをどこに活かすか。
・以下の辞書の評価に使える
・3つのデータを採用する意義としても記述できる

@辞書の評価方法について
翻訳版の小説のレビューで辞書の精度を示す。

@スケジュール
*辞書作りは12月8日のセミナで終了する。
*辞書評価について12月15日で終了。その後すぐ執筆開始??
ここからのまだ必要なステップはあるか?先生に聞きたいです。

12月1日 阪口周

@辞書作りのステップはセミナで!

@IPAdicの辞書データを文部省の定めるルールとの違いなどを確認する(エクセルデータ内で検索していく)

*ポゥは該当なし。ポウで検索→伝法の読みとしてデンポウがヒット。
エラリィ・エラリイ、ルルゥ・ルルウはすべて該当なし。
カーを検索→ベーカー、カールソン、パーカーポウルズ、カート、リンカーン等がヒット。
ヴァンは、ヴァンデンがヒット。
アガサ、オルツィは該当なし。

*次に、ツィを検索。ソルジェニーツィン、エリツィンがヒット。
リィ・リイは該当なし。ルゥ・ルウは該当なし。

*また研究の小説に関係ないが、イェを検索、イェーキン、イェルぺーションがヒット。トゥを検索、アルトゥロ、アブトゥロハノフ、クマラナトゥンガ、アフトゥルハノフ等がヒット。

⇒これらから言えること
文部省のルールでは「ヴァ」は第2表に存在し、「バ」は第1表に存在。より原語に近づける場合は第2表を用いるとある。また、自分が増やす予定のWikipediaのデータも「ヴァ」を用いるので、それぞれのデータの外来語の表記ルールの方向性は同じだといえる。
ただし、文部省のページには、人名は表記は定型はなく、慣用的だとある。よって、「ヴァ」は「バ」、「ツィ」は「ツイ」、「リィ」は「リイ」、「ルゥ」は「ルウ」と表記の揺れは、すべて同一と分析できるようにするのがベスト。(自分がするかは未定)また、同一と分析する際の方向性は、先に書いたように、「バ」を「ヴァ」とし第2表を採用するように統一するべき。

 

@今後のスケジュール
ステップ1;エクセルのデータにおこす・Mecabの辞書整備
→12月1日のセミナ中に行う。絶対に。
*ステップ2;辞書の評価
→外国語の翻訳版の小説レビューで調査し、精度を示す予定
*ステップ3;研究意義など過去の研究課程のまとめ
→そのまま執筆にかかわる部分なのですべての作業と並行して行う
*人名分析から研究を派生させるかという問題
卒論を書き上げるということを踏まえて先には進まないつもりです。

11月24日 阪口周

@先週、Rの現状の採用している辞書システムを表示させて、今そのNAIST辞書の外来語の表示の採用しているルールを確認しているところです。というかわからないです。。。

@この先、検証データとして必要となる別の小説のレビューを探し中です。外来語の人名を整備する以上、同じように外来語の人名が出てくるものを採用しないと良い結果が得られなさそう。。。
→翻訳版の推理小説なら、いくらでもみつかる!それで良い?

@あとは、人名を分析する意義として提示するものとして、今自分の過去の研究過程をまとめ中です。下に重要であると感じる点をいくつか挙げる。
→前提となる真相:犯人は「ヴァン」。そして、ヴァン(島にいる人)=守須恭一((本土にいる人)。この犯人が誰というストーリー(フーダニット)の場合、まず人名が重要である大きな意味を持つと主張できる。

*以下、斜線はレビュー。
→Ⅰ:犯人推理の手がかりという点
同一人物である「島」の“ヴァン”と「本土」の“守須恭一”を別人だと偽装するトリックです。(http://www5a.biglobe.ne.jp/~sakatam/book/yakata1.html)
ヴァンを守須だと見抜けるか? (http://ameblo.jp/rsn48/entry-11866792562.html)
⇒辞書のピックアップ;「同一人物であるヴァンと守須を。」=「ヴァンを守須だと見抜けるか」
重要な点;「あの人」と「守須」をシステムとして結びつける難しさがあるが、固有名詞に注目すれば、ヴァンが本土のあの人間と同一人物だということを完全に推理することは不可能です。(http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1446481379)といった文章の場合、「ヴァン=本土のあの人」と分析し、他のレビューで「本土のあの人=守須恭一」とあれば、「ヴァン=守須恭一」と導ける。

→Ⅱ:ミスリードという点
「守須=モーリス・ルブラン」だという刷り込みがなされます。まさか十角館のヴァンだとは思えない。(http://viceandvirtue.seesaa.net/article/288684430.html)
守須という名前からミステリ好きはモーリス・ルブランを連想してしまうことだ。
コナン・ドイルの江南という対になる人物がいるために一言も言われていないのに、守須=モーリスだと錯覚させられる。(http://ameblo.jp/rsn48/entry-11866792562.html)
⇒辞書のピックアップ;守須=モーリス・ルブラン。「刷り込み」=「連想」=「錯覚」。
⇒重要な点;「守須」という人名を基準にして、「刷り込み」=「連想」=「錯覚」といったミスリードを示すような単語が共起することで、「守須」という人物にミスリードがあることを導ける。

→このような点から人名分析に意義があるといえる。

@今後のスケジュール
@ステップ1;エクセルのデータにおこす・Mecabの辞書整備
→技術的な面が大きいため先生のアドバイスをいただきながらセミナ中心で行っていく
@ステップ2;辞書の評価
→評価方法については先行研究を探しつつ、先生にもアドバイスいただく。今のところは、人名の評価は主観でできることから、Rと自分で作った辞書との比較による数値的な評価で考えている。
→12月に行う
@ここまでで研究のひとくくり
→次に進める時間があれば、人名データの精度を上げるか、難易度という項目に触れていくか、進捗による
→難易度について
人名抽出が難易度に深くかかわるという根拠が見つかるようであれば進めそうだが今はない。そのため、進まない予定。

11月17日 阪口周

※今日の集中セミナで、前回から言っていたRの現状の辞書の状況を把握する作業が進まない部分を先生に手伝っていただく時間をとりたいです!
→それに伴い、外来語のルールの自分の研究での方針を確定したい。つまり、Rの現状の辞書状況と自分が定めるルールの整理。

@2つのデータについて
先生のコメントの理解があいまいかもしれないです。
Rの分析データ、名詞が固有名詞ではなく一般名詞となっている手を加える前のデータと、手を加えた後の固有名詞として分析されているデータの2種ということで合っている?

@人名を取り出す意義について
レビューから小説の内容を分析するというのがもともとの研究の中心でそのなかで、人物名の抽出に重点を置いた。進めてきたなかで、人物名の抽出に意義を見出せるものをピックアップしていく。

@今後のスケジュール
@ステップ1;エクセルのデータにおこす・Mecabの辞書整備
→11月中に終わらしたい(のこり2週)
→11月中のセミナ中心で行っていく
@ステップ2;辞書の評価
→評価方法については先行研究を探しつつ、先生にもアドバイスいただく。今のところは、人名の評価は主観でできることから、Rと自分で作った辞書との比較による数値的な評価で考えている。
→12月に行う

@ここまでで研究のひとくくり
→次に進める時間があれば、人名データの精度を上げるか、難易度という項目に触れていくか、進捗による
→難易度について
人名抽出が難易度に深くかかわるという根拠が見つかるようであれば進めそうだが今はない。そのため、進まない予定。

 

11月10日 阪口周

 今週やってきたこと
・外来語の表現について
わからないこと、質問したいこと
・Rの現状の辞書の状態の確認(固有名詞、一般名詞の登録状況)
→以下のページなどを参考にしましたが、わかりません。(http://www.mwsoft.jp/programming/munou/mecab_command.html)

 外来語の表現について
文部科学省の定める規定からいくつかの留意事項を以下に引用した(斜字)。
留意事項その1(原則的な事項)
2 「ハンカチ」と「ハンケチ」,「グローブ」と「グラブ」のように,語形にゆれのあるものについて,その語形をどちらかに決めようとはしていない。
3 語形やその書き表し方については,慣用が定まっているものはそれによる。分野によって異なる慣用が定まっている場合には,それぞれの慣用によって差し支えない。
4 国語化の程度の高い語は,おおむね第1表に示す仮名で書き表すことができる。一方,国語化の程度がそれほど高くない語,ある程度外国語に近く書き表す必要のある語――特に地名・人名の場合――は,第2表に示す仮名を用いて書き表すことができる。
5 第2表に示す仮名を用いる必要がない場合は,第1表に示す仮名の範囲で書き表すことができる。
例 イェ→イエ ウォ→ウオ トゥ→ツ,ト ヴァ→バ
(第1表・第2表はリンクで確認http://www.mext.go.jp/b_menu/hakusho/nc/k19910628002/k19910628002.html)

これらの留意事項から言えること
@汎用的に人名の表現の形の定型はなく慣用的である。
→自分の研究においてはどの表現に統一するかが重要。
@第1表が基本として使われ、より原語に近づける場合は第2表を使う。
→特に自分が研究で扱う表現の曖昧な語句として以下の3つがある。
「ポゥ」「エラリィ」「ルルゥ」
まず扱っている小説自体に表現の揺れがある。
ノベルス版では「ポゥ」「エラリィ」「ルルゥ」と表記されていたが、
文庫化された際に「ポウ」「エラリイ」「ルルウ」と変えられた。
そして、辞書整備に用いる予定のデータ(ウィキペディア)は
ポゥはポー、エラリィはエラリー、ルルゥはルルーと表現している。
このことから、データは第2表を用いていると言える。
今後のスケジュール
@ステップ1;エクセルのデータにおこす・Mecabの辞書整備
→11月中に終わらしたい(のこり2週)
@ステップ2;辞書の評価
→評価方法については先行研究を探しつつ、先生にもアドバイスいただく。今のところは、人名の評価は主観でできることから、Rと自分で作った辞書との比較による数値的な評価で考えている。
→12月に行う

@ここまでで研究のひとくくり
→次に進める時間があれば、人名データの精度を上げるか、難易度という項目に触れていくか、進捗による

 

 今後参考にするページ

10月27日 阪口周

前回のせんせいのこめんとより
今週したこと3つ

①先週の名前のリストの文章内での現状の読み取り
②Rの辞書の確認(固有名詞、一般名詞の登録状況)
③外来語の表記ルール、また採用するデータがどのルールに基づくか

①文章内での名前読み取り
使った文章
「第九章 五日目」まででオルツィ、カー、ルルゥ、アガサ、ポゥが殺されてエラリィとヴァンの二人が残り、さらに「第十章 六日目」で十角館が炎上して全員死亡という状況が知らされることで、嫌でもA.クリスティ『そして誰もいなくなった』の結末を連想させられる中、“ヴァン・ダインです”(ノベルス248頁/〈新装改訂版〉402頁)というただ一言で明らかにされる真相は、やはり強烈なインパクトがあります。

読み取り結果

@一般名詞として読み取ったもの
オルツィ、カー、ルルゥ、アガサ、ポゥ、エラリィ、ヴァン、ヴァン・ダイン

@固有名詞として読み取ったもの
クリスティ(A・クリスティとは読み取らない。また人名として表示される。)

②調べたコマンドを入力しているが確認できませんでした。。。

③外来語の表記方法について
扱っている小説自体に表現の揺れがある。
ノベルス版では「ポゥ」「エラリィ」「ルルゥ」と表記されていたが、
文庫化された際に「ポウ」「エラリイ」「ルルウ」と変えられた。
使うつもりのデータは文部科学省が提示するルールと同じだが、ポゥはポー、エラリィはエラリー、ルルゥはルルーであり、データを変える必要がある?

10月20日 阪口周

前回の先生のコメントより、現状の辞書の標準状態と、自分の研究の拡張状態の精度のある程度の比較目安の提示!

読み取ったリスト

①バロネス・オルツィ、オルツィ②エドガー・アラン・ポー、ポウ、ポゥ
③ジョン・ディクスン・カー、カー④エラリー・クイーン、エラリィ、エラリイ
⑤S・S・ヴァン・ダイン、ヴァン⑥アガサ・クリスティ、アガサ
⑦ガストン・ルルー、ルルウ、ルルゥ

現状のRによる
@固有名詞として読み取れるもの

ポゥ、エラリィ、ヴァン・ダイン、アガサ、ルルゥ

@一般名詞として読み取るもの

バロネス・オルツィ、オルツィ、エドガー・アラン・ポー、ポウ、ジョン・ディクスン・カー、カー、エラリー・クイーン、エラリィ、ヴァン、アガサ・クリスティ、ガストン・ルルー、ルルウ

➡固有名詞つまり名前として読み取れているものが少ない。
フルネームなら読み見とれる、ヴァン・ダインや、フルネームは読み取れず省略系で読み取れる、ポゥ、エラリィ、アガサ、ルルゥと、個別でバラバラの状況であり、全体(推理小説家の名前データ)としてフルネームでも省略系でも読み取れるように拡張することが目標。

➡また、読み取り結果から推理小説家の名前が、辞書に少ないと考えられるので、推理小説家の名前のデータを整備することが有意義といえる。

➡今回の読み取り以外の表現の幅でもRを使って試してみる。
例)エドガー=アラン=ポー

来週から、辞書整備に移る。