カテゴリー別アーカイブ: 垰ひかる

12月22日 垰ひかる

ゼミ論文Ⅱ

↑ピアレビュー用
4章が中途半端に終わってるので、節の番号がおかしいのと参考文献の番号がズレていくことは無視してください!

たおちゃんピアレビュー 山本

ゼミ論文Ⅱ 垰
(↑最終版)

12月15日 垰ひかる

前回の集中セミナーにて、11/24の集中セミナーで作成したコードを元に文章を取得した
URLを手動で入力し、〈p〉が使われている部分を取得した。

Google Drive

不必要な部分が多々見られるが、これを取得した後に何かしらの方法で消すことができればよい
最終的にはクローリングして、スクレイピングできるようにしたい

ゼミ論文Ⅱ 垰

 

12月8日 垰ひかる

前回:対象を日本百名城に絞る
スクレイピングの準備を始める

スクレイピングができるようになるまで時間がかかるのでOctophaseで収集できるデータを集めてみた。

「日本百名城塗りつぶし同好会」というサイトがあるhttp://kum.dyndns.org/shiro/index.php
7967名が参加し、206231の登城報告が登録されている

各城かなりの量の投稿が寄せられている
(最小:根室半島チャシ跡群 873件、最大:名古屋城 3131)

実験的にOctophaseで根室半島チャシ跡群の投稿を取得し、TTMにかけた
しかし、観光局などのサイトと違って個人的な感想などが多く、推薦に使うのは難しそう


≪32城目 根室半島チャシ跡群(山城)≫
難易度:★☆☆☆☆ 所要時間:15分程度 (オンネモトチャシのみ)

「前々日に帯広で44年ぶりの大雪が降ろうが、今更飛行機キャンセルできるか!」と思い半ば強行的に行ってきました。
根室半島へ来るのは2年ぶりです。前回は納沙布岬へ来るだけでした。まさかこんなすぐそばに城があるなんて、当時は知る由もありませんでした。

釧路空港からずっとレンタカーで移動。前日に根室市の資料館でスタンプを押し、この日は夜明け前に移動を開始。納沙布岬で朝日…の手前にある雲をしばし眺めた後、チャシ付近にある空き地のような駐車場に車を停め、歩いて5分もせずにチャシへ。
北方の島々をただぼんやりと眺める無心の一時。
チャシは私たちに至上の時間を与えてくれます。


ユーザーが行った城を一覧で見ることができるようになっていて、
こちらの方をユーザーの嗜好を測る場合に使うことができるのでは?
http://kum.dyndns.org/shiro/personal.php?pid=1

 

これからの方向性案

・各城のHPや観光局HPなどに掲載された城の紹介文を取得する
・取得したデータをTTMにかけてキーワードを抽出する
・城の特性要素を決める
・キーワードを特性要素に分類
・城の特徴ベクトルを作成
・利用者の特徴ベクトルを作成
・類似度の計算
観光地の特性一覧

観光地特徴行列

利用者履歴行列

利用者特徴行列

〈参考資料〉

「協調フィルタリングとコンテンツ分析を利用した観光地推薦手法の検討」
樽井勇之
上武大学経営情報学部紀要 2011 第36号 p.1-14
https://gair.media.gunma-u.ac.jp/dspace/bitstream/10087/6536/4/730-36-001.pdf

 

これで進める場合、必要なこと
・城の特性要素を調べる
・行列の知識を入れる

11月24日 垰ひかる

対象の幅を狭める
・日本
100名城の148番までをまずは収集しルール作りに使い、49番~100番で確かめる。
(北海道から北陸東海が1~48番まで、近畿から沖縄で49100となっているため)http://www1a.biglobe.ne.jp/nihonjokaku/pdf/100list.pdf

(選んだ理由)
各都道府県に最低でも1つ以上選定されている
日本らしさがある
スタンプラリーの本が出版されていて、城めぐりができるようになっている

 

 

集中セミナーでスクレイピングを始めるためにスクレイピングについて調べる
スクレイピングツール“Octoparse”を試用(コードを書かなくてもできる)
Wizard Mode“List and Detail Extraction”タイプを使ってWikipediaの「日本100名城」ページからそれぞれの城のページへジャンプして概要を取得し、CSVファイルの作成した
Wikipediaのように構成が似てるページからは簡単に情報の抽出ができた
→しかし、構成が似ていないWebページではうまく機能せず

 

11月17日 垰ひかる

対象候補には兵庫県と岐阜県の2つを挙げた。
・兵庫県:自分が住んでいる、世界遺産の姫路城や日本三大名湯
(日本三大名泉?)の有馬温泉、近年話題の竹田城がある
・岐阜県:世界遺産の白川郷、日本三大名湯の下呂温泉をはじめ飛騨などの観光スポットがある、今年ヒットしている「君の名は。」や「聲の形」をはじめとしたアニメの舞台になっている場所が多く、話題性のある新しい観光スポットもある

暫定兵庫県で、手動でデータを収集
ひょうごツーリズム協会のHPではバーベキュー場なども掲載されている。
掲載されている情報はすべて使用するのか選択するのか
選択するとしたら基準は?

集めている途中のデータを実験的にTTMにかけてみたところ
動詞が多く抽出される割に重要でないものが多いので
動詞を抽出の対象から外すことも検討する。

読んだ文献
石川徹也、宇田隆幸「情報フィルタリングの利用システム:情報推薦システム」情報の科学と技術 56巻10号、458~463(2006)
神嶌敏弘「推薦システムー情報過多時代をのりきる」情報の科学と技術 56巻10号、452~457頁(2006)

11月10日 垰ひかる

Excelで作成したファイルはやはり使用できなかったのでメモ帳を使う

・調査対象(エリア)を絞る→どのような基準で選べば良いのか

・オプションファイルの作成
①キーワードファイル
 MeCabの辞書にない語を分析単位とするときに用いることができる。
(注意事項)たとえば、「京都」をキーワードに入れた場合、「東京都」は「東」「京都」に分断されてしまう。

②同義語ファイル
NTTコミュニケーション科学基礎研究所『日本語語彙体系』や国立国語研究所『分類語彙表』などを参考にしながら作成する。
応用して、あるカテゴリに属する語の出現頻度をまとめて集計することもできる
ex.)ポジティブ形容詞とネガティブ形容詞
(注意事項)活用語は原型で記述する。

③不要語ファイル
以前実験した大阪城公園のデータでいうと出現頻度1位の「する」は、「位置する」「選定されている」「築城した」などから来ているもので「位置」「選定」「築城」が残れば意味が通るため不要語に入れてしまう方が良いと思う。

 

・出現頻度と出現件数
出現頻度:あるテキスト中に出現した語ののべ回数。一つのテキストに2回以上出現したらその回数だけカウント
出現件数:抽出された語が1回以上出現するテキストの件数。一つのテキストに2回以上出現しても1件とみなす。

一つのテキスト内で同じ語が繰り返し使われている場合は出現頻度が高くなるので注意しなければならない。
出現頻度と出現件数両方から見る必要がある。

・ゼミ論文に利用できそうな文献があったので読み進めている

来週までにやること:調査対象の選出、データ収集を徐々に、文献を読む
集中セミナーでAPIまたはスクレイピングをやっていく

 

 

10月20日 垰ひかる

タグとキーワードに関して同じ意味で利用していたが今回から定義づけを変更
・タグは観光地の名前を使う
・キーワードはタグの説明に使われている特徴語

ex.)
大阪城公園:大阪の中央に位置する、総面積105.6haの広大な公園。大阪城天守閣をはじめとする歴史建造物を有するほか、約300本の桜を楽しめる西の丸庭園や、約100種、1270本の梅の花が咲き誇る梅林など、四季折々の花を楽しめるスポットが充実。また、大阪城音楽堂や大阪城ホールでは、音楽コンサートもたびたび開催されている。弓道場、修道館などスポーツ関連施設もある。春・秋の植木市や西の丸庭園観桜ナイターなどのイベントも毎年開催。

(大阪観光局HP OSAKAINFO http://www.osaka-info.jp/jp/facilities/cat7/5287.html より引用)
この場合のタグは”大阪城公園”、キーワードは”公園”や”歴史建造物”など
一つのタグについて複数の情報源から説明をとってきて重要度の高い言葉をピックアップしキーワードとする

TTMで使うデータをエクセルで作成し、csv形式で保存するとなぜか使えない(Excel2016の問題なのか、うまく作れていないのか)
メモだとできるがメモよりもエクセルのほうがやりやすい

実験 10/20
タグと出現語のクロス集計
この場合は”桜”や”梅”がキーワードとなる

データから取り出したいものは現時点で単語がメイン

ゼミ論文に向けて
はじめにと研究背景で用いていた文章はほぼそのまま利用
先行研究以降を書き直し&加筆する