-
工作環境介紹
原則上我們沒有固定的工作空間,都是在家裡完成工作,比較彈性,一週會跟組員開多次會議,然後固定每周三下午1點在1505B和教授開會,與教授報告這一週的進度,並和教授討論下一步的方向,遠距後和暑期則是改成在Teams上開會。
-
工作詳述
1.主題發想
起初一開始我們是3個人各自提出想要做的主題,我一開始是想以碳權價格分析與台灣未來碳權交易與碳定價可行性為研究主題,但在經過閱讀文獻與蒐集資料後,發現範圍過於廣可行性低,才作罷,而另一位同學周龍昇則一開始則想往股票分析研究,而陳氏芳玲同學則想以NFT為主題,在社群平台,像是 FB上發送相關問卷,讓大家填寫,最後經過互相討論後,決定以NFT作為研究的主題,在與教授討論後,認為此方法蒐集的資料有限,且較難以實現,而後我們改以蒐集網路上的民眾對於NFT的言論來進行輿情分析。
2.NFT背景及崛起
NFT在2021年掀起了一陣風潮,從單純的數位藝術品到現在頭貼身份象徵,其中最為人知曉的就是無聊猿,然而對於一般民眾而言,NFT的購買究竟是身份地位的象徵,還是單純的金融投資?再加上NFT風潮是不是會成為未來長期的發展趨勢,NFT有沒有可能成為曇花一現的「潮流品」,還是越趨成熟變成區塊鏈時代下的熱門產物,這些都有待我們再去探討與研究。
3.研究方法
於是我們以python爬蟲的方式爬取Dcard與Ptt這兩個目前較為大宗的社群討論平台為主,蒐集上面大量的NFT相關文章及留言,再來進行文字探勘與情緒分析,最後統整出NFT的民情與看法。
-
實習期間完成之進度
目前關於資料蒐集的部分已經完成了,已將Dcard和Ptt的兩三千筆留言及文章資料爬取完成
Dcard為年輕族群較常集中討論的社群
以下為Dcard上的385篇關於NFT文章及2000多則留言資料
而Ptt是以出社會或是較為年長的使用者討論的社群
以下為Ptt上關於NFT文章的多則留言資料
我們將Ptt和Dcard的資料爬下之後進行分類,經過一起討論分析後,以正向、負向、中立、不相關或無邏輯等類別以人工方式將資料分為四類,並給予以下編號
正向:1
負向:-1
中立:0
不相關或無邏輯:2
因為是先以個人主觀方式判斷正負面情緒,我們前後採取三人一起共同評論,和後來先各自評論後,再針對觀點不一樣的地方進行討論兩種方式,確保不會因個人主觀因素而有落差。
將Dcard與Ptt的千筆資料進行簡單的分類後,以正負向等統計進行簡單的圖表統計分析
從圖中可以看出,依據文章熱度與留言的正負成長可以看出民眾對於NFT的持有態度隨時間的改變,這就是目前的進度,接下來暑期預計對每筆資料的文字作文字探勘與斷詞的研究。
-
暑期與後續完成任務
在暑假實習期間,我們開始針對Ptt和Dcard各項資料進行斷詞的動作,找出各語句中的關鍵詞,在篩選過程 中會遇到一些在模糊地帶或是無關不合適的字詞,我們將互相討論評估詞彙的適當性,和統一一些相近的 字詞,才篩選出最終的關鍵詞。
(以上為dcard內文關鍵詞)
各自將所有資料的關鍵詞篩選出來後,我們開始進行整合,將所有字詞進行統計,進而得知資料中各個詞彙 出現的次數和佔比,並繪製出文字雲,就能更加清楚的看到大家在討論NFT時會提到或討論甚麼,該字詞就 會更明顯的出現在文字雲當中。
(以上為dcard字詞統計)
(以上為dcard標題文字雲)
下一步將進行節點的分析
將關鍵詞匯入NodeXL做統計, 計算出出現次數較頻繁的字詞並輸入進控制節點大小的欄位(Size),標上標籤 (Label)才能在輸出圖表中分辨節點的詞彙
(以上為Ptt節點分析的部分圖示)
-
工作當中扮演的角色
在專題小組,其實每個人扮演的角色都是一樣的,從一開始大家各自尋找想研究的主題,互相討論後,才覺 得使用目前的主題,在工作分配上,我和另一位同學是負責爬取Dcard的文章資料,並支援Ptt的一些程式上 問題,但實際上也沒分得很開,有問題還是會互相幫忙,蒐集完資料後,我們會找時間開會,一起分析及討論 這些資料的正負性,所以每個人都工作都是平衡的,也都會互相討論以解決所遇到的問題。