學習 | My Site

閱讀文獻

在一開始決定研究主題的時候,大家都各自提除自己想研究的主題,而教授會針對我們想做的主題給予評論,並希望我們能去多閱讀相關論文,藉此來評斷主題是否合適,或是有沒有文獻可以支持我們想做的研究。

當然閱讀論文是每個碩士生或是專題生就需要做的日常項目,但第一次接觸文獻,難免會有些閱讀上的困難,甚至有些是全英文的,會有一些專業性術語,所以閱讀上會稍些吃力,需要自己慢慢的去解讀,在一次次的研究和教授不斷的提供相關資源下,我了解到了許多論文的閱讀管道及方法,最後也最終於決定了我們的研究主題,雖然最後花在閱讀文獻的部分不算太多 ,但還是有學到了一些方法和得到相關的資源,因為之後有想繼續升學的想法,所以論文的閱讀及撰寫是非常重要的課題,希望以後能慢慢掌握到。

Python爬蟲

由於我們的研究主題是跟資料分析有關,所以選用Python作為蒐集資料的程式語言,對於網頁爬蟲,Python是非常方便的語言,能快速的將想獲取的網站資料爬取下來並整理成Excel的表格,主要學習到除了基本的環境建置,最重要的是如何爬取網頁上的資料的爬蟲,和將資料整理成表個並輸出Excel的方法。

使用 requests 模組產生 HTTP 請求，下載網頁資料

使用 pandas及json 模組將資料整理並輸出成Excel

文字探勘

這是我們再來要學習文字探勘的部分,將欲分析的留言資料輸入Text Analyzer,按下Start,分析結果就會出現在下方,並在最後面會產生一個文字雲,尚有些部分還沒深入了解,待暑期實習時再行研究。

文字雲

使用以下網站將以收集好的關鍵字詞匯入產生文字雲並作出字詞統計

參考網站:

https://wordart.com/create

https://www.jasondavies.com/wordcloud/

NodeXL

Nodexl 是Network Overview, Discovery and Exploration for EXCEL的英文縮寫，用以進行社會網絡分析和可視化的軟件包，使我們能夠看到關係數據並描述整體關係網絡結構，可以通過大數據挖掘展示所有參與公眾討論的用戶的龐大網絡及其內部結構，強調關係而不是孤立的個人或組織，因此這種方法使我們能夠調查組織與公眾之間的雙向對話。SNA 還為研究人員提供了靈活的測量系統和參數選擇，以確認網絡中具有影響力的節點

將獲取的資料匯入NodeXL,並設定兩節點的連結關係,最後輸出成各個節點間的關係圖。

TOP