文字挖掘——TCGA project文章的詞雲

一。文字挖掘的一般過程

參考：

http：//www。sthda。com/english/wiki/text-mining-and-word-cloud-fundamentals-in-r-5-simple-steps-you-should-know

Step 1： Create a text file

本地檔案，或者來源於網路。

Step 2 ： Install and load the required packages

Step 3 ： Text mining

VectorSource（x）函式：向量源將向量x的每個元素解釋為一個文件。

其他讀入函式：

read.csv() is

used for reading comma-separated value （csv） files， where a comma “，” is used a field separator

read.delim()

is used for reading tab-separated values （。txt） files

Inspect the content of the document

inspect（docs）

文字轉換

清理文字資料首先要進行轉換，比如從文字中刪除特殊字元。這是透過使用tm_map（）函式將特殊字元如“/”、“@”和“|”替換為空格來完成的。下一步是刪除不必要的空格，並將文字轉換為小寫。

tm_map（）函式用於刪除不必要的空格，將文字轉換為小寫，刪除常見的停止詞，如‘ The ’， “ we ”。

“stopwords”的資訊值接近於零，因為它們在語言中非常常見。在進一步分析之前，刪除這類詞是有用的。對於“stopwords”，支援的語言是丹麥語，荷蘭語，英語，芬蘭語，法語，德語，匈牙利語，義大利語，挪威語，葡萄牙語，俄語，西班牙語和瑞典語。語言名稱區分大小寫。

您還可以使用removeNumbers和removePunctuation引數刪除數字和標點符號。

另一個重要的預處理步驟是使文字詞幹化，將單詞還原為詞根形式。換句話說，這個過程去掉單詞的字尾，使其變得簡單，並獲得共同的起源。例如，詞幹提取過程將單詞“moving”、“moved”和“movement”還原為詞根詞“move”。

Step 4 ： Build a term-document matrix

清理完文字資料後，下一步是統計每個單詞出現的次數，以確定流行或趨勢主題。使用文字挖掘包中的函式TermDocumentMatrix（），您可以構建一個文件矩陣——一個包含單詞頻率的表。

TermDocumentMatrix（）可以如下使用：

Step 5 ：

Generate the Word cloud

單詞的重要性可以用單詞雲來說明，如下所示：

Word Association

相關性是一種統計技術，它可以證明成對的變數是否以及多大程度上是相關的。這種技術可以有效地用於分析哪些單詞與調查回答中最頻繁出現的單詞聯絡在一起，這有助於檢視這些單詞周圍的上下文。

您可以修改上述指令碼，以查詢與出現至少50次或以上的單詞相關的術語，而不必在指令碼中硬編碼這些術語。

Sentiment Scores

【自己覺得不適合自然科學，對社會科學比較實用】情緒可以分為積極的、中性的和消極的。它們也可以用數字表示，以便更好地表達文字主體中所包含的情緒的積極或消極程度。

這個例子使用Syuzhet包來生成情感分數，它有四個情感詞典，並提供了一種訪問斯坦福大學NLP小組開發的情感抽取工具的方法。get_sentiment函式接受兩個引數：一個字元向量（句子或單詞）和一個方法。所選擇的方法決定了將使用四種可用的情感提取方法中的哪一種。這四個方法是syuzhet（這是預設的）、bing、afinn和nrc。每種方法使用不同的刻度，因此返回的結果略有不同。請注意，nrc方法的結果不僅僅是一個數值分數，需要額外的解釋，超出了本文的範圍。get_sentiment函式的描述來源於：

https：//cran。r-project。org/web/packages/syuzhet/vignettes/syuzhet-vignette。html？

更多參考：https：//www。red-gate。com/simple-talk/databases/sql-server/bi-sql-server/text-mining-and-sentiment-analysis-with-r/

二。案例一：檢視一下這些文獻有什麼規律

完整程式碼：