数据分析清理数据

一旦收集到数据，我们通常会拥有具有不同特征的不同数据源。最直接的步骤是使这些数据源同质化并继续开发我们的数据产品。但是，这取决于数据类型。我们应该问问自己，将数据同质化是否可行。

可能数据来源完全不同，如果来源同质化，信息损失会很大。在这种情况下，我们可以考虑替代方案。一个数据源可以帮助我构建回归模型，而另一个数据源可以帮助我构建分类模型吗？是否有可能利用我们的优势来处理异质性，而不仅仅是丢失信息？做出这些决定使分析变得有趣且具有挑战性。

在评论的情况下，可以为每个数据源使用一种语言。同样，我们有两个选择-

同质化-它涉及将不同的语言翻译成我们拥有更多数据的语言。翻译服务的质量是可以接受的，但如果我们想用 API 翻译大量数据，成本会很高。有可用于此任务的软件工具，但这也会很昂贵。 异质化-是否可以为每种语言开发解决方案？由于检测语料库的语言很简单，我们可以为每种语言开发一个推荐器。这将需要更多的工作来根据可用语言的数量调整每个推荐器，但如果我们有几种可用的语言，这绝对是一个可行的选择。

Twitter 迷你项目

在目前的情况下，我们需要首先清理非结构化数据，然后将其转换为数据矩阵，以便对其应用主题建模。一般来说，从 Twitter 获取数据时，有几个字符我们不感兴趣，至少在数据清理过程的第一阶段是这样。

例如，在收到推文后，我们会得到这些奇怪的字符：" "。这些可能是表情符号，因此为了清理数据，我们将使用以下脚本删除它们。此代码也可在 bda/part1/collect_data/cleaning_data.R 文件中找到。

rm(list = ls(all = true)); gc() # Clears the global environment
source('collect_data_twitter.R')
# Some tweets
head(df$text)
[1] "I’m not a big fan of turkey but baked Mac &
cheese <ed><U+00A0><U+00BD><ed><U+00B8><U+008B>"
[2] "@Jayoh30 Like no special sauce on a big mac. HOW"
### We are interested in the text-Let’s clean it!
# We first convert the encoding of the text from latin1 to ASCII
df$text <-sapply(df$text,function(row) iconv(row, "latin1", "ASCII", sub = ""))
# Create a function to clean tweets
clean.text <-function(tx) {
  tx <-gsub("htt.{1,20}", " ", tx, ignore.case = true)
  tx = gsub("[^#[:^punct:]]|@|RT", " ", tx, perl = true, ignore.case = true)
  tx = gsub("[[:digit:]]", " ", tx, ignore.case = true)
  tx = gsub(" {1,}", " ", tx, ignore.case = true)
  tx = gsub("^\\s+|\\s+$", " ", tx, ignore.case = true)
  return(tx)
}  
clean_tweets <-lapply(df$text, clean.text)
# Cleaned tweets
head(clean_tweets)
[1] " WeNeedFeminlsm MAC s new make up line features men woc and big girls "
[1] " TravelsPhoto What Happens To Your Body One Hour After A Big Mac "

数据清理迷你项目的最后一步是清理文本，我们可以将其转换为矩阵并应用算法。从存储在 clean_tweets 向量中的文本中，我们可以轻松地将其转换为词袋矩阵并应用无监督学习算法。

找工作要求35岁以下，35岁以上的程序员都干什么去了？

长久以来，一直有一个问题困扰着技术人——如何打破“程序员的35岁职业魔咒”，这一天迟早会到来，或早或晚。

或许是选错了行业，程序员薪水虽高，但光鲜的外表下，背后的苦衷只有自己知道。三十多岁本该是一个人事业的黄金期，但技术变化日新月异，行业竞争异常残酷，对一个企业来说，永远有比你更年轻、劳动成本更低的人可以选择，这让你的中年危机提前到来。破局的智慧可以看看这本书！>>

<< 数据分析数据收集数据分析汇总数据 >>

昵称：邮箱：

数据分析 清理数据

Twitter 迷你项目

数据分析清理数据