I'm very new to text-mining and i want to ask help about a thing that I would like to do.
I have an excel document with 2 columns: id_text; text. Each row in this dataset rappresent a specific text. I would like to look up, for every single row, the presence of specific keywords: so I have a dictionary with 17 words that i should seek in my dataset. When a specific word included in my dictionary there is in the text of specific Id_Text, i would like print 1, else print 0.
I have some problem to try a packages or write a coding that could do this action. Someone can help me?
Hi!
To help us help you, could you please prepare a reproducible example (reprex) illustrating your issue? Please have a look at this guide, to see how to create one:
Ok! I try to do that.
Id_text = c("1", "2", "3", "4")
Text = c("Obiettivo del progetto è migliorare i servizi di base dei Paesi in via di sviluppo. I destinatari dell'iniziativa sono la popolazione povera e vulnerabile", "L'iniziativa mira a favorire l'inclusione finanziaria dei soggetti che versano in estrema povertà ","Le assimmetrie nella distribuzione della ricchezza sono notevoli in Uganimi, le classi sociali povere hanno difficoltà basilari", "la situazione sociale non è più sostenibile, la gente ha bisogno di protezione sociale e interventi medici urgenti")
data <- data.frame(Id_text, Text)
dictionary <- c("Ambiente", "Uguaglianza", "PovertĂ estrema", "inclusione finanziaria", "Reddito", "uguaglianza dei redditi", "Microfinanza","Non discriminazione", "Poveri e vulnerabili", "PovertĂ ", "eliminazione della povertĂ ", "Soglia di povertĂ ", "QualitĂ della vita", "risorse", "protezione sociale", "sostenibile", "distribuzione della ricchezza")
dictionary
Thanks, it is still not entirely clear to me but, is this close to what you are trying to accomplish?
library(tidyverse)
data <- data.frame(stringsAsFactors = FALSE,
Id_text = c("1", "2", "3", "4"),
Text = c("Obiettivo del progetto è migliorare i servizi di base dei Paesi in via di sviluppo. I destinatari dell'iniziativa sono la popolazione povera e vulnerabile",
"L'iniziativa mira a favorire l'inclusione finanziaria dei soggetti che versano in estrema povertĂ ",
"Le assimmetrie nella distribuzione della ricchezza sono notevoli in Uganimi,
le classi sociali povere hanno difficoltĂ basilari",
"la situazione sociale non è più sostenibile,
la gente ha bisogno di protezione sociale e interventi medici urgenti")
)
dictionary <- c("Ambiente", "Uguaglianza", "PovertĂ estrema", "inclusione finanziaria",
"Reddito", "uguaglianza dei redditi", "Microfinanza","Non discriminazione",
"Poveri e vulnerabili", "PovertĂ ", "eliminazione della povertĂ ",
"Soglia di povertĂ ", "QualitĂ della vita", "risorse", "protezione sociale",
"sostenibile", "distribuzione della ricchezza")
data %>%
bind_cols(dictionary %>%
set_names() %>%
map_dfc(~str_detect(data$Text, .x)) %>%
mutate_all(as.numeric)) %>%
as_tibble() # This is just for friendly console printing
#> # A tibble: 4 x 19
#> Id_text Text Ambiente Uguaglianza `Povertà estrem… `inclusione fin… Reddito
#> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl>
#> 1 1 Obie… 0 0 0 0 0
#> 2 2 L'in… 0 0 0 1 0
#> 3 3 "Le … 0 0 0 0 0
#> 4 4 "la … 0 0 0 0 0
#> # … with 12 more variables: `uguaglianza dei redditi` <dbl>,
#> # Microfinanza <dbl>, `Non discriminazione` <dbl>, `Poveri e
#> # vulnerabili` <dbl>, PovertĂ <dbl>, `eliminazione della povertĂ ` <dbl>,
#> # `Soglia di povertĂ ` <dbl>, `QualitĂ della vita` <dbl>, risorse <dbl>,
#> # `protezione sociale` <dbl>, sostenibile <dbl>, `distribuzione della
#> # ricchezza` <dbl>
Created on 2019-11-23 by the reprex package (v0.3.0.9000)
This topic was automatically closed 21 days after the last reply. New replies are no longer allowed.