Hello,
I need to split keywords from academic texts that are together in a single column (DS_PALAVRA_CHAVE). However, they are not formatted consistently and for this reason, there is no easy pattern. There are different separators ("," "." ";"), in some cases, spaces have not been used, and also the quantity varies (there are works with 1 keyword and others with more).
Could you please help me with this issue?
Below I am sending a reproducible example:
data.frame(
stringsAsFactors = FALSE,
DS_PALAVRA_CHAVE = c("PCI;SUCATA ELETRĂNICA;OURO;PRATA;ICP OES;WDSXRF",
"ONDANSETRONA;MĂTODO INDICATIVO DE ESTABILIDADE;CROMATOGRAFIA LĂQUIDA DE ULTRAEFICIĂNCIA;ESPECTROMETRIA DE MASSAS;PLANEJAMENTO EXPERIMENTAL;QUALIDADE ANALĂTICA POR PLANEJAMENTO",
"RESINA;POLIĂSTER;TINTA EM PĂ;TGIC;CURA EM ESTUFA;FOSQUEAMENTO;ANĂLISE TĂRMICA",
"1-H-2-AMINOINDOL;CARBODIIMIDAS;ARILAMIDAS;LIGAĂĂO AMĂDICA;TUBERCULOSE","ULTRASSOM;PULSO-ECO;FORĂA;PARAFUSO;PORCA",
"GASOLINA;EMULSĂO;ICP-OES;CHUMBO;FĂSFORO;SILĂCIO",
"SAĂDE BUCAL;TRANSTORNO AUTĂSTICO;QUALIDADE DE VIDA",
"QUALIDADE DE VIDA;SAĂDE BUCAL;DEFICIĂNCIA INTELECTUAL",
"GENOTOXICIDADE;MUCOSA BUCAL;TOMOGRAFIA COMPUTADORIZADA DE FEIXE CĂNICO","ESTĂTICA;SORRISO;PERCEPĂĂO",
"COCONUT OIL;OZONE;STOMATITIS, DENTURE",
"HORMĂNIO DO CRESCIMENTO;VOZ;MANDĂBULA;FARINGE",
"RESISTĂNCIA AO CISALHAMENTO;ORTODONTIA;EROSĂO DENTĂRIA",
"DISPLASIA;CARCINOMA DE CĂLULAS ESCAMOSAS;MASTĂCITOS;COLĂGENO",
"ADESIVOS ORTODĂNTICOS;BRĂQUETES ORTODĂNTICOS;ORTODONTIA CORRETIVA",
"RĂPTEIS;SQUAMATA, BRASIL, MINAS GERAIS, ESPĂRITO SANTO, COROLOGIA, BIOGEOGRAFIA",
"MATA ATLĂNTICA;UNIDADE DE CONSERVAĂĂO, ICTIOFAUNA, ECOLOGIA TRĂFICA, RIACHOS.",
"UNIDADE DE CONSERVAĂĂO;RIACHOS, ICTIOFAUNA, QUALIDADE AMBIENTAL, CONSERVAĂĂO",
"FLORESTA DE TABULEIRO;MATA ATLĂNTICA, PALINOLOGIA, TAXONOMIA",
"CULTURA DE TECIDOS VEGETAIS;FLUORESCĂNCIA DA CLOROFILA A. CITOCININAS. BROMĂLIA. FISIOLOGIA VEGETAL. ANATOMIA VEGETAL",
"ESTAQUIA;GERMINAĂĂO, PLĂNTULAS, PLASTICIDADE FENOTĂPICA",
"TAYASSUIDAE;MATA ATLĂNTICA;OCUPAĂĂO;EXTINĂĂES REGIONAIS",
"PLECĂPTEROS;RIACHOS, NEOTROPICAL, MATA ATLĂNTICA, INSETOS AQUĂTICOS",
"BROMĂLIAS;DISSIMILARIDADE GENĂTICA, ESTRUTURAĂĂO GENĂTICA, MARCADORES ISSR, UNIDADES DE CONSERVAĂĂO.",
"MANGUEZAL;CRESCIMENTO INICIAL, SOLUĂĂO DE HOGLAND, REFLORESTAMENTO",
"GĂNADAS;TARTARUGAS MARINHAS, TEMPO DE INCUBAĂĂO, SUCESSO DE ECLOSĂO","INSELBERGS",
"PADRĂES ESPACIAIS;DIVERSIDADE BETA;AUTOCORRELAĂĂO ESPACIAL",
"CITOCROMO B;DIVERSIDADE GENĂTICA, D-LOOP, DELPHININAE, GOLFINHO-LISTRADO.",
"OVĂCITOS;PIABAS, ULTRAESTRUTUTURA, MICROSCOPIA DE LUZ, REGIĂO NEOTROPICAL",
"MATA ATLĂNTICA;HILEIA BAIANA, PORTO SEGURO, SANTA CRUZ CABRĂLIA, INVENTĂRIO HERPETOFAUNĂSTICO, RĂPTEIS.",
"AFLORAMENTO ROCHOSO;ANGIOSPERMAS, LICĂFITAS, MATA ATLĂNTICA, SAMAMBAIAS",
"ERICALES;MATA ATLĂNTICA, PALINOLOGIA, SUDESTE BRASILEIRO, TAXONOMIA",
"GRUPO PIMENTA;MICROSSATĂLITES, MORFOLOGIA, TAXONOMIA",
"ICTIOFAUNA;QUALIDADE AMBIENTAL;ECOLOGIA DE RIACHOS",
"ICTIOFAUNA;UNIDADES DE CONSERVAĂĂO, ECOLOGIA, MATA ATLĂNTICA, ESTRATĂGIAS REPRODUTIVAS",
"ECOLOGIA DE ESTRADAS;SAZONALIDADE;FELINOS;CONECTIVIDADE",
"ASFALTENOS;FRACIONAMENTO;AGREGAĂĂO;INIBIDOR;PROCESSO DE DISSOCIAĂĂO",
"FORMAĂĂO DE GEADA;PLACA PLANA HORIZONTAL;MOLHABILIDADE SUPERFICIAL;ANĂLISE EXPERIMENTAL;CORRELAĂĂO SEMI-EMPĂRICA",
"MICROALGAS;CULTIVO CONTINUO;SENSOR DE DENSIDADE ĂTICA;AUTOMAĂĂO","CIMENTO PORTLAND;ECAT;RUĂDO ELETROQUĂMICO",
"CORROSĂO;AĂO CARBONO;DIĂXIDO DE CARBONO;PH ĂCIDO;SUPERSATURAĂĂO",
"BIFENILAS POLICLORADAS;RESĂDUOS DA REAĂĂO;KPEG, DESCONTAMINAĂĂO;ĂLEO MINERAL ISOLANTE",
"DESSALINIZAĂĂO;OSMOSE REVERSA;TERMODINĂMICA;EXPERIMENTAĂĂO;SIMULAĂĂO",
"AREIA DE FUNDIĂĂO;REAPROVEITAMENTO;PAVIMENTO;CLASSIFICAĂĂO DE RESĂDUO SĂLIDO.",
"PIRĂLISE RĂPIDA;BIO-ĂLEO;LIGNINA KRAFT;ĂLCOOL FURFURĂLICO;TRATAMENTO TĂRMICO",
"COMPOSTOS LAMELARES;INTERCALAĂĂO;BIODIESEL;MOLIBDATO;TUNGSTATO;TRANSESTERIFICAĂĂO",
"ALGINATO;NANOFIBRILAS DE CELULOSE;SĂLICA BIOGĂNICA;NITROGĂNIO;AGRICULTURA",
"FASE SIGMA;FASE CHI;ENSAIO NĂO DESTRUTIVO;AĂO INOXIDĂVEL DUPLEX;VOLTAMETRIA LINEAR",
"SENSORES MICROFLUĂDICOS;POLIMETILMETACRILATO;FILMES ADESIVOS",
"FILME DE NANOCELULOSE;CURATIVO;QUEIMADURA;ĂLEO DE CALĂNDULA;NANOPARTĂCULAS DE PRATA",
"DIĂXIDO DE VANĂDIO;FILME FINO;ELETRODEPOSIĂĂO",
"HIDRĂXIDOS DUPLOS LAMELARES;BENZOTRIAZOL;MATRIZ EPOXĂDICA;ESPECTROSCOPIA DE IMPEDĂNCIA ELETROQUĂMICA",
"REAĂĂO ĂLCALI-AGREGADO;MANIFESTAĂĂO PATOLĂGICA;MĂTODOS DE INVESTIGAĂĂO;NANO-MAGNETITA;VARIAĂĂO MĂSSICA",
"ĂXIDO DE CĂRIO;ELECTROSPINNING;NANOFIO",
"ANĂLISES DINĂMICO-MECĂNICOS;SUPERPAVE;REĂMETRO DE CISALHAMENTO DINĂMICO (DSR);INDICADORES DE DESEMPENHO.",
"SUPERCONDUTORES;SUPERCONDUTORES BASEADOS EM FERRO;SISTEMAS F´ERMION- B´OSON;TRANSFORMA¸C\230AO DE SIMILARIDADE;SEGUNDA QUANTIZA¸C\230AO.",
"MODELO MATEMĂTICO;BIO-HIDROGĂNIO;ENERGIA SUSTENTĂVEL",
"GRAFENO;MODELO NUMĂRICO;NANODISPOSITIVOS",
"ĂLEO VEGETAL;NANOFLUIDO;H-BN;CONDUTIVIDADE TĂRMICA;NANOPARTĂCULAS 2D;TRANSFORMADORES DE POTĂNCIA",
"FILMES FINOS;LIGAS MANGANĂS-NĂQUEL-GĂLIO;MN-NI-GA",
"POLĂMEROS CONJUGADOS;METALO-POLĂMEROS;COMPLEXO DE TĂRBIO",
"MICROENCAPSULAĂĂO;COACERVAĂĂO COMPLEXA;ĂCIDOS GRAXOS;MICROALGAS;CALĂNDULA;AVEIA;ALOE VERA;GOMA ARĂBICA;GELATINA",
"NANOMATERIAIS;NANOPARTĂCULAS DE OURO;NANOTUBOS DE CARBONO;SENSORES;ABSORĂĂO PLASMĂNICA",
"BRUXISMO;LASER. ACUPUNTURA. CRIANĂA. CORTISOL SALIVAR",
"LED;FOTOTERAPIA, ĂLCERA, TEMPERATURA, PH, FUGULIN, PUSH",
"REPARO ĂSSEO;FOTOBIOMODULAĂĂO, CARVĂO ATIVADO, PROPRIEDADES MECĂNICAS",
"REPARO ĂSSEO;FOTOBIOMODULAĂĂO, CARVĂO ATIVADO, PROPRIEDADES MECĂNICAS, BIOMATERIAIS",
"TENDINITE;FOTOBIOMODULAĂĂO, LASER DE BAIXA INTENSIDADE, ALODINIA, NOCICEPĂĂO, NEUROCINIA 1, NK1",
"ASMA BRĂNQUICA;FOTOBIOMODULAĂĂO, LASER DE BAIXA INTENSIDADE, INFLAMAĂĂO PULMONAR, CITOCINAS, BALB/C, RESPOSTA CLĂNICA",
"DOXORRUBICINA;CĂLULAS-TRONCO MESENQUIMAIS, LASER DE BAIXA INTENSIDADE, INSUFICIĂNCIA CARDĂACA",
"FOTOBIOMODULAĂĂO;TERAPIA A LASER DE BAIXA POTĂNCIA, MĂSCULO ESQUELĂTICO, CADEIAS PESADAS DE MIOSINA, CALCINEURINA, MIOSTATINA, REGENERAĂĂO, FOTOTERAPIA",
"CAMADA DE ESFREGAĂO;LASER;ĂCIDO EDĂTICO;PERMEABILIDADE DA DENTINA;PREPARO DE CANAL RADICULAR;OBTURAĂĂO DO CANAL RADICULAR",
"TERAPIA DE FOTOBIOMODULAĂĂO;CURA DE FERIDAS;QUEIMADURA DE TERCEIRO GRAU",
"FOTOBIOMODULAĂĂO;DISFONIA, MARCADORES INFLAMATĂRIOS, OCT, PREGAS VOCAIS, INDUĂĂO DO FORMALDEĂDO",
"HIPERGLICEMIA;PĂ DIABĂTICO. LASERTERAPIA. FERIDA. GRANULAĂĂO",
"LASER;DOR, ACUPUNTURA, FOTOBIOMODULAĂĂO",
"REMODELAMENTO CARDĂACO;INSUFICIĂNCIA CARDĂACA, FOTOBIOMODULAĂĂO, LASER DE BAIXA INTENSIDADE, CARVEDILOL, DESEMPENHO FĂSICO",
"DISTROFIA MUSCULAR DE DUCHENNE;CAMUNDONGO DMDMDX, TERAPIA DE FOTOBIOMODULAĂĂO, LASER, LED",
"TERAPIA DE FOTOBIOMODULAĂĂO;TENDINOPATIA, INFLAMAĂĂO, FOTOTERAPIA, TENDĂO",
"TRATAMENTO ENDODĂNTICO;DENTES DECĂDUOS, TERAPIA FOTODINĂMICA ANTIMICROBIANA, INFECĂĂO DO CANAL RADICULAR, NECROSE DA POLPA DENTĂRIA",
"BIODIVERSIDADE;ENSINO SUPERIOR;MEIO AMBIENTE;NATUREZA;BIOLOGIA",
"POPULARIZAĂĂO CIĂNCIA;CIĂNCIA E TECNOLOGIA AMBIENTAL;FEIRAS CIENCIA",
"BTEX, CONTAMINAĂĂO DE SOLO, PLUMA DE CONTAMINAĂĂO;ĂREAS CONTAMINADAS, AVALIAĂĂO PRELIMINAR.",
"EDUCAĂĂO AMBIENTAL;JOGO LĂDICO;QUESTIONĂRIO",
"SUBSTĂNCIAS PSICOATIVAS;CRACK;CONSUMO DE DROGAS;AMBIENTE SOCIAL",
"SUSTENTABILIDADE;RECEITA;ANĂLISE ECONĂMICA;AGARICUS BLAZEI.",
"EDUCAĂĂO;MEIO AMBIENTE;ANOS INICIAIS;ESPĂCIES AMEAĂADAS",
"PRĂ-ADIPĂCITOS 3T3-L1;DIFERENCIAĂĂO ADIPOGĂNICA;TCDD;METILMERCĂRIO;CO-EXPOSIĂĂO",
"COMPOSTOS ORGĂNICOS VOLĂTEIS;DIĂXIDO DE TITĂNIO;REVESTIMENTO CERĂMICO;QUALIDADE DO AR INTERIOR;CONTROLE DE POLUIĂĂO ATMOSFĂRICA",
"DOENĂAS GĂSTRICAS;HELICOBACTER PYLORI;INTERLEUCINA2;MICRORNAS;TNF-ALPHA",
"COMUNICAĂĂO;SUSTENTABILIDADE",
"BIODIVERSIDADE DE PARASITOS;PROCHILODUS LINEATUS;RELAĂĂO PARASITO- HOSPEDEIRO;BIOACUMULAĂĂO;METAIS PESADOS",
"DAMITHRAX HISPIDUS;DAMITHRAX TORTUGAE;HISTOLOGIA;MITHRACULUS FĂRCEPS;OMALACANTHA BICORNUTA;MICROSCOPIA ELETRĂNICA DE TRANSMISSĂO",
"FEDERALISMO;PODER JUDICIĂRIO;CONFLITOS FEDERATIVOS.",
"CGU;QUALIDADE DA DEMOCRACIA;CORRUPĂĂO;ESTADO DE DIREITO;ACCOUNTABILITY HORIZONTAL",
"ANALISTA SIMBĂLICO;BRASIL;PRODUĂĂO DE ALTO VALOR E LARGA ESCALA.",
"SISTEMAS ELEITORAIS;DINĂMICA ELEITORAL;REPRESENTAĂĂO PROPORCIONAL;MAGNITUDE DISTRITAL.",
"REDUĂĂO DA POBREZA;AMĂRICA LATINA;PROGRAMAS DE TRANSFERĂNCIA CONDICIONADA DE RENDA.",
"PRONATEC;PROCESSO LEGISLATIVO;PRESIDENCIALISMO;EDUCAĂĂO PROFISSIONAL."),
AN_BASE = c(2017,2017,2017,2017,2017,
2017,2017,2017,2017,2017,2017,2017,2017,2017,2017,
2017,2017,2017,2017,2017,2017,2017,2017,2017,
2017,2017,2017,2017,2017,2017,2017,2017,2017,2017,
2017,2017,2017,2017,2017,2017,2017,2017,2017,
2017,2017,2017,2017,2017,2017,2017,2017,2017,2017,
2017,2017,2017,2017,2017,2017,2017,2017,2017,
2017,2017,2017,2017,2017,2017,2017,2017,2017,2017,
2017,2017,2017,2017,2017,2017,2017,2017,2017,
2017,2017,2017,2017,2017,2017,2017,2017,2017,2017,
2017,2017,2017,2017,2017,2017,2017,2017,2017)
)
I appreciate your help.