2019 19:56

Tecnologia

em 11/10/19 8:55

comentada em 11/10/2019 19:56

Recentemente teve um tópico aqui na área sobre Excel que um forista tinha uma dúvida e um outro forista veio com uma solução usando expressões regulares (ou regular expressions ou regex ou regexp). Além disso, o @Asvidzinski comentou sobre a intenção de preparar um programa pra filtrar PDFs e regex podem ser úteis nesse caso também. Isso tudo me lembrou da importância de saber expressões regulares e comecei a bolar alguns tópicos pra ensinar pelo menos o básico sobre o assunto.

Pensei também em como abordar isso, pois pode ser feito de várias formas diferentes inclusive usando Python, porém quem não tá acompanhando os posts de Python mas pretende aprender regex talvez ficasse um pouco tortuoso. Existem ferramentas melhores do que usar Python pra esse tipo de finalidade mas para fazer em formato de tópicos ia dar bem mais trabalho, então caso eu grave uma série de vídeos sobre o assunto talvez eu use essas ferramentas mas nos tópicos vou usar Python mesmo, tentando abstrair o máximo possível a linguagem pra conseguir conversar com todos, tanto com quem sabe programação, sabe Python, como também com quem não sabe programar mas pretende aprender o assunto. Entretanto, as ferramentas que citei acima são sites que conferem expressões regulares em tempo real e ajudam bastante, abaixo vou listar alguns:

Regex Tester - Javascript, PCRE, PHP

Online regex tester and debugger: PHP, PCRE, Python, Golang and JavaScript

https://pythex.org/

Aliás, ano passado o @Sun135 postou um tópico falando sobre o assunto e recomendando um livro bem interessante, talvez o melhor livro de Regex que já foi feito: Pra quem quer iniciar em programação - #VAILÁEFAZ! - Bastter.com

Enfim, depois de muito blablabla, acho que podemos começar.

Expressões regulares são representações de padrões de texto, e usamos tais padrões para filtrar dentro de um texto uma ou mais palavras ou textos desejados.

Imaginem a busca do navegador, quando digitamos ctrl + f para pesquisar alguma palavra numa página web, ou quando estamos lendo um PDF e queremos buscar uma palavra específica. O princípio de expressões regulares é quase isso, entretanto elas tornam nossas buscas muito mais poderosas, pois podemos detectar padrões de texto como números de CPF, números de telefone, nomes próprios de pessoas, etc.

Ou seja, uma regex é uma notação que representa padrões em strings (conjunto de caracteres).

Falei demais, agora já podemos começar a praticar um pouco. Como dito, vou usar Python mas não se preocupem com frases estranhas como "import re", ou "re.compile", ou "pattern.finditer()" caso vocês não programem ainda.

Imaginem que eu tenha uma sequência de strings com todas as letras do alfabeto:

text = 'abcdefghijklmnopqurtuvwxyz'

Mas eu queira filtrar somente as três primeiras letras do alfabeto. Então, meu padrão vai ser algo assim:

# Não se preocupem com essa linha abaixo
import re

text = 'abcdefghijklmnopqurtuvwxyz'

# Nem com essa sintaxe estranha, mas sim com o que tá dentro dos parênteses depois do r
pattern = re.compile(r'abc')

Percebam que eu criei um padrão, 'abc', nas linhas acima.

Agora, eu preciso realmente procurar se existe 'abc' dentro de
'abcdefghijklmnopqurtuvwxyz', ou seja, tal como o Tinder, vou ver se meu padrão deu match com meu texto. Vou adicionar mais linhas de código mas o importante é o que vai aparecer ao final:

matches = pattern.finditer(text)

for match in matches:
    print(match)

Abstraindo tudo que foi feito até agora, o importante é nosso resultado:

<_sre.SRE_Match object; span=(0, 3), match='abc'>

Explicando em miúdos agora. Eu criei um código usando Python e rodei. O código deveria procurar 'abc' em 'abcdefghijklmnopqurtuvwxyz'. Ao rodar o código, o Python achou pra mim que na posição 0 até a posição 2 (isso está em "span=(0, 3)", mas o último número é excludente) existe o padrão "abc".

Se ficou confuso o que foi feito com Python, vou mostrar um print usando o site Pythex:

Notem que minha expressão regular era 'abc' e meu texto era
'abcdefghijklmnopqurtuvwxyz', e o match mostrou que o padrão foi encontrado no início do texto.

Vamos agora tentar encontrar 'ABC' em vez de 'abc':

Vejam que em "Match result" nada foi retornado. O que nos diz que regex são "case sensitive", ou seja, diferenciam maiúsculas de minúsculas.

O tópico está grande e eu ainda nem mostrei nenhuma expressão regular de "responsa", mas vou deixar uma palhinha agora ao final. Imaginem que eu queria capturar todos os caracteres do texto. Vou ter que digitar isso?

pattern = re.compile(r'abcdefghijklmnopqurtuvwxyz')

Quem acompanha os tópicos de programação já deve estar pegando o espírito da coisa de que tarefas repetitivas são abomináveis rs e digitar esses caracteres todos ou copiar e colar todos é algo muito estranho. Então eu vou mudar meu padrão pra isso:

pattern = re.compile(r'\w+')

Rodando agora meu código com esse padrão minúsculo:

<_sre.SRE_Match object; span=(0, 26), match='abcdefghijklmnopqurtuvwxyz'>

O Python achou pra mim todo o conjunto de caracteres, da posição 0 a 25, e deu match.

Vamos rodar isso no Pythex:

Todo o texto foi encontrado agora.

Enfim, isso foi só um gostinho de como regex são mágicas. Vamos entrar de cabeça na sintaxe de regex a partir dos próximos tópicos, inclusive explicar como capturei tudo usando um \w+. Espero que essa nova série seja útil pra vocês.

Comentários

Último comentário 1º comentário do autor Só moderadores Só os meus Só quem eu sigo Ordenar por gostei

gustavo

em 11/10/2019 09:12

excelente tema Thiago, esse é um dos assuntos mais importantes

não saber regex, fica bem limitado na solução de muita coisa

; 4;

; 0;

'; 0';

Ajuda aí pow!

1.1 - Regex - Expressões regulares - Parte 1 - #1 de 10

boxveil
em 11/10/2019 09:47

No Excel uso bastante laço + Instr + Ucase, para fazer esse tipo de varredura.

; 3;

; 0;

'; 0';

Ajuda aí pow!

1.1 - Regex - Expressões regulares - Parte 1 - #2 de 10

Sun135
em 11/10/2019 10:42

@ThiagoDV vc tem toda a razão. costumo dizer sempre aos iniciantes que as duas ferramentas mais necessárias ao programador são Lógica e Regex.

CLARO que matemática é importante, mas já vi programador excepcional que apanhava um pouco na matemática, e vi alguns feras em matemática que não vingaram em programação.

; 3;

; 0;

'; 0';

Ajuda aí pow!

1.1 - Regex - Expressões regulares - Parte 1 - #3 de 10

Alea Jacta Est 182º
em 11/10/2019 11:22

Um livro que me ajudou bastante foi esse Expressões Regulares - 5a edição, Uma Abordagem Divertida

; 4;

; 0;

'; 0';

Ajuda aí pow!

1.1 - Regex - Expressões regulares - Parte 1 - #4 de 10

ThiagoDV 8º

em 11/10/2019 11:43

@Alea Jacta Est eu recomendo esse livro na postagem inclusive por recomendação do Sun aí.

; 3;

; 0;

'; 0';

Ajuda aí pow!

1.1 - Regex - Expressões regulares - Parte 1 - #5 de 10

Alea Jacta Est 182º
em 11/10/2019 13:50

Blz Thiago, aproveito também para parabenizar tuas postagens, são bem didáticas.

; 3;

; 0;

'; 0';

Ajuda aí pow!

1.1 - Regex - Expressões regulares - Parte 1 - #6 de 10

ThiagoDV 8º

em 11/10/2019 16:52

@Alea Jacta Est muito obrigado. Tentando melhorar sempre. Já tou até pensando em refazer as primeiras postagens pra publicar um outro material e divulgar por aqui.

; 1;

; 0;

'; 0';

Ajuda aí pow!

1.1 - Regex - Expressões regulares - Parte 1 - #7 de 10

Batatas
em 11/10/2019 18:05

parabéns, @ThiagoDV ! Regex salva vidas! Não conhecia as implementações em Python. Abs.

; 1;

; 0;

'; 0';

Ajuda aí pow!

1.1 - Regex - Expressões regulares - Parte 1 - #8 de 10

prmd 182º

em 11/10/2019 19:01

@ThiagoDV já pensou em consolidar essas postagens em um livro bem introdutório sobre programação? Valeu

; 1;

; 0;

'; 0';

Ajuda aí pow!

1.1 - Regex - Expressões regulares - Parte 1 - #9 de 10

ThiagoDV 8º

em 11/10/2019 19:56

@jmbrasil python tem umas funções legais de regex mas a intenção aqui nessa série é falar mais de regex do que de python.

@prmd Já sim. Tou trabalhando nisso inclusive mas pretendo que seja algo online. Fazendo a implementação toda em Python no backend de uma página web com o compilado disso tudo e com a opção de converter pra PDF caso a pessoa queira. Vamo ver se sai

; 4;

; 0;

'; 0';

Ajuda aí pow!

1.1 - Regex - Expressões regulares - Parte 1 - #10 de 10

Notificar 1º comentário 1º comentário do autor Só moderadores Só os meus Só quem eu sigo Ordenar por gostei

Você está em Tecnologia > 1.1 - Regex - Expressões regulares - Parte 1
por ThiagoDV em 11/10/2019 08:55

7 usuários comentaram este tópico.
Clique para ir para o primeiro comentário do usuário.

limpar

Chat Ao Vivo

1.1 - Regex - Expressões regulares - Parte 1
comentada em 11/10/2019 19:56

Comentários

Amigos da Bastter.com Quero ser um amigo

Depoimentos dos
assinantes

Livros Digitais Gratuitos

Top 10 Bastter Rating

Já somos
cadastrados
online

Publicidade

Cadastre-se e ganhe o livro

ou Assine e e tenha acesso completo ao site!

Chat Ao Vivo

1.1 - Regex - Expressões regulares - Parte 1 comentada em 11/10/2019 19:56

Comentários

Amigos da Bastter.com Quero ser um amigo

Depoimentos dos assinantes

Livros Digitais Gratuitos

Top 10 Bastter Rating

Já somos cadastrados online

Publicidade

Cadastre-se e ganhe o livro

ou Assine e e tenha acesso completo ao site!

1.1 - Regex - Expressões regulares - Parte 1
comentada em 11/10/2019 19:56

Depoimentos dos
assinantes

Já somos
cadastrados
online