Recherche dans l'arbre d'analyse à l'aide de BeautifulSoup

Présentation

HTML (Hypertext Markup Language) se compose de nombreuses balises et les données que nous devons extraire se trouvent à l'intérieur de ces balises. Nous devons donc trouver les bonnes balises pour extraire ce dont nous avons besoin. Maintenant, comment trouver les bonnes balises ? Nous pouvons le faire avec l'aide de BeautifulSoup's méthodes de recherche.

Beautiful Soup a de nombreuses méthodes pour rechercher un arbre d'analyse. Les deux méthodes les plus populaires et les plus courantes sont :

find()
find_all()

Les autres méthodes sont assez similaires en termes d'utilisation. Par conséquent, nous nous concentrerons sur le find() et find_all() méthodes dans cet article.

? L'exemple suivant seront utilisés tout au long de ce document lors de la démonstration des concepts :

html_doc = """

<html><head><title>Searching Tree</title></head>
<body>
<h1>Searching Parse Tree In BeautifulSoup</h1></p>

<p class="Main">Learning 
<a href="https://docs.python.org/3/" class="language" id="python">Python</a>,
<a href="https://docs.oracle.com/en/java/" class="language" id="java">Java</a> and
<a href="https://golang.org/doc/" class="language" id="golang">Golang</a>;
is fun!</p>

<p class="Secondary"><b>Please subscribe!</b></p>
<p class="Secondary" id= "finxter"><b>copyright - FINXTER</b></p>
"""
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, "html.parser")

Types de filtres

Il existe différents filtres qui peuvent être passés dans le find() et find_all() et il est crucial d'avoir une compréhension claire de ces filtres car ils sont utilisés encore et encore, tout au long du mécanisme de recherche. Ces filtres peuvent être utilisés en fonction des balises :

nom,
attributs,
sur le texte d'une chaîne,
ou un mélange de ceux-ci.

❖ Une chaîne

Lorsque nous passons une chaîne à une méthode de recherche puis Belle Soupe effectue une correspondance avec cette chaîne transmise. Regardons un exemple et trouvons les balises

dans le document HTML :

print(soup.find_all('h1'))

Sortie :

[<h1>Searching Parse Tree In BeautifulSoup</h1>]

❖ Une expression régulière

Passer un objet d'expression régulière permet à Beautiful Soup de filtrer les résultats en fonction de cette expression régulière. Si vous souhaitez maîtriser les concepts du module regex en Python, veuillez vous référer à notre tutoriel ici .

Remarque :

Nous devons importer le re module pour utiliser une expression régulière.
Pour obtenir uniquement le nom de la balise au lieu de tout le contenu (balise + contenu dans la balise), utilisez le .name attribut.

Exemple : Le code suivant trouve toutes les instances des balises commençant par la lettre "b".

# finding regular expressions
for regular in soup.find_all(re.compile("^b")):
    print(regular.name)

Sortie :

body
b

❖ Une liste

Plusieurs balises peuvent être transmises aux fonctions de recherche à l'aide d'une liste illustrée dans l'exemple ci-dessous :

Exemple : Le code suivant trouve toutes les balises et dans le document HTML.

Recherche dans l'arbre d'analyse à l'aide de BeautifulSoup

Présentation

Types de filtres

❖ Une chaîne

dans le document HTML : print(soup.find_all('h1')) Sortie : [<h1>Searching Parse Tree In BeautifulSoup</h1>]

❖ Une expression régulière

❖ Une liste

❖ Une fonction

✨ La méthode find()

✨ La méthode find_all()

❖ Le nom Argument

❖ Le mot-clé Arguments

❖ Recherche à l'aide de la classe CSS

❖ L'argument de chaîne

❖ L'argument limite

✨ Autres méthodes de recherche

Conclusion

dans le document HTML :

print(soup.find_all('h1'))

Sortie :

[<h1>Searching Parse Tree In BeautifulSoup</h1>]