Use bytes regex instead of decoding whole pages

2025-09-26 10:19:53 +00:00 · 2011-09-10 18:10:58 +02:00 · 2011-09-10 18:10:58 +02:00 · 030cfe26a3
commit 030cfe26a3
parent c8f9c81cfa
1 changed files with 10 additions and 12 deletions
--- a/Lib/packaging/pypi/simple.py
+++ b/Lib/packaging/pypi/simple.py
@ -159,22 +159,20 @@ class Crawler(BaseClient):
        Return a list of names.
        """
-        with self._open_url(self.index_url) as index:
+        if '*' in name:
-            if '*' in name:
+            name.replace('*', '.*')
-                name.replace('*', '.*')
+        else:
-            else:
+            name = "%s%s%s" % ('*.?', name, '*.?')
-                name = "%s%s%s" % ('*.?', name, '*.?')
+        name = name.replace('*', '[^<]*')  # avoid matching end tag
-            name = name.replace('*', '[^<]*')  # avoid matching end tag
+        pattern = ('<a[^>]*>(%s)</a>' % name).encode('utf-8')
-            projectname = re.compile('<a[^>]*>(%s)</a>' % name, re.I)
+        projectname = re.compile(pattern, re.I)
-            matching_projects = []
+        matching_projects = []
        with self._open_url(self.index_url) as index:
            index_content = index.read()
        # FIXME should use bytes I/O and regexes instead of decoding
        index_content = index_content.decode()
        for match in projectname.finditer(index_content):
-            project_name = match.group(1)
+            project_name = match.group(1).decode('utf-8')
            matching_projects.append(self._get_project(project_name))
        return matching_projects