readthedocs · agjohnson · Jul 11, 2017 · Jul 12, 2017 · ericholscher · Jul 11, 2017
diff --git a/readthedocs/rtd_tests/tests/test_backend.py b/readthedocs/rtd_tests/tests/test_backend.py
@@ -1,15 +1,20 @@
-from __future__ import absolute_import
+# -*- coding: utf-8 -*-
+
+from __future__ import absolute_import, unicode_literals
+
+import re
 from os.path import exists
 
 from django.contrib.auth.models import User
 
 from readthedocs.projects.models import Project
 from readthedocs.rtd_tests.base import RTDTestCase
-
 from readthedocs.rtd_tests.utils import make_test_git, make_test_hg
+from readthedocs.vcs_support.backends.git import Backend
 
 
 class TestGitBackend(RTDTestCase):
+
     def setUp(self):
         git_repo = make_test_git()
         super(TestGitBackend, self).setUp()
@@ -24,6 +29,20 @@ def setUp(self):
         )
         self.project.users.add(self.eric)
 
+    def test_branch_regex(self):
+        data = "  origin/HEAD -> origin/master"
+        self.assertRegexpMatches(data, Backend.BRANCH_REGEX)
+
+        data = """
+            origin/master
+            origin/HEAD -> origin/master
+        """
+        matches = Backend.BRANCH_REGEX.findall(data)
+        self.assertEqual(matches, [
+            'origin/master',
+            'origin/HEAD -> origin/master',
+        ])
+
     def test_parse_branches(self):
         data = """
         develop
@@ -47,11 +66,34 @@ def test_parse_branches(self):
                      self.project.vcs_repo().parse_branches(data)]
         self.assertEqual(expected_ids, given_ids)
 
+    def test_parse_unicode_branch(self):
+        data = """
+        origin/üñîçø∂é
+        """
+        expected_ids = [('origin/üñîçø∂é', 'üñîçø∂é')]
+        given_ids = [(x.identifier, x.verbose_name) for x in
+                     self.project.vcs_repo().parse_branches(data)]
+        self.assertEqual(expected_ids, given_ids)
+
     def test_git_checkout(self):
         repo = self.project.vcs_repo()
         repo.checkout()
         self.assertTrue(exists(repo.working_dir))
 
+    def test_tag_regex(self):
+        data = "bd533a768ff661991a689d3758fcfe72f455435d refs/tags/1.0"
+        self.assertRegexpMatches(data, Backend.TAG_REGEX)
+
+        data = """
+            3b32886c8d3cb815df3793b3937b2e91d0fb00f1 refs/tags/2.0.0
+            bd533a768ff661991a689d3758fcfe72f455435d refs/tags/2.0.1
+        """
+        matches = Backend.TAG_REGEX.findall(data)
+        self.assertEqual(matches, [
+            ('3b32886c8d3cb815df3793b3937b2e91d0fb00f1', 'refs/tags/2.0.0'),
+            ('bd533a768ff661991a689d3758fcfe72f455435d', 'refs/tags/2.0.1'),
+        ])
+
     def test_parse_git_tags(self):
         data = """\
             3b32886c8d3cb815df3793b3937b2e91d0fb00f1 refs/tags/2.0.0
@@ -74,8 +116,21 @@ def test_parse_git_tags(self):
                      self.project.vcs_repo().parse_tags(data)]
         self.assertEqual(expected_tags, given_ids)
 
+    def test_parse_unicode_git_tags(self):
+        data = """\
+            bd533a768ff661991a689d3758fcfe72f455435d refs/tags/release-ünîø∂é
+         """
+        expected_tags = [
+            ('bd533a768ff661991a689d3758fcfe72f455435d', 'release-ünîø∂é'),
+        ]
+
+        given_ids = [(x.identifier, x.verbose_name) for x in
+                     self.project.vcs_repo().parse_tags(data)]
+        self.assertEqual(expected_tags, given_ids)
+
 
 class TestHgBackend(RTDTestCase):
+
     def setUp(self):
         hg_repo = make_test_hg()
         super(TestHgBackend, self).setUp()
@@ -101,6 +156,13 @@ def test_parse_branches(self):
                      self.project.vcs_repo().parse_branches(data)]
         self.assertEqual(expected_ids, given_ids)
 
+    def test_parse_unicode_branches(self):
+        data = "üñîçø∂é"
+        expected_ids = ['üñîçø∂é']
+        given_ids = [x.identifier for x in
+                     self.project.vcs_repo().parse_branches(data)]
+        self.assertEqual(expected_ids, given_ids)
+
     def test_checkout(self):
         repo = self.project.vcs_repo()
         repo.checkout()
@@ -122,3 +184,15 @@ def test_parse_tags(self):
         given_ids = [(x.identifier, x.verbose_name) for x in
                      self.project.vcs_repo().parse_tags(data)]
         self.assertEqual(expected_tags, given_ids)
+
+    def test_parse_unicode_tags(self):
+        data = """\
+        üñîçø∂é                        13575:8e94a1b4e9a4
+         """
+        expected_tags = [
+            ('8e94a1b4e9a4', 'üñîçø∂é'),
+        ]
+
+        given_ids = [(x.identifier, x.verbose_name) for x in
+                     self.project.vcs_repo().parse_tags(data)]
+        self.assertEqual(expected_tags, given_ids)
diff --git a/readthedocs/vcs_support/backends/git.py b/readthedocs/vcs_support/backends/git.py
@@ -2,19 +2,13 @@
 
 from __future__ import absolute_import
 
-import re
 import logging
-import csv
 import os
+import re
 
-from builtins import bytes, str  # pylint: disable=redefined-builtin
 from readthedocs.projects.exceptions import ProjectImportError
 from readthedocs.vcs_support.base import BaseVCS, VCSVersion
 
-from future import standard_library
-standard_library.install_aliases()
-from io import StringIO  # noqa
-
 
 log = logging.getLogger(__name__)
 
@@ -27,6 +21,25 @@ class Backend(BaseVCS):
     supports_branches = True
     fallback_branch = 'master'  # default branch
 
+    TAG_REGEX = re.compile(
+        r'''
+        ^\s*
+        (?P<hash>[0-9a-f]+)
+        \s+
+        (?P<tag>.*)
+        (?:\n|$)
+        ''',
+        (re.VERBOSE | re.MULTILINE)
+    )
+    BRANCH_REGEX = re.compile(
+        r'''
+        ^\s*
+        (?P<branch>\w.+)
+        (?:\n|$)
+        ''',
+        (re.VERBOSE | re.MULTILINE)
+    )
+
     def __init__(self, *args, **kwargs):
         super(Backend, self).__init__(*args, **kwargs)
         self.token = kwargs.get('token', None)
@@ -115,19 +128,11 @@ def parse_tags(self, data):
         hash as identifier.
         """
         # parse the lines into a list of tuples (commit-hash, tag ref name)
-        # StringIO below is expecting Unicode data, so ensure that it gets it.
-        if not isinstance(data, str):
-            data = str(data)
-        raw_tags = csv.reader(StringIO(data), delimiter=' ')
-        vcs_tags = []
-        for row in raw_tags:
-            row = [f for f in row if f != '']
-            if row == []:
-                continue
-            commit_hash, name = row
-            clean_name = name.split('/')[-1]
-            vcs_tags.append(VCSVersion(self, commit_hash, clean_name))
-        return vcs_tags
+        tags = []
+        for match in self.TAG_REGEX.finditer(data):
+            tag = match.group('tag').split('/')[-1]
+            tags.append(VCSVersion(self, match.group('hash'), tag))
+        return tags
 
     @property
     def branches(self):
@@ -151,27 +156,20 @@ def parse_branches(self, data):
               origin/release/2.0.0
               origin/release/2.1.0
         """
-        clean_branches = []
-        # StringIO below is expecting Unicode data, so ensure that it gets it.
-        if not isinstance(data, str):
-            data = str(data)
-        raw_branches = csv.reader(StringIO(data), delimiter=' ')
-        for branch in raw_branches:
-            branch = [f for f in branch if f != '' and f != '*']
-            # Handle empty branches
-            if branch:
-                branch = branch[0]
-                if branch.startswith('origin/'):
-                    cut_len = len('origin/')
-                    slug = branch[cut_len:].replace('/', '-')
-                    if slug in ['HEAD']:
-                        continue
-                    clean_branches.append(VCSVersion(self, branch, slug))
-                else:
-                    # Believe this is dead code.
-                    slug = branch.replace('/', '-')
-                    clean_branches.append(VCSVersion(self, branch, slug))
-        return clean_branches
+        branches = []
+        for match in self.BRANCH_REGEX.finditer(data):
+            branch = match.group('branch')
+            if branch.startswith('origin/HEAD'):
+                continue
+            elif branch.startswith('origin/'):
+                cut_len = len('origin/')
+                slug = branch[cut_len:].replace('/', '-')
+                branches.append(VCSVersion(self, branch, slug))
+            else:
+                # Believe this is dead code.
+                slug = branch.replace('/', '-')
+                branches.append(VCSVersion(self, branch, slug))
+        return branches
 
     @property
     def commit(self):

diff --git a/readthedocs/vcs_support/backends/hg.py b/readthedocs/vcs_support/backends/hg.py
@@ -1,5 +1,7 @@
 """Mercurial-related utilities."""
+
 from __future__ import absolute_import
+
 from readthedocs.projects.exceptions import ProjectImportError
 from readthedocs.vcs_support.base import BaseVCS, VCSVersion