move babel.py to translate.py, add .translate -- use the google translate API for useful work, minor PEP8 fixes

2010-09-10 22:01:20 -05:00 · 2010-09-10 22:01:20 -05:00 · 36ed83d664
parent bef56c0a93
commit 36ed83d664
4 changed files with 196 additions and 90 deletions
--- a/plugins/babel.py
+++ b/plugins/babel.py
@ -1,82 +0,0 @@
-import htmlentitydefs
-import re
-
-from util import hook, http
-
-########### from http://effbot.org/zone/re-sub.htm#unescape-html #############
-
-
-def unescape(text):
-    def fixup(m):
-        text = m.group(0)
-        if text[:2] == "&#":
-            # character reference
-            try:
-                if text[:3] == "&#x":
-                    return unichr(int(text[3:-1], 16))
-                else:
-                    return unichr(int(text[2:-1]))
-            except ValueError:
-                pass
-        else:
-            # named entity
-            try:
-                text = unichr(htmlentitydefs.name2codepoint[text[1:-1]])
-            except KeyError:
-                pass
-        return text  # leave as is
-
-    return re.sub("&#?\w+;", fixup, text)
-
-##############################################################################
-
-languages = 'ja fr de ko ru zh'.split()
-language_pairs = zip(languages[:-1], languages[1:])
-
-
-def goog_trans(text, slang, tlang):
-    url = 'http://ajax.googleapis.com/ajax/services/language/translate?v=1.0'
-    parsed = http.get_json(url, q=text, langpair=(slang + '|' + tlang))
-    if not 200 <= parsed['responseStatus'] < 300:
-        raise IOError('error with the translation server: %d: %s' % (
-                parsed['responseStatus'], ''))
-    return unescape(parsed['responseData']['translatedText'])
-
-
-def babel_gen(inp):
-    for language in languages:
-        inp = inp.encode('utf8')
-        trans = goog_trans(inp, 'en', language).encode('utf8')
-        inp = goog_trans(trans, language, 'en')
-        yield language, trans, inp
-
-
-@hook.command
-def babel(inp):
-    ".babel <sentence> -- translates <sentence> through multiple languages"
-
-    try:
-        return list(babel_gen(inp))[-1][2]
-    except IOError, e:
-        return e
-
-
-@hook.command
-def babelext(inp):
-    ".babelext <sentence> -- like .babel, but with more detailed output"
-
-    try:
-        babels = list(babel_gen(inp))
-    except IOError, e:
-        return e
-
-    out = u''
-    for lang, trans, text in babels:
-        out += '%s:"%s", ' % (lang, text.decode('utf8'))
-
-    out += 'en:"' + babels[-1][2].decode('utf8') + '"'
-
-    if len(out) > 300:
-        out = out[:150] + ' ... ' + out[-150:]
-
-    return out
--- a/plugins/translate.py
+++ b/plugins/translate.py
@ -0,0 +1,186 @@
+import htmlentitydefs
+import re
+
+from util import hook, http
+
+########### from http://effbot.org/zone/re-sub.htm#unescape-html #############
+
+
+def unescape(text):
+    def fixup(m):
+        text = m.group(0)
+        if text[:2] == "&#":
+            # character reference
+            try:
+                if text[:3] == "&#x":
+                    return unichr(int(text[3:-1], 16))
+                else:
+                    return unichr(int(text[2:-1]))
+            except ValueError:
+                pass
+        else:
+            # named entity
+            try:
+                text = unichr(htmlentitydefs.name2codepoint[text[1:-1]])
+            except KeyError:
+                pass
+        return text  # leave as is
+
+    return re.sub("&#?\w+;", fixup, text)
+
+##############################################################################
+
+
+def goog_trans(text, slang, tlang):
+    url = 'http://ajax.googleapis.com/ajax/services/language/translate?v=1.0'
+    parsed = http.get_json(url, q=text, langpair=(slang + '|' + tlang))
+    print slang, tlang, parsed
+    if not 200 <= parsed['responseStatus'] < 300:
+        raise IOError('error with the translation server: %d: %s' % (
+                parsed['responseStatus'], ''))
+    if not slang:
+        return unescape('(%(detectedSourceLanguage)s) %(translatedText)s' %
+                (parsed['responseData']))
+    return unescape(parsed['responseData']['translatedText'])
+
+
+def match_language(fragment):
+    fragment = fragment.lower()
+    for short, _ in lang_pairs:
+        if fragment in short.split():
+            return short.split()[0]
+
+    for short, full in lang_pairs:
+        if fragment in full.lower():
+            return short.split()[0]
+
+    return None
+
+
+@hook.command
+def translate(inp):
+    '.translate [source language [target language]] <sentence> -- translates' \
+    ' <sentence> from source language (default autodetect) to target' \
+    ' language (default English) using Google Translate'
+
+    args = inp.split(' ', 2)
+
+    if len(args) >= 2:
+        sl = match_language(args[0])
+        if not sl:
+            return goog_trans(inp, '', 'en')
+        if len(args) >= 3:
+            tl = match_language(args[1])
+            if not tl:
+                if sl == 'en':
+                    return 'unable to determine desired target language'
+                return goog_trans(args[1] + ' ' + args[2], sl, 'en')
+            return goog_trans(args[2], sl, tl)
+    return goog_trans(inp, '', 'en')
+
+
+languages = 'ja fr de ko ru zh'.split()
+language_pairs = zip(languages[:-1], languages[1:])
+
+
+def babel_gen(inp):
+    for language in languages:
+        inp = inp.encode('utf8')
+        trans = goog_trans(inp, 'en', language).encode('utf8')
+        inp = goog_trans(trans, language, 'en')
+        yield language, trans, inp
+
+
+@hook.command
+def babel(inp):
+    ".babel <sentence> -- translates <sentence> through multiple languages"
+
+    try:
+        return list(babel_gen(inp))[-1][2]
+    except IOError, e:
+        return e
+
+
+@hook.command
+def babelext(inp):
+    ".babelext <sentence> -- like .babel, but with more detailed output"
+
+    try:
+        babels = list(babel_gen(inp))
+    except IOError, e:
+        return e
+
+    out = u''
+    for lang, trans, text in babels:
+        out += '%s:"%s", ' % (lang, text.decode('utf8'))
+
+    out += 'en:"' + babels[-1][2].decode('utf8') + '"'
+
+    if len(out) > 300:
+        out = out[:150] + ' ... ' + out[-150:]
+
+    return out
+
+
+lang_pairs = [
+    ("no", "Norwegian"),
+    ("it", "Italian"),
+    ("ht", "Haitian Creole"),
+    ("af", "Afrikaans"),
+    ("sq", "Albanian"),
+    ("ar", "Arabic"),
+    ("hy", "Armenian"),
+    ("az", "Azerbaijani"),
+    ("eu", "Basque"),
+    ("be", "Belarusian"),
+    ("bg", "Bulgarian"),
+    ("ca", "Catalan"),
+    ("zh-CN", "Chinese"),
+    ("hr", "Croatian"),
+    ("cs", "Czech"),
+    ("da", "Danish"),
+    ("nl", "Dutch"),
+    ("en", "English"),
+    ("et", "Estonian"),
+    ("tl", "Filipino"),
+    ("fi", "Finnish"),
+    ("fr", "French"),
+    ("gl", "Galician"),
+    ("ka", "Georgian"),
+    ("de", "German"),
+    ("el", "Greek"),
+    ("ht", "Haitian Creole"),
+    ("iw", "Hebrew"),
+    ("hi", "Hindi"),
+    ("hu", "Hungarian"),
+    ("is", "Icelandic"),
+    ("id", "Indonesian"),
+    ("ga", "Irish"),
+    ("it", "Italian"),
+    ("ja jpn", "Japanese"),
+    ("ko", "Korean"),
+    ("lv", "Latvian"),
+    ("lt", "Lithuanian"),
+    ("mk", "Macedonian"),
+    ("ms", "Malay"),
+    ("mt", "Maltese"),
+    ("no", "Norwegian"),
+    ("fa", "Persian"),
+    ("pl", "Polish"),
+    ("pt", "Portuguese"),
+    ("ro", "Romanian"),
+    ("ru", "Russian"),
+    ("sr", "Serbian"),
+    ("sk", "Slovak"),
+    ("sl", "Slovenian"),
+    ("es", "Spanish"),
+    ("sw", "Swahili"),
+    ("sv", "Swedish"),
+    ("th", "Thai"),
+    ("tr", "Turkish"),
+    ("uk", "Ukrainian"),
+    ("ur", "Urdu"),
+    ("vi", "Vietnamese"),
+    ("cy", "Welsh"),
+    ("yi", "Yiddish")
+]
--- a/plugins/tvdb.py
+++ b/plugins/tvdb.py
@ -15,15 +15,17 @@ from util import hook, http
 base_url = "http://thetvdb.com/api/"
 api_key = "469B73127CA0C411"

+
 def get_zipped_xml(*args, **kwargs):
    try:
        path = kwargs.pop("path")
    except KeyError:
        raise KeyError("must specify a path for the zipped file to be read")
-    
+
    zip_buffer = StringIO(http.get(*args, **kwargs))
    return etree.parse(ZipFile(zip_buffer, "r").open(path))

+
@hook.command
 def tv_next(inp):
    ".tv_next <series> -- get the next episode of <series> from thetvdb.com"
@ -33,7 +35,7 @@ def tv_next(inp):
        query = http.get_xml(base_url + 'GetSeries.php', seriesname=inp)
    except URLError:
        return "error contacting thetvdb.com"
-        
+
    series_id = query.xpath('//seriesid/text()')

    if not series_id:
@ -44,9 +46,9 @@ def tv_next(inp):
    try:
        series = get_zipped_xml(base_url + '%s/series/%s/all/en.zip' %
                                    (api_key, series_id), path="en.xml")
-    except URLError:    
+    except URLError:
        return "error contacting thetvdb.com"
-                              
+
    series_name = series.xpath('//SeriesName/text()')[0]

    if series.xpath('//Status/text()')[0] == 'Ended':
@ -57,12 +59,12 @@ def tv_next(inp):

    for episode in reversed(series.xpath('//Episode')):
        first_aired = episode.findtext("FirstAired")
-        
+
        try:
            airdate = datetime.date(*map(int, first_aired.split('-')))
        except (ValueError, TypeError):
            continue
- 
+
        episode_num = "S%02dE%02d" % (int(episode.findtext("SeasonNumber")),
                                      int(episode.findtext("EpisodeNumber")))

--- a/plugins/twitter.py
+++ b/plugins/twitter.py
@ -87,8 +87,8 @@ def twitter(inp):
        tweet = http.get_xml(url)
    except http.HTTPError, e:
        errors = {400: 'bad request (ratelimited?)',
-		401: 'tweet is private',
-		403: 'tweet is private',
+                401: 'tweet is private',
+                403: 'tweet is private',
                404: 'invalid user/id',
                500: 'twitter is broken',
                502: 'twitter is down ("getting upgraded")',