Lector/lector/KindleUnpack/mobi_utils.py

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# vim:ts=4:sw=4:softtabstop=4:smarttab:expandtab
# flake8: noqa

from __future__ import unicode_literals, division, absolute_import, print_function

from .compatibility_utils import PY2, text_type, bchr, bord

import binascii

if PY2:
    range = xrange

from itertools import cycle

def getLanguage(langID, sublangID):
    mobilangdict = {
            54 : {0 : 'af'},  # Afrikaans
            28 : {0 : 'sq'},  # Albanian
             1 : {0 : 'ar' , 5 : 'ar-dz' , 15 : 'ar-bh' , 3 : 'ar-eg' , 2 : 'ar-iq',  11 : 'ar-jo' , 13 : 'ar-kw' , 12 : 'ar-lb' , 4: 'ar-ly',
                  6 : 'ar-ma' , 8 : 'ar-om' , 16 : 'ar-qa' , 1 : 'ar-sa' , 10 : 'ar-sy' , 7 : 'ar-tn' , 14 : 'ar-ae' , 9 : 'ar-ye'},
             # Arabic,  Arabic (Algeria),  Arabic (Bahrain),  Arabic (Egypt),  Arabic
             # (Iraq), Arabic (Jordan),  Arabic (Kuwait),  Arabic (Lebanon),  Arabic
             # (Libya), Arabic (Morocco),  Arabic (Oman),  Arabic (Qatar),  Arabic
             # (Saudi Arabia),  Arabic (Syria),  Arabic (Tunisia),  Arabic (United Arab
             # Emirates),  Arabic (Yemen)
            43 : {0 : 'hy'},  # Armenian
            77 : {0 : 'as'},  # Assamese
            44 : {0 : 'az'},  # "Azeri (IANA: Azerbaijani)
            45 : {0 : 'eu'},  # Basque
            35 : {0 : 'be'},  # Belarusian
            69 : {0 : 'bn'},  # Bengali
             2 : {0 : 'bg'},  # Bulgarian
             3 : {0 : 'ca'},  # Catalan
             4 : {0 : 'zh' , 3 : 'zh-hk' , 2 : 'zh-cn' , 4 : 'zh-sg' , 1 : 'zh-tw'},
            # Chinese,  Chinese (Hong Kong),  Chinese (PRC),  Chinese (Singapore),  Chinese (Taiwan)
            26 : {0 : 'hr', 3 : 'sr'},  # Croatian, Serbian
             5 : {0 : 'cs'},  # Czech
             6 : {0 : 'da'},  # Danish
            19 : {0: 'nl', 1 : 'nl' , 2 : 'nl-be'},  # Dutch / Flemish,  Dutch (Belgium)
             9 : {0: 'en', 1 : 'en' , 3 : 'en-au' , 40 : 'en-bz' , 4 : 'en-ca' , 6 : 'en-ie' , 8 : 'en-jm' , 5 : 'en-nz' , 13 : 'en-ph' ,
                  7 : 'en-za' , 11 : 'en-tt' , 2 : 'en-gb', 1 : 'en-us' , 12 : 'en-zw'},
             # English,  English (Australia),  English (Belize),  English (Canada),
             # English (Ireland),  English (Jamaica),  English (New Zealand),  English
             # (Philippines),  English (South Africa),  English (Trinidad),  English
             # (United Kingdom),  English (United States),  English (Zimbabwe)
            37 : {0 : 'et'},  # Estonian
            56 : {0 : 'fo'},  # Faroese
            41 : {0 : 'fa'},  # Farsi / Persian
            11 : {0 : 'fi'},  # Finnish
            12 : {0 : 'fr', 1 : 'fr' , 2 : 'fr-be' , 3 : 'fr-ca' , 5 : 'fr-lu' , 6 : 'fr-mc' , 4 : 'fr-ch'},
            # French,  French (Belgium),  French (Canada),  French (Luxembourg),  French (Monaco),  French (Switzerland)
            55 : {0 : 'ka'},  # Georgian
             7 : {0 : 'de', 1 : 'de' , 3 : 'de-at' , 5 : 'de-li' , 4 : 'de-lu' , 2 : 'de-ch'},
             # German,  German (Austria),  German (Liechtenstein),  German (Luxembourg),  German (Switzerland)
             8 : {0 : 'el'},  # Greek, Modern (1453-)
            71 : {0 : 'gu'},  # Gujarati
            13 : {0 : 'he'},  # Hebrew (also code 'iw'?)
            57 : {0 : 'hi'},  # Hindi
            14 : {0 : 'hu'},  # Hungarian
            15 : {0 : 'is'},  # Icelandic
            33 : {0 : 'id'},  # Indonesian
            16 : {0 : 'it', 1 : 'it' , 2 : 'it-ch'},  # Italian,  Italian (Switzerland)
            17 : {0 : 'ja'},  # Japanese
            75 : {0 : 'kn'},  # Kannada
            63 : {0 : 'kk'},  # Kazakh
            87 : {0 : 'x-kok'},  # Konkani (real language code is 'kok'?)
            18 : {0 : 'ko'},  # Korean
            38 : {0 : 'lv'},  # Latvian
            39 : {0 : 'lt'},  # Lithuanian
            47 : {0 : 'mk'},  # Macedonian
            62 : {0 : 'ms'},  # Malay
            76 : {0 : 'ml'},  # Malayalam
            58 : {0 : 'mt'},  # Maltese
            78 : {0 : 'mr'},  # Marathi
            97 : {0 : 'ne'},  # Nepali
            20 : {0 : 'no'},  # Norwegian
            72 : {0 : 'or'},  # Oriya
            21 : {0 : 'pl'},  # Polish
            22 : {0 : 'pt', 2 : 'pt' , 1 : 'pt-br'},  # Portuguese,  Portuguese (Brazil)
            70 : {0 : 'pa'},  # Punjabi
            23 : {0 : 'rm'},  # "Rhaeto-Romanic" (IANA: Romansh)
            24 : {0 : 'ro'},  # Romanian
            25 : {0 : 'ru'},  # Russian
            59 : {0 : 'sz'},  # "Sami (Lappish)" (not an IANA language code)
            # IANA code for "Northern Sami" is 'se'
            # 'SZ' is the IANA region code for Swaziland
            79 : {0 : 'sa'},  # Sanskrit
            27 : {0 : 'sk'},  # Slovak
            36 : {0 : 'sl'},  # Slovenian
            46 : {0 : 'sb'},  # "Sorbian" (not an IANA language code)
            # 'SB' is IANA region code for 'Solomon Islands'
            # Lower Sorbian = 'dsb'
            # Upper Sorbian = 'hsb'
            # Sorbian Languages = 'wen'
            10 : {0 : 'es' , 4 : 'es' , 44 : 'es-ar' , 64 : 'es-bo' , 52 : 'es-cl' , 36 : 'es-co' , 20 : 'es-cr' , 28 : 'es-do' ,
                  48 : 'es-ec' , 68 : 'es-sv' , 16 : 'es-gt' , 72 : 'es-hn' , 8 : 'es-mx' , 76 : 'es-ni' , 24 : 'es-pa' ,
                  60 : 'es-py' , 40 : 'es-pe' , 80 : 'es-pr' , 56 : 'es-uy' , 32 : 'es-ve'},
            # Spanish,  Spanish (Mobipocket bug?),  Spanish (Argentina),  Spanish
            # (Bolivia),  Spanish (Chile),  Spanish (Colombia),  Spanish (Costa Rica),
            # Spanish (Dominican Republic),  Spanish (Ecuador),  Spanish (El
            # Salvador),  Spanish (Guatemala),  Spanish (Honduras),  Spanish (Mexico),
            # Spanish (Nicaragua),  Spanish (Panama),  Spanish (Paraguay),  Spanish
            # (Peru),  Spanish (Puerto Rico),  Spanish (Uruguay),  Spanish (Venezuela)
            48 : {0 : 'sx'},  # "Sutu" (not an IANA language code)
            # "Sutu" is another name for "Southern Sotho"?
            # IANA code for "Southern Sotho" is 'st'
            65 : {0 : 'sw'},  # Swahili
            29 : {0 : 'sv' , 1 : 'sv' , 8 : 'sv-fi'},  # Swedish,  Swedish (Finland)
            73 : {0 : 'ta'},  # Tamil
            68 : {0 : 'tt'},  # Tatar
            74 : {0 : 'te'},  # Telugu
            30 : {0 : 'th'},  # Thai
            49 : {0 : 'ts'},  # Tsonga
            50 : {0 : 'tn'},  # Tswana
            31 : {0 : 'tr'},  # Turkish
            34 : {0 : 'uk'},  # Ukrainian
            32 : {0 : 'ur'},  # Urdu
            67 : {0 : 'uz', 2 : 'uz'},  # Uzbek
            42 : {0 : 'vi'},  # Vietnamese
            52 : {0 : 'xh'},  # Xhosa
            53 : {0 : 'zu'},  # Zulu
    }
    lang = "en"
    if langID in mobilangdict:
        subdict = mobilangdict[langID]
        lang = subdict[0]
        if sublangID in subdict:
            lang = subdict[sublangID]
    return lang


def toHex(byteList):
    return binascii.hexlify(byteList)

# returns base32 bytestring
def toBase32(value, npad=4):
    digits = b'0123456789ABCDEFGHIJKLMNOPQRSTUV'
    num_string=b''
    current = value
    while current != 0:
        next, remainder = divmod(current, 32)
        rem_string = digits[remainder:remainder+1]
        num_string = rem_string + num_string
        current=next
    if num_string == b'':
        num_string = b'0'
    pad = npad - len(num_string)
    if pad > 0:
        num_string = b'0' * pad + num_string
    return num_string


# converts base32 string to value
def fromBase32(str_num):
    if isinstance(str_num, text_type):
        str_num = str_num.encode('latin-1')
    scalelst = [1,32,1024,32768,1048576,33554432,1073741824,34359738368]
    value = 0
    j = 0
    n = len(str_num)
    scale = 0
    for i in range(n):
        c = str_num[n-i-1:n-i]
        if c in b'0123456789':
            v = ord(c) - ord(b'0')
        else:
            v = ord(c) - ord(b'A') + 10
        if j < len(scalelst):
            scale = scalelst[j]
        else:
            scale = scale * 32
        j += 1
        if v != 0:
            value = value + (v * scale)
    return value


# note: if decode a bytestring using 'latin-1' (or any other 0-255 encoding)
# in place of ascii you will get a byte to half-word or integer
# one to one mapping of values from 0 - 255

def mangle_fonts(encryption_key, data):
    if isinstance(encryption_key, text_type):
        encryption_key = encryption_key.encode('latin-1')
    crypt = data[:1024]
    key = cycle(iter(map(bord, encryption_key)))
    # encrypt = ''.join([chr(ord(x)^key.next()) for x in crypt])
    encrypt = b''.join([bchr(bord(x)^next(key)) for x in crypt])
    return encrypt + data[1024:]