1. spirit
  2. guess_language

Commits

spirit  committed 7221553

Add Esperanto detection.

  • Participants
  • Parent commits 5a00eeb
  • Branches default

Comments (0)

Files changed (4)

File guess_language/__init__.py

View file
  • Ignore whitespace
     "sw", "tlh", "tn", "ts", "xh", "zu"
 }
 EXTENDED_LATIN = {
-    "af", "az", "ca", "cs", "cy", "da", "de", "es", "et", "fi", "fr", "hr",
-    "hu", "is", "it", "lt", "lv", "nb", "nl", "pl", "pt", "ro", "sk", "sl",
-    "sq", "sv", "tl", "tr", "ve", "vi"
+    "af", "az", "ca", "cs", "cy", "da", "de", "eo", "es", "et", "fi", "fr",
+    "hr", "hu", "is", "it", "lt", "lv", "nb", "nl", "pl", "pt", "ro", "sk",
+    "sl", "sq", "sv", "tl", "tr", "ve", "vi"
 }
 ALL_LATIN = BASIC_LATIN.union(EXTENDED_LATIN)
 CYRILLIC = {"bg", "kk", "ky", "mk", "mn", "ru", "sr", "uk", "uz"}

File guess_language/data/models/eo.py

View file
  • Ignore whitespace
+# -*- coding: utf-8 -*-
+model = {
+ ' la': 0,
+ 'la ': 1,
+ ' de': 2,
+ 'de ': 3,
+ 'aj ': 4,
+ 'oj ': 5,
+ 'as ': 6,
+ 'is ': 7,
+ 'en ': 8,
+ ' en': 9,
+ ' ka': 10,
+ 'est': 11,
+ 'o d': 12,
+ ' es': 13,
+ 'kaj': 14,
+ 'e l': 15,
+ 'to ': 16,
+ 'sta': 17,
+ 'o e': 18,
+ 'io ': 19,
+ 'o k': 20,
+ 'on ': 21,
+ ' ko': 22,
+ 'ro ': 23,
+ 'ta ': 24,
+ 'tas': 25,
+ ' al': 26,
+ 'a k': 27,
+ ' pr': 28,
+ 'n l': 29,
+ 'a a': 30,
+ ' po': 31,
+ ' ki': 32,
+ ' ma': 33,
+ 'o l': 34,
+ 'jn ': 35,
+ 'ant': 36,
+ ' li': 37,
+ 'a p': 38,
+ 'ist': 39,
+ 's l': 40,
+ 'nto': 41,
+ 'sti': 42,
+ 'j k': 43,
+ 'no ': 44,
+ 'ita': 45,
+ 'tis': 46,
+ 'do ': 47,
+ 'an ': 48,
+ 'ent': 49,
+ ' re': 50,
+ 'aŭ ': 51,
+ 'j e': 52,
+ 'kon': 53,
+ 'li ': 54,
+ 'toj': 55,
+ 'ran': 56,
+ 'n k': 57,
+ ' ti': 58,
+ 's e': 59,
+ 'el ': 60,
+ 'al ': 61,
+ 'a s': 62,
+ ' in': 63,
+ 'ter': 64,
+ 'aro': 65,
+ ' an': 66,
+ 'a m': 67,
+ 'a e': 68,
+ 'ia ': 69,
+ 'n d': 70,
+ 'ojn': 71,
+ 'per': 72,
+ ' su': 73,
+ 'j d': 74,
+ ' se': 75,
+ 'nta': 76,
+ 'str': 77,
+ 'sto': 78,
+ 'a l': 79,
+ ' pl': 80,
+ 'mo ': 81,
+ 'a d': 82,
+ ' ĝi': 83,
+ ' si': 84,
+ ' tr': 85,
+ 'and': 86,
+ 's k': 87,
+ 'o p': 88,
+ 'lo ': 89,
+ 'j l': 90,
+ 'tra': 91,
+ 'par': 92,
+ ' pa': 93,
+ 'unu': 94,
+ 'pro': 95,
+ 'ono': 96,
+ 'o a': 97,
+ 'nte': 98,
+ 'j p': 99,
+ ' no': 100,
+ ' ku': 101,
+ 'te ': 102,
+ 'mal': 103,
+ 'taj': 104,
+ ' el': 105,
+ 'kom': 106,
+ 'iu ': 107,
+ 'art': 108,
+ 'roj': 109,
+ ' ja': 110,
+ 'ĝis': 111,
+ ' mo': 112,
+ 'lan': 113,
+ 'ra ': 114,
+ 'a r': 115,
+ 's a': 116,
+ ' vi': 117,
+ 'era': 118,
+ 'tro': 119,
+ 'gra': 120,
+ 'er ': 121,
+ 'e k': 122,
+ 'ori': 123,
+ 'n e': 124,
+ ' di': 125,
+ 'ata': 126,
+ 'int': 127,
+ 's p': 128,
+ 'o s': 129,
+ 'a f': 130,
+ 'ko ': 131,
+ 'a t': 132,
+ 'j a': 133,
+ 'n p': 134,
+ ' ek': 135,
+ 'kiu': 136,
+ 'na ': 137,
+ 'ne ': 138,
+ ' pe': 139,
+ 'e e': 140,
+ 'e d': 141,
+ 'da ': 142,
+ 'ili': 143,
+ 'l l': 144,
+ 'ado': 145,
+ 'ank': 146,
+ 'ver': 147,
+ 'por': 148,
+ 'men': 149,
+ 'e a': 150,
+ ' ne': 151,
+ 'man': 152,
+ ' me': 153,
+ ' du': 154,
+ 'un ': 155,
+ ' un': 156,
+ 'ato': 157,
+ 'kun': 158,
+ 'mon': 159,
+ 'ali': 160,
+ 'ste': 161,
+ 'ajn': 162,
+ 'dis': 163,
+ 'tri': 164,
+ 'rio': 165,
+ 'j s': 166,
+ ' lo': 167,
+ 'ara': 168,
+ 'pre': 169,
+ ' te': 170,
+ ' gr': 171,
+ 'oni': 172,
+ 'kie': 173,
+ 'nom': 174,
+ 'jar': 175,
+ 'nda': 176,
+ 'i e': 177,
+ 'ĝi ': 178,
+ 'noj': 179,
+ 'kto': 180,
+ 'ero': 181,
+ 'n s': 182,
+ 'igi': 183,
+ 'cio': 184,
+ 'e s': 185,
+ 'a v': 186,
+ 'a n': 187,
+ 'or ': 188,
+ 'pri': 189,
+ 'e p': 190,
+ ' fo': 191,
+ ' ĉe': 192,
+ 'iĝi': 193,
+ 's s': 194,
+ 'n a': 195,
+ ' ha': 196,
+ 'eri': 197,
+ ' ar': 198,
+ 'ndo': 199,
+ 'a u': 200,
+ 'ont': 201,
+ 'ano': 202,
+ 'lia': 203,
+ 'iel': 204,
+ 'ost': 205,
+ 'ris': 206,
+ ' fa': 207,
+ 'ort': 208,
+ 'iko': 209,
+ 'lin': 210,
+ 'ari': 211,
+ ' ĉi': 212,
+ 'ri ': 213,
+ 'iaj': 214,
+ 'ion': 215,
+ 'mun': 216,
+ ' ve': 217,
+ 'ino': 218,
+ 'tor': 219,
+ ' sa': 220,
+ 'loj': 221,
+ 'co ': 222,
+ 'nis': 223,
+ 'ton': 224,
+ ' aŭ': 225,
+ 'e m': 226,
+ 'ona': 227,
+ 'rto': 228,
+ 'aci': 229,
+ 'spe': 230,
+ 'ala': 231,
+ 'ple': 232,
+ 'for': 233,
+ 'o t': 234,
+ 'vas': 235,
+ 'olo': 236,
+ 'tiu': 237,
+ 'jo ': 238,
+ 'pos': 239,
+ 'kaŭ': 240,
+ 're ': 241,
+ 'j m': 242,
+ 'nio': 243,
+ ' fi': 244,
+ ' st': 245,
+ 'o m': 246,
+ ' ba': 247,
+ 'tan': 248,
+ 'a j': 249,
+ 'ekt': 250,
+ ' ge': 251,
+ 'ons': 252,
+ 's m': 253,
+ 'omo': 254,
+ 'ing': 255,
+ ' mi': 256,
+ 'omu': 257,
+ 'a b': 258,
+ 'a i': 259,
+ 'ten': 260,
+ 'enc': 261,
+ 'res': 262,
+ 'ika': 263,
+ 'rbo': 264,
+ 'vis': 265,
+ 'nka': 266,
+ 'pli': 267,
+ ' a ': 268,
+ ' mu': 269,
+ 'iuj': 270,
+ 'tem': 271,
+ 'hav': 272,
+ ' kr': 273,
+ ' na': 274,
+ 'ila': 275,
+ 'alo': 276,
+ ' ke': 277,
+ 'aĵo': 278,
+ 'umo': 279,
+ 'i l': 280,
+ 'ani': 281,
+ 'ova': 282,
+ 'num': 283,
+ 'r l': 284,
+ 'urb': 285,
+ 'ron': 286,
+ ' ap': 287,
+ 'am ': 288,
+ 'tat': 289,
+ 'tur': 290,
+ 'cia': 291,
+ ' ri': 292,
+ 'ovi': 293,
+ 'ava': 294,
+ 'ntr': 295,
+ ' or': 296,
+ 'ejo': 297,
+ 'nst': 298,
+ 'ka ': 299,
+}

File test.py

View file
  • Ignore whitespace
          "島北部に位置するカガヤン州ペニャブランカ町", "ja"),
         ("Portugal é um país soberano unitário localizado "
          "no Sudoeste da Europa.", "pt"),
+        ("La akcento estas sur la antaŭlasta silabo.", "eo"),
         ("", UNKNOWN),
     ]
 

File trigrams/eo

View file
  • Ignore whitespace
+ la			0
+la 			1
+ de			2
+de 			3
+aj 			4
+oj 			5
+as 			6
+is 			7
+en 			8
+ en			9
+ ka			10
+est			11
+o d			12
+ es			13
+kaj			14
+e l			15
+to 			16
+sta			17
+o e			18
+io 			19
+o k			20
+on 			21
+ ko			22
+ro 			23
+ta 			24
+tas			25
+ al			26
+a k			27
+ pr			28
+n l			29
+a a			30
+ po			31
+ ki			32
+ ma			33
+o l			34
+jn 			35
+ant			36
+ li			37
+a p			38
+ist			39
+s l			40
+nto			41
+sti			42
+j k			43
+no 			44
+ita			45
+tis			46
+do 			47
+an 			48
+ent			49
+ re			50
+aŭ 			51
+j e			52
+kon			53
+li 			54
+toj			55
+ran			56
+n k			57
+ ti			58
+s e			59
+el 			60
+al 			61
+a s			62
+ in			63
+ter			64
+aro			65
+ an			66
+a m			67
+a e			68
+ia 			69
+n d			70
+ojn			71
+per			72
+ su			73
+j d			74
+ se			75
+nta			76
+str			77
+sto			78
+a l			79
+ pl			80
+mo 			81
+a d			82
+ ĝi			83
+ si			84
+ tr			85
+and			86
+s k			87
+o p			88
+lo 			89
+j l			90
+tra			91
+par			92
+ pa			93
+unu			94
+pro			95
+ono			96
+o a			97
+nte			98
+j p			99
+ no			100
+ ku			101
+te 			102
+mal			103
+taj			104
+ el			105
+kom			106
+iu 			107
+art			108
+roj			109
+ ja			110
+ĝis			111
+ mo			112
+lan			113
+ra 			114
+a r			115
+s a			116
+ vi			117
+era			118
+tro			119
+gra			120
+er 			121
+e k			122
+ori			123
+n e			124
+ di			125
+ata			126
+int			127
+s p			128
+o s			129
+a f			130
+ko 			131
+a t			132
+j a			133
+n p			134
+ ek			135
+kiu			136
+na 			137
+ne 			138
+ pe			139
+e e			140
+e d			141
+da 			142
+ili			143
+l l			144
+ado			145
+ank			146
+ver			147
+por			148
+men			149
+e a			150
+ ne			151
+man			152
+ me			153
+ du			154
+un 			155
+ un			156
+ato			157
+kun			158
+mon			159
+ali			160
+ste			161
+ajn			162
+dis			163
+tri			164
+rio			165
+j s			166
+ lo			167
+ara			168
+pre			169
+ te			170
+ gr			171
+oni			172
+kie			173
+nom			174
+jar			175
+nda			176
+i e			177
+ĝi 			178
+noj			179
+kto			180
+ero			181
+n s			182
+igi			183
+cio			184
+e s			185
+a v			186
+a n			187
+or 			188
+pri			189
+e p			190
+ fo			191
+ ĉe			192
+iĝi			193
+s s			194
+n a			195
+ ha			196
+eri			197
+ ar			198
+ndo			199
+a u			200
+ont			201
+ano			202
+lia			203
+iel			204
+ost			205
+ris			206
+ fa			207
+ort			208
+iko			209
+lin			210
+ari			211
+ ĉi			212
+ri 			213
+iaj			214
+ion			215
+mun			216
+ ve			217
+ino			218
+tor			219
+ sa			220
+loj			221
+co 			222
+nis			223
+ton			224
+ aŭ			225
+e m			226
+ona			227
+rto			228
+aci			229
+spe			230
+ala			231
+ple			232
+for			233
+o t			234
+vas			235
+olo			236
+tiu			237
+jo 			238
+pos			239
+kaŭ			240
+re 			241
+j m			242
+nio			243
+ fi			244
+ st			245
+o m			246
+ ba			247
+tan			248
+a j			249
+ekt			250
+ ge			251
+ons			252
+s m			253
+omo			254
+ing			255
+ mi			256
+omu			257
+a b			258
+a i			259
+ten			260
+enc			261
+res			262
+ika			263
+rbo			264
+vis			265
+nka			266
+pli			267
+ a 			268
+ mu			269
+iuj			270
+tem			271
+hav			272
+ kr			273
+ na			274
+ila			275
+alo			276
+ ke			277
+aĵo			278
+umo			279
+i l			280
+ani			281
+ova			282
+num			283
+r l			284
+urb			285
+ron			286
+ ap			287
+am 			288
+tat			289
+tur			290
+cia			291
+ ri			292
+ovi			293
+ava			294
+ntr			295
+ or			296
+ejo			297
+nst			298
+ka 			299