Myanmar Wiktionary reaches 100,000 words

Myanmar Wiktionary 100K plus

I started contributing to Wiktionary at the end of last year. It was difficult to maintain a nearly inactive Wiktionary with a couple of regular members. So I decided to make the Wiktionary usable to certain extents first while I tried to recruit new contributors. I collected opensourced dictionary data online such as Ornagai, electrical engineering dictionary porject and Sealang Burmese dictionary. Online community generated data such as Ornagai has a lot of spelling mistakes in it and the format and definitions are inconsistent which need to be improved greatly. Then Myanmar NLP kindly provided me with the Myanmar lexicon database.

Pywikipediabot is a very handy and useful application. I used to run it for fixing minor encoding mistakes in Burmese. Now I used it to upload dictionary data. I spent the Myanmar new year (13th-17th April) formatting the data to Wiki markup. Now Myanmar Wiktionary is available in two languages as English-Burmese and Burmese-Burmese. While bot was uploading data, we tried to improve the homepage design and to add more words which were not in the collected dictionary data. Today, Myanmar Wiktionary reaches 100,000 words.

Unicode Font Usability

It might be confusing that why there are not a lot of Burmese Wikipedians or Wiktionarians. It was a complex drama that there were several pseudo Unicode fonts (they use Unicode codepoints for Burmese, but never follow the codepoints exactly or the encoding order) when standard Unicode fonts were still in development, and one of the pseudo Unicode font named Zawgyi became popular. Unicode fonts are used in Government offices and international projects such as Wikipedia. Yet a normal Burmese online citizen would only use Zawgyi font. We, the Unicode activists, tried to make awareness of Unicode standard and got some achievements as popular IT forums such as MyanmarITPros, Mystery Zillion and Mmitd between 2011 English new year and Burmese new year.

Change to Unicode

Before major OS vendors such as Apple and Microsoft support Burmese language in OSX and Windows, there should be solution for usability of WikiMedia projects for OS unsupported languages.

1. Font embedding

Burmese Unicode sequence

Burmese script is  one of many branches of Brahmi script. It needs complex shaping and reordering of glyphs. So Unicode fonts with proper contextual rendering are necessary. Most of the people don't have Burmese font or have Burmese font but Zawgyi. They wouldn't be able to see the Wikipedia or Wiktionary texts or wouldn't see them properly. So embedded font is needed for reading purpose. There are several opensourced fonts for Burmese in multiple platforms such as Windows, Linux, OSX and iOS. Some of them are cross-OS enabled. OS and browser detection javascripts were developed and TTF, compressed TTF, eot and woff can be embedded accordingly. As I am not a coder, I would be very glad if someone were to develop a font embedding module for mediawiki and implement in local wikis.

2. Build-in keyboard

Even after texts are readable, editing texts in local languages needs special keyboard inputs. Languages such as Burmese needs keyboards with reordering capability. People usually don't have keyboard installed in their computer or mobile devices. There is a project called Narayam which is a build-in keyboard plugin for mediawiki and I helped writing Myanmar Unicode keyboard for it. There is also a Burmese local project called Keymagic and one of it's effort was web keyboard. I hope with the help of them, editing Wikipedia even in local language would be possible.

 

Recruiting for Wiktionary

ဒီနေ့ မြန်မာဝစ်ရှင်နရီ ဝေါဟာရ တစ်သိန်း ပြည့်တဲ့နေ့ဖြစ်ပါတယ်။ လောလောဆယ် ပုံမှန်ဝင်ရေးနေတာ Trh နဲ့ ကျွန်တော် နှစ်ယောက်ပဲ ရှိပါတယ်။ Myanmar NLP က ပေးတဲ့ မြန်မာစာ ဒေတာဘေ့စ် ကို ဝီကီပီးဒီးယားဘော့သုံးပြီး အဓိပ္ပါယ် သတ်မှတ်ချက်တွေကို တင်ပါတယ်။ မြန်မာ ဝီကီပီးဒီးယားနဲ့ မြန်မာ ဝစ်ရှင်နရီ နှစ်ခုအတွက် MgSunBot run ထားတဲ့ Dedicated ကွန်ပျူတာ တစ်လုံး သတ်သတ်ထားပါတယ်။ Encoding ပြင်တာတွေ၊ အင်တာဝီကီလင့် ထည့်တာတွေ၊ ဆောင်းပါးတွေ အလိုအလျောက်တင်တာတွေ လုပ်ပါတယ်။ ဆောင်းပါးတစ်သိန်းမှာ အများစုက အင်္ဂလိပ် ဝေါဟာရတွေဖြစ်ပြီး ငါးပုံတစ်ပုံလောက်က မြန်မာဝေါဟာရဖြစ်ပါတယ်။ မပြောပလောက်တဲ့ ပမာဏကတော့ အခြား ဘာသာစကားတွေ ဖြစ်ပါတယ်။ ဝစ်ရှင်နရီရဲ့ အဓိကရည်ရွယ်ချက်က ကမ္ဘာပေါ်မှာရှိတဲ့ ဘာသာစကားတွေကို ကိုယ့်ရဲ့ Local Language ကို ပြန်ဆိုဖို့ ဖြစ်ပါတယ်။

ဒီမှာ ရှိတဲ့ ဒေတာတွေဟာ Open Content ဖြစ်ပြီး မည်သူမဆို ပြင်ခြင်း၊ ထပ်ထည့်ခြင်း ပြုလုပ်နိုင်ပါတယ်။ XML database dump ကို Download လုပ်ပြီးလည်း ကြိုက်တဲ့နေရာမှာ ယူသုံးနိုင်ပါတယ်။ ကျွန်တော်ကတော့ Wiktionary ကို ဗဟိုထားပြီး Contribute လုပ်ဖို့ အကြံပြုပါတယ်။ Wiktionary ဟာ လက်ရှိမှာ အစုံလင်ဆုံးနဲ့ အလွတ်လပ်ဆုံး မြန်မာ-မြန်မာ-အင်္ဂလိပ် ဒေတာတွေ ဖြစ်ပါတယ်။

Wiktionary ဟာ စာလုံးတွေများနေပြီဖြစ်ပြီး မြန်မာဝေါဟာရတွေဟာ ခိုင်ခိုင်မာမာ အသုံးပြုလို့ရပြီ ဖြစ်ပေမဲ့ အင်္ဂလိပ် ဝေါဟာရ အဓိပ္ပါယ် ဖွင့်ဆိုချက်တွေ၊ Encoding အမှားတွေ၊ အသံထွက်နဲ့ ပြုပြင်စရာ ရှိတာတွေ အများအပြား ရှိတာကြောင့် ပုံမှန်နဲ့ ရေရှည်အကူအညီပေးမယ့် contributor အများအပြား လိုအပ်နေပါတယ်။ ဝစ်ရှင်နရီကို ကူညီဖို့အတွက် အချိန်အများကြီးပေးဖို့၊ ဘာသာရပ်ဆိုင်ရာမှာ တစ်ဘက်ကမ်းခတ် ကျွမ်းကျင်ဖို့ မရှိမဖြစ် မလိုအပ်ပါဘူး။ အောက်ပါနည်းလမ်းများနဲ့ ဝစ်ရှင်နရီကို ကူညီအားဖြည့်နိုင်ပါတယ်။

၁။ IPA  အသံထွက် ပေါင်းထည့်ခြင်း

ရှိပြီးသား မြန်မာစာလုံးတွေအတွက် နိုင်ငံတကာ အသံထွက်သင်္ကေတစံ ဖြစ်တဲ့ အိုင်ပီအေ သင်္ကေတတွေ ပေါင်းထည့်ပေးနိုင်ပါတယ်။ အိုင်ပီအေထည့်ဖို့ ဘာသာဗေဒကျွမ်းကျင်သူ ဖြစ်စရာ မလိုပါ။ မြန်မာ အသံထွက်ရေးနည်းကို ဒီမှာ လေ့လာပြီး ဒီကွန်ဗာတာကို သုံးပြီး အိုင်ပီအေ သင်္ကေတတွေ Generate လုပ်နိုင်ပါတယ်။ ပြီးရင် ဒီပုံစံအတိုင်း အသံထွက်နေရာမှာ တစ်ကြောင်း ဝင်ဖြည့်ပေးနိုင်ပါတယ်။ xxx နေရာမှာ ကိုယ် generate လုပ်ထားတဲ့ အိုင်ပီအေသင်္ကေတကို ဖြည့်ရမှာ ဖြစ်ပါတယ်။

{{IPA|/xxx/}}

၂။ Encoding ပြင်ခြင်း

မြန်မာစာနဲ့ရေးထားတဲ့နေရာတွေမှာ ရရစ်၊ သဝေထိုးစတာတွေ ရှေ့ရောက်နေတာ၊ ဉလေး နဲ့ အက္ခရာဥ စလုံးယပင့်နဲ့ ဈမျဉ်းဆွဲစတာတွေ လွဲနေတာ တွေကို တွေ့ရင် တွေ့သလို ပြင်ပေးနိုင်ပါတယ်။

၃။ စာလုံးပေါင်းပြင်ခြင်း

အွန်လိုင်းကရတဲ့ ဒေတာတွေဟာ ဗြောက်သောက်ဖြစ်နေတာအပြင်၊ ဝစ်ရှင်နရီမှာ အရင်ကထည့်ထားတဲ့ ဒေတာတော်တော်များများမှာ စာလုံးပေါင်းတွေ မှားနေတာ တွေ့ရပါတယ်။ စာလုံးပေါင်းတွေကိုလည်း ကြုံရင်ကြုံသလို ဝင်ပြင်ပေးသွားနိုင်ပါတယ်။ စာလုံးပေါင်း အကိုးအကားအတွက် ဒီနေရာမှာ မြန်မာသတ်ပုံကျမ်းအတိုင်း တင်ပေးထားပါတယ်။

၄။ စာလုံးအသစ် ထပ်ထည့်ခြင်း

မရှိသေးတဲ့ စာလုံးတွေထည့်မယ်ဆိုရင် ရှိပြီးသား ဝေါဟာရတွေရဲ့ အရင်ရေးထားတဲ့ Format တွေကို ကြည့်ပြီး လိုက်တင်နိုင်ပါတယ်။ အကူအညီမှာ ဝင်ကြည့်နိုင်သလို၊ အကူအညီလိုရင်လည်း ဝင်မေးနိုင်ပါတယ်။

၅။ လင့်ထည့်ခြင်း

ဝီကီတွေရဲ့ အားသာချက်ကတော့ ဝီကီအတွင်းမှာရှိတဲ့ ခေါင်းစဉ်တွေကို အလွယ်တကူ လင့် နိုင်တာပါပဲ။ ဆောင်းပါးတစ်ခုကို တည်းဖြတ်နေစဉ် ကိုယ်လင့်ချင်တဲ့ စာသားကို လေးထောင့်ကွင်းနှစ်ထပ် ခတ်ပေးလိုက်ရုံနဲ့ လင့်ဖန်တီးပြီးသား ဖြစ်သွားပါတယ်။ ဥပမာ [[xxx]]။ ဝီကီစာသားတွေကို လိုအပ်မယ်ထင်တဲ့နေရာတွေမှာ လိုက်လင့်ပေးခြင်းအားဖြင့် ဖတ်ရှုရှာဖွေရ လွယ်ကူပြီး ဆောင်းပါးတစ်ခုနဲ့ တစ်ခု ချိတ်ဆက်မှုလည်း ပိုမို အားကောင်းလာမှာ ဖြစ်ပါတယ်။

၆။ လက်တွေ့သုံးခြင်း

Myanmar wiktionary searchbox

ဝစ်ရှင်နရီမှာ လက်တွေ့သုံးခြင်း၊ မိမိရဲ့ အသိမိတ်ဆွေများကို သတင်းစကားဖြန့်ခြင်းနဲ့လည်း ကူညီနိုင်ပါတယ်။ ဝစ်ရှင်နရီဟာ Opensearch enabled ဖြစ်တာကြောင့် ဝစ်ရှင်နရီ Homepage ကိုသွား၊ ဘရောက်ဆာရဲ့ Search box မှာ Wiktionary (my)  ကို ပေါင်းထည့်ခြင်းဖြင့် ဝစ်ရှင်နရီကို အလွယ်တကူ သုံးနိုင်ပါတယ်။