ஆங்கிலத்தைப் போல தமிழையும் கணினிகளுக்கிடையே எளிதில் பயன்படுத்த உதவுகிறது,
கணியத்தமிழ் சாஃப்ட்வேர் நிறுவனத்தின் ''வரியுருமா''!
''கணிபொறியைத் தமிழ் மொழி மட்டும் அறிந்தவர்கள்கூட எந்தவிதத்
தடையோ, பயமோ இன்றிப் பயன்படுத்திட வேண்டும் . கணிப்பொறித் தொழில்நுட்பம் தமிழரின் வாழ்வை மேம்படுத்திடவேண்டும் என்ற விருப்பம் ,உழைப்புதமிழ்க் கணிப்பொறி வல்லுநர்களிடமும் தமிழ் ஆர்வலர்களிடமும் இருந்து கொண்டுள்ளது.இதற்கான முயற்சிகள்
பல மேற்கொள்ளப் பட்டுள்ளன.இருப்பினும் கணிப்பொறித் தொழிநுட்ப்பத்தைப் பயன்படுத்த ஆங்கிலம் அவசியம் என்ற நிலையில் பெரிய மாற்றங்கள் ஏற்படவில்லை .
இந்த சிக்கல் தமிழ் மொழிக்கு மட்டும் உரியதா? என்றால் இல்லை. ஆங்கிலமொழியை எழுதுகின்ற ரோமானிய வரிவடிவத்திலேயே எழுதப்படும் பிரெஞ்சு , ஜெர்மனி போன்ற மொழிகளைத்தவிர அனைத்து உலக மொழிகளுக்கும் இந்தசிக்கல் உள்ளது . அப்படியானால் இந்த சிக்கலை எப்படித் தீர்ப்பது.
கணிப்பொறியானது மின்சுற்றுகளால் ஆக்கப்பட்டு 0.1 என்ற இரு எண்களின் (பைனரி) அடிப்படையில் தான் இயங்குகிறது .இதனோடு பயனாளர்கள் தொடர்பு கொள்வதற்கு வகை செய்யும் இடைமுகமாக (Interface) இருக்கக் கூடிய விண்டோஸ் போன்ற சாஃப்ட்வேர்கலை இயங்குதளம் (Operating System) என்கிறோம் .இதேபோல ஆங்கிலம் சாராத மொழிகளைப் பயன்படுத்தக் கூடிய பயனாளர்கள் கணிப்பொறியை ஒரு இடைமுகம் தேவைப்படுகிறது. இது கணிப்பொறி வழியிலான தொடர்புகளை (கம்யூனிகேஷன்) தடையின்றியும் ஆங்கில மொழிப் பயன்பாட்டிற்கென உள்ள சாஃப்ட்வேர்களில் தடையின்றி தங்கள் மொழியை பயன்படுத்தக்கூடியதாகவும் இருக்கவேண்டும். இத்தகையதொரு இடைமுகத்தை நாம் மொழித்தளம் (Linguaform) என்றழைக்கலாம். இந்த இடைமுகம் ஆப்பரேட்டிங் சிஸ்டம் அல்ல. அதனோடு ஒத்திசைவாக இயங்கக் கூடியது. அதனைப் போன்றது.
இந்த மொழித்தளத்தை எந்தளவுக்கு எளிமையாகவும் பயனாளர்களுக்கு வசதியாகவும் உருவாக்குகிறோமோ, அந்தளவுக்கு கணிப்பொறியை அம்மொழியினர் பயன்படுத்துவதில் வெற்றி பெறுவர். முக்கியமாக ஆங்கில மொழியின் வாயிலாக உருவான எந்தவொரு சாஃப்ட்வேரின் பயன்பாட்டையும் தம்முடைய மொழியில் பெற இயலாது என்ற கட்டுப்பாட்டுக்கு உள்தள்ளும் இரும்புத்திரையாக இந்த மொழித்தளம் அமைந்து விடக்கூடாது. (ஏனென்றால் அந்த மென்பொருட்களை தமிழில் உருவாக்க வேண்டிய வீணான கூடுதல் சுமை தமிழர் தலையில் விழுந்து விடும்).
நம்முடைய மொழியில் உருவாகி இருக்கும் சாஃப்ட்வேர்களையும் பயன்படுத்துவதற்கான இணக்கத் தளமாகவும் இந்த மொழித்தளம் அமைந்திட வேண்டும்.
இத்தகைய மொழித்தளத்தை (லிங்குவா ஃபார்ம்) நம் தமிழ்மொழியில் வரியுருமா என்ற பெயரில் அறிமுகப்படுத்தி இருக்கிறோம் என்கிறார் கணியத் தமிழ் சாஃப்ட்வேர் பிரைவேட் லிமிடெட்டின் சேர்மன் திரு.சி.கபிலன் அவர்கள்.
இப்படியொரு மென்பொருளை உருவாக்கும் முடிவுக்கு எப்படி வந்தீர்கள் என்று கேட்டோம். அதற்கு...
"நாங்கள் சொல் திருத்தி (Spell Checker) ஒன்றை உருவாக்கும் பணியில் தான் இறங்கினோம். இந்தப் பணியைத் தொடங்கி குறிப்பிட்ட அளவுக்குச் சென்ற உடன் பல்வேறு சிக்கல்களைச் சந்தித்தோம். இதைப் புரிந்து கொள்ள அடிப்படையான சிலவற்றை பார்த்தால் உதவியாக இருக்கும்.
முன்பு கூறியது போல 0,1 என்ற இரு எண்களின் சேர்க்கையில்தான் கணிப்பொறி தனக்குள் செலுத்தப்படுவதை பதிவு செய்து கொள்கிறது. ஒரு மொழியை கணிப்பொறியில் பயன்படுத்த வேண்டுமென்றால், அந்த மொழியின் ஒவ்வொரு எழுத்துக்கும் ஒவ்வொரு எண்ணை ஒதுக்குவதை குறியீட்டு முறை அல்லது என்கோடிங் (Encoding) என்பர். எந்த மொழியில் எதை கணிப்பொறியில் சேமிப்பதாக இருந்தாலும் இதுதான் அடிப்படை. இப்படிச் சேமித்தவற்றை அச்சிட்டுப் பயன்படுத்த எழுத்து வடிவம் அல்லது எழுத்துரு (Font) வேண்டும். அடுத்து கணிப்பொறியில் நாம் விரும்பிய கருத்துக்களை உட்செலுத்த கீபோர்டு என்ற விசைப்பலகை வேண்டும்.
கணிப்பொறியிலும் அதன் வழியாக இன்டர்நெட்டிலும் தங்குதடையில்லாமல் முழுமையாக எந்த மொழியும் புழங்குவதற்கு இவையெல்லாம் வழி வகுப்பவை. இந்த மூன்றிலுமே தமிழில் ஏகப்பட்ட சிக்கல்கள். டாம், டாப், டிஸ்கி, இஸ்கி இப்படிப் பலவாறாக பிளவுண்டு கிடக்கின்றன. பல்வேறு நிறுவனங்களின் கீபோர்டு தயாரிப்புகள் வேறு இவற்றில் எதைச் சார்ந்து சொல் திருத்தியை உருவாக்குவது?
முதலில் இந்தச் சிக்கலைத் தீர்க்க வேண்டும். இவற்றுக்கு இடையே உள்ள இசைவின்மையை போக்கி, அனைத்தையும் இணைத்து இயங்குதளம் போல் செயல்படக் கூடிய ஒன்றை உருவாக்கிட வேண்டும் என்ற முயற்சியின் விளைவுதான் மொழித்தளம். இந்த மொழித்தளம் தமிழ் மொழிக்க மட்டுமல்ல, ஆங்கிலம் சாராத அனைத்து உலக மொழிகளுக்கும் பயன்படக்கூடிய ஒன்றாகும். இத்தகைய தமிழ் மொழித்தளம் தான் வரியுருமா" என்றார் திரு.சி.கபிலன்.
"இந்த வரியுருமாவில் ஓருலா, பார்க்கா, சேர்க்கா, மாற்றா, கடிதா, வடிவா என்ற அப்ளிகேஷன்கள் உள்ளன.
தமிழ் மென்பொருட்களில் மட்டுமல்ல. ஆங்கில மொழியில் உருவான மென்பொருட்களிலும் தமிழைப் பயன்படுத்த உருவானதுதான் "ஓருலா". அடுத்து, இன்டர்நெட், மின் உலகம் மிகப் பரந்த அளவில் விரிவடைந்துள்ளது. உலகின் எந்த மூலையில் இருப்பவரும் தொடர்பு கொள்ளக் கூடிய இமெயிலை தமிழில் அனுப்பினால் அவர் தட்டச்சு செய்த எழுத்துரு நம்மிடம் இல்லா விட்டால் அதைப் படிக்க முடியாது. இதுபோன்ற சிக்கலைத் தீர்ப்பதற்கத்தான் பார்க்கா. இதில் அனப்பியவரின் எழுத்துரு நம்மிடம் இல்லாவிட்டாலும் அவற்றைப் பார்க்கா வில் படித்து விடலாம்.
மற்றவர்கள் தயாரித்த எழுத்துரு விசைப்பலகையை இணைத்துக் கொள்ளவும். நாம் விரும்பியவாறு விசைப்பலகை ஒன்றை வடிவமைத்துக் கொள்ளவும் உள்ளதுதான் சேர்க்கா.
கம்பன் என்ற எழுத்துருவில் தட்டச்சு செய்து வைத்துள்ளதை Tam...Tamil003 என்ற எழுத்துருவிற்கு மாற்றிப் பயன்படுத்த விரும்பினால் சாத்தியமில்லை. ஏனென்றால் இரண்டு எழுத்துருக்களுமே வெவ்வேறு விசைப் பலகையில் உருவானவை. இதனால் திரும்ப தட்டச்ச செய்வதைத் தவிர வேறு வழியில்லை. இந்தச் சிக்கலைத் தீர்ப்பதுதான் மாற்றா எந்தவிசைப்பலகையின் எழுத்துருவில் இருந்தாலும் அதை வேறு எந்தவொரு விசைப்பலகையின் எழுத்துருவுக்கும் மிக எளிதாக மாற்றலாம். அந்த டெக்ஸ்ட்களின் வடிவம், வண்ணம் இவற்றில் எந்த மாற்றமும் வராது.
கடிதா வில் நாம் பழகிய விசைப்பலகையில் யுனிகோடில் தட்டச்சு செய்து மின்னஞ்சல் அனுப்பிடலாம்.
வடிவா என்ற வேர்ட்ப்ராசசர் ஒன்றும் இணக்கப்பட்டுள்ளது. இது டெக்ஸ்ட்டுகளை உருவாக்கவும், சேமிக்கவும் அச்சிடவும் பயன்படுகிறது.
மொழித்தளம் என்பது ஒரு மொழிப் பயன்பாட்டை பல்வேறு வகையிலும் மேம்படுத்தும் கூறுகளை உள்ளடக்கியதாக இருக்க வேண்டும். இதனால் டாக்டர் வா.செ.குழந்தைசாமி அவர்களின் தமிழ் எழுத்துக்களின் சீர்திருத்த வடிவில் அமைந்த எழுத்துருக்களும் இதில் இணைக்கப்பட்டுள்ளன.
கணிப்பொறியில் புழங்கும் உலக மொழி ஒவ்வொன்றுக்கும், உலக அளவிலான பயன்பாட்டுப் பொதுத்தன்மையை வகுத்தளித்து, சீரமைத்து வரும் பன்னாட்டு அமைப்புதான் யுனிகோட் கன்சோர்ட்டியம். இந்த யுனிகோடிற்கு நாமும் மாறினால்தான் உலகத்தரத்துடன் ஒத்துப் போக முடியும்.
இந்த யுனிகோட், வரியுருமாவில் முதுகெலுமபு போல் அமைந்துள்ளது. நமக்கு வரக்கூடிய இமெயிலையோ டெக்ஸ்ட்டுகளையோ படிப்பதற்கு, குறிப்பிட்ட அந்த எழுத்துரு நம்மிடம் இல்லாவிட்டாலும் அதனை யுனிகோடிற்கு மாற்றிக் கொடுத்துவிடும். வரியுருமாவின் மாற்றா.
சுருக்கமாகச் சொன்னால், வரியுருமா வந்து விட்டதால் மின்னுலகில் எந்தவித தடைகளோ கட்டுப்பாடுகளோ இல்லாமல், தமிழ் சுதந்திரமாக இனி உலா வரும் என்றார்.
மேலும், இந்த வரியுருமா மொழித்தளத்தில் தான் சென்னைப் பல்கலைக்கழகத்தின் அகராதி மற்றும் கலைக் களஞ்சிய தயாரிப்புகளுக்கான தேவநேயா மென்பொருளைத் தயாரித்துக் கொடுத்துள்ளோம். சென்னைப் பல்கலைக் கழகத்தின் தமிழ்த் துறையைச் சேர்ந்த டாக்டர் வ.ஜெயதேவன் அவர்கள் இந்த வரியுருமா மென்பொருள் தமிழ் என்கோடிங், எழுத்துரு, விசைப்பலகை தொடர்பான சிக்கல்களைத் தீர்த்து வைத்துள்ளது. இதனால் கணிப்பொறியில் தமிழை மிக எளிமையாகவும் சுதந்திரமாகவும் பயன்படுத்த முடிகிறது என்றார்.
மேலும், சென்னைப் பல்கலைக்கழக தமிழ்த்துறை, தமிழ் வளர்ச்சித்துறை, எய்ட்ஸ் கட்டுப்பாடு சங்கம் பல்வேறு பெரிய நிறுவனங்கள், தமிழ் இதழ்களில் வரியுருமா பயன்படுத்தப்படுகிறது என்றார்.
உங்கள் நிறுவனத்தின் எதிர்காலத் திட்டம் பற்றிக் கூறுங்கள் என திரு.சி.கபிலன் அவர்களிடம் கேட்டபோது...
சொல் திருத்தியை முழுமையாகத் தயாரித்து வெளியிடுவது, விரும்பும் நூல்களை அல்லது பக்கங்களை அப்படியே ஸ்கேன் செய்து விரும்பும் விதத்தில் திருத்தி அமைக்க உதவும் ஓ.சி.ஆர் (OCR) குரல் அறிந்து டெக்ஸ்ட்டுகளாக்கும் குரலறி மென்பொருள் (Voice Recogniser) இவற்றின் தயாரிப்புப் பணி முடிவுறும் நிலையில் உள்ளது. எழுத்துப் பிழை, இலக்கணப் பிழை இவற்றைத் திருத்தும் இலக்கணா மென்பொருள்.
இன்றைய புரோகிராம்கள் செயற்கையாக வடிவமைக்கப்பட்ட கணிதம் சார்ந்த குறியீட்டு மொழியில் உள்ளது. இதில் பயன்படும் சில ஆங்கில எழுத்துக்கள் கூட குறியீடாகவே பயன்படுத்தப்படுகின்றன. இதற்குப் பதிலாக இயற்கை மொழி நிரல் (Natural Language Processing - NLP) உருவாக்குவதற்கான ஆராய்ச்சிகள் நடந்து கொண்டுள்ளன. ஆங்கில மொழியை இப்படிப் பயன்படுத்திடவும் ஆராய்ச்சிகள் நடக்கின்றன.
இந்த இயற்கை மொழி நிரலை (NLP) தமிழில் கொண்டு வர விரும்புகிறோம். அதாவது தமிழ் புரோகிராமிங் மொழியாக வேண்டும். தமிழ் மொழியின் கட்டுக்கோப்பான இலக்கணமும், ஒழுங்கும் இதற்கான வாய்ப்பைத் திறந்து விட்டுள்ளன. அடுத்து, செயற்கை நுண்ணறிவு (Artificial Intelligence) இதற்கான மாதிரியை (Demo) 1993 லேயே கொண்டு வந்துள்ளோம். அது தொடர்பான ஆராய்ச்சிகளையும் செய்து கொண்டிருக்கிறோம்" என்கிறார் மிகுந்த நம்பிக்கையுடன்.
|