يوه ژبه به تر کوم وخته ژوندۍ او د سيالۍ وړ پاته کيږي، دا په دې پوري تړاو لري چې په کومه اندازه ډيجيټلايز شوې ده.
د مقالې لنډه بڼه:
دا چې په اوسني او راتلونکي عصر کې يوه ژبه به تر کوم وخته ژوندۍ او د سيالۍ وړ پاته کيږي، دا په دې پوري تړاو لري چې په کومه اندازه ډيجيټلايز شوې ده. د يوې ژبې د ډيجلايز کېدو لپاره د دغې ژبې د متونو ډيجټل کول، د ژبې کمپيوتري موډلونه جوړول، د ژبې لوی او پراخ کارپورا رامنځته کول، د ژبې معياري کول او د ژبې موادو ته لاسرسی عامول له مهمو او حتمي ګامونو څخه دي. دا چې پر حکومتي او دولتي سطحه د پښتو ژبې د ډيجيټلايز کېدو لپاره د کافي هلو ځلو امکانات په نژدې لسيزو کې نه تر سترګو کيږي، نو که پښتانه غواړي چې ژبه يې ژوندۍ پاته شي، هغوی بايد د دغې ژبې د ډيجټلايز کولو لپاره په شخصي او خصوصي سطحو باندې کار وکړي.
مفصله بڼه:
پوهه او علم هغه شی دی چې د انسانانو تر منځ د سيالي تر ټولو عمده عنصر هم دی. که څوک پوهه ولري چې څنګه په لږو امکاناتو زيات خوراکي مواد توليد او ساتلای شي، نو د خوراکي توکو لپاره د سيالي او مبارزې په ترڅ کې تر نورو زيات د ژوندي پاته کېدو چانس لري. څوک چې د دفاعي تجهيزاتو د جوړولو او کارولو پوهه لري، نو په دې ډګر کې د ناپوه احتمالي رقيب او دښمن په وړاندې د بريا بهتر چانسونه لري. څوک چې د اقتصاد، طب، زراعت او د ژوند د نورو ساحو په تړاو تر نورو زيات علم، پوهه او معلومات لري، نو هغه په يادو ډګرونو کې تر نورو مخکي کيږي. له بل اړخه د ژبې تر ټولو مهمه وظيفه د افهام او تفهيم يعني د انسانانو تر منځ د تماس نيولو او په دې توګه د معلوماتو او پوهې د تبادلې ده. يعني معلومات ژوند او د ژوند پرمختګ دی او د معلوماتو د ترلاسه کولو وسيله همدا انساني ژبه ده.
په زياته په ډيجيټل پېر او عصر کې د ژوندي او سيال پاته کېدو لپاره بېله خنډونو و علم ته لاسرسی لازم او حتمي دی. اوس د کاميابۍ او برلاسيتوب لپاره تر بل هر وخت ډېر و علم، پوهې او معلوماتو ته لاسرسی يو حتمي عنصر ګرځېدلی دی. دا چې ژبه د معلوماتو د لېږد رالېږد او تبادلې تر ټولو مهمه وسيله ده، نو هر هغه څوک چې خپل هويت او موجوديت په خپله ژبه پوري مربوطوي، هغه بايد خپله ژبه د دې جوګه وګرځوي، چې د معلوماتي ټيکنالوژۍ او ډيجيټلايزېشن په پېر کې ژوندۍ او سياله پاته شي.
د پښتو متونو ډيجيټل کول
د هرې انساني ژبې د ډيجيټل کولو لپاره لومړی او مهم ګام د دغې ژبې د متونو ډيجيټل کول دي. دا په دې معنی چې چاپ شوي مواد سکېن او يا ټايپ کړل شي. دغه ډيجيټل شوي مواد د مثال په توګه د پي ډي اېف، ټېکسټ TXT يا HTML بڼه لرلای شي. کله چې د انساني ژبې متون ډيجيټل کړل شي، نو بيا د هغوی ذخيره کول، پکښي لټون کول او د کمپيوتري پروګرامونو له لارې د هغوی پروسه کول ممکن او آسانه کيږي. د يوې انساني ژبې د ډيجيټل کارپورا رامنځته کولو لپاره هم بايد لومړی د دغې ژبې زيات مواد ډيجيټل کړل شي(1).
د پښتو چاپ شوو کتابونو د ډيجيټل کولو په برخه کې يو شمېر منځنۍ او وړې آنلاين پروژې شته چې پښتو کتابونه او مجلې يې د پي ډي اېف په بڼه اړولي دي. په دغو پروژو کې د کتابتون ټکی کام په شان وېب پاڼې او د آرکايف ډاټ اورګ يا خو د کابل په پوهنتون کې د افغانستان مرکز acku ډيجيټالي زېرمې شاملي دي. البته دمګړی د لا زياتو چاپ شوو موادو د سکېن کولو تر څنګ، د تر مخه لا سکېن شوو موادونو و ټايپ شوي او د لټون وړ ټېکسټ ته اړول پکار دي. دا کار د پښتو متونو لپاره د ځانګړو OSR يا د متن انځور په ټايپ شوي متن اړوونکو سيسټمونو کېدلای او دا پروسه په چټکېډلای شي.
د پښو ژبې کارپورا رامنځته کول
کارپورا د متونو ، ثبت شوو آوډيو يا ږغيزو موادو، او د يوې ژبې د نورو ډيجيټل شوو موادو يوې لويي زېرمي ته ويل کيږي. د يوې ژبې دغه ډیټا د ژبپوهنيزو څیړنو او د ژبې د کمپيوتري ماډلونو د جوړولو لپاره کارول کيږي. د ژبې کارپورا د مختلفو سرچینو لکه کتابونو، ورځپاڼو، ټولنیزو رسنیو، او ثبت شوو ږغيزو ويناوو او خبرو اترو څخه راټولو شوو او تنظيم شوو موادو څخه جوړيږي. خو په دې برخه کې يو له مهمو ګامونو څخه دا دی چې له شته موادو څخه انتخاب وشي(2). په فرانسه او د امريکا په متحده ايالاتو کې د پښتو ژبې د کارپورا پر جوړولو کار شوی دی(3). د کارپورا د جوړولو تر څنګ بايد چې د ژبپوهنيزو اصولو او اړتياو پر اساس د پښتو ژبې متون «ټېګ» کړل شي. دا په دې معنی چې د متونو دغه زېرمه لغت پر لغت او جوړښت پر جوړښت تجزيه او د ځانګړو نخښو په مرسته په نخښه يا ټېګ کړل شي. د مثال په توګه چې پکښي د اسم، فعل، صفت او نورې ځانګړتياوې د درک وړ وي.
د کمپيوتري موډلونو جوړول او پراختيا ورکول
د يوې ژبې کمپيوتري موډلونه د انساني ژبې د پروسس او تحليل کولو وړتيا لري. دا دول پروګرامونه د کمپيوتري ژبپوهنې پر اساس جوړيږي او د مثال په توګه د يوې ژبې د شته کارپورا په مرسته تمرين او روزل کيږي. د مثال په توګه دغه پروګرامونه د ژباړه کولو، د ږغيزې وينا د پېژندلو او پروسس کولو، د احساساتو تحليل او ورته نور وظايف په غاړه اخيستلای شي. د دا ډول پروګرامونو تر شا د کره او هر اړخيزو ژبنيزو موډولونو لاس وي (4)، کوم چې په ډېره پراخه کچه د تشريح او ټېګ شوې کارپورا او د پېچلي ماشيني زدکړې او الګوريتمونو په مټ جوړيږي.
د ګوګل ټرانسلېټر پښتو ژباړه د کمپيوتري ژباړې او د پښتو ژبې د موډولونو يوه بېلګه ده چې ورځ تر بلې يې تجربه، زدکړه او په پايله کې څرنګولای بهتره کيږي. البته شرط يې دا دی چې رضاکاران د ګوګل ټرانسلېټر په لا بهتره کولو کې لا زياته او په دوامداره توګه برخه واخلي.
د پښتو ژبې د مهمو موډلونو څخه د دغې ژبې د متونو له انځور څخه د تورو پېژندل او هغه په ټايپ شوي متن د اړولو OCR پروګرامونه هم دي. که څه چې اوس په تجارتي او غېرتجارتي پروژو کې د پښتو د OCR پروګرامونه رامنځته شوي دي، خو لا يې کېفيت د اړتيا وړ ښه نه دی.
د پښتو ژبې املايي او ګرامري معيار رامنځته کول
د يوې ژبې د معياري کولو څخه مقصد دا وي چې د دغې ژبې د ليکلو او ويلو لپاره پر قواعدو او کنوانسيونونو توافق او تفاهم رامنځته شي. په زياته په ډيجيټل پېر کې صرف هغه وخت يوه ژبه ښايي د ژوندۍ پاته کېدو وړ وي، کله چې يې معيار ټاکل شوی وي. د مثال په توګه د ژباړې کمپيوتري پروګرام بايد پوه وي چې کوم املايي واريانت صحيح او کوم غلط دی. د يوې انساني ژبې معياري کول د ډيجيټل وسايلو او پروګرامونو رامنځته کول ځکه اسانه کوي ولې چې د ژبې ډېټا يا معلومات په دوامداره او دقيق ډول د پروسس کولو وړ ګرځېدلي وي. د دې تر څنګ معياري کول د مختلفو ژبو ويونکو تر منځ اړيکو نيولو او همکاريو رامنځته کولو ته لاره هواره وي.
که څه چې په تيرو نژدې لسيزو کې په پښتنو کې د عصري ژبپوهنې د بيلو څانګو کارپوهان را روزل شوي دي، خو د هغوی شمېر بيا هم ډېر کم او تر منځ يې انسجام او رابطه کمه ده. په نړۍ کې د نورو ژبو د معياري کېدلو و پروسو ته په کتلو سره دا هم معلومه شوې ده، چې د يوې ژبې د معياري کولو پروسه صرف د ژبپوهنې بُعد نلري، بلکه ټولنيز، سياسي او نور بعدونه هم ورسره مل وي.
دمګړی تر ټولو زيات پښتانه په افغانستان او په سويلي او جنوبي پښتونخوا او ورسره مل د پاکستان په لوی ښار کراچي کې آباد دي. خو د پښتو ژبې د معيار په هکله تر اوسه د يادو ډلو تر منځ په زياتو مواردو کې اختلافات پر ځای پاته دي، چې اکثره دغه اختلافات د پښتو ژبې د بيلو لهجو د اجرا يا تلفظ کېدلو پر اساس دي. په پښتنو کې اوس هم بعضي «ګُورُوګانو» يا «پيرانو» ته ورته اشخاص يا وړې ډلې شته چې خپل خپل پلويان او «مريدان» لري. آن په اکاډميکو حلقو کې د دغې ژبې د معياري کولو موضوع زيات وختونه د احساساتو، سيميز او لهجوي سليقوي برخورد سره مخامخ کيږي او په هکله بحثونو کې يې پراګماتيزم او علمي استدلال کم خو قبيلويت او سيميز اکټيويزم زيات تر سترګو کيږي. دا چې د کندهارۍ لهجې «ګُورُوګان» په هيڅ صورت د ننګرهارۍ لهجې «برلاسيتوب» ته «سر نه کښته کوي» يا دا چې د ننګرهارۍ لهجې «پيران» او «ستميان» په هيڅ صورت د کندهارۍ لهجې «د سيبانو د درختي تر سايې لاندي» جوړښتونه نشي زغملای، يا دا چې د کابل پوهان د پېښور «ے» ته «د اردو ژبې د ے» «سپک» خطاب کوي، دا ټول هغه مثالونه دي، چې ښيي چې د پښتو ژبې لپاره د دغې حياتي موضوع سره څومره سطحي، لباسي، سليقوي او غير علمي چلن کيږي.
يو او نيمي هغه «فيصلې» چې د پښتو ژبې د املا په هکله شوي دي، يا د پښتو ژبې د ليکلو لپاره توري جوړ شوي دي، نو هغه هم په بشپړه او کافي توګه مخکې له مخکې نه دي سنجول شوي او پکښې د ژبپوهنې اصول کم په پام کې نيول شوي دي. د مثال په توګه که له يو اړخه د «ي، ی، ۍ، ئ او ې» رامنځته کولو «آساني» رامنځته کړې، نو د لهجو تر منځ جنجال (کي که کې، چې که چې، ښځي که ښځې...) زيات کړی دی. لنډه دا چې د پښتو ژبې د ډيجيټلايزېشن په مخ کې يو له تر ټولو لويه ستونزه د پښتو نه معياري توب دی.
څوژبيزه اليکترونيکي وسايلو کې ځای موندنه
په داسي حال کې چې ټوله نړۍ په يو کلي بدله شوې ده، نو د بېلو ژبو ويونکو تر منځ د اړيکو فعاله ساتلو لپاره د اليکترونيکي وسايلو اهميت تر بل هر وخت زيات شوی دی. د دا ډول وسايلو پراختيا او لا بډايه کول ډېر مهم او اړين دي چې وکولای شي د بيلو ژبو تر منځ ماشيني ژباړه، له ږغيزې وينا څخه په متن او ږغ کې ژباړه او له څو ژبني لټون انجنونو څخه ګټه اخيستنه ممکنه کړي.
په پښتو کې د شته څو ژبيزو قاموسونو ډيجټل کول او د نوو قاموسونه جوړول په څو ژبيزه اليکترونيکي وسايلو و پښتو ته د ځای موندلو لپاره ډېر اړين دي. په دې ترڅ کې د مثال په توګه قاموسونه ټکی کام (5) يوه زياته مستعمله سرچينه ده. خو په دغه پاڼه کې آنلاين شوي زاړه چاپي قاموسونه تعديل او نوي شوي نه دي. د دې تر څنګ پر دغه پاڼه د آنلاين شوو امتحاني انلاين قاموسونو کېفيت ډېر ښه نه دی او پکښې لا زیاتو اصلاحاتو او زياتونو ته اړتيا شته.
د پښتو ژبې موادو ته عامه لاسرسی
د دې لپاره چې د نړۍ له هر کونج څخه خلک وکولای شي چې پښتو ژبه زده کړي، شته موادو ته يې لاسرسی ولري، د پښتو ژبې په ترڅ کې د خپل تحقيق لپاره په آسانه موادو ته رسيدګي پيدا کړي، د پښتنو کلتور وپېژني او ورسره ټولنيزه تبادله او شموليت پيدا کړي، نو د پښتو و شته متونو او توکو ته د لاسرسي عامول اړين او حتمي دي. دا په دې معنی چې هر څه چې شته دي، هغه بايد د ټولې نړۍ سره شريک کړل شي. که دا مواد د پښتو لهجو ږغيز او آوډيويي مواد وي، که يې د مشهورو شاعرانو دېوانونه وي (5) او که يې نور مواد وې، بايد ورته د نړۍ له هر کونج څخه لاسرسی ممکن وي.
خو حقيقت دا دی چې د پښتو ژبې په اوسنيو ټولو مطرح ادارو لا تر اوسه نه د ډيجيټلايزېشن د اهميت او اړتيا په هکله اړين بصيرت، درک او لېوالتيا تر سترګو کيږي او نه ورته دغه ادارې اړين وسايل او امکانات لري. نه يوازي د پښتو لپاره کار کوونکې ادارې، بلکه اکثريت ليکوالان او پوهان يې لا تر نن پورې «د ټولې نړۍ سره» د خپلو موادو او په دې توګه د خپل علم او پوهې د شريک کولو له اهميت او طرز سره بلد نه دي. اوس هم په زياتو مواردو کې ليدل کيږي چې د شريک کولو پر ځای له «پټ پټي»، «رازداريو»، «تر ۷۰ پردو شاته»، «په قلف شوي بکس کې»، «په فليزي المارۍ کې»، «په تاريک، دوړن، نمجن او چينجن ارشيف کې» شانته تګلاره پر مخ بيول کيږي. حال دا چې ډيجيټلايزېشن له حد اقل درو لسيزو راهيسي داسي يوه مهمه موضوع ده، چې په وروستيو وختونو کې يې په تدريجي توګه لا اهميت او مطرحوالی زيات شوی دی. خو د پښتنو د ادراو او عالمانو توجه لا ورته (په کافي اندازه) نه ده اوښتې.
دا ټول په دې معنی چې د پښتو ژبې ډيجيټلايزېشن د دغې ژبې او د پښتنو د هويت سره تړلې حياتي موضوع ده. دا يوه داسي وظيفه ده چې نبايد پښتانه لاس تر زنې ورته کښېني، او يا په غير رغنيزو انتقادونو او شعارونو يې د پوره کولو کوښښ وکړي. دا يوه داسي دنده ده چې د پښتو ژبې د بقا سره تړلې ده، او د سيميزو، لهجوي، قبيلوي او نورو تفريقونو آخوا مشترک هوډ او قربانۍ غواړي.
احمدولي اڅکزی، د ۲۰۲۳ کال د مارچ ۲۱مه نېټه
ماخذونه:
1. Manning, C. D., & Schütze, H. (1999). Foundations of Statistical Natural Language Processing. MIT Press.
"Digitization is a critical component of building a corpus" (Manning & Schütze, 1999, p. 4).
2. McEnery, T., & Wilson, A. (2017). Corpus Linguistics: An Introduction. Edinburgh University Press.
"Text selection is an essential first step in building a corpus" (McEnery & Wilson, 2017, p. 25).
3. Torabi, K. (2014). Pashto Corpus: Text Corpus and Linguistic Annotations. LINCOM Europa.
4. Jurafsky, D., & Martin, J. H. (2020). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition (3rd ed.). Pearson.
"Language modeling" (Jurafsky & Martin, 2020, pp. 182-190).
5. Qamosona dot com. (n.d.). Retrieved March 21, 2023
___________
دغي ليکنې ته لنډ لينک:
https://t1p.de/qxadr
___________
د کاپي کولو په صورت کې د دغه ليکنې اصلي لينک او د ليکوال نوم يادول ضروري دي.
Legal Note حقوقي يادونه
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
زما د فيسبوک پاڼه لاندې موندلای شئ: