-
Notifications
You must be signed in to change notification settings - Fork 26
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
tokenizer #114
Comments
Ако не греша техническото название на lexical tokenisation е "морфологичен разбор", а parsing (syntactic analysis) е "синтактичен разбор" (разбор на словореда?). Разбор по думи(чки), словесен разбор - ако ще се изследват. ПС. на македонски видях че има "разчленуване". Радва. За съжаление го ползват за синтактичен разбор. |
ако token е парче/част, тогава tokenization - разпарчетосване, разчленяване tokenizer ще бъде разчленител или направо касапин ако искате, което обаче е от турски. тия горе от @dragnev-dev са някакви неща на латински, които не знам точно към кое от всичките неща се отнасят. и именно защото са на латински е трудно да се помнят хах :) шега де, просто не ги знам. и речника на бан - и той. против "морфологичен разбор" съм, защото това предполага морфеми и синтаксис, а разпарчатосването, което се случва примерно при езиковите модели, не може да се предвид по какво ще е. следствие от тренировката се образува речника в някакъв смисъл. |
Разчленител е добре, може би разделител. Защо не и без представка – делител, членител.
'де касапин, там и резач. Има един хубав резач в инструментите на баща ми 😃
От предложенията на двама ви заедно – словодробител, словорезач. Любимите за сега, но май не са добри кандидати 😃 |
@dragnev-dev , просто не са думи от книжовния език, за сега се опитваме да не си измисляме нови. иначе и словорез звучи добре. резач може би става, но в случая по-важно е да покажем, че остават парчета. обаче ако превеждаш резач от БГ->ЕН получаваш cutter. лошото е, че token в смисъла на JWT много по-лесно се описва като "карта за достъп". отдавна си мисля да отворим една секция/част от проекта с подобни предложения за нови думи (като например промеждие за middleware). за мен също времето е назряло, просто не се чувствам ерудиран като Иван Богоров да го правя с увереността, нужна за подобно измисляне. |
"членител" всъщност може и най-просто от всички. почвам да се замислям... |
словосекач Редакция (18-12-2024). сека, секира, мисля идва от латински 'sectio' - режа. Не е подходящо. |
@metala tokenizer не предполага дали слово се цепи на парчета или нещо друго разпарчетосваме. сигурно от цепя би следвало да има цепител, ама ... няма. някакъв жаргон "дървоцепител" открива търсачката, не знам защо не са го направили "дървоцеп" - много яко звучи. но и дървоцеп няма. за сметка на това БАН посочва в единия речник цепач е "човек, който се занимава с цепене на дърва". някак много примамливо е да му възложим да цепи и по-общо така ако може, та да мине за tokenizer. и предвид, че token може да значи каквото си поиска, едва ли не... ето още една етимология, от която разбираме, че token може да е знак за признателност (token of appreciation), може да е талисман/сувенир и т.н. обаче, дами и господа, в старобългарски изглежда има раꙁдробт , което е "да раздробя", а в речника на БАН има раздробител и мисля, че няма какво повече да го умуваме 🚀 |
в крайна сметка предлагам: раздробител, разчленител (съществителното го няма в речника, но го има в някакви ужасяващи новини от света) за членител (несъществуващата дума) се чудя дали ще се разбере като някой, който слага пълен член или някой, дето... го слага, простете, на всички подред предвид медицинския смисъл на член. а за глагола и трите : разпарчетосвам жалко, че няма разпарчетосник |
а дали не трябва и "обозначител" предвид, че сме писали "знак" за token? |
tokenization - нацепване, разчленяване, раздробяване ? |
или нужния хак за моделиране на данните в големите езиковите модели
лемификатор, морфемизатор, лексемизатор
The text was updated successfully, but these errors were encountered: