Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

tokenizer #114

Open
dragnev-dev opened this issue Dec 12, 2024 · 10 comments
Open

tokenizer #114

dragnev-dev opened this issue Dec 12, 2024 · 10 comments

Comments

@dragnev-dev
Copy link

или нужния хак за моделиране на данните в големите езиковите модели

лемификатор, морфемизатор, лексемизатор

@metala
Copy link
Collaborator

metala commented Dec 12, 2024

Ако не греша техническото название на lexical tokenisation е "морфологичен разбор", а parsing (syntactic analysis) е "синтактичен разбор" (разбор на словореда?).

Разбор по думи(чки), словесен разбор - ако ще се изследват.
Разбиване по думи(чки) - ако ще се делят само.
Разбиване по части(ци)?

ПС. на македонски видях че има "разчленуване". Радва. За съжаление го ползват за синтактичен разбор.
Разчленяване на текст?

@stelf
Copy link
Owner

stelf commented Dec 13, 2024

ако token е парче/част, тогава

tokenization - разпарчетосване, разчленяване

tokenizer ще бъде разчленител или направо касапин ако искате, което обаче е от турски.

тия горе от @dragnev-dev са някакви неща на латински, които не знам точно към кое от всичките неща се отнасят. и именно защото са на латински е трудно да се помнят хах :) шега де, просто не ги знам. и речника на бан - и той.

против "морфологичен разбор" съм, защото това предполага морфеми и синтаксис, а разпарчатосването, което се случва примерно при езиковите модели, не може да се предвид по какво ще е. следствие от тренировката се образува речника в някакъв смисъл.

@dragnev-dev
Copy link
Author

tokenizer ще бъде разчленител

Разчленител е добре, може би разделител. Защо не и без представка – делител, членител.

касапин

'де касапин, там и резач. Има един хубав резач в инструментите на баща ми 😃

словесен разбор

От предложенията на двама ви заедно – словодробител, словорезач. Любимите за сега, но май не са добри кандидати 😃

@stelf
Copy link
Owner

stelf commented Dec 14, 2024

@dragnev-dev , просто не са думи от книжовния език, за сега се опитваме да не си измисляме нови. иначе и словорез звучи добре. резач може би става, но в случая по-важно е да покажем, че остават парчета. обаче ако превеждаш резач от БГ->ЕН получаваш cutter.

лошото е, че token в смисъла на JWT много по-лесно се описва като "карта за достъп".

отдавна си мисля да отворим една секция/част от проекта с подобни предложения за нови думи (като например промеждие за middleware). за мен също времето е назряло, просто не се чувствам ерудиран като Иван Богоров да го правя с увереността, нужна за подобно измисляне.

@stelf
Copy link
Owner

stelf commented Dec 14, 2024

"членител" всъщност може и най-просто от всички. почвам да се замислям...

@metala
Copy link
Collaborator

metala commented Dec 15, 2024

словосекач

Редакция (18-12-2024). сека, секира, мисля идва от латински 'sectio' - режа. Не е подходящо.

@stelf
Copy link
Owner

stelf commented Dec 16, 2024

@metala tokenizer не предполага дали слово се цепи на парчета или нещо друго разпарчетосваме. сигурно от цепя би следвало да има цепител, ама ... няма.

някакъв жаргон "дървоцепител" открива търсачката, не знам защо не са го направили "дървоцеп" - много яко звучи. но и дървоцеп няма.

за сметка на това БАН посочва в единия речник цепач е "човек, който се занимава с цепене на дърва". някак много примамливо е да му възложим да цепи и по-общо така ако може, та да мине за tokenizer. и предвид, че token може да значи каквото си поиска, едва ли не...

ето още една етимология, от която разбираме, че token може да е знак за признателност (token of appreciation), може да е талисман/сувенир и т.н.

обаче, дами и господа, в старобългарски изглежда има раꙁдробт , което е "да раздробя", а в речника на БАН има раздробител и мисля, че няма какво повече да го умуваме 🚀

@stelf
Copy link
Owner

stelf commented Dec 16, 2024

в крайна сметка предлагам:

раздробител, разчленител (съществителното го няма в речника, но го има в някакви ужасяващи новини от света)

за членител (несъществуващата дума) се чудя дали ще се разбере като някой, който слага пълен член или някой, дето... го слага, простете, на всички подред предвид медицинския смисъл на член.

а за глагола и трите :

разпарчетосвам
раздробявам
разчленявам
разломявам

жалко, че няма разпарчетосник

@stelf
Copy link
Owner

stelf commented Jan 2, 2025

а дали не трябва и "обозначител" предвид, че сме писали "знак" за token?

stelf added a commit that referenced this issue Jan 2, 2025
close. #114
@stelf
Copy link
Owner

stelf commented Jan 6, 2025

tokenization - нацепване, разчленяване, раздробяване ?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants