Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

SAGE Feedback & Future Development venues #13

Open
meduzick opened this issue Apr 12, 2024 · 5 comments
Open

SAGE Feedback & Future Development venues #13

meduzick opened this issue Apr 12, 2024 · 5 comments
Labels
enhancement New feature or request

Comments

@meduzick
Copy link
Collaborator

Hi, everyone!

SAGE🌿 Team speaking.

🚀 This issue is a dedicated place for the organised feedback on our project and ideas on how we can improve SAGE to build best open source spellchecker for multiple languages.

We would love to hear from you about your positive and negative experiences with SAGE, your expectations and ideas. But please be concise and back up your feedback with representative and reproducible examples.

See you in comments below ⬇️

@meduzick meduzick added the enhancement New feature or request label Apr 12, 2024
@unterumarmung
Copy link

Hi!

I really like your models. I'm using the FRED-T5-1.7B-spell-distilled-100m model for some personal projects to correct Russian texts. However, I noticed that its context size is rather small, and it truncates large texts, leaving some parts behind. Given this issue, I have a couple of questions:

  1. What are the context sizes for each model? I couldn't find this information in the documentation.
  2. Is there any approach to process large texts that exceed the context sizes of the models without losing any part of the text?

@meduzick
Copy link
Collaborator Author

Hi, @unterumarmung!

FredT5-based models naturally inherit input / output lengths restrictions used while pre-training (it's 512 / 512, the details can be seen in the paper https://arxiv.org/pdf/2309.10931).
Regarding your second question: could you please follow up with a representative example of truncated sequence (just input sequence would be enough) or specify the number of input tokens? That would help us to identify the problem and come up with the solution or at least recommendation.

@unterumarmung
Copy link

Here is input text:

Большие языковые модели, такие как GPT-4, играют все более важную роль в повседневной жизни, предоставляя множество полезных возможностей и инструментов. Эти модели основаны на передовых алгоритмах машинного обучения и способны понимать и генерировать текстно, в человеческом языке, что открывает перед нами новые горизонты в различных сферах точка одним из наиболее значимых применений. Больших языковых моделей являются образования. Они могут выступать в роли виртуальных репетиторов, помогая учащимся разбираться в сложных темах и предоставляя разъяснения на понятном языке. Студенты могут использовать эти модели для подготовки к экзаменам, написания ССС и выполнения домашних заданий. Более того, языковые модели могут адаптироваться к индивидуальным потребностям учащихся, что позволяет создавать персонализированные учебные программы. В профессиональной среде большие языковые модели оказываются незаменимыми помощниками. Они могут автоматизировать рутинные задачи, такие как составление отчетов, написание писем и обработка данных. Это позволяет сотрудникам сосредоточиться на более творческих и стратегически важных задачах. В сфере юриспруденции медицины и финансов языковые модели помогают анализировать большие объемы информации и предоставлять. Рекомендации на основе собранных данных точка языковые модели значительно улучшают качество коммуникации между людьми. Они могут переводить текст с одного языка на другой, способствуя межкультурному общению и деловым взаимодействием на международном уровне. Также модели могут исправлять грамматические ошибки и улучшать стиль написания, что делает тексты более понятными и профессиональными. В повседневной жизни большие языковые модели могут выступать в роли персональных ассистентов. Они помогают планировать день, напоминают о важных событиях и задачах, предлагают рецепты на основе имеющихся ингредиентов и даже помогают находить информацию в интернете. Виртуальные помощники, такие как Siri, Alioha и Google Assistant, используют возможности языковых моделей для выполнения различных команд и запросов пользователей. В сфере развлечений языковые модели также находят широкое применение. Они могут генерировать истории, стихи, песни и сценарии, что открывает новые возможности для творчества. Видя игры, фильмы и литературы могут использовать языковые модели для создания уникального контента и взаимодействия с пользователями. Однако использование больших языковых моделей также поднимает важные вопросы этики и социальной ответственности. Необходимо обеспечить конфиденциальность данных пользователей и предотвратить распространение дезинформации. Важно также следить за тем, чтобы модели не воспроизводили и не усиливали предвзятость и дискриминацию. В заключение большие языковые модели представляют собой мощный инструмент, который уже сегодня оказывает значительное влияние на нашу повседневную жизнь. Они помогают нам учиться, работать, общаться и развлекаться, открывая новые возможности для развития и прогресса. Однако их использование требует внимательного подхода и осознания ответственности, чтобы максимально эффективно и этично использовать их потенциал.

Here's the output text I get:

Большие языковые модели, такие как GPT-4, играют все более важную роль в повседневной жизни, предоставляя множество полезных возможностей и инструментов. Эти модели основаны на передовых алгоритмах машинного обучения и способны понимать и генерировать текст на человеческом языке, что открывает перед нами новые горизонты в различных сферах. Точка одним из наиболее значимых применений. Больших языковых моделей являются образования. Они могут выступать в роли виртуальных репетиторов, помогая учащимся разбираться в сложных темах и предоставляя разъяснения на понятном языке. Студенты могут использовать эти модели для подготовки к экзаменам, написания ССС и выполнения домашних заданий. Это позволяет сотрудникам сосредоточиться на более творческих и стратегически важных задачах. В сфере юриспруденции, медицины и финансов языковые модели оказываются незаменимыми помощниками. Они могут автоматизировать рутинные задачи, такие как составление отчётов, написание писем и обработка данных. Это позволяет сотрудникам сосредоточиться на более творческих и стратегически важных задачах. В сфере юриспруденции, медицины и финансов языковые модели помогают анализировать большие объёмы информации и предоставлять рекомендации на основе собранных данных. Точка языковые модели значительно улучшают качество коммуникации между людьми. Они могут генерировать истории, стихи, песни и сценарии, что открывает новые возможности

@meduzick
Copy link
Collaborator Author

@unterumarmung thnx, we will be right back

@meduzick
Copy link
Collaborator Author

@unterumarmung we cut input length to 256 tokens while pre-training, because extensive text corruption added almost twice as many tokens to the source. The latter implies models are able to process sequence of 256 tokens in one run. Note however that you are still able to cut longer pieces of text into appropriate chunks of 256 tokens or less (split in sentences, for example). We didn't notice severe performance degradation when employing this approach to proceed with long texts. We expect this to work for you as well. Hope that helps and let us know if you experience noticeable drop in performance, when running longer text in chunks.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

2 participants