Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Issues when using a paragraph as input #4

Open
mpedraza98 opened this issue May 1, 2024 · 0 comments
Open

Issues when using a paragraph as input #4

mpedraza98 opened this issue May 1, 2024 · 0 comments

Comments

@mpedraza98
Copy link

I have been recently using the model. However, when trying to use a paragraph or some long string as input the annotator shows an error due to

---> 22         assert len(tokens) == len(pos_tags)
     23         assert len(tokens) == len(ner_tags)
     24         annotation = {}

AssertionError: 

It seems like the number of tokens differs from the number of tags. This doesn't happen with a shorter string. I tried using POSTagger.generate_tags() and I get a list of tags that is around a third of the number of words in the paragraph. Is there some size restriction in the text that can be used as input? How can I work around this issue?

This is the text I was using as an example

През 1878 г., след почти век на културно и икономическо възраждане, неуспешни въстания и дипломатически борбиБългария възстановява държавността си под формата на монархия и се освобождава от петвековното османско владичество с помощтана Руската империя в Руско-турската Освободителна война. Малко след това България започва да води редица войни със своите съседии се съюзява с Германия по време на двете световни войни. На 15 септември 1946 г. монархията е заменена с народна република, от съветски тип и държавата се преименува на Народна република България, ръководена от Българската комунистическа партия. Социалистическият строй съществува до 1990 г., след което България поема по пътя на либералната демокрация и пазарната икономика. На 29 март 2004 г. страната се присъединява към НАТО, а на 1 януари 2007 г. – към Европейския съюз.
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant