Pdf.js (para nodo) no muestra contenido completo de pdf

Estoy intentando buscar el texto de un pdf utilizando https://www.npmjs.com/package/pdfjs-dist-for-node .

Mi código se ve así:

gettext: function(){ var data = '../static/example.pdf'; return pdfjs.getDocument(data).then(function(pdf) { var pages = []; for (var i = 0; i < pdf.numPages; i++) { pages.push(i); } return Promise.all(pages.map(function(pageNumber) { return pdf.getPage(pageNumber + 1).then(function(page) { return page.getTextContent().then(function(textContent) { return textContent.items.map(function(item) { return item.str; }).join(' '); }); }); })).then(function(pages) { return pages.join("\r\n") }); }).then(function(pages){ console.log(pages) }); } 

Esto parece funcionar, pero omite partes del texto. Específicamente, omite lo que no pueda resaltar con el mouse en el documento pdf original. ¿Hay una manera de obtener pdf.js para recoger estos datos?

Si el texto no se puede seleccionar cuando ve el PDF, eso significa que en realidad es una imagen , lo que significa que no podrá buscarlo.

Desafortunadamente, esto no es posible, a menos que configure otra cosa para hacer algo de OCR en el PDF primero para intentar convertir las imágenes a texto.