Skip to content

Commit

Permalink
TIKA-2048
Browse files Browse the repository at this point in the history
  • Loading branch information
tballison committed Aug 5, 2016
1 parent 71cb936 commit 85e5385
Show file tree
Hide file tree
Showing 4 changed files with 9 additions and 1 deletion.
Original file line number Diff line number Diff line change
Expand Up @@ -56,6 +56,7 @@ public abstract class AbstractXML2003Parser extends AbstractParser {

final static String A = "a";
final static String BODY = "body";
final static String BR = "br";
final static String CDATA = "cdata";
final static String DIV = "div";
final static String HREF = "href";
Expand All @@ -70,6 +71,9 @@ public abstract class AbstractXML2003Parser extends AbstractParser {
final static String HLINK_DEST = "dest";
final static String NAME_ATTR = "name";

final static char[] NEWLINE = new char[] {'\n'};



private static ContentHandler getMSPropertiesHandler(
Metadata metadata, Property property, String element) {
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -141,6 +141,9 @@ public void startElement(String uri, String localName, String qName, Attributes
handler.startElement(XHTMLContentHandler.XHTML, TBODY, TBODY, EMPTY_ATTRS);
}
}
if (BR.equals(localName)) {
handler.characters(NEWLINE, 0, 1);
}

}
if (IGNORE_CHARACTERS.contains(new QName(uri, localName))) {
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -78,6 +78,7 @@ public void testBasicWord() throws Exception {
assertContains("R1 c1 R1 c2", txt);
assertNotContained("footnoteFigure", txt);
assertContains("footnote Figure", txt);
assertContains("test space", txt);

assertEquals("testJPEG_EXIF.jpg", list.get(7).get(TikaCoreProperties.ORIGINAL_RESOURCE_NAME));
}
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -1362,7 +1362,7 @@ QZD80KP2DjD40bgcvmmP9w+GPOoHFAlHHm3jAEMfiwHycJXraFygiKNtwKCoY3GBQdGQo3GGwSDw
o2MDdpBgP2C21joH84L1r3mINXY2OBhXID5FC4uDGe33JREZAt4CBP19qwAZ8YM5SwCujzTAQ9F4
MEQHDkUgdSAGugY6SF1+GEoPioQa6AoB/lnltw8v2NgeJMOvIxoGP3j+ADY2CXlJwIn/P/5PHv8D
nx6MOR==
</w:binData></w:docOleData><w:shapeDefaults><o:shapedefaults v:ext="edit" spidmax="1027"/><o:shapelayout v:ext="edit"><o:idmap v:ext="edit" data="1"/></o:shapelayout></w:shapeDefaults><w:docPr><w:view w:val="print"/><w:zoom w:percent="100"/><w:doNotEmbedSystemFonts/><w:trackRevisions/><w:defaultTabStop w:val="720"/><w:punctuationKerning/><w:characterSpacingControl w:val="DontCompress"/><w:optimizeForBrowser/><w:allowPNG/><w:validateAgainstSchema/><w:saveInvalidXML w:val="off"/><w:ignoreMixedContent w:val="off"/><w:alwaysShowPlaceholderText w:val="off"/><w:footnotePr><w:footnote w:type="separator"><w:p wsp:rsidR="00807723" wsp:rsidRDefault="00807723" wsp:rsidP="00C41587"><w:pPr><w:spacing w:after="0" w:line="240" w:line-rule="auto"/></w:pPr><w:r><w:separator/></w:r></w:p></w:footnote><w:footnote w:type="continuation-separator"><w:p wsp:rsidR="00807723" wsp:rsidRDefault="00807723" wsp:rsidP="00C41587"><w:pPr><w:spacing w:after="0" w:line="240" w:line-rule="auto"/></w:pPr><w:r><w:continuationSeparator/></w:r></w:p></w:footnote></w:footnotePr><w:endnotePr><w:endnote w:type="separator"><w:p wsp:rsidR="00807723" wsp:rsidRDefault="00807723" wsp:rsidP="00C41587"><w:pPr><w:spacing w:after="0" w:line="240" w:line-rule="auto"/></w:pPr><w:r><w:separator/></w:r></w:p></w:endnote><w:endnote w:type="continuation-separator"><w:p wsp:rsidR="00807723" wsp:rsidRDefault="00807723" wsp:rsidP="00C41587"><w:pPr><w:spacing w:after="0" w:line="240" w:line-rule="auto"/></w:pPr><w:r><w:continuationSeparator/></w:r></w:p></w:endnote></w:endnotePr><w:compat><w:breakWrappedTables/><w:snapToGridInCell/><w:wrapTextWithPunct/><w:useAsianBreakRules/><w:dontGrowAutofit/></w:compat><wsp:rsids><wsp:rsidRoot wsp:val="00C41587"/><wsp:rsid wsp:val="00272F3C"/><wsp:rsid wsp:val="006B6721"/><wsp:rsid wsp:val="00807723"/><wsp:rsid wsp:val="00926260"/><wsp:rsid wsp:val="00C41587"/></wsp:rsids></w:docPr><w:body><wx:sect><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"><w:r><w:t>before</w:t></w:r></w:p><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"/><w:tbl><w:tblPr><w:tblW w:w="0" w:type="auto"/><w:tblBorders><w:top w:val="single" w:sz="4" wx:bdrwidth="10" w:space="0" w:color="auto"/><w:left w:val="single" w:sz="4" wx:bdrwidth="10" w:space="0" w:color="auto"/><w:bottom w:val="single" w:sz="4" wx:bdrwidth="10" w:space="0" w:color="auto"/><w:right w:val="single" w:sz="4" wx:bdrwidth="10" w:space="0" w:color="auto"/><w:insideH w:val="single" w:sz="4" wx:bdrwidth="10" w:space="0" w:color="auto"/><w:insideV w:val="single" w:sz="4" wx:bdrwidth="10" w:space="0" w:color="auto"/></w:tblBorders><w:tblLook w:val="04A0"/></w:tblPr><w:tblGrid><w:gridCol w:w="2394"/><w:gridCol w:w="2394"/><w:gridCol w:w="2394"/><w:gridCol w:w="2394"/></w:tblGrid><w:tr wsp:rsidR="00272F3C" wsp:rsidTr="00272F3C"><w:tc><w:tcPr><w:tcW w:w="2394" w:type="dxa"/><w:shd w:val="clear" w:color="auto" w:fill="auto"/></w:tcPr><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"><w:r><w:t>R1 c1</w:t></w:r></w:p></w:tc><w:tc><w:tcPr><w:tcW w:w="2394" w:type="dxa"/><w:shd w:val="clear" w:color="auto" w:fill="auto"/></w:tcPr><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"><w:r><w:t>R1 c2</w:t></w:r></w:p></w:tc><w:tc><w:tcPr><w:tcW w:w="2394" w:type="dxa"/><w:shd w:val="clear" w:color="auto" w:fill="auto"/></w:tcPr><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"/></w:tc><w:tc><w:tcPr><w:tcW w:w="2394" w:type="dxa"/><w:shd w:val="clear" w:color="auto" w:fill="auto"/></w:tcPr><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"/></w:tc></w:tr><w:tr wsp:rsidR="00272F3C" wsp:rsidTr="00272F3C"><w:tc><w:tcPr><w:tcW w:w="2394" w:type="dxa"/><w:shd w:val="clear" w:color="auto" w:fill="auto"/></w:tcPr><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"/></w:tc><w:tc><w:tcPr><w:tcW w:w="2394" w:type="dxa"/><w:shd w:val="clear" w:color="auto" w:fill="auto"/></w:tcPr><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"/></w:tc><w:tc><w:tcPr><w:tcW w:w="2394" w:type="dxa"/><w:shd w:val="clear" w:color="auto" w:fill="auto"/></w:tcPr><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"><w:r><w:t>R2 c3</w:t></w:r></w:p></w:tc><w:tc><w:tcPr><w:tcW w:w="2394" w:type="dxa"/><w:shd w:val="clear" w:color="auto" w:fill="auto"/></w:tcPr><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"/></w:tc></w:tr><w:tr wsp:rsidR="00272F3C" wsp:rsidTr="00272F3C"><w:tc><w:tcPr><w:tcW w:w="2394" w:type="dxa"/><w:shd w:val="clear" w:color="auto" w:fill="auto"/></w:tcPr><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"/></w:tc><w:tc><w:tcPr><w:tcW w:w="2394" w:type="dxa"/><w:shd w:val="clear" w:color="auto" w:fill="auto"/></w:tcPr><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"><w:hlink w:dest="https://tika.apache.org/"><w:r wsp:rsidRPr="00272F3C"><w:rPr><w:rStyle w:val="Hyperlink"/></w:rPr><w:t>tika</w:t></w:r></w:hlink></w:p></w:tc><w:tc><w:tcPr><w:tcW w:w="2394" w:type="dxa"/><w:shd w:val="clear" w:color="auto" w:fill="auto"/></w:tcPr><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"/></w:tc><w:tc><w:tcPr><w:tcW w:w="2394" w:type="dxa"/><w:shd w:val="clear" w:color="auto" w:fill="auto"/></w:tcPr><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"><w:r><w:t>R3 c4</w:t></w:r></w:p></w:tc></w:tr></w:tbl><w:p wsp:rsidR="00926260" wsp:rsidRDefault="00926260"/><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"/><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"><w:r><w:pict><v:shapetype id="_x0000_t75" coordsize="21600,21600" o:spt="75" o:preferrelative="t" path="m@4@5l@4@11@9@11@9@5xe" filled="f" stroked="f"><v:stroke joinstyle="miter"/><v:formulas><v:f eqn="if lineDrawn pixelLineWidth 0"/><v:f eqn="sum @0 1 0"/><v:f eqn="sum 0 0 @1"/><v:f eqn="prod @2 1 2"/><v:f eqn="prod @3 21600 pixelWidth"/><v:f eqn="prod @3 21600 pixelHeight"/><v:f eqn="sum @0 0 1"/><v:f eqn="prod @6 1 2"/><v:f eqn="prod @7 21600 pixelWidth"/><v:f eqn="sum @8 21600 0"/><v:f eqn="prod @7 21600 pixelHeight"/><v:f eqn="sum @10 21600 0"/></v:formulas><v:path o:extrusionok="f" gradientshapeok="t" o:connecttype="rect"/><o:lock v:ext="edit" aspectratio="t"/></v:shapetype><w:binData w:name="wordml://06000001.emz" xml:space="preserve">H4sIAAAAAAACC82abWiV5xnH78T4Ot0OkjlrU5eENg19YUl8WQNuhogtq0ZsrdbV19RUq6gTM7WF
</w:binData></w:docOleData><w:shapeDefaults><o:shapedefaults v:ext="edit" spidmax="1027"/><o:shapelayout v:ext="edit"><o:idmap v:ext="edit" data="1"/></o:shapelayout></w:shapeDefaults><w:docPr><w:view w:val="print"/><w:zoom w:percent="100"/><w:doNotEmbedSystemFonts/><w:trackRevisions/><w:defaultTabStop w:val="720"/><w:punctuationKerning/><w:characterSpacingControl w:val="DontCompress"/><w:optimizeForBrowser/><w:allowPNG/><w:validateAgainstSchema/><w:saveInvalidXML w:val="off"/><w:ignoreMixedContent w:val="off"/><w:alwaysShowPlaceholderText w:val="off"/><w:footnotePr><w:footnote w:type="separator"><w:p wsp:rsidR="00807723" wsp:rsidRDefault="00807723" wsp:rsidP="00C41587"><w:pPr><w:spacing w:after="0" w:line="240" w:line-rule="auto"/></w:pPr><w:r><w:separator/></w:r></w:p></w:footnote><w:footnote w:type="continuation-separator"><w:p wsp:rsidR="00807723" wsp:rsidRDefault="00807723" wsp:rsidP="00C41587"><w:pPr><w:spacing w:after="0" w:line="240" w:line-rule="auto"/></w:pPr><w:r><w:continuationSeparator/></w:r></w:p></w:footnote></w:footnotePr><w:endnotePr><w:endnote w:type="separator"><w:p wsp:rsidR="00807723" wsp:rsidRDefault="00807723" wsp:rsidP="00C41587"><w:pPr><w:spacing w:after="0" w:line="240" w:line-rule="auto"/></w:pPr><w:r><w:separator/></w:r></w:p></w:endnote><w:endnote w:type="continuation-separator"><w:p wsp:rsidR="00807723" wsp:rsidRDefault="00807723" wsp:rsidP="00C41587"><w:pPr><w:spacing w:after="0" w:line="240" w:line-rule="auto"/></w:pPr><w:r><w:continuationSeparator/></w:r></w:p></w:endnote></w:endnotePr><w:compat><w:breakWrappedTables/><w:snapToGridInCell/><w:wrapTextWithPunct/><w:useAsianBreakRules/><w:dontGrowAutofit/></w:compat><wsp:rsids><wsp:rsidRoot wsp:val="00C41587"/><wsp:rsid wsp:val="00272F3C"/><wsp:rsid wsp:val="006B6721"/><wsp:rsid wsp:val="00807723"/><wsp:rsid wsp:val="00926260"/><wsp:rsid wsp:val="00C41587"/></wsp:rsids></w:docPr><w:body><wx:sect><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"><w:r><w:t>before</w:t></w:r><w:r><w:rPr><w:rFonts w:ascii="Verdana" w:h-ansi="Verdana"/><wx:font wx:val="Verdana"/><w:b/><w:color w:val="000000"/><w:sz w:val="36"/><w:sz-cs w:val="36"/></w:rPr><w:t> test</w:t></w:r><w:r><w:rPr><w:rFonts w:ascii="Verdana" w:h-ansi="Verdana"/><wx:font wx:val="Verdana"/><w:color w:val="000000"/><w:sz w:val="20"/><w:sz-cs w:val="20"/></w:rPr><w:br/></w:r><w:r wsp:rsidRPr="004576B3"><w:rPr><w:rFonts w:ascii="Verdana" w:h-ansi="Verdana"/><wx:font wx:val="Verdana"/><w:b/><w:color w:val="000000"/></w:rPr><w:t>space</w:t></w:r></w:p><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"/><w:tbl><w:tblPr><w:tblW w:w="0" w:type="auto"/><w:tblBorders><w:top w:val="single" w:sz="4" wx:bdrwidth="10" w:space="0" w:color="auto"/><w:left w:val="single" w:sz="4" wx:bdrwidth="10" w:space="0" w:color="auto"/><w:bottom w:val="single" w:sz="4" wx:bdrwidth="10" w:space="0" w:color="auto"/><w:right w:val="single" w:sz="4" wx:bdrwidth="10" w:space="0" w:color="auto"/><w:insideH w:val="single" w:sz="4" wx:bdrwidth="10" w:space="0" w:color="auto"/><w:insideV w:val="single" w:sz="4" wx:bdrwidth="10" w:space="0" w:color="auto"/></w:tblBorders><w:tblLook w:val="04A0"/></w:tblPr><w:tblGrid><w:gridCol w:w="2394"/><w:gridCol w:w="2394"/><w:gridCol w:w="2394"/><w:gridCol w:w="2394"/></w:tblGrid><w:tr wsp:rsidR="00272F3C" wsp:rsidTr="00272F3C"><w:tc><w:tcPr><w:tcW w:w="2394" w:type="dxa"/><w:shd w:val="clear" w:color="auto" w:fill="auto"/></w:tcPr><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"><w:r><w:t>R1 c1</w:t></w:r></w:p></w:tc><w:tc><w:tcPr><w:tcW w:w="2394" w:type="dxa"/><w:shd w:val="clear" w:color="auto" w:fill="auto"/></w:tcPr><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"><w:r><w:t>R1 c2</w:t></w:r></w:p></w:tc><w:tc><w:tcPr><w:tcW w:w="2394" w:type="dxa"/><w:shd w:val="clear" w:color="auto" w:fill="auto"/></w:tcPr><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"/></w:tc><w:tc><w:tcPr><w:tcW w:w="2394" w:type="dxa"/><w:shd w:val="clear" w:color="auto" w:fill="auto"/></w:tcPr><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"/></w:tc></w:tr><w:tr wsp:rsidR="00272F3C" wsp:rsidTr="00272F3C"><w:tc><w:tcPr><w:tcW w:w="2394" w:type="dxa"/><w:shd w:val="clear" w:color="auto" w:fill="auto"/></w:tcPr><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"/></w:tc><w:tc><w:tcPr><w:tcW w:w="2394" w:type="dxa"/><w:shd w:val="clear" w:color="auto" w:fill="auto"/></w:tcPr><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"/></w:tc><w:tc><w:tcPr><w:tcW w:w="2394" w:type="dxa"/><w:shd w:val="clear" w:color="auto" w:fill="auto"/></w:tcPr><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"><w:r><w:t>R2 c3</w:t></w:r></w:p></w:tc><w:tc><w:tcPr><w:tcW w:w="2394" w:type="dxa"/><w:shd w:val="clear" w:color="auto" w:fill="auto"/></w:tcPr><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"/></w:tc></w:tr><w:tr wsp:rsidR="00272F3C" wsp:rsidTr="00272F3C"><w:tc><w:tcPr><w:tcW w:w="2394" w:type="dxa"/><w:shd w:val="clear" w:color="auto" w:fill="auto"/></w:tcPr><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"/></w:tc><w:tc><w:tcPr><w:tcW w:w="2394" w:type="dxa"/><w:shd w:val="clear" w:color="auto" w:fill="auto"/></w:tcPr><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"><w:hlink w:dest="https://tika.apache.org/"><w:r wsp:rsidRPr="00272F3C"><w:rPr><w:rStyle w:val="Hyperlink"/></w:rPr><w:t>tika</w:t></w:r></w:hlink></w:p></w:tc><w:tc><w:tcPr><w:tcW w:w="2394" w:type="dxa"/><w:shd w:val="clear" w:color="auto" w:fill="auto"/></w:tcPr><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"/></w:tc><w:tc><w:tcPr><w:tcW w:w="2394" w:type="dxa"/><w:shd w:val="clear" w:color="auto" w:fill="auto"/></w:tcPr><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"><w:r><w:t>R3 c4</w:t></w:r></w:p></w:tc></w:tr></w:tbl><w:p wsp:rsidR="00926260" wsp:rsidRDefault="00926260"/><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"/><w:p wsp:rsidR="00272F3C" wsp:rsidRDefault="00272F3C"><w:r><w:pict><v:shapetype id="_x0000_t75" coordsize="21600,21600" o:spt="75" o:preferrelative="t" path="m@4@5l@4@11@9@11@9@5xe" filled="f" stroked="f"><v:stroke joinstyle="miter"/><v:formulas><v:f eqn="if lineDrawn pixelLineWidth 0"/><v:f eqn="sum @0 1 0"/><v:f eqn="sum 0 0 @1"/><v:f eqn="prod @2 1 2"/><v:f eqn="prod @3 21600 pixelWidth"/><v:f eqn="prod @3 21600 pixelHeight"/><v:f eqn="sum @0 0 1"/><v:f eqn="prod @6 1 2"/><v:f eqn="prod @7 21600 pixelWidth"/><v:f eqn="sum @8 21600 0"/><v:f eqn="prod @7 21600 pixelHeight"/><v:f eqn="sum @10 21600 0"/></v:formulas><v:path o:extrusionok="f" gradientshapeok="t" o:connecttype="rect"/><o:lock v:ext="edit" aspectratio="t"/></v:shapetype><w:binData w:name="wordml://06000001.emz" xml:space="preserve">H4sIAAAAAAACC82abWiV5xnH78T4Ot0OkjlrU5eENg19YUl8WQNuhogtq0ZsrdbV19RUq6gTM7WF
TA9jGxP2KWAwRBwModsKG37YPkjFDEcHm+AHmQy2Dx3sU9nKBo7107L/7znnf3Ln8XlOTo/t2hv/
ea77vu77evtfz50ck4YQwlHhYaFZWNYQwtt6evz08RCKK0Jo3TjwbAgN4YdPh/DNxhDmekP52Tcv
hO/NCWG1dF+XjXj85dKCsO5PTUEGwlNCqyBzTzb0NYQWyQWhsTD5Z47tL4O9u4WtAnvb+5rCYsmM
Expand Down

0 comments on commit 85e5385

Please sign in to comment.